思维策略(PoT):通过测试时策略进化扩展LLM推理 -- 4B模型超越GPT-4o

Posted on 一月 28, 2026

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution ArXiv ID: 2601.20379作者: Zhengbo Jiao, Hongyu Xian, Qinglong Wang, Yunpu Ma, Zhebo Wang, Zifan Zhang, Dezhang Kong, Meng Han发布日期: 2026-01-28内容级别: Deep Dive 摘要现有测试时计算扩展方法将反馈仅作为外部过滤机制,无法真正改进模型的推理策略。本文提出思维策略(Policy of Thoughts, PoT),将推理重构为实例级在线优化过程。PoT通过蒙特卡洛树搜索(MCTS)生成多样候选解,然后利用群组相对策略优化(GRPO)更新瞬时LoRA适配器,实现测试时的实时策略进化。核心理念源自波普尔...

阅读全文

LoRAFusion: 大语言模型的高效LoRA微调系统

Posted on 九月 30, 2025

LoRAFusion: LoRA明明只训练0.3%参数，为什么还这么慢？核心观点：LoRA把175B模型的微调成本降到了全参数训练的1/1000，但大家都忽略了一个事实——LoRA的实现效率很低，大量时间浪费在冗余的内存访问上。LoRAFusion通过算子融合和智能调度，让LoRA训练再快2倍，同时把70B模型的内存需求从1120GB降到142GB（2-3张A100就够）。这不是算法创新，而是把LoRA该有的性能彻底释放出来。 LoRA的性能悖论LoRA的数学很优雅：在每个线性层加一个低秩旁路 ΔW = BA，其中 B∈R^(d×r)，A∈R^(r×d)，rank r 通常只有8-64。理论上，LoRA应该比全参数训练快得多：参数量：只有0.29%需要训练（r=16时）计算量：O(2rdn) vs 全参数的 O(d²n)，当r<<d时可忽略内...

阅读全文

消费级GPU上的LoRA/QLoRA微调效率实测: RTX 4060案例研究

Posted on 九月 7, 2025

消费级GPU上的LoRA/QLoRA微调效率实测 ArXiv ID: 2509.12229作者: MSR Avinash发布日期: 2025-09-07硬件: NVIDIA RTX 4060 (8GB VRAM)模型: Qwen2.5-1.5B-Instruct 核心发现这是首个系统性研究消费级GPU上LLM微调效率的论文,为使用RTX 4060等8GB显存显卡的开发者提供了宝贵的优化指南。关键结论: ✅ PagedAdamW优化器相比AdamW提升25%吞吐量 (500→628 tok/s) ✅ fp16精度在RTX 4060上优于bf16 ✅ 8GB VRAM可支持2048 token序列(降低batch size) ✅ 最优配置: batch=4, seq=1024, PagedAdamW, fp16 实用价值: 这些发现直接适...

阅读全文