Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution
ArXiv ID: 2601.20379作者: Zhengbo Jiao, Hongyu Xian, Qinglong Wang, Yunpu Ma, Zhebo Wang, Zifan Zhang, Dezhang Kong, Meng Han发布日期: 2026-01-28内容级别: Deep Dive
摘要现有测试时计算扩展方法将反馈仅作为外部过滤机制,无法真正改进模型的推理策略。本文提出思维策略(Policy of Thoughts, PoT),将推理重构为实例级在线优化过程。PoT通过蒙特卡洛树搜索(MCTS)生成多样候选解,然后利用群组相对策略优化(GRPO)更新瞬时LoRA适配器,实现测试时的实时策略进化。核心理念源自波普尔...
LoRAFusion: 大语言模型的高效LoRA微调系统
LoRAFusion: LoRA明明只训练0.3%参数,为什么还这么慢?核心观点:LoRA把175B模型的微调成本降到了全参数训练的1/1000,但大家都忽略了一个事实——LoRA的实现效率很低,大量时间浪费在冗余的内存访问上。LoRAFusion通过算子融合和智能调度,让LoRA训练再快2倍,同时把70B模型的内存需求从1120GB降到142GB(2-3张A100就够)。这不是算法创新,而是把LoRA该有的性能彻底释放出来。
LoRA的性能悖论LoRA的数学很优雅:在每个线性层加一个低秩旁路 ΔW = BA,其中 B∈R^(d×r),A∈R^(r×d),rank r 通常只有8-64。
理论上,LoRA应该比全参数训练快得多:
参数量:只有0.29%需要训练(r=16时)
计算量:O(2rdn) vs 全参数的 O(d²n),当r<<d时可忽略
内...
消费级GPU上的LoRA/QLoRA微调效率实测: RTX 4060案例研究
消费级GPU上的LoRA/QLoRA微调效率实测
ArXiv ID: 2509.12229作者: MSR Avinash发布日期: 2025-09-07硬件: NVIDIA RTX 4060 (8GB VRAM)模型: Qwen2.5-1.5B-Instruct
核心发现这是首个系统性研究消费级GPU上LLM微调效率的论文,为使用RTX 4060等8GB显存显卡的开发者提供了宝贵的优化指南。
关键结论:
✅ PagedAdamW优化器相比AdamW提升25%吞吐量 (500→628 tok/s)
✅ fp16精度在RTX 4060上优于bf16
✅ 8GB VRAM可支持2048 token序列(降低batch size)
✅ 最优配置: batch=4, seq=1024, PagedAdamW, fp16
实用价值: 这些发现直接适...