消费级GPU上的LoRA/QLoRA微调效率实测
ArXiv ID: 2509.12229作者: MSR Avinash发布日期: 2025-09-07硬件: NVIDIA RTX 4060 (8GB VRAM)模型: Qwen2.5-1.5B-Instruct
核心发现这是首个系统性研究消费级GPU上LLM微调效率的论文,为使用RTX 4060等8GB显存显卡的开发者提供了宝贵的优化指南。
关键结论:
✅ PagedAdamW优化器相比AdamW提升25%吞吐量 (500→628 tok/s)
✅ fp16精度在RTX 4060上优于bf16
✅ 8GB VRAM可支持2048 token序列(降低batch size)
✅ 最优配置: batch=4, seq=1024, PagedAdamW, fp16
实用价值: 这些发现直接适...