测试时扩展在知识密集型任务中尚不有效
ArXiv ID: 2509.06861作者: James Xu Zhao, Bryan Hooi, See-Kiong Ng机构: National University of Singapore发布日期: 2025-09-08
摘要测试时扩展通过允许模型生成长推理链来增加推理时计算,在许多领域展现出强大性能。然而,本研究表明,这种方法对于需要高事实准确性和低幻觉率的知识密集型任务尚不有效。研究系统评估了测试时扩展技术在开放域问答、事实核查和专业领域查询上的表现,发现虽然测试时扩展能提升逻辑推理能力,但在需要准确事实知识的任务上效果有限,甚至可能因为过度推理而引入更多幻觉。
问题背景测试时扩展的成功与局限123456789101112131415161718192021测试时扩展的适用性:擅长领域 ✓ ...