测试时扩展在知识密集型任务中尚不有效论文信息
标题: Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet
作者: James Xu Zhao, Bryan Hooi, See-Kiong Ng
发布日期: 2025-09-08
ArXiv链接: https://arxiv.org/abs/2509.06861
核心概述测试时扩展通过允许模型生成长推理链来增加推理时计算,在许多领域展现出强大性能。然而,本研究表明,这种方法对于需要高事实准确性和低幻觉率的知识密集型任务尚不有效。
研究系统评估了测试时扩展技术在知识密集型任务上的表现,如开放域问答、事实核查和专业领域查询。实验使用多个先进推理模型,包括o1-preview、o1-mini等,在WikiQA、Tri...