COSTAR-A: 增强 LLM 在视角问题上表现的提示框架

Posted on 十月 14, 2025

COSTAR-A: 增强 LLM 在视角问题上表现的提示框架 ArXiv ID: 2510.12637作者: Nzubechukwu C. Ohalete, Kevin B. Gittner, Lauren M. Matheny发布日期: 2025-10-14 摘要大型语言模型对提示设计高度敏感。本研究引入 COSTAR-A，一种增强现有 COSTAR 方法的新型提示工程框架。该框架特别针对视角（Point-of-View）问题进行了优化，增加了 Assumption（假设）维度。研究在多个视角相关任务上评估 COSTAR-A，实验表明该框架在所有模型规模上都带来了8-20% 的性能提升，对小型模型的提升更加显著。 COSTAR-A 框架从 COSTAR 到 COSTAR-A1234567891011121314151617原始 COSTAR 框架（6 维度）：┌──────...

阅读全文

动态专家搜索：在测试时增强 MoE LLM 的推理能力

Posted on 九月 26, 2025

动态专家搜索：在测试时增强 MoE LLM 的推理能力 ArXiv ID: 2509.22572作者: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang机构: Zhejiang University发布日期: 2025-09-26 摘要测试时扩展（TTS）通过在推理期间分配额外计算来增强大型语言模型的推理能力。然而，现有方法主要依赖输出级采样，而忽略了模型架构的作用。本文提出 DES（Dynamic Experts Search），一种利用混合专家（MoE）架构在测试时增强推理的新方法。DES 在测试时动态搜索最优的专家组合，而不是依赖训练时固定的路由策略。实验表明，DES 在相同计算预算下比传统采样方法提升**10-15%**的准确率。问题背景MoE 架构的潜力与局限12345678910111213141516171819202122232...

阅读全文

测试时扩展在知识密集型任务中尚不有效

Posted on 九月 8, 2025

测试时扩展在知识密集型任务中尚不有效 ArXiv ID: 2509.06861作者: James Xu Zhao, Bryan Hooi, See-Kiong Ng机构: National University of Singapore发布日期: 2025-09-08 摘要测试时扩展通过允许模型生成长推理链来增加推理时计算，在许多领域展现出强大性能。然而，本研究表明，这种方法对于需要高事实准确性和低幻觉率的知识密集型任务尚不有效。研究系统评估了测试时扩展技术在开放域问答、事实核查和专业领域查询上的表现，发现虽然测试时扩展能提升逻辑推理能力，但在需要准确事实知识的任务上效果有限，甚至可能因为过度推理而引入更多幻觉。问题背景测试时扩展的成功与局限123456789101112131415161718192021测试时扩展的适用性：擅长领域 ✓ ...

阅读全文

失败是成功之母：利用负样本增强少样本上下文学习

Posted on 七月 31, 2025

失败是成功之母：利用负样本增强少样本上下文学习 ArXiv ID: 2507.23211作者: Yunhao Liang, Ruixuan Ying, Takuya Taniguchi, Zhe Cui机构: Zhejiang University, HIT发布日期: 2025-07-31 摘要大型语言模型展现出强大的少样本上下文学习（ICL）能力，但性能对提供的示例高度敏感。最近的研究主要集中在为每个查询检索正样本示例，忽略了负样本（导致错误预测的示例）的额外信息。本文提出利用负样本更好地选择正样本示例，通过分析负样本的特征识别导致失败的模式，从而选择更具代表性和互补性的正样本。实验表明，结合负样本信息的方法比仅使用正样本提升**12-18%**的准确率。问题背景少样本上下文学习的挑战12345678910111213传统 ICL 示例选择方法：正样本方法：查询："...

阅读全文