COSTAR-A:增强LLM在视角问题上表现的提示框架论文信息
标题: COSTAR-A: A prompting framework for enhancing Large Language Model performance on Point-of-View questions
作者: Nzubechukwu C. Ohalete, Kevin B. Gittner, Lauren M. Matheny
发布日期: 2025-10-14
ArXiv链接: https://arxiv.org/abs/2510.12637
核心概述大型语言模型(LLM)对提示设计高度敏感,制定优化的提示技术对于生成一致的高质量输出至关重要。本研究引入COSTAR-A,一种增强现有COSTAR方法的新型提示工程框架。该框架特别针对视角(Point-of-View)问题进行了优化,这类问题要求模型从特...
面向连续空间推理的推理时扩展
面向连续空间推理的推理时扩展论文信息
标题: Towards Inference-time Scaling for Continuous Space Reasoning
作者: Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari
发布日期: 2025-10-14
ArXiv链接: https://arxiv.org/abs/2510.12167
核心概述通过结合过程或结果奖励模型(PRM或ORM)重排序的多样本生成,推理时扩展已被证明对大型语言模型的文本推理有效。本文研究是否可以将这些成熟技术成功应用于连续空间推理,使用COCONUT连续空间推理语言模型作为骨干。
研究系统评估了推理时扩展技术在连续空间推理任务中的表现,如科学计算、物理模拟和几何问题求解。与离散文本推理不同,连续空间推理涉及数值计算和空间关...
AI Agent的有效上下文工程
文章概述本文由 Anthropic 应用 AI 团队撰写,介绍了上下文工程(Context Engineering)这一概念,它是提示工程(Prompt Engineering)在 AI Agent 时代的进化形态。随着大语言模型能力的提升,挑战不再仅仅是编写完美的提示词,而是如何策略性地管理进入模型有限注意力预算的信息。文章深入探讨了系统提示词设计、工具定义、上下文检索策略,以及长时任务的技术手段,为构建高效可靠的 AI Agent 提供了实践指南。
文章信息:
发布时间:2025-09-29
作者:Prithvi Rajasekaran, Ethan Dixon, Carly Ryan, Jeremy Hadfield
机构:Anthropic Applied AI Team
研究方向:上下文工程 (Context Engineering), AI Agent 架构
核心技术:...
动态专家搜索:在测试时增强MoE LLM的推理能力
动态专家搜索:在测试时增强MoE LLM的推理能力论文信息
标题: Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
作者: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang
发布日期: 2025-09-26
ArXiv链接: https://arxiv.org/abs/2509.22572
核心概述测试时扩展(TTS)通过在推理期间分配额外计算来增强大型语言模型的推理能力。然而,现有方法主要依赖输出级采样,而忽略了模型架构的作用。本文提出动态专家搜索(DES),一种利用混合专家(MoE)架构在测试时增强推理的新方法。
MoE模型通过多个专家网络处理不同类型的输入,但传统的静态路由策略限制了其在推理任务中的潜力。DES的核心思想是在测...
测试时扩展在知识密集型任务中尚不有效
测试时扩展在知识密集型任务中尚不有效论文信息
标题: Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet
作者: James Xu Zhao, Bryan Hooi, See-Kiong Ng
发布日期: 2025-09-08
ArXiv链接: https://arxiv.org/abs/2509.06861
核心概述测试时扩展通过允许模型生成长推理链来增加推理时计算,在许多领域展现出强大性能。然而,本研究表明,这种方法对于需要高事实准确性和低幻觉率的知识密集型任务尚不有效。
研究系统评估了测试时扩展技术在知识密集型任务上的表现,如开放域问答、事实核查和专业领域查询。实验使用多个先进推理模型,包括o1-preview、o1-mini等,在WikiQA、Tri...
失败是成功之母:利用负样本增强少样本上下文学习
失败是成功之母:利用负样本增强少样本上下文学习论文信息
标题: Failures Are the Stepping Stones to Success: Enhancing Few-Shot In-Context Learning by Leveraging Negative Samples
作者: Yunhao Liang, Ruixuan Ying, Takuya Taniguchi, Zhe Cui
发布日期: 2025-07-31
ArXiv链接: https://arxiv.org/abs/2507.23211
核心概述大型语言模型展现出强大的少样本上下文学习(ICL)能力,但性能对提供的示例高度敏感。最近的研究集中在为每个输入查询检索相应的示例,这不仅提高了学习过程的效率和可扩展性,还缓解了手动示例选择中的固有偏差。然而,这些研究主要强调利用正样本,而忽略了负样本在上下...
基于大语言模型的少样本上下文偏好学习
基于大语言模型的少样本上下文偏好学习论文信息
标题: ICPL: Few-shot In-context Preference Learning via LLMs
作者: Chao Yu, Qixin Tan, Hong Lu, Jiaxuan Gao, Xinting Yang, Yu Wang, Yi Wu, Eugene Vinitsky
发布日期: 2024-10-22
ArXiv链接: https://arxiv.org/abs/2410.17233
核心概述基于偏好的强化学习是处理难以明确定义奖励函数任务的有效方法,但传统偏好学习往往需要从零开始,效率极低。本文展示了大语言模型(LLM)具有原生的偏好学习能力,可以实现高效的样本效率偏好学习,从而解决这一挑战。
主要贡献研究提出了ICPL(In-Context Preference Learning)框架,利用LLM...