COSTAR-A: 增强 LLM 在视角问题上表现的提示框架

Posted on 十月 14, 2025

COSTAR-A: 增强 LLM 在视角问题上表现的提示框架 ArXiv ID: 2510.12637作者: Nzubechukwu C. Ohalete, Kevin B. Gittner, Lauren M. Matheny发布日期: 2025-10-14 摘要大型语言模型对提示设计高度敏感。本研究引入 COSTAR-A，一种增强现有 COSTAR 方法的新型提示工程框架。该框架特别针对视角（Point-of-View）问题进行了优化，增加了 Assumption（假设）维度。研究在多个视角相关任务上评估 COSTAR-A，实验表明该框架在所有模型规模上都带来了8-20% 的性能提升，对小型模型的提升更加显著。 COSTAR-A 框架从 COSTAR 到 COSTAR-A1234567891011121314151617原始 COSTAR 框架（6 维度）：┌──────...

阅读全文

AI Agent的有效上下文工程

Posted on 九月 29, 2025

文章概述本文由 Anthropic 应用 AI 团队撰写，介绍了上下文工程（Context Engineering）这一概念，它是提示工程（Prompt Engineering）在 AI Agent 时代的进化形态。随着大语言模型能力的提升，挑战不再仅仅是编写完美的提示词，而是如何策略性地管理进入模型有限注意力预算的信息。文章深入探讨了系统提示词设计、工具定义、上下文检索策略，以及长时任务的技术手段，为构建高效可靠的 AI Agent 提供了实践指南。文章信息：发布时间：2025-09-29 作者：Prithvi Rajasekaran, Ethan Dixon, Carly Ryan, Jeremy Hadfield 机构：Anthropic Applied AI Team 研究方向：上下文工程 (Context Engineering), AI Agent 架构核心技术：...

阅读全文

动态专家搜索：在测试时增强 MoE LLM 的推理能力

Posted on 九月 26, 2025

动态专家搜索：在测试时增强 MoE LLM 的推理能力 ArXiv ID: 2509.22572作者: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang机构: Zhejiang University发布日期: 2025-09-26 摘要测试时扩展（TTS）通过在推理期间分配额外计算来增强大型语言模型的推理能力。然而，现有方法主要依赖输出级采样，而忽略了模型架构的作用。本文提出 DES（Dynamic Experts Search），一种利用混合专家（MoE）架构在测试时增强推理的新方法。DES 在测试时动态搜索最优的专家组合，而不是依赖训练时固定的路由策略。实验表明，DES 在相同计算预算下比传统采样方法提升**10-15%**的准确率。问题背景MoE 架构的潜力与局限12345678910111213141516171819202122232...

阅读全文

测试时扩展在知识密集型任务中尚不有效

Posted on 九月 8, 2025

测试时扩展在知识密集型任务中尚不有效 ArXiv ID: 2509.06861作者: James Xu Zhao, Bryan Hooi, See-Kiong Ng机构: National University of Singapore发布日期: 2025-09-08 摘要测试时扩展通过允许模型生成长推理链来增加推理时计算，在许多领域展现出强大性能。然而，本研究表明，这种方法对于需要高事实准确性和低幻觉率的知识密集型任务尚不有效。研究系统评估了测试时扩展技术在开放域问答、事实核查和专业领域查询上的表现，发现虽然测试时扩展能提升逻辑推理能力，但在需要准确事实知识的任务上效果有限，甚至可能因为过度推理而引入更多幻觉。问题背景测试时扩展的成功与局限123456789101112131415161718192021测试时扩展的适用性：擅长领域 ✓ ...

阅读全文

失败是成功之母：利用负样本增强少样本上下文学习

Posted on 七月 31, 2025

失败是成功之母：利用负样本增强少样本上下文学习 ArXiv ID: 2507.23211作者: Yunhao Liang, Ruixuan Ying, Takuya Taniguchi, Zhe Cui机构: Zhejiang University, HIT发布日期: 2025-07-31 摘要大型语言模型展现出强大的少样本上下文学习（ICL）能力，但性能对提供的示例高度敏感。最近的研究主要集中在为每个查询检索正样本示例，忽略了负样本（导致错误预测的示例）的额外信息。本文提出利用负样本更好地选择正样本示例，通过分析负样本的特征识别导致失败的模式，从而选择更具代表性和互补性的正样本。实验表明，结合负样本信息的方法比仅使用正样本提升**12-18%**的准确率。问题背景少样本上下文学习的挑战12345678910111213传统 ICL 示例选择方法：正样本方法：查询："...

阅读全文

基于大语言模型的少样本上下文偏好学习

Posted on 十月 22, 2024

基于大语言模型的少样本上下文偏好学习论文信息标题: ICPL: Few-shot In-context Preference Learning via LLMs 作者: Chao Yu, Qixin Tan, Hong Lu, Jiaxuan Gao, Xinting Yang, Yu Wang, Yi Wu, Eugene Vinitsky 发布日期: 2024-10-22 ArXiv链接: https://arxiv.org/abs/2410.17233 核心概述基于偏好的强化学习是处理难以明确定义奖励函数任务的有效方法,但传统偏好学习往往需要从零开始,效率极低。本文展示了大语言模型(LLM)具有原生的偏好学习能力,可以实现高效的样本效率偏好学习,从而解决这一挑战。主要贡献研究提出了ICPL(In-Context Preference Learning)框架,利用LLM...

阅读全文