Adaptive Graph of Thoughts: 测试时自适应推理框架
ArXiv ID: 2502.05078作者: Tushar Pandey, Ara Ghukasyan, Oktay Goktas, Santosh Kumar Radha发布日期: 2025年2月7日分类: Prompt Engineering
核心创新统一CoT, ToT, GoT的自适应框架大语言模型的推理能力高度依赖于提示策略和模型规模。现有方法包括:
Chain-of-Thought (CoT): 线性推理链 → 适合简单任务,但难以处理复杂问题
Tree of Thoughts (ToT): 树形探索多个推理路径 → 适合需要回溯的任务,但计算开销大
Graph of Thoughts (GoT): 图结构允许路径合并和循环 → 灵活但需要人工设计图结构
AGoT的突破: 在测试时动态选...
RSD: 奖励引导的推测解码实现高效 LLM 推理
RSD: 奖励引导的推测解码实现高效 LLM 推理
ArXiv ID: 2501.19324作者: Baohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong发布日期: 2025-01-31分类: inference, speculative-decoding, reasoning
摘要论文提出 Reward-Guided Speculative Decoding (RSD),一种结合轻量级 draft 模型和强大 target 模型的高效推理框架。不同于传统推测解码严格保证无偏性,RSD 引入可控偏置来优先选择高奖励输出。通过 process reward model 评估中间解码步骤,动态决定何时调用 target 模型,实现计算...
推理时计算扩展:比扩展模型参数更有效的优化策略
Abstract让大语言模型(LLM)能够通过使用更多推理时计算来改进输出,是构建能够在开放式自然语言任务上持续自我改进的通用agent的关键一步。本文研究了LLM推理时计算的扩展规律,重点回答一个问题:如果允许LLM使用固定但非平凡的推理时计算量,它能在挑战性提示上将性能提升多少?我们发现,在许多任务上,适当地扩展推理时计算可以比扩展模型参数更有效地提升性能。这一发现为LLM的发展开辟了新的方向——不是一味追求更大的模型,而是让模型学会如何更好地”思考”。
Key Contributions
推理时计算扩展定律:首次系统性地研究了LLM推理时计算的扩展规律,揭示了在固定模型参数下,增加推理时计算如何影响性能
与参数扩展的对比:通过大量实验证明,在许多任务上,扩展推理时计算比扩展模型参数更有效且成本更低
多种扩展策略对比:评估了best-of-N采样、beam search、sequ...