Adaptive Graph of Thoughts: 测试时自适应推理框架
ArXiv ID: 2502.05078作者: Tushar Pandey, Ara Ghukasyan, Oktay Goktas, Santosh Kumar Radha发布日期: 2025年2月7日分类: Prompt Engineering
核心创新统一CoT, ToT, GoT的自适应框架大语言模型的推理能力高度依赖于提示策略和模型规模。现有方法包括:
Chain-of-Thought (CoT): 线性推理链 → 适合简单任务,但难以处理复杂问题
Tree of Thoughts (ToT): 树形探索多个推理路径 → 适合需要回溯的任务,但计算开销大
Graph of Thoughts (GoT): 图结构允许路径合并和循环 → 灵活但需要人工设计图结构
AGoT的突破: 在测试时动态选...
Chain of Preference Optimization: 用偏好学习蒸馏Tree-of-Thought推理能力
论文信息
标题: Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs
作者: Xuan Zhang, Chao Du, Tianyu Pang, Qian Liu, Wei Gao, Min Lin
机构: Sea AI Lab (SAIL), Nanyang Technological University
发表: NeurIPS 2024
链接: arXiv | GitHub | PDF
核心贡献CPO通过偏好优化将Tree-of-Thought的搜索能力蒸馏到Chain-of-Thought推理中,实现了在推理时无需树搜索开销的情况下,达到甚至超越ToT的性能。核心创新在于利用树搜索过程中的隐含偏好信息,训练模型对齐优质推理路径。
研究动机CoT的局限性Chain...