GraphRAG-R1: 图检索增强生成与过程约束强化学习

GraphRAG-R1: 图检索增强生成与过程约束强化学习 ArXiv ID: 2507.23581作者: Chuanyue Yu, Kuo Zhao, Yuhan Li 等机构: Tsinghua University发表: The Web Conference 2026 (WWW’26)发布日期: 2025-07-31 摘要现有的 GraphRAG 方法在处理复杂多跳推理任务时存在局限性。GraphRAG-R1 提出了一种自适应 GraphRAG 框架,通过过程约束的基于结果的强化学习来训练 LLM,增强其多跳推理能力。框架设计了两个关键奖励机制:渐进式检索衰减 (PRA) 解决浅层检索问题,成本感知 F1(CAF) 平衡性能与开销。在域内和域外数据集上均超越 SOTA 方法。 问题背景传统 GraphRAG 的局限12345678910111213141516171819...

阅读全文

GSPO: Qwen团队用序列级优化重新定义GRPO,MoE训练终于稳了

GSPO: Qwen团队用序列级优化重新定义GRPO,MoE训练终于稳了 ArXiv ID: 2507.18071作者: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin机构: Alibaba Group (Qwen Team)发布日期: 2025-07-24 引言:GRPO的致命缺陷GRPO(Group Relative Policy Optimization)自DeepSeek-R1发布以来,已经成为LLM强化学习训练的事实标准。它去掉了PPO中昂贵的Critic网络,用组内相对奖励来估计优势值,大幅降低了计算成本。但GRPO有一个被广泛忽视的根本...

阅读全文

DeepSeek R1:首个开源推理大模型

DeepSeek R1:首个开源推理大模型 发布日期: 2025-01-20发布机构: DeepSeek AI模型类型: 推理大模型许可证: MIT License技术报告: arXiv:2501.12948 概述DeepSeek R1 是由 DeepSeek AI 于 2025 年 1 月 20 日发布的首个完全开源的推理大模型,采用纯强化学习 (RL) 训练方法,无需监督微调即可实现与 OpenAI o1 相当的推理能力。该模型采用混合专家 (MoE) 架构,总参数量 671B,每次推理激活 37B 参数,支持 128K 上下文长度。 这是开源 AI 社区的一个重要里程碑——首次有开源模型在推理能力上达到商业闭源模型的同等水平。 核心创新DeepSeek-R1-Zero: 纯强化学习的突破DeepSeek R1 的最大创新在于其训练方法论。团队首先训练了 DeepSeek-R1...

阅读全文

基于大语言模型的少样本上下文偏好学习

基于大语言模型的少样本上下文偏好学习论文信息 标题: ICPL: Few-shot In-context Preference Learning via LLMs 作者: Chao Yu, Qixin Tan, Hong Lu, Jiaxuan Gao, Xinting Yang, Yu Wang, Yi Wu, Eugene Vinitsky 发布日期: 2024-10-22 ArXiv链接: https://arxiv.org/abs/2410.17233 核心概述基于偏好的强化学习是处理难以明确定义奖励函数任务的有效方法,但传统偏好学习往往需要从零开始,效率极低。本文展示了大语言模型(LLM)具有原生的偏好学习能力,可以实现高效的样本效率偏好学习,从而解决这一挑战。 主要贡献研究提出了ICPL(In-Context Preference Learning)框架,利用LLM...

阅读全文

PRewrite:基于强化学习的提示重写

论文概述PRewrite针对人工提示工程耗时且效果不佳的问题,引入了一种基于强化学习的自动化工具,能够将草稿提示重写为高效提示。与人工试错或僵化的基于模板的方法不同,PRewrite使用强化学习在大型动作空间中实现端到端优化,生成人类可读且自我解释的提示。从人工起草的初始提示开始使重写过程更加引导化和高效。在多样化数据集上的实验表明,PRewrite生成的提示不仅优于专业制作的提示,还超越了其他自动化方法生成的提示。 论文信息: 发布时间:2024-01-16 作者:Weize Kong, Spurthi Amba Hombaiah, Mingyang Zhang等 机构:Google, 密歇根大学 研究方向:提示工程, 大型语言模型推理 核心技术:提示优化 研究背景大型语言模型在各类任务中展现出强大的能力,但提示工程仍然是一个耗时且需要专业知识的过程。本研究针对以下问题展开: ...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero