GraphRAG-R1: 图检索增强生成与过程约束强化学习
ArXiv ID: 2507.23581
作者: Chuanyue Yu, Kuo Zhao, Yuhan Li 等
机构: Tsinghua University
发表: The Web Conference 2026 (WWW’26)
发布日期: 2025-07-31
摘要
现有的 GraphRAG 方法在处理复杂多跳推理任务时存在局限性。GraphRAG-R1 提出了一种自适应 GraphRAG 框架,通过过程约束的基于结果的强化学习来训练 LLM,增强其多跳推理能力。框架设计了两个关键奖励机制:渐进式检索衰减 (PRA) 解决浅层检索问题,成本感知 F1(CAF) 平衡性能与开销。在域内和域外数据集上均超越 SOTA 方法。
问题背景
传统 GraphRAG 的局限
1 | 传统 GraphRAG 流程: |
核心挑战
| 挑战 | 描述 | 影响 |
|---|---|---|
| 浅层检索 | 只获取表面信息 | 无法多跳推理 |
| 过度检索 | 检索无关信息 | 成本浪费 |
| 检索 - 推理分离 | 两阶段独立优化 | 次优性能 |
| 固定检索策略 | 无法动态调整 | 适应性差 |
GraphRAG-R1 方法
整体架构
1 | ┌─────────────────────────────────────────────────────────┐ |
组件 1:过程约束强化学习
1 | import torch |
组件 2:混合检索策略
1 | class HybridGraphRetriever: |
三阶段渐进训练策略
1 | 训练阶段: |
实验结果
主实验结果
| 方法 | HotpotQA | 2Wiki | MuSiQue | 平均 |
|---|---|---|---|---|
| Standard RAG | 52.3% | 48.5% | 35.2% | 45.3% |
| GraphRAG | 58.5% | 55.2% | 42.1% | 51.9% |
| Iter-RetGen | 62.1% | 58.3% | 45.8% | 55.4% |
| GraphRAG-R1 | 68.5% | 65.2% | 52.3% | 62.0% |
消融实验
奖励组件贡献
| 配置 | HotpotQA | 2Wiki | MuSiQue |
|---|---|---|---|
| 完整模型 | 68.5% | 65.2% | 52.3% |
| - PRA 奖励 | 62.1% | 58.5% | 45.2% |
| - CAF 奖励 | 65.2% | 61.8% | 48.5% |
| - 两阶段训练 | 64.5% | 60.2% | 47.1% |
训练阶段影响
| 配置 | 性能 | 收敛速度 |
|---|---|---|
| 单阶段 | 58.5% | 快 |
| 两阶段 | 64.2% | 中 |
| 三阶段 | 68.5% | 稳定 |
检索深度分析
1 | 检索深度分布: |
总结
GraphRAG-R1 通过过程约束强化学习实现了自适应图检索增强:
核心贡献:
- 过程约束 GRPO 支持 rollout-with-thinking
- PRA 奖励解决浅层检索问题
- CAF 奖励平衡性能与成本
- 三阶段渐进训练策略
实际价值:
- 多跳推理任务 SOTA
- 域外泛化能力强
- 可集成多种检索方法
评分: 4.3/5.0 ⭐⭐⭐⭐
推荐度: 推荐。复杂推理任务的优秀解决方案。