动态专家搜索:在测试时增强 MoE LLM 的推理能力
ArXiv ID: 2509.22572
作者: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang
机构: Zhejiang University
发布日期: 2025-09-26
摘要
测试时扩展(TTS)通过在推理期间分配额外计算来增强大型语言模型的推理能力。然而,现有方法主要依赖输出级采样,而忽略了模型架构的作用。本文提出 DES(Dynamic Experts Search),一种利用混合专家(MoE)架构在测试时增强推理的新方法。DES 在测试时动态搜索最优的专家组合,而不是依赖训练时固定的路由策略。实验表明,DES 在相同计算预算下比传统采样方法提升**10-15%**的准确率。
问题背景
MoE 架构的潜力与局限
1 | 传统 MoE 路由机制: |
测试时扩展的架构盲区
| 方法 | 优化层级 | 局限 |
|---|---|---|
| Self-Consistency | 输出采样 | 忽略内部结构 |
| Best-of-N | 输出选择 | 计算效率低 |
| Chain-of-Thought | 提示工程 | 依赖模型能力 |
| DES | 架构优化 | 探索专家组合空间 |
DES 方法
整体架构
1 | ┌─────────────────────────────────────────────────────────┐ |
组件 1:专家适配度评估
1 | import torch |
组件 2:动态搜索策略
1 | import random |
DES 推理流程
1 | class DESReasoner: |
实验结果
实验设置
基准任务:
- GSM8K:数学推理
- MATH:数学竞赛
- CommonsenseQA:常识推理
- HumanEval:代码生成
对比方法:
- Greedy Decoding
- Self-Consistency
- Best-of-N
- Chain-of-Thought
评估指标:
- 准确率(%)
- 计算开销(相对值)
主要结果
GSM8K 数学推理
| 方法 | 准确率 | 相对开销 |
|---|---|---|
| Greedy | 58.2% | 1.0x |
| CoT | 65.5% | 1.2x |
| Self-Consistency | 72.3% | 5.0x |
| Best-of-N | 70.1% | 4.5x |
| DES | 78.5% | 2.3x |
关键发现:DES 在效率和准确性之间取得最佳平衡
MATH 竞赛题
| 方法 | 简单 | 中等 | 困难 | 平均 |
|---|---|---|---|---|
| CoT | 52.3% | 35.2% | 18.5% | 35.3% |
| Self-Consistency | 58.5% | 42.1% | 25.3% | 42.0% |
| DES | 65.2% | 48.5% | 32.1% | 48.6% |
专家使用分析
1 | 不同类型问题的专家偏好: |
消融实验
搜索策略对比
| 策略 | GSM8K | 搜索效率 |
|---|---|---|
| 随机搜索 | 68.5% | 低 |
| 贪婪搜索 | 72.3% | 高 |
| ε-贪婪 | 75.8% | 中 |
| 强化学习 | 78.5% | 中 |
适配度评估组件
| 配置 | GSM8K | MATH |
|---|---|---|
| 完整评估 | 78.5% | 48.6% |
| - 连贯性 | 75.2% | 45.1% |
| - 准确性 | 71.3% | 42.5% |
| - 一致性 | 74.8% | 46.2% |
总结
DES 通过动态搜索最优专家组合,实现了架构感知的测试时优化:
核心贡献:
- 专家适配度评估机制
- 强化学习驱动的动态搜索
- 架构感知的推理增强
实际价值:
- 10-15% 准确率提升
- 适用于数学、代码、常识推理
- 计算效率优于传统采样
资源
评分: 4.3/5.0 ⭐⭐⭐⭐
推荐度: 推荐。MoE 架构测试时优化的创新方法。