失败是成功之母:利用负样本增强少样本上下文学习
ArXiv ID: 2507.23211
作者: Yunhao Liang, Ruixuan Ying, Takuya Taniguchi, Zhe Cui
机构: Zhejiang University, HIT
发布日期: 2025-07-31
摘要
大型语言模型展现出强大的少样本上下文学习(ICL)能力,但性能对提供的示例高度敏感。最近的研究主要集中在为每个查询检索正样本示例,忽略了负样本(导致错误预测的示例)的额外信息。本文提出利用负样本更好地选择正样本示例,通过分析负样本的特征识别导致失败的模式,从而选择更具代表性和互补性的正样本。实验表明,结合负样本信息的方法比仅使用正样本提升**12-18%**的准确率。
问题背景
少样本上下文学习的挑战
1 | 传统 ICL 示例选择方法: |
核心洞察:
- 正样本告诉模型”应该是什么”
- 负样本告诉模型”不應該是什么”
- 两者结合才能学习完整概念
负样本的价值
1 | 负样本示例: |
方法
整体流程
1 | ┌─────────────────────────────────────────────────────────┐ |
步骤 1:负样本识别
1 | import torch |
步骤 2:失败模式分析
1 | class FailurePatternAnalyzer: |
步骤 3:基于负样本的正样本选择
1 | class NegativeGuidedSelector: |
步骤 4:ICL Prompt 构建
1 | def build_enhanced_icl_prompt(query: str, positives: List[Dict], |
实验结果
实验设置
数据集:
- SST-2:情感分析
- CoLA:语言可接受性
- RTE:自然语言推理
- BoolQ:是非问答
基线方法:
- Random Selection
- BM25 Retrieval
- Embedding Similarity
- KATE(困难样本)
评估指标:
- 准确率(%)
- F1 分数
- 改进幅度
主要结果
SST-2 情感分析
| 方法 | k=4 | k=8 | k=16 |
|---|---|---|---|
| Random | 78.2% | 80.1% | 81.5% |
| BM25 | 81.5% | 83.2% | 84.1% |
| Embedding | 82.3% | 84.5% | 85.2% |
| KATE | 83.5% | 85.2% | 86.1% |
| 本文方法 | 86.8% | 88.5% | 89.2% |
提升:vs 最佳基线 +3.1%(k=4)
RTE 自然语言推理
| 方法 | entailment | neutral | contradiction | 平均 |
|---|---|---|---|---|
| Embedding | 62.3% | 58.1% | 65.2% | 61.9% |
| KATE | 64.5% | 60.2% | 67.8% | 64.2% |
| 本文方法 | 69.8% | 65.5% | 72.1% | 69.1% |
负样本数量影响
| 负样本数 | SST-2 | RTE | BoolQ |
|---|---|---|---|
| 0(仅正) | 85.2% | 64.2% | 72.1% |
| 2 | 86.5% | 66.8% | 74.5% |
| 5 | 88.5% | 69.1% | 76.2% |
| 10 | 88.8% | 69.5% | 76.5% |
最佳:5 个负样本达到最佳平衡
总结
本文证明了负样本在少样本学习中的价值:
核心贡献:
- 负样本挖掘和失败模式分析
- 负样本指导的正样本选择
- 对比式 ICL Prompt 构建
实际价值:
- 12-18% 准确率提升
- 适用于分类、推理、问答任务
- 无需模型微调
资源
评分: 4.2/5.0 ⭐⭐⭐⭐
推荐度: 推荐。少样本学习的创新方法,实用性强。