GPT-5：OpenAI发布的统一智能系统

Posted on 八月 7, 2025

GPT-5：OpenAI发布的统一智能系统概述2025年8月7日，OpenAI正式发布了其最新一代AI系统GPT-5，这是一个突破性的统一智能系统，标志着人工智能发展的新里程碑。GPT-5不仅在性能上实现了显著提升，更重要的是它引入了”自适应思考”的能力，能够智能判断何时快速响应，何时需要深度推理。核心特性统一系统架构GPT-5采用了创新的统一系统架构，这是其与前代模型最大的区别。该系统能够：智能模式切换：根据问题的复杂度自动选择快速响应模式或深度思考模式实时路由：通过内置的智能路由系统，将任务分配给最适合的处理模式双模协同：在即时响应和延展思考之间无缝切换，提供最优的性能-延迟平衡这种统一架构使得GPT-5在处理简单查询时保持极快的响应速度，同时在面对复杂问题时能够进行深入的推理和分析。卓越的性能表现GPT-5在多个基准测试中取得了突破性的成绩： AIME 202...

GPT-5 - OpenAI 大型语言模型

Posted on 八月 7, 2025

GPT-5 - OpenAI 大型语言模型模型概述GPT-5 是 OpenAI 公司于 2025 年 8月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 GPT-5 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Unified system：smart efficient model + GPT-5 thinking reasoning model + real-time router State-of-the-art across all domains：coding, math, writing, he...

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练

Posted on 八月 5, 2025

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练 ArXiv ID: 2508.03772作者: Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino, Paolo Mori机构: IIT-CNR (Italian National Research Council)发布日期: 2025-08-05 摘要GRPO（Group Relative Policy Optimization）在 LLM 对齐训练中越来越流行，但存在两个严重稳定性问题：Token 级惩罚导致梯度冲突和策略崩溃。本文提出的 GTPO（Gradient-corrected and Threshold-filtered Policy Optimization）通过冲突感知梯度修正和熵阈值过滤解决这些问题。在数学推理基准上，GT...

Claude Opus 4.1

Posted on 八月 1, 2025

模型概述Claude Opus 4.1是Anthropic推出的Claude 4系列旗舰模型的重大更新版本。该模型在Claude Opus 4的基础上进行了显著改进,专为需要最高智能水平的复杂任务而设计。 Opus 4.1继承了Opus 4在推理、分析和创意写作方面的卓越能力,同时在性能和效率上实现了进一步提升。作为Claude 4系列的顶级模型,Opus 4.1仅向付费客户和API合作伙伴开放,定价为每百万token输入15美元、输出75美元。该模型特别适合需要深度推理、复杂分析和高质量输出的专业应用场景。技术规格核心参数参数规模: 未公开(推测为Claude 4系列最大规模) 上下文长度: 200,000 tokens 架构: 先进Transformer架构,针对推理和分析优化训练数据: 未公开详细信息,训练数据截至2024年关键创新增强推理能力 - 在Claud...

Gemini 2.5 深度思考

Posted on 八月 1, 2025

模型概述Gemini 2.5 Deep Think是Google DeepMind推出的增强推理模型,采用创新的并行思考方法。该模型的核心创新在于能够同时探索多个假设,在响应前进行修正和组合。通过延长推理时间,模型有更多时间探索不同假设,Google开发了新颖的强化学习技术来鼓励模型利用这些扩展推理路径。在数学奥林匹克IMO 2025基准测试中达到铜牌级别,在美国数学奥林匹克(USAMO)中达到第65百分位(相比Gemini 2.5 Pro的第50百分位有显著提升)。在人类最后考试(HLE)中得分34.8%(无工具),超越xAI Grok 4的25.4%和OpenAI o3的20.3%,成为该基准测试的最高分。技术规格核心参数参数规模: 未公开(基于Gemini 2.5 Pro架构) 上下文长度: 1,000,000 tokens输入 + 192,000 tokens输出 ...

Google 发布 Gemini 2.5 Deep Think: 并行思考推理模型,编程能力超越竞品

Posted on 八月 1, 2025

概述2025年8月1日,Google 正式发布了 Gemini 2.5 Deep Think,这是一个增强推理模式,使用前沿的并行思考和强化学习技术,显著提升了 Gemini 在解决复杂问题方面的能力。该模型在 5月20日的 Google I/O 大会上首次预览,并在两个多月后向 Google AI Ultra 订阅用户正式开放。 Gemini 2.5 Deep Think 的核心创新在于其「并行思考」方法,允许模型同时探索多个想法,在给出答案前进行修订和组合。这种方法使其在编程竞赛(LiveCodeBench V6: 87.6%)和数学奥林匹克(IMO 2025: Bronze 级别 60.7%)等基准测试中取得了业界领先的成绩。核心技术创新并行思考机制Gemini 2.5 Deep Think 最大的突破在于其独特的并行思考方法: 同时探索多个假设: 模型可以并行探...

失败是成功之母：利用负样本增强少样本上下文学习

Posted on 七月 31, 2025

失败是成功之母：利用负样本增强少样本上下文学习 ArXiv ID: 2507.23211作者: Yunhao Liang, Ruixuan Ying, Takuya Taniguchi, Zhe Cui机构: Zhejiang University, HIT发布日期: 2025-07-31 摘要大型语言模型展现出强大的少样本上下文学习（ICL）能力，但性能对提供的示例高度敏感。最近的研究主要集中在为每个查询检索正样本示例，忽略了负样本（导致错误预测的示例）的额外信息。本文提出利用负样本更好地选择正样本示例，通过分析负样本的特征识别导致失败的模式，从而选择更具代表性和互补性的正样本。实验表明，结合负样本信息的方法比仅使用正样本提升**12-18%**的准确率。问题背景少样本上下文学习的挑战12345678910111213传统 ICL 示例选择方法：正样本方法：查询："...

GraphRAG-R1: 图检索增强生成与过程约束强化学习

Posted on 七月 31, 2025

GraphRAG-R1: 图检索增强生成与过程约束强化学习 ArXiv ID: 2507.23581作者: Chuanyue Yu, Kuo Zhao, Yuhan Li 等机构: Tsinghua University发表: The Web Conference 2026 (WWW’26)发布日期: 2025-07-31 摘要现有的 GraphRAG 方法在处理复杂多跳推理任务时存在局限性。GraphRAG-R1 提出了一种自适应 GraphRAG 框架，通过过程约束的基于结果的强化学习来训练 LLM，增强其多跳推理能力。框架设计了两个关键奖励机制：渐进式检索衰减 (PRA) 解决浅层检索问题，成本感知 F1(CAF) 平衡性能与开销。在域内和域外数据集上均超越 SOTA 方法。问题背景传统 GraphRAG 的局限12345678910111213141516171819...

Graph-R1: 基于端到端强化学习的智能体式图检索增强生成框架

Posted on 七月 29, 2025

Graph-R1: 基于端到端强化学习的智能体式图检索增强生成框架论文概述本文是一篇关于图检索增强生成的框架设计论文，由 Haoran Luo 等8位研究者共同完成。研究目标本研究的主要目标包括：提出Graph-R1，一个使用端到端强化学习的智能体式图检索增强生成框架引入轻量级知识超图构建以降低构建成本将检索建模为多轮智能体-环境交互，而非固定的一次性检索研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述Graph-R1采用三管齐下的方法：(1) 轻量级超图构建 - 高效构建捕捉n元关系的知识超图，同时最小化计算开...

MegatronApp: 分布式大语言模型训练的高效全面管理工具链

Posted on 七月 26, 2025

MegatronApp: 训练千亿模型时，你最需要的不是算力，而是这个工具链核心观点：Megatron-LM是业界最强的分布式训练框架之一，但它只解决了”怎么训”的问题，没解决”怎么管”的问题。MegatronApp用四个正交模块补齐了生产环境最缺的那块拼图：性能追踪、资源调度、流水线优化、训练可解释性。为什么Megatron需要一个”管家”训练175B参数的GPT-3级别模型，你需要数百张GPU协同工作数周甚至数月。这时候问题来了：哪张GPU在偷懒？某个节点性能下降5%，但1000张GPU的集群里你找不到它，训练效率就悄悄掉了20% 资源分配不合理？前向传播吃计算，反向传播吃带宽，但你的调度器一视同仁，A100的HBM带宽优势被浪费流水线调度僵化？1F1B（one-forward-one-backward）是固定策略，但不同workload下最优策略不同，内存峰值和吞吐量的...

GSPO: Qwen团队用序列级优化重新定义GRPO，MoE训练终于稳了

Posted on 七月 24, 2025

GSPO: Qwen团队用序列级优化重新定义GRPO，MoE训练终于稳了 ArXiv ID: 2507.18071作者: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin机构: Alibaba Group (Qwen Team)发布日期: 2025-07-24 引言：GRPO的致命缺陷GRPO（Group Relative Policy Optimization）自DeepSeek-R1发布以来，已经成为LLM强化学习训练的事实标准。它去掉了PPO中昂贵的Critic网络，用组内相对奖励来估计优势值，大幅降低了计算成本。但GRPO有一个被广泛忽视的根本...

Promptomatix: 面向大型语言模型的自动提示优化框架

Posted on 七月 17, 2025

Promptomatix: 面向大型语言模型的自动提示优化框架论文概述本文是一篇关于提示工程的框架设计论文，由 Rithesh Murthy 等8位研究者共同完成。 Promptomatix是一个自动提示优化框架，能够将自然语言任务描述转换为高质量提示，无需手动调优或领域专业知识。该系统支持轻量级元提示优化器和DSPy驱动的编译器，具有模块化设计便于未来扩展。系统会分析用户意图，生成合成训练数据，选择合适的提示策略，并使用成本感知目标迭代优化提示，在减少提示长度和计算开销的同时实现竞争力或更优的性能。研究目标本研究的主要目标包括：引入Promptomatix框架，可从自然语言描述自动优化提示支持基于元提示和DSPy驱动的两种优化方法实现成本感知优化目标，平衡性能和效率研究背景当前挑战提示设计复杂：如何设计有效的提示来引导模型生成高质量输出优化困难：手动优化提示既耗时...

Promptomatix: 全自动Prompt优化框架

Posted on 七月 17, 2025

论文信息标题: Promptomatix: An Automatic Prompt Optimization Framework for Large Language Models 作者: Rithesh Murthy, Ming Zhu, Liangwei Yang, Jielin Qiu, Juntao Tan 机构: Salesforce AI Research 发表: arXiv preprint 链接: arXiv | PDF 核心贡献Promptomatix是一个端到端的自动prompt优化系统,将自然语言任务描述自动转换为高质量prompt,无需人工调优。支持双路径优化(meta-prompt和DSPy),涵盖意图分析、合成数据生成、策略选择和成本感知优化四个模块,在五类任务上达到竞争力性能。问题与背景Prompt工程的困境人工Prompt优化的成本典型流程:...

DPO全景图：从理论到实践的完整指南

Posted on 七月 14, 2025

DPO全景图：从理论到实践的完整指南 ArXiv ID: 2410.15595作者: Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu机构: Zhejiang University发布日期: 2024-10-21最后更新: 2025-07-14 摘要在大语言模型（LLM）的训练旅程中，让模型”听懂人话”一直是个难题。传统的RLHF（基于人类反馈的强化学习）虽然效果不错，但就像用大炮打蚊子——复杂、昂贵、还容易翻车。你需要训练一个奖励模型（Reward Model），然后用PPO等强化学习算法反复迭代，整个过程既耗时又吃资源。 DPO（Direct Pref...

Grok 4

Posted on 七月 10, 2025

模型概述Grok 4是xAI发布的第四代大型语言模型,在独立AI基准测试中首次夺得榜首位置。该模型拥有约1.7万亿参数,使用比Grok 2多100倍的计算资源进行训练,并采用强化学习计算量增加10倍。 Grok 4基于xAI的Colossus超级计算机(配备20万个GPU)构建,在数学推理方面实现重大突破,Grok 4 Heavy在AIME 2025数学竞赛中达到100%满分。该模型在人类最后考试(Humanity’s Last Exam)中得分25.4%(无工具),超越Gemini 2.5 Pro和OpenAI o3。模型支持25.6万token上下文窗口,并提供原生多模态能力和工具使用集成。技术规格核心参数参数规模: 约1.7万亿参数上下文长度: 256,000 tokens 架构: 大规模Transformer架构,采用混合专家系统(MoE) 训练数据: 未公开详细信...

xAI 发布 Grok 4: 首个在「人类最后考试」中突破 50%% 的 AI 模型

Posted on 七月 10, 2025

概述2025年7月10日,埃隆·马斯克旗下的 xAI 公司发布了其旗舰 AI 模型 Grok 4,这是一个在多个前沿基准测试中创造新纪录的突破性模型。Grok 4 成为首个在「人类最后考试」(Humanity’s Last Exam)中突破 50% 准确率的 AI 模型,标志着人工智能在解决博士级别复杂问题方面迈出了历史性的一步。核心突破「人类最后考试」历史性突破「人类最后考试」是一个包含 2,500 道精心策划的博士级别问题的基准测试,涵盖数学、物理、化学、语言学和工程学等领域。这个基准被设计为「同类中最后一个封闭式学术基准」,旨在测试 AI 在人类知识巅峰领域的能力。 Grok 4 Heavy 的表现: Humanity’s Last Exam: 50.7%(首个突破 50% 的模型) 带工具使用: 44.4%(使用多个 AI 智能体协作) 相比之下,竞争对手的表现: G...

Grok 4：xAI的突破性推理模型与高端订阅服务

Posted on 七月 9, 2025

Grok 4：xAI的突破性推理模型与高端订阅服务概述2025年7月9日，Elon Musk旗下的xAI公司正式发布了Grok 4系列模型，并同时推出了价格高达每月300美元的SuperGrok Heavy订阅服务。Grok 4在AGI基准测试ARC-AGI-2上取得了突破性的15.9%成绩，几乎是之前商业最先进水平的两倍，标志着AI向通用人工智能迈出的重要一步。发布活动盛大的线上发布会直播规模：在X平台（前Twitter）进行直播 Elon Musk亲自主持演示超过150万人在线观看创造了AI产品发布的观看记录发布形式：实时产品演示互动问答环节性能基准展示用户体验分享系列模型概览模型名称定价主要特点目标用户 Grok 4 $30/月标准推理能力普通用户、开发者 Grok 4 Heavy $300/月 (Sup...

Towards Practical GraphRAG: 高效知识图谱构建与混合检索的大规模应用

Posted on 七月 4, 2025

Towards Practical GraphRAG: Efficient Knowledge Graph Construction and Hybrid Retrieval at Scale ArXiv ID: 2507.03226作者: Congmin Min, Sahil Bansal, Joyce Pan, Abbas Keshavarzi, Rhea Mathew, Amar Viswanathan Kannan机构: Samsung Research发布日期: 2025-07-04分类: context-engineering, information-retrieval 摘要GraphRAG 在企业级环境中的部署面临着成本和可扩展性的双重挑战。本文提出了一个可扩展、成本高效的企业级 GraphRAG 框架，包含两个核心创新：一个利用依存句法分析的高效知识图谱构建管线，...

Voxtral Small 24B 2507 - Mistral AI 大型语言模型

Posted on 七月 1, 2025

Voxtral Small 24B 2507 - Mistral AI 大型语言模型模型概述Voxtral Small 24B 2507 是 Mistral AI 公司于 2025 年 7月发布的大型语言模型，拥有 24B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Voxtral Small 24B 2507 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 40.0K，获得了 412 个点赞，显示出强大的社区影响力和用户认可度。 Voxtral Small 24B 2507 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布...

Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型

Posted on 六月 19, 2025

Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型模型概述Mistral Small 3.2 24B Instruct 2506 是 Mistral AI 公司于 2025 年 6月发布的大型语言模型，拥有 24B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral Small 3.2 24B Instruct 2506 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 726.8K，获得了 476 个点赞，显示出强大的社区影响力和用户认可度。核心特性 24B 参数规...

为 AI Agent 编写高效工具

Posted on 六月 18, 2025

为 AI Agent 编写高效工具来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 6 月 18 日类型: 技术指南阅读时间: 约 12 分钟概述本文详细介绍了如何为 AI Agent 设计和编写高效工具。工具是 AI Agent 与外部世界交互的桥梁，良好的工具设计可以显著提升 Agent 的性能和可靠性。我们分享了工具设计的核心原则、接口设计规范、错误处理策略、性能优化技巧，以及实际案例分析。遵循这些最佳实践，开发者可以创建出易于理解、可靠执行、高效运行的 AI Agent 工具。为什么工具设计很重要工具的作用工具是 AI Agent 能力的延伸：感知扩展：让 Agent 获取外部信息执行能力：让 Agent 执行实际操作记忆增强：让 Agent 访问持久化数据计算...

Lingshu-7B - 阿里巴巴大型语言模型

Posted on 六月 15, 2025

Lingshu-7B - 阿里巴巴大型语言模型模型概述Lingshu-7B 是阿里巴巴公司于 2025 年 6月发布的大型语言模型，拥有 7B (also 32B variant available) 参数规模。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Lingshu-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Lingshu-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B (also ...

Consilium MCP Server - 多AI专家共识决策平台

Posted on 六月 10, 2025

Consilium MCP Server - 多AI专家共识决策平台简介Consilium MCP Server 是一个创新的多AI专家共识平台,通过集成多个领先的AI模型(如 Mistral、SambaNova)提供协作式AI推理和决策能力。该服务器采用专家系统架构,让多个AI模型针对同一问题提供不同视角的分析,最终形成综合性的共识决策,为复杂问题提供更全面、更可靠的AI辅助决策方案。功能特性多AI模型协作 - 集成 Mistral、SambaNova 等多个先进AI模型共识决策引擎 - 聚合多个AI专家的意见,形成综合决策分布式推理 - 并行调用多个模型,提高决策效率专家意见聚合 - 智能合并不同AI模型的观点和建议 Gradio界面 - 提供友好的交互界面和可视化结果 MCP标准集成 - 完全兼容 Model Context Protocol 规范支持的工具基于项...

何时在检索增强生成中使用图: 图检索增强生成的综合性分析

Posted on 六月 6, 2025

何时在检索增强生成中使用图: 图检索增强生成的综合性分析论文概述本文是一篇关于图检索增强生成的研究论文，由 Zhishang Xiang 等7位研究者共同完成。研究目标本研究的主要目标包括：解决关键问题：在现实世界场景中图检索增强生成何时优于普通检索增强生成引入GraphRAG-Bench，用于评估图检索增强生成系统的综合基准测试提供对整个图检索增强生成流程的系统性评估：图构建、检索和生成研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述本文引入GraphRAG-Bench，这是一个包含多个难度级别和类型任务的综合...

Universal File Converter MCP Server - 专业级多格式文件转换服务

Posted on 六月 5, 2025

Universal File Converter MCP Server Platform: Hugging Face Space (Gradio MCP)License: Apache 2.0Author: Agents-MCP-HackathonPublished: 2025-06-05Stars/Likes: 24Quality Score: 3.85/5.0 概述 | Overview中文Universal File Converter 是一个基于 Gradio MCP 框架的通用文件格式转换服务器，支持 30+ 种文件格式之间的自由转换。该服务集成了专业的 ConvertAPI，为 AI 助手提供了强大的文件处理能力，涵盖文档、图片、表格、演示文稿和多媒体文件的全方位转换需求。作为 Agents MCP Hackathon 的参赛项目，该服务器通过 H...

我应该使用哪种提示技术？软件工程任务提示技术实证研究

Posted on 六月 5, 2025

我应该使用哪种提示技术？软件工程任务提示技术实证研究论文概述本文是一篇关于提示工程的实证研究论文，由 E. G. Santana Jr 等8位研究者共同完成。 This 综合性实证 study 系统性ally evaluates 14 established 提示工程 techniques across 10 软件工程 tasks using 4 大语言模型 models. The research reveals which prompting techniques are most effective for different types of SE tasks, providing practical guidance on technique selection based on task complexity, 推理 requirements, and contextu...

Web Scraper & Sitemap Generator - 网页抓取和站点地图生成

Posted on 六月 4, 2025

Web Scraper & Sitemap Generator Three-in-One Web Analysis Tool: A comprehensive web scraping and sitemap generation solution that combines content extraction, site structure mapping, and link organization. Features dual-mode operation with both a user-friendly Web UI (port 7861) and an MCP Server API (port 7862), making it perfect for content migration, SEO audits, and AI training data prep...

Gemma 3n E4B IT - 谷歌大型语言模型

Posted on 六月 3, 2025

Gemma 3n E4B IT - 谷歌大型语言模型模型概述Gemma 3n E4B IT 是谷歌公司于 2025 年 6月发布的大型语言模型，拥有 E4B (4B effective, 8B raw with MatFormer) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型支持商业使用，为企业部署提供了法律保障。 Gemma 3n E4B IT 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 699.2K，获得了 794 个点赞，显示出强大的社区影响力和用户认可度。 Gemma 3n E4B IT 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代...

DeepSeek-R1-0528 - DeepSeek 大型语言模型

Posted on 五月 28, 2025

DeepSeek-R1-0528 - DeepSeek 大型语言模型模型概述DeepSeek-R1-0528 是 DeepSeek 公司于 2025 年 5月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-R1-0528 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 599.4K，获得了 2,377 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-R1-0528 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领...

理解偏好学习中的性能差距:RLHF与DPO的二分法分析

Posted on 五月 26, 2025

Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO ArXiv ID: 2505.19770作者: Ruizhe Shi, Minhak Song, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du发布日期: 2025年5月26日最后更新: 2025年10月3日摘要本文对强化学习人类反馈(RLHF)和直接偏好优化(DPO)之间的性能差距进行了精细的理论分析。研究将性能差距分解为两个来源,并在精确优化和有限样本优化场景下进行分析。结果显示,根据模型误规范的类型,RLHF、DPO或在线DPO可能各自表现更优。值得注意的是,当奖励模型类和策略模型类同构且都存在误规范时,在线DPO可以同时优于RLHF和标准DPO。...

理解偏好学习中的性能差距: 基于人类反馈的强化学习与直接偏好优化的二分法

Posted on 五月 26, 2025

理解偏好学习中的性能差距: 基于人类反馈的强化学习与直接偏好优化的二分法论文概述本文是一篇关于大语言模型的研究论文，由 R 等77位研究者共同完成。研究目标本研究的主要目标包括：对RLHF与DPO性能差距进行细粒度理论分解，分为显式和隐式表示差距基于模型类误配置特征，确定RLHF、DPO或在线DPO何时优于其他方法证明在同构模型类下，在线DPO可以同时超越RLHF和标准DPO 研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述本文采用严格的理论分析来分解RLHF和DPO方法之间的性能差距。在精确优化机制下，他们分析了...

Claude 4 系列：Anthropic发布的世界级编码和推理模型

Posted on 五月 22, 2025

Claude 4 系列：Anthropic发布的世界级编码和推理模型概述2025年5月22日，Anthropic在旧金山举行的首届开发者大会上正式发布了Claude 4系列模型，包括Claude Opus 4和Claude Sonnet 4。这两款模型在编码能力、高级推理和AI智能体应用方面树立了新的行业标准，特别是Claude Opus 4被誉为”世界最佳编码模型”。系列模型对比模型名称参数规模主要优势定价（输入/输出）最佳用途 Claude Opus 4 未公开世界级编码能力，持续多小时工作 $15/$75 per M tokens 复杂软件开发、长期任务 Claude Sonnet 4 未公开优秀的编码和推理，精准指令遵循 $3/$15 per M tokens 日常开发、生产应用 Claude Opus 4：世界...

Claude Opus 4 - Anthropic 大型语言模型

Posted on 五月 22, 2025

Claude Opus 4 - Anthropic 大型语言模型模型概述Claude Opus 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Opus 4 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 World’s best coding model at release：72.5% on SWE-bench 43.2% on Terminal：bench Hybrid dual-mode：near-ins...

Claude Sonnet 4 - Anthropic 大型语言模型

Posted on 五月 22, 2025

Claude Sonnet 4 - Anthropic 大型语言模型模型概述Claude Sonnet 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Sonnet 4 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Significant upgrade from Claude Sonnet 3.7：提供强大的AI能力支持 Superior coding and reasoning capabilities：提...

Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning

Posted on 五月 22, 2025

Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning ArXiv ID: 2505.16782作者: Xinghao Chen, Anhao Zhao, Heming Xia, Xuan Lu, Hanlin Wang, Yanjun Chen, Wei Zhang, Jian Wang, Wenjie Li, Xiaoyu Shen发布日期: 2025-05-22分类: prompt-engineering 摘要传统的链式思维（CoT）推理依赖于显式的语言生成 – 模型必须将每个推理步骤以文本形式输出。本文综述了一个新兴且快速增长的研究方向：潜在 CoT 推理（Latent CoT Reasoning），其中推理过程嵌入在潜在空间中而非通过显式语言表达。通过将推...

ZenFlow: DeepSpeed的无停顿卸载训练引擎，5倍加速ZeRO-Offload

Posted on 五月 18, 2025

ZenFlow: DeepSpeed的无停顿卸载训练引擎，5倍加速ZeRO-Offload ArXiv ID: 2505.12242作者: Tingfeng Lan, Yusen Wu, Bin Ma, Zhaoyuan Su, Rui Yang, Tekin Bicer, Masahiro Tanaka, Olatunji Ruwase, Dong Li, Yue Cheng机构: University of Virginia, UC Merced, Argonne National Laboratory, Microsoft DeepSpeed Team发布日期: 2025-05-18 GPU卸载的14倍减速困境当GPU显存不足以容纳整个模型时，将部分模型状态卸载到CPU内存是常见解决方案。但ZeRO-Offload的代价巨大——Llama 2-7B在4张A100上：无卸载每步...

SageAttention3: 基于微缩放 FP4 的 Attention 推理加速与 8-bit 训练探索

Posted on 五月 16, 2025

SageAttention3: 基于微缩放 FP4 的 Attention 推理加速与 8-bit 训练探索 ArXiv ID: 2505.11594作者: Jintao Zhang, Jia Wei, Pengle Zhang et al.机构: Tsinghua University发布日期: 2025-05-16目标硬件: NVIDIA Blackwell GPU (RTX 50 系列) 摘要SageAttention3 是针对新一代 Blackwell GPU 的 FP4 Tensor Cores 设计的高效 attention 加速方案。该论文提出了针对推理场景的 FP4 量化 attention 机制，并首次探索了训练阶段的低 bit attention。在 RTX 5090 上实现了1038 TOPS的性能，相比最快的 FlashAttention 实现提升5 倍。...

FlashMLA-ETAP: 高效转置 Attention 流水线加速 H20 GPU 上的 MLA 推理

Posted on 五月 13, 2025

FlashMLA-ETAP: 高效转置 Attention 流水线加速 H20 GPU 上的 MLA 推理 ArXiv ID: 2506.01969作者: Pengcuo Dege, Qiuming Luo, Rui Mao, Chang Kong发布日期: 2025-05-13分类: inference, attention-optimization, hardware-optimization 摘要FlashMLA-ETAP 提出了一种针对 NVIDIA H20 GPU 单实例部署场景优化的 Multi-Head Latent Attention (MLA) 推理框架。通过引入高效转置 Attention 流水线 (ETAP)，重构 attention 计算以减少冗余操作，并将 KV context 长度与 WGMMA 操作的 M 维度对齐，充分利用 H20 硬件特性。在 64...

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型

Posted on 四月 30, 2025

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型模型概述DeepSeek-Prover-V2-671B 是 DeepSeek 公司于 2025 年 4月发布的大型语言模型，拥有 671B (MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-Prover-V2-671B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 1.6K，获得了 811 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-Prover-V2-671B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

DPO遇见PPO:RLHF的强化令牌优化

Posted on 四月 29, 2025

DPO Meets PPO: Reinforced Token Optimization for RLHF ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang发布日期: 2025年4月29日最后更新: 2025年5月21日摘要在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,...

Qwen3：阿里云通义千问混合推理大模型

Posted on 四月 28, 2025

概述Qwen3是阿里云通义千问团队于2025年4月28日发布的第三代大语言模型系列，包含从0.6B到235B参数的多个变体，支持密集和混合专家(MoE)两种架构。该系列模型的核心创新在于统一的混合推理框架，能够在思考模式(用于复杂多步推理)和非思考模式(用于快速响应)之间无缝切换，无需在不同模型间切换。Qwen3在36万亿tokens数据上进行预训练，是前代Qwen2.5的两倍，并将多语言支持从29种扩展到119种语言和方言。核心创新Qwen3最突出的创新是其统一的混合推理框架。传统方法需要为不同任务部署不同的模型(如ChatGPT用于通用对话，o1用于复杂推理)，而Qwen3将这两种能力整合到单一模型中。通过动态思考预算机制，用户可以根据任务复杂度自适应地分配计算资源，在延迟和性能之间找到最佳平衡点。这种设计理念的实现依赖于Qwen3创新的训练策略。团队在预训练阶段使用了36万...

Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

Posted on 四月 28, 2025

Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory ArXiv ID: 2504.19413作者: Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav发布日期: 2025-04-28分类: context-engineering 摘要大语言模型的固定上下文窗口在维持长期多轮对话一致性方面存在根本性挑战。Mem0 提出了一种面向生产环境的可扩展记忆架构，能够从持续对话中动态提取、整合和检索关键信息。增强版本利用图结构记忆表示来建模对话元素间的关系。主要贡献1. 可扩展记忆架构Mem0 的核心是一个以记忆为中心的架构，具备三个关键能力：动态提取：从对话流中自动识别和提取关键信息智能整合：将分散...

迈向评估性思维: 基于演化奖励模型的元策略优化

Posted on 四月 28, 2025

迈向评估性思维: 基于演化奖励模型的元策略优化论文概述本文是一篇关于奖励模型的优化方法论文，由 Zae Myung Kim 等4位研究者共同完成。元策略优化（MPO）解决了大语言模型基于奖励对齐的两个关键限制：对奖励欺骗的脆弱性以及对奖励模型提示工程的依赖性（既脆弱又劳动密集）。MPO引入了一个元奖励模型，在训练过程中动态优化奖励模型的提示，监控不断演化的训练上下文并持续调整提示以保持高度对齐。这种元学习方法提供了抵抗策略利用的自适应奖励信号，同时大大减少了手动奖励提示设计的工作量。MPO实现了与广泛手工制作的奖励提示引导的模型相当或更好的性能，并且在不同任务中保持有效性，无需专门的奖励设计。研究目标本研究的主要目标包括：引入具有元奖励模型的元策略优化（MPO）框架，用于动态提示优化通过自适应奖励信号调整解决奖励欺骗脆弱性消除大量手动奖励提示工程的需求研究背景当前挑战...

Qwen3-0.6B - 阿里巴巴大型语言模型

Posted on 四月 27, 2025

Qwen3-0.6B - 阿里巴巴大型语言模型模型概述Qwen3-0.6B 是阿里巴巴公司于 2025 年 4月发布的大型语言模型，拥有 0.6B (751.6M total) 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen3-0.6B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 19.5M，获得了 695 个点赞，显示出强大的社区影响力和用户认可度。核心特性 0.6B (751.6M total) 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Unique think...

通过沙箱技术提升 Claude Code 安全性

Posted on 四月 22, 2025

通过沙箱技术提升 Claude Code 安全性来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 4 月 22 日类型: 技术架构阅读时间: 约 8 分钟概述本文详细介绍了 Claude Code 的沙箱安全架构，包括多层次隔离机制、权限管理和风险控制策略。通过在 macOS、Linux 和 Windows 平台上实现不同的沙箱技术（seatbelt、Bubblewrap、Job Objects 等），Claude Code 能够在执行代码时提供强大的安全保障。文章还讨论了文件系统访问控制、网络权限隔离、设备访问限制等关键安全特性，以及在生产环境中部署沙箱的最佳实践。为什么需要沙箱当 AI 助手被授权执行代码时，安全性成为首要关注点。考虑以下风险场景：潜在风险意外损害：AI ...

Claude 桌面扩展：一键安装 MCP 服务器

Posted on 四月 22, 2025

Claude 桌面扩展：一键安装 MCP 服务器来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 4 月 22 日类型: 产品功能发布阅读时间: 约 10 分钟概述Anthropic 正式发布 Claude 桌面扩展功能，让用户能够通过一键点击即可安装和配置 MCP（Model Context Protocol）服务器。这一功能极大地简化了 AI 助手与外部工具和服务的集成流程，使非技术用户也能轻松扩展 Claude 的能力。桌面扩展支持自动依赖安装、安全权限管理和无缝更新，为开发者和普通用户提供了统一的扩展体验。通过这一功能，用户可以快速连接 Google Drive、Slack、GitHub 等各种服务，将 Claude 转变为真正个性化的工作助手。 MCP 生态系统的挑战模型...

面向 AI Agent 的有效上下文工程实践

Posted on 四月 22, 2025

面向 AI Agent 的有效上下文工程实践来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025-04-22 概述分享上下文工程的最佳实践，包括上下文管理、注意力分配和长对话优化技术。概述在人工智能开发的演进历程中，提示工程（prompt engineering）曾是开发者与大型语言模型协作的核心技能。然而，随着 AI Agent 系统的兴起和多轮推理应用的普及，一个更广泛、更强大的概念正在崭露头角——上下文工程（context engineering）。本文将深入探讨上下文工程的核心理念、实践方法和未来趋势，帮助开发者构建更高效、更可靠的 AI Agent 系统。从提示工程到上下文工程的演进提示工程的局限性在过去几年中，提示工程一直是应用 AI 领域的焦点。开发者们精心设计和优化提示...

我们如何构建多 Agent 研究系统

Posted on 四月 22, 2025

我们如何构建多 Agent 研究系统来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 4 月 22 日类型: 技术架构分享阅读时间: 约 15 分钟概述本文详细介绍了 Anthropic 多 Agent 研究系统的架构设计、实现细节和实际应用经验。该系统通过协调多个专门的 AI Agent 完成复杂的研究任务，包括文献调研、数据分析、实验设计和报告生成。系统采用分层架构，包含协调 Agent、专家 Agent 和执行 Agent 三层，通过消息传递和共享上下文实现协作。实际应用中，该系统将研究效率提升了 3-5 倍，同时保持了研究质量和可重复性。项目背景为什么需要多 Agent 系统复杂研究任务涉及多个专业领域，单个 Agent 难以胜任：研究任务特点：多步骤：需要按顺序执...

Pre-DPO: 使用引导参考模型改进直接偏好优化中的数据利用

Posted on 四月 22, 2025

Pre-DPO: 使用引导参考模型改进直接偏好优化中的数据利用论文概述本文是一篇关于大型语言模型 (LLM) 优化方法的论文，由 J 等56位研究者共同完成。研究目标本研究的主要目标包括: 提出了参考模型在直接偏好优化(DPO) 中作为数据权重调节器的新见解引入了Pre-DPO范式，使用引导参考模型改进数据利用效率设计了自适应加权机制，根据样本适配度分配样本权重研究背景当前挑战性能优化: 如何提升大型语言模型在实际任务中的表现效率提升: 如何减少推理时间和计算资源消耗可靠性保证: 如何确保模型输出的稳定性和准确性可扩展性: 如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大型语言模型的性能和实用性。核心方法方法概述Pre-DPO利用引导参考模型，该模型能够预见通过训练数据可实现的最优策略。核心创新在于使用该参...

大语言模型时代的RAG评估：综合性调研

Posted on 四月 21, 2025

论文概述这篇综述性论文系统地回顾了检索增强生成(RAG)系统在大语言模型时代的评估方法和框架，为这一快速发展的领域提供了全面的技术图谱。论文深入分析了RAG评估的多个维度，包括系统性能、事实准确性、安全性和计算效率等核心指标，系统性地回顾了传统评估方法，并详细探讨了针对LLM驱动的RAG系统的新兴评估技术。此外，还编译和分类了大量RAG专用数据集，为研究者选择合适的评估基准提供了宝贵参考。论文信息：发布时间：2025-04-21 作者：Aoran Gan, Hao Yu, Kai Zhang, Qi Liu, Wenyu Yan, Zhenya Huang, Shiwei Tong, Guoping Hu 研究方向：上下文工程 (Context Engineering), 检索增强生成 (Retrieval-Augmented Generation), 评估方法 (Evalua...

Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南

Posted on 四月 16, 2025

Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南 ArXiv ID: 2504.12501作者: Nathan Lambert机构: Independent Researcher发布日期: 2025-04-16 (最新更新: 2025-11-02)页数: 144页Web版本: rlhfbook.com 摘要这是一部全面覆盖**强化学习人类反馈(RLHF)**方法论的144页专著,为LLM对齐领域提供了迄今为止最系统的教学资源。作者Nathan Lambert以温和渐进的方式,从历史根源到实践部署,构建了完整的RLHF知识体系。本书不仅仅是技术手册,更是一座连接理论与实践的桥梁。它追溯RLHF在经济学(偏好理论)、哲学(价值对齐)和最优控制(强化学习)的跨学科根源,帮助读者理解”为什么RLHF有效”而非仅仅”如何使用...

OpenCodeInstruct: NVIDIA开源的500万规模代码指令数据集

Posted on 四月 5, 2025

核心观点：代码LLM的瓶颈不在模型架构，而在训练数据。NVIDIA用500万条带测试验证的代码指令数据证明：当每条数据都有单元测试保驾护航时，”量”和”质”可以兼得。代码指令数据的困境训练一个好的代码助手，需要什么样的数据？理想情况下，每条数据应该包含：一个清晰的编程问题、一个正确的解决方案、以及验证方案正确性的测试用例。现实中，大多数代码指令数据集只有问题和答案，没有测试。这意味着你无法自动验证”答案是否真的能运行”。模型在这样的数据上训练，可能学会了生成”看起来对”但实际有bug的代码。 OpenCodeInstruct的核心差异化就在这里：每条数据都配备了单元测试和执行反馈。 500万条，每条都经过验证OpenCodeInstruct包含500万个编程问答对，未压缩约19GB。每个样本的结构远比传统代码数据集丰富：字段说明 input 编程问题描述 ou...

Llama 4 系列：Meta的开源多模态MoE模型

Posted on 四月 5, 2025

Llama 4 系列：Meta的开源多模态MoE模型概述2025年4月5日，Meta正式发布了Llama 4系列模型，包括Llama 4 Scout和Llama 4 Maverick。这是Meta在开源AI领域的又一重大突破，首次将多模态能力、混合专家（MoE）架构和超长上下文窗口结合在一起，为开源社区提供了极具竞争力的大语言模型。系列模型对比模型名称激活参数总参数量专家数量上下文长度主要特点 Llama 4 Scout 17B 109B 16 10M tokens 超长上下文，适合文档分析 Llama 4 Maverick 17B 400B 128 未公开大规模专家网络，最强性能 Llama 4 Behemoth 288B ~2T 16 未公开推迟发布，旗舰级模型注：Behemoth模型在发布时仍在训练中，预计2025年秋季或更晚发布核心...

Llama 4 Scout - Meta 大型语言模型

Posted on 四月 5, 2025

Llama 4 Scout - Meta 大型语言模型模型概述Llama 4 Scout 是 Meta 公司于 2025 年 4月发布的大型语言模型，拥有 17B active (16 experts, MoE) 参数规模。作为基座模型，它为下游任务提供了强大的基础能力。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama 4 Scout 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 17B active (16 experts, MoE) 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 First open：wei...

GREATERPROMPT: 统一、可定制、高性能的开源提示优化工具包

Posted on 四月 4, 2025

GREATERPROMPT: 统一、可定制、高性能的开源提示优化工具包论文概述本文是一篇关于提示工程的优化方法论文，由 Wenliang Zheng 等4位研究者共同完成。 GREATERPROMPT通过提供统一、可定制的框架，将多种优化技术整合到单一API下，从而实现提示优化的民主化。与现有方法相比，这些方法要么缺乏标准化、灵活性有限，要么依赖昂贵的专有API，GREATERPROMPT通过文本反馈优化（适用于大型大语言模型）和内部梯度优化（适用于小型模型）来适应不同模型规模。借助包括GitHub、PyPI和Web UI在内的用户友好界面，它使专家研究人员和非技术用户都能在不同任务和模型规模上实现高性能的提示优化。研究目标本研究的主要目标包括：统一框架，在一致的API下整合多种提示优化方法双重优化模式：大型模型的文本反馈和小型模型的梯度优化消除对昂贵的闭源大语言模型API...

超图检索增强生成: 基于超图结构化知识表示的检索增强生成

Posted on 三月 27, 2025

超图检索增强生成: 基于超图结构化知识表示的检索增强生成论文概述本文是一篇关于图检索增强生成的研究论文，由 Haoran Luo 等8位研究者共同完成。研究目标本研究的主要目标包括：识别传统图检索增强生成方法中二元关系的局限性提出使用超图表示n元关系（n >= 2）的超图检索增强生成方法引入超边表示来捕捉复杂的多实体关系研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述超图检索增强生成通过使用超图而非普通图来扩展传统的基于图的检索增强生成。传统图使用边连接成对实体（二元关系），而超图使用超边可以同时...

Gemini 2.5 系列：Google DeepMind的突破性思考模型

Posted on 三月 25, 2025

Gemini 2.5 系列：Google DeepMind的突破性思考模型概述2025年3月25日，Google DeepMind发布了Gemini 2.5系列，这是一个具有革命性意义的多模态推理AI模型家族。Gemini 2.5最大的突破在于其”思考能力”（Thinking Capability），能够在回应之前进行深度推理，这使其成为Google迄今为止最智能的AI模型。系列模型对比模型名称主要特点发布时间最佳用途 Gemini 2.5 Pro 旗舰推理模型，支持深度思考模式 2025-03-25 复杂推理、科学研究、高级编程 Gemini 2.5 Flash 快速推理，高效率 2025-09-25 生产环境、实时应用 Gemini 2.5 Flash Image 最先进的图像生成和编辑 2025-08-26 图像创作、视觉内容生成 Gemini ...

设计抗 AI 作弊的技术评估方法

Posted on 三月 19, 2025

设计抗 AI 作弊的技术评估方法来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 3 月 19 日类型: 技术研究报告阅读时间: 约 14 分钟概述随着 AI 模型能力的快速提升，传统的评估方法面临着严重的”作弊”风险。本文探讨了如何设计能够防止 AI 作弊的技术评估方法，确保评估结果的真实性和可靠性。我们介绍了多种抗 AI 作弊的评估策略，包括动态题目生成、多轮交互验证、过程追踪、人工-AI 对比测试等方法。这些方法已应用于 Anthropic 内部的模型评估流程，有效提高了评估结果的可信度。问题背景评估”作弊”的定义在 AI 评估语境中，”作弊”指的是模型通过非预期方式获得高分，而非真正展示所声称的能力：训练数据污染：评估题目意外出现在训练数据中提示词优化过度：针对特定...

基于大型语言模型的智能体优化综述

Posted on 三月 16, 2025

A 综述 on the 优化of Large Language Model-based Agents论文概述本文是一篇关于智能体系统的综述性研究论文，由 Shangheng Du 等7位研究者共同完成。 This 综合性综述 provides the first 系统性 review of 大型语言模型 (LLM)-based agent 优化approaches, addressing the gap between vanilla 大型语言模型 (LLM) 优化and specialized agent functionalities. While current work typically relies on prompt design or 微调 applied to standard 大型语言模型 (LLM)s, these often lead to limited ...

更宽还是更深？通过自适应分支树搜索扩展 LLM 推理时计算

Posted on 三月 6, 2025

更宽还是更深？通过自适应分支树搜索扩展 LLM 推理时计算 ArXiv ID: 2503.04412作者: Yuichi Inoue, Kou Misaki, Yuki Imajuku, So Kuroki, Taishi Nakamura, Takuya Akiba机构: Preferred Networks发布日期: 2025-03-06接收: ICLR 2025 Workshop, NeurIPS 2025 Spotlight 摘要在 LLM 推理时扩展（test-time scaling）中，一个核心问题是：应该探索更多不同的回答（更宽），还是深入改进已有回答（更深）？本文提出的 AB-MCTS（Adaptive Branching MCTS）框架通过自适应地平衡这两种策略，在编码任务上显著优于重复采样和标准 MCTS 方法。核心问题推理时扩展的两难选择123456...

直接偏好优化的主动学习

Posted on 三月 3, 2025

直接偏好优化的主动学习论文概述本文是一篇关于大语言模型的优化方法论文，由 B 等89位研究者共同完成。研究目标本研究的主要目标包括：适用于在线和离线设置的直接偏好优化新型主动学习框架在神经网络最后一层线性化直接偏好优化目标以实现高效计算采用 D-最优设计方法选择最具信息量的偏好反馈研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述该方法在神经网络表示的最后一层线性化直接偏好优化目标，使得能够计算偏好反馈收集的 D-最优设计。这个数学框架允许原则性地选择最具信息量的反馈对。对于在线设置，算法主动选择向人类评估者呈现哪...

Gemma 3 27B IT - 谷歌大型语言模型

Posted on 三月 1, 2025

Gemma 3 27B IT - 谷歌大型语言模型模型概述Gemma 3 27B IT 是谷歌公司于 2025 年 3月发布的大型语言模型，拥有 27B 参数规模。该模型支持商业使用，为企业部署提供了法律保障。 Gemma 3 27B IT 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 1.2M，获得了 1,639 个点赞，显示出强大的社区影响力和用户认可度。 Gemma 3 27B IT 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 27B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Multimodal：te...

Infinite Retrieval: 基于注意力增强的无限长上下文处理

Posted on 二月 18, 2025

论文概述Infinite Retrieval(InfiniRetri)是一项突破性的研究成果，解决了大语言模型在处理超长上下文输入时面临的核心挑战。该方法的创新之处在于利用模型自身的注意力信息来实现对无限长输入的精确检索，而无需任何额外训练。研究团队发现模型的注意力分布与生成答案之间存在强相关性，基于这一洞察设计了InfiniRetri方法。在Needle-In-a-Haystack测试中，该方法处理超过100万token时达到100%准确率，在真实场景中带来高达288%的性能提升。论文信息：发布时间：2025-02-18 作者：Xiaoju Ye, Zhichun Wang, Jingyuan Wang 研究方向：上下文工程 (Context Engineering), 长上下文处理 (Long-Context Processing) 核心技术：注意力增强 (Attentio...

xAI Grok 3 - xAI 推理语言模型

Posted on 二月 17, 2025

xAI Grok 3 - xAI 推理语言模型厂商: xAI (Elon Musk)发布日期: 2025-02-17模型类型: 推理语言模型模态: 文本、图像许可证: 专有商业模型 (Proprietary)评分: 4.2/5.0 概述xAI Grok 3 是由 Elon Musk 创立的 xAI 公司于 2025 年 2 月 17 日正式发布的最新旗舰 AI 模型。该模型被誉为”推理代理时代”的里程碑,在强大的预训练知识基础上融合了卓越的推理能力。Grok 3 在 Colossus 超级集群上训练,使用的计算量是此前最先进模型的 10 倍,展现了 xAI 在 AI 基础设施方面的雄心。 Grok 3 的发布标志着 xAI 在与 OpenAI、Anthropic、Google 等巨头的竞争中迈出了重要一步。该模型不仅在多个基准测试中展现出色表现,还通过与 X 平台(原 ...

自动提示工程综述：优化视角

Posted on 二月 17, 2025

A Survey of Automatic Prompt Engineering: An Optimization Perspective ArXiv ID: 2502.11560作者: Wenwu Li, Xiangfeng Wang, Wenhao Li, Bo Jin发布日期: 2025-02-17分类: prompt-engineering, optimization 摘要基础模型的兴起使研究焦点从资源密集型的微调转向提示工程——一种通过输入设计而非权重更新来引导模型行为的范式。本综述首次从统一的优化视角对自动提示工程进行了全面考察。我们将提示优化形式化为离散、连续和混合提示空间上的最大化问题，考察了基于基础模型的优化、进化方法、基于梯度的优化和强化学习方法。通过分析优化变量 (指令、软提示、样例)、任务特定目标和计算框架，我们在理论形式化与跨文本、视觉和多模态领域的实际实...

A-MEM: Agentic Memory for LLM Agents

Posted on 二月 17, 2025

A-MEM: Agentic Memory for LLM Agents ArXiv ID: 2502.12110作者: Wujiang Xu, Zujie Liang, Kai Mei, Hang Gao, Juntao Tan, Yongfeng Zhang发布日期: 2025-02-17发表会议: NeurIPS 2025分类: context-engineering 摘要虽然 LLM 智能体能够有效使用外部工具来完成复杂的现实任务，但它们需要记忆系统来利用历史经验。当前的记忆系统支持基本的存储和检索，但缺乏精细的记忆组织能力。A-MEM 提出了一种新颖的智能体记忆系统，借鉴 Zettelkasten 方法（卡片盒笔记法），通过动态索引和链接创建互联的知识网络，每条记忆以包含上下文描述、关键词和标签的结构化笔记形式存储。主要贡献1. 基于 Zettelkasten 的动态记...

'think'工具：让 Claude 停下来思考

Posted on 二月 12, 2025

‘think’工具：让 Claude 停下来思考来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 2 月 12 日类型: 产品功能发布阅读时间: 约 8 分钟概述Anthropic 正式发布了”think”工具，使 Claude 能够在响应复杂查询之前进行深度思考。这个工具允许模型在给出最终答案之前，先在一个专门的思考空间中探索多种方法、识别潜在错误并进行自我纠正。实验表明，在数学推理、代码生成和复杂分析任务中，启用思考功能的 Claude 能够显著提升准确性，尤其是在处理需要多步骤推理的问题时。为什么需要”思考”功能在开发 AI 助手的过程中，Anthropic 发现一个关键洞察：人类在面对复杂问题时，会自然地停下来思考——权衡不同方法、检查假设、识别推理中的缺陷。而传统的 L...

QuEST: 使用1比特权重和激活值的大语言模型稳定训练

Posted on 二月 7, 2025

QuEST: 使用1比特权重和激活值的大语言模型稳定训练论文概述本文是一篇关于大语言模型的研究论文，由 A 等90位研究者共同完成。研究目标本研究的主要目标包括： QuEST: 首个支持1比特权重和激活值训练的稳定量化感知训练方法 Trust梯度估计器，最小化量化梯度与真实全精度梯度之间的误差 Hadamard归一化和MSE最优拟合，实现精确的分布量化研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述QuEST通过两项关键创新实现稳定的1比特训练：(1) 使用Hadamard归一化改善权重/激活值分布的条件，然...

自适应思维图：统一链式、树式和图式结构的测试时自适应推理

Posted on 二月 7, 2025

Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures ArXiv ID: 2502.05078作者: Tushar Pandey, Ara Ghukasyan, Oktay Goktas, Santosh Kumar Radha发布日期: 2025 年 2 月 7 日分类: cs.AI, cs.CL, cs.LG 摘要Adaptive Graph of Thoughts (AGoT) 是一个动态的、基于图的推理框架，在测试时增强大语言模型 (LLM) 的推理能力。该框架递归地将复杂查询分解为结构化的子问题，形成一个由相互依赖的推理步骤组成的动态有向无环图 (DAG)。与传统的 Chain-of-Thought、Tree of Though...

自适应思维图: 统一链、树和图结构的测试时自适应推理

Posted on 二月 7, 2025

自适应思维图: 统一链、树和图结构的测试时自适应推理论文概述本文是一篇关于推理能力的研究论文，由 Tushar Pandey 等4位研究者共同完成。研究目标本研究的主要目标包括：引入自适应思维图（AGoT），一个用于测试时推理的动态图基推理框架将复杂查询递归分解为结构化子问题，形成有向无环图（DAG）统一思维链、思维树和思维图范式的优势研究背景当前挑战性能优化：如何提升大型语言模型 (LLM)在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大型语言模型 (LLM)的性能和实用性。核心方法方法概述AGoT通过测试时图构建采用动态自适应方法进行大型语言模型 (LLM)推理：(1) 递归分解 - 复杂查...

自监督提示优化（SPO）：无需外部参考的成本高效框架

Posted on 二月 7, 2025

自监督提示优化（SPO）：无需外部参考的成本高效框架论文概述本文是一篇关于提示工程的框架设计论文，由 J 等110位研究者共同完成。研究目标本研究的主要目标包括： SPO: 无需外部参考（真实标签/人类反馈）的自监督提示优化框架成对输出比较方法，直接从大语言模型输出中获取评估信号大语言模型评估器，通过输出比较评估任务需求的遵从度研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述SPO通过两阶段过程运作，无需外部参考：(1) 选择阶段使用大语言模型评估器评估的成对输出比较来识别优秀提示 - 关键洞察是提示质量...

自监督提示优化

Posted on 二月 7, 2025

自监督提示优化论文概述本文是一篇关于提示工程的优化方法论文，由 Jinyu Xiang 等8位研究者共同完成。自监督提示优化（Self-Supervised Prompt Optimization, SPO）解决了现有提示优化方法的一个关键局限：严重依赖外部参考（真值或人类反馈），而这些在实际场景中通常不可用或成本高昂。SPO 引入了一个成本高效的框架，可以为封闭式和开放式任务发现有效的提示，而无需外部参考。通过观察到提示质量直接体现在大语言模型输出中，以及大语言模型能够有效评估任务需求遵循情况，SPO 纯粹从输出比较中获得优化信号。该方法在使用最优方法成本的仅1.1%-5.6%的情况下，实现了可比或更优的结果，并且只需要少至三个样本。研究目标本研究的主要目标包括：引入无参考提示优化，消除对真值或人类反馈的需求实现极高的成本效率：仅为现有方法成本的1.1%-5.6% 适用于...

基于潜在推理的测试时计算扩展：循环深度方法

Posted on 二月 7, 2025

论文概述这项研究提出了一种全新的语言模型架构，通过在潜在空间中进行隐式推理来实现测试时计算的扩展。与传统方法通过生成更多token来扩展推理能力不同，该模型采用了循环块迭代的创新设计，能够在测试时展开至任意深度，从而在不增加输出长度的情况下显著提升推理能力。研究团队将概念验证模型扩展到35亿参数，在计算效率上达到相当于500亿参数传统模型的水平，且无需专门训练数据，可在小上下文窗口下工作。论文信息：发布时间：2025-02-07 作者：Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein 研究方向：提示工程 (Prompt Engineerin...

揭秘大语言模型中的长链思维推理

Posted on 二月 5, 2025

Demystifying Long Chain-of-Thought Reasoning in LLMs ArXiv ID: 2502.03373作者: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue发布日期: 2025-02-05 摘要扩展推理计算能够增强大语言模型(LLM)的推理能力,长链思维(CoT)使回溯和错误纠正等策略成为可能。本文系统研究了长链思维推理的机制,揭示了四个主要发现:(1)监督微调(SFT)简化训练并缓解强化学习中的奖励攻击问题;(2)推理能力随着训练和推理阶段计算量的增加而涌现;(3)扩展可验证的奖励信号对于强化学习解锁长链思维推理至关重要;(4)错误纠正等核心能力存在于基础模型中,但需要适当的训练才能激活。我们的发现为训练长形式推理的大语言模型提供了洞察,并展示了训练和推理时的计算...

ChunkKV：基于语义块的KV缓存压缩技术

Posted on 二月 1, 2025

ChunkKV：基于语义块的KV缓存压缩技术 ArXiv ID: 2502.00299作者: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Yue Liu, Bo Li, Xuming Hu, Xiaowen Chu机构: NVIDIA, Hong Kong University of Science and Technology发布日期: 2025-02-01会议: NeurIPS 2025 摘要传统KV缓存压缩方法以单个token为单位进行重要性评估和淘汰，忽略了语言的语义连贯性。ChunkKV创新性地将语义块（semantic chunks）作为压缩的基本单元，保持完整的语言结构和上下文完整性。系统通过三个核心技术实现高效压缩：语义块识别：基于句法分析和语义边界检测，将token序列划分为有意义的语义单元块级重要性评估...

Phi-4-mini-instruct 3.8B - 微软大型语言模型

Posted on 二月 1, 2025

Phi-4-mini-instruct 3.8B - 微软大型语言模型模型概述Phi-4-mini-instruct 3.8B 是微软公司于 2025 年 2月发布的大型语言模型，拥有 3.8B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Phi-4-mini-instruct 3.8B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Competitive with 7-8B models。核心特性 3.8B 参数规模：采用大规模参数设计，在性能和效率...

Humanity's Last Exam: AI能力的终极衡量标准

Posted on 一月 31, 2025

核心观点：当MMLU被刷到90%以上、几乎失去区分度时，我们需要一个新的天花板。Humanity’s Last Exam用全球1000名专家贡献的2500道难题，重新为AI能力划定了一条远未被触及的上限。为什么需要”最后的考试”MMLU长期以来是衡量LLM知识广度的标准基准。但到2024年，顶尖模型已经在MMLU上突破90%准确率。当所有选手都能考90分以上时，这个考试就失去了区分度。同样的问题正在蔓延到其他基准：ARC、HellaSwag、WinoGrande……这些曾经具有挑战性的测试，现在对于最强的模型来说已经不构成障碍。 Humanity’s Last Exam（HLE）的设计目标很明确：创建一个当前AI无法通过的测试。不是为了打击信心，而是为了在能力快速增长的时期提供一个可靠的测量工具。 2500道”AI回答不了”的问题HLE的构建过程本身就很有说服力：全球招募专家...

RSD: 奖励引导的推测解码实现高效 LLM 推理

Posted on 一月 31, 2025

RSD: 奖励引导的推测解码实现高效 LLM 推理 ArXiv ID: 2501.19324作者: Baohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong发布日期: 2025-01-31分类: inference, speculative-decoding, reasoning 摘要论文提出 Reward-Guided Speculative Decoding (RSD)，一种结合轻量级 draft 模型和强大 target 模型的高效推理框架。不同于传统推测解码严格保证无偏性，RSD 引入可控偏置来优先选择高奖励输出。通过 process reward model 评估中间解码步骤，动态决定何时调用 target 模型，实现计算...

s1: 简单的测试时扩展

Posted on 一月 31, 2025

s1: 简单的测试时扩展 ArXiv ID: 2501.19393作者: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto机构: Stanford University, University of Washington, Hugging Face发布日期: 2025-01-31模型: s1-32B (基于 Qwen2.5-32B-Instruct) 摘要OpenAI o1 等推理模型展示了测试时计算扩展的巨大潜力，但其训练方法（大规模强化学习）成本高昂且不透明。本文证明，仅用 1000 个精选问题进行监督微调，...

Mistral Small 24B Instruct 2501 - Mistral AI 大型语言模型

Posted on 一月 28, 2025

Mistral Small 24B Instruct 2501 - Mistral AI 大型语言模型模型概述Mistral Small 24B Instruct 2501 是 Mistral AI 公司于 2025 年 1月发布的大型语言模型，拥有 24B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral Small 24B Instruct 2501 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 765.1K，获得了 946 个点赞，显示出强大的社区影响力和用户认可度。核心特性 24B 参数规模：采用大规模参数设计，...

Janus-Pro-7B - DeepSeek 大型语言模型

Posted on 一月 26, 2025

Janus-Pro-7B - DeepSeek 大型语言模型模型概述Janus-Pro-7B 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型，拥有 7B 参数规模。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Janus-Pro-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 78.7K，获得了 3,508 个点赞，显示出强大的社区影响力和用户认可度。 Janus-Pro-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得...

图检索增强生成综述：定制化大语言模型的图检索增强生成

Posted on 一月 21, 2025

图检索增强生成综述：定制化大语言模型的图检索增强生成论文概述本文是一篇关于图检索增强生成的综述性研究论文，由 Qinggang Zhang 等8位研究者共同完成。研究目标本研究的主要目标包括：提供图检索增强生成（Graph-based Retrieval-Augmented Generation）范式的综合性综述识别传统平面文本检索增强生成系统的三个关键局限系统性地分析三个关键图检索增强生成创新：图结构化知识表示、高效的图检索、结构感知的知识集成研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述该综述系统性地分析了...

DeepSeek R1：首个开源推理大模型

Posted on 一月 20, 2025

DeepSeek R1：首个开源推理大模型发布日期: 2025-01-20发布机构: DeepSeek AI模型类型: 推理大模型许可证: MIT License技术报告: arXiv:2501.12948 概述DeepSeek R1 是由 DeepSeek AI 于 2025 年 1 月 20 日发布的首个完全开源的推理大模型，采用纯强化学习 (RL) 训练方法，无需监督微调即可实现与 OpenAI o1 相当的推理能力。该模型采用混合专家 (MoE) 架构，总参数量 671B，每次推理激活 37B 参数，支持 128K 上下文长度。这是开源 AI 社区的一个重要里程碑——首次有开源模型在推理能力上达到商业闭源模型的同等水平。核心创新DeepSeek-R1-Zero: 纯强化学习的突破DeepSeek R1 的最大创新在于其训练方法论。团队首先训练了 DeepSeek-R1...

DeepSeek-R1 - DeepSeek 大型语言模型

Posted on 一月 20, 2025

DeepSeek-R1 - DeepSeek 大型语言模型模型概述DeepSeek-R1 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-R1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 548.2K，获得了 12,773 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-R1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特...

SmolLM3 3B - Hugging Face 大型语言模型

Posted on 一月 15, 2025

SmolLM3 3B - Hugging Face 大型语言模型模型概述SmolLM3 3B 是 Hugging Face 公司于 2025 年 1月发布的大型语言模型，拥有 3B (3.08B) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 SmolLM3 3B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 SmolLM3 3B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型...

数学推理中开发过程奖励模型的经验教训

Posted on 一月 13, 2025

The Lessons of Developing Process Reward Models in Mathematical 推理论文概述本文是一篇关于推理能力的研究论文，由 Zhenru Zhang 等9位研究者共同完成。 This work from Alibaba provides critical insights into developing effective Process Reward Models (过程奖励模型s) for mathematical 推理 in 大型语言模型 (LLM)s. Through extensive experiments, it identifies key challenges in data annotation and evaluation, demonstrating that Monte Carlo estimation ...

基于图的检索增强生成(GraphRAG)

Posted on 一月 8, 2025

Retrieval-Augmented Generation with Graphs (GraphRAG) ArXiv ID: 2501.00309作者: Haoyu Han, Yu Wang, Harry Shomer, and 15 other authors发布日期: 2025-01-08 摘要检索增强生成(RAG)已成为通过整合外部知识增强大语言模型的强大范式。传统RAG系统依赖于从非结构化文本进行基于向量的检索,而GraphRAG利用图结构数据通过节点和边编码大规模异构和关系信息。本综述对GraphRAG进行了全面考察,提出了一个整体框架,定义了包括查询处理器、检索器、组织器、生成器和数据源在内的关键组件。我们系统地回顾了针对不同领域定制的技术,并讨论了图构建、检索效率和与大语言模型集成方面的挑战。通过考察医疗、金融和电子商务等专业领域的实现,我们突出了图结构在捕获复杂关...

METAGENE-1 - Meta 大型语言模型

Posted on 一月 6, 2025

METAGENE-1 - Meta 大型语言模型模型概述METAGENE-1 是 Meta 公司于 2025 年 1月发布的大型语言模型，拥有 7B 参数规模。 METAGENE-1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 METAGENE-1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 7B parameters for metagenomic analysis：提供强大的...

Claude 3.5 Sonnet在SWE-bench Verified上的突破：最小化脚手架的Agent设计

Posted on 一月 6, 2025

Claude 3.5 Sonnet在SWE-bench Verified上的突破：最小化脚手架的Agent设计来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025-01-06分类: ai-agents 概述Anthropic详细介绍了升级版Claude 3.5 Sonnet在SWE-bench Verified基准上达到49%的技术架构。文章的核心哲学是”尽可能多地将控制权交给语言模型本身，保持脚手架最小化”。从Claude 3 Opus的22%到Claude 3.5 Sonnet新版的49%，这一飞跃不仅展示了模型能力的进步，更揭示了工具接口设计在Agent系统中的关键作用。核心内容SWE-bench评估框架SWE-bench是一个衡量模型解决真实软件工程任务能力的AI评估基准。评估流程：...

构建高效 AI Agent 的完整指南

Posted on 一月 6, 2025

构建高效 AI Agent 的完整指南来源: Anthropic Engineering Blog作者: Erik Schluntz 和 Barry Zhang发布日期: 2024 年 12 月 19 日类型: 技术指南阅读时间: 约 15 分钟概述本文基于 Anthropic 与数十个跨行业团队合作构建 LLM Agent 的实践经验。研究发现，最成功的实现 consistently 采用简单、可组合的模式，而非复杂框架。文章详细介绍了 AI Agent 系统的核心构建模块、工作流模式和自主 Agent 实现，为开发者提供构建高效 Agent 的实用建议和最佳实践。核心发现包括：简单模式优于复杂框架工作流与 Agent 的架构差异何时使用/不使用 Agent 的决策框架五大核心工作流模式详解实际生产中的两大应用场景什么是 Agent？“Agent...

AI 系统中的上下文检索技术

Posted on 一月 6, 2025

AI 系统中的上下文检索技术来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2024 年 9 月 19 日类型: 技术发布阅读时间: 约 10 分钟概述本文介绍了一种名为”上下文检索”（Contextual Retrieval）的革命性方法，可显著提升 AI 模型的知识检索能力。该方法使用两种子技术——上下文嵌入（Contextual Embeddings）和上下文 BM25——将检索失败率降低 49%，结合重排序后可降低 67%。这对于需要访问特定领域知识的 AI 应用（如客户服务聊天机器人、法律分析助手等）具有重大意义，直接转化为下游任务性能的显著提升。为什么 AI 需要上下文知识要使 AI 模型在特定上下文中发挥作用，它通常需要了解背景知识。例如：客户服务聊天机器人：需要了解特定业...

FlashInfer：大语言模型推理服务的高效可定制注意力引擎

Posted on 一月 2, 2025

FlashInfer：大语言模型推理服务的高效可定制注意力引擎 ArXiv ID: 2501.01005作者: Zihao Ye, Lequn Chen, Ruihang Lai, Wuwei Lin, Yineng Zhang, Stephanie Wang, Tianqi Chen, Baris Kasikci, Vinod Grover, Arvind Krishnamurthy, Luis Ceze机构: University of Washington, NVIDIA, OctoAI发布日期: 2025-01-02 摘要大语言模型(LLM)推理服务面临着关键的性能挑战：不同请求的KV缓存存储模式高度异构，导致内存访问效率低下。FlashInfer是一个创新的注意力计算引擎，专为解决这一挑战而设计。系统采用统一的块稀疏行(BSR)格式来管理KV缓存，使得系统能够高效处理各...

FlashInfer：高效可定制的LLM推理Attention引擎

Posted on 一月 2, 2025

AbstractTransformer架构及其核心的注意力机制是大语言模型（LLM）的基础。随着模型规模不断扩大，高效的GPU注意力内核对于实现高吞吐量和低延迟推理至关重要。多样化的LLM应用需求催生了对灵活且高性能注意力解决方案的需求。本文介绍FlashInfer：一个为LLM服务设计的可定制高效注意力引擎。FlashInfer通过块稀疏格式和可组合格式解决KV缓存存储的异构性问题，优化内存访问并减少冗余。它还提供可定制的注意力模板，通过即时编译（JIT）适应各种场景。此外，FlashInfer的负载均衡调度算法能够适应用户请求的动态性，同时保持与CUDAGraph的兼容性。FlashInfer已集成到SGLang、vLLM和MLC-Engine等主流LLM服务框架中。 Key Contributions 块稀疏格式和可组合格式：创新性地解决KV缓存存储异构性问题，优化内存访问模式...

基于图结构的检索增强生成综述

Posted on 十二月 31, 2024

基于图结构的检索增强生成综述 ArXiv ID: 2501.00309作者: Haoyu Han, Yu Wang, Harry Shomer, Kai Guo, Jiayuan Ding…发布日期: 2024-12-31分类: context-engineering评分: 4.5/5.0 摘要检索增强生成（RAG）技术通过从外部数据源检索相关信息来增强大语言模型（LLM）的能力，使其能够提供更准确、更新的知识。本综述论文系统地研究了基于图结构数据的RAG技术（GraphRAG），提出了一个包含查询处理器、检索器、组织器、生成器和数据源五大组件的全面框架。该综述覆盖了知识图谱、文档图、科学图谱、社交图等10个不同领域的GraphRAG技术，为研究者提供了跨学科的研究视角。 📊 GraphRAG：图结构时代的检索增强生成全景图在大语言模型（LLM）快速发展的今天，如何让A...

ICLR: In-Context Learning of Representations - 上下文如何重塑大模型的语义空间

Posted on 十二月 29, 2024

论文信息标题: ICLR: In-Context Learning of Representations 作者: Core Francisco Park, Andrew Lee, Ekdeep Singh Lubana, Yongyi Yang, Maya Okawa 机构: Harvard University, Stanford University 发表: ICLR 2025 (Poster) 链接: arXiv | PDF 核心贡献本文揭示了大语言模型一个惊人的能力：当提供足够的上下文示例时，模型能够突然重组其内部表征，从预训练时学到的语义结构转向上下文定义的全新语义。通过精巧设计的图追踪任务，作者发现这种表征重组具有突现性（emergent），并提出了基于能量最小化的理论解释。这项ICLR 2025的研究为理解in-context learning的内部机制提供了新...

DeepSeek-V3 - DeepSeek 大型语言模型

Posted on 十二月 25, 2024

DeepSeek-V3 - DeepSeek 大型语言模型模型概述DeepSeek-V3 是 DeepSeek 公司于 2024 年 12月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 247.1K，获得了 3,977 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，GPT-4 class capabilities。 DeepSeek-V3 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客...

FineMath: HuggingFace 打造的 50B Token 数学预训练语料

Posted on 十二月 20, 2024

FineMath: HuggingFace 打造的 50B Token 数学预训练语料数据集链接: HuggingFace创建机构: HuggingFace TextBook Team许可证: ODC-By 1.0规模: FineMath-3+ (34B token) + FineMath-4+ (9.6B token)质量评分: 4.6/5.0 核心观点数学能力已经成为衡量 LLM 的核心指标，但绝大多数开源数学数据集质量参差不齐。FineMath 用一套精细化的质量评分管道，从 Common Crawl 的噪声海洋中提取出了目前最干净的数学预训练语料。数学数据为什么这么难搞训练一个数学能力强的 LLM，最大的瓶颈不是算力，而是数据。互联网上的数学内容分布极不均匀：高质量的数学推导散落在教育网站、论坛、教材中，混杂着大量低质量的作业抄袭、错误解答和纯公式堆砌。更麻...

Gemini 2.0 Flash - 谷歌大型语言模型

Posted on 十二月 19, 2024

Gemini 2.0 Flash - 谷歌大型语言模型模型概述Gemini 2.0 Flash 是谷歌公司于 2024 年 12月发布的大型语言模型。该模型支持商业使用，为企业部署提供了法律保障。 Gemini 2.0 Flash 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Native multimodal input：images, video, audio, and text Native multimodal output：text, images, and steerable TTS audio Designed for agentic AI ...

Claude 在 SWE-Bench 基准测试中的性能表现

Posted on 十二月 17, 2024

Claude 在 SWE-Bench 基准测试中的性能表现来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2024 年 12 月 17 日类型: 技术评估报告阅读时间: 约 12 分钟概述本文详细分析了 Claude 系列模型在 SWE-Bench 代码修复基准测试中的性能表现。SWE-Bench 是一个评估 AI 模型解决真实 GitHub 问题能力的基准测试，要求模型阅读问题描述、理解代码库、生成修复补丁。测试结果显示，Claude Sonnet 在优化后的表现达到了 73.5% 的解决率，相比基础版本提升了 25 个百分点。文章还深入分析了错误模式、改进策略和对 AI 辅助编程未来的启示。 SWE-Bench 基准介绍什么是 SWE-BenchSWE-Bench (Software En...

GReaTer: 推理梯度让小型语言模型成为强大的提示优化器

Posted on 十二月 12, 2024

GReaTer: 推理梯度让小型语言模型成为强大的提示优化器论文概述本文是一篇关于提示工程的研究论文，由 S 等85位研究者共同完成。研究目标本研究的主要目标包括： GReaTer：使用任务损失梯度的新型基于梯度的提示优化方法轻量级开源模型的自优化能力，无需依赖大型大语言模型直接融合超越文本反馈的细粒度梯度信息研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述GReaTer 利用任务特定的损失梯度来指导提示优化，脱离了纯文本方法。关键创新在于计算任务性能相对于提示表示的梯度，实现直接的优化信号。这使得轻量级模型能够自...