Microsoft MAI-Voice-1 - 微软 大型语言模型

Microsoft MAI-Voice-1 - 微软 大型语言模型模型概述Microsoft MAI-Voice-1 是 微软 公司于 2025 年 8月发布的大型语言模型。 该模型支持商业使用,为企业部署提供了法律保障。 Microsoft MAI-Voice-1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 Ultra-fast generation:1 minute of audio in <1 second on single GPU Highly expressive and natural speech synthesis:提供强大的AI能力支持...

阅读全文

Youtu-GraphRAG: 用于图检索增强复杂推理的垂直统一智能体

Youtu-GraphRAG: 用于图检索增强复杂推理的垂直统一智能体论文概述本文是一篇关于图检索增强生成的研究论文,由 Junnan Dong 等8位研究者共同完成。 研究目标本研究的主要目标包括: 提出垂直统一智能体范式,整合整个图检索增强生成框架 引入种子图模式并持续扩展以实现领域可扩展性 开发双重感知社区检测,融合结构拓扑和子图语义 研究背景当前挑战 性能优化:如何提升大型语言模型 (LLM)在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大型语言模型 (LLM)的性能和实用性。 核心方法方法概述Youtu-GraphRAG采用垂直统一方法,包含四个关键组件:(1) 种子图模式 - 通过目标实体...

阅读全文

Memory-R1: 通过强化学习增强大语言模型Agent的记忆管理能力

论文概述Memory-R1是一个创新性的强化学习框架,旨在解决大语言模型的无状态特性所带来的记忆局限问题。该框架通过引入两个专门化的智能体来实现自适应的外部记忆管理:记忆管理器(Memory Manager)负责学习结构化的记忆操作(ADD、UPDATE、DELETE),而回答智能体(Answer Agent)则负责预选和推理相关的记忆条目。Memory-R1的突破性在于使用结果驱动的强化学习技术,在极少监督的情况下实现高效的记忆管理。 论文信息: 发布时间:2025-08-27 作者:Sikuan Yan, Xiufeng Yang, Zuchao Huang, Ercong Nie, Zifeng Ding, Zonggen Li, Xiaowen Ma, Kristian Kersting, Jeff Z. Pan, Hinrich Schütze, Volker Tresp...

阅读全文

增强代理长期记忆的多重记忆系统

增强代理长期记忆的多重记忆系统论文信息 标题: Multiple Memory Systems for Enhancing the Long-term Memory of Agent 作者: Gaoke Zhang, Bo Wang, Yunlong Ma, Dongming Zhao, Zifei Yu 发布日期: 2025-08-21 ArXiv链接: https://arxiv.org/abs/2508.15294 核心概述由大型语言模型驱动的代理取得了令人印象深刻的成果,但有效处理交互过程中产生的大量历史数据仍然是一个挑战。当前的方法是为代理设计记忆模块来处理这些数据。然而,现有方法如MemoryBank和A-MEM存在记忆内容质量差的问题,影响了检索性能和响应质量。 本文提出了多重记忆系统(MMS)架构,灵感来自人类认知科学的多重记忆理论。系统包含三个独立但协同工作的记忆...

阅读全文

NVIDIA Nemotron Nano 9B v2 - 英伟达 大型语言模型

NVIDIA Nemotron Nano 9B v2 - 英伟达 大型语言模型模型概述NVIDIA Nemotron Nano 9B v2 是 英伟达 公司于 2025 年 8月发布的大型语言模型,拥有 9B (pruned from 12B base) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 NVIDIA Nemotron Nano 9B v2 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 NVIDIA Nemotron Nano 9B v2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型...

阅读全文

Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型

Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型模型概述Intern-S1 是 InternLM (Shanghai AI Lab) 公司于 2025 年 8月发布的大型语言模型,拥有 235B total (28B activated, MoE) + 6B vision encoder 参数规模。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Intern-S1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 Intern-S1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

阅读全文

大语言模型的链式思维推理是海市蜃楼吗?数据分布视角

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens ArXiv ID: 2508.01191作者: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu发布日期: 2025-08-13 摘要链式思维(CoT)提示已成为增强大语言模型推理能力的强大技术。然而,一个根本问题仍然存在:CoT代表真正的推理能力,还是仅仅是从训练数据中学到的复杂模式匹配?本文从数据分布视角研究CoT推理,系统考察大语言模型是否能将CoT推理泛化到训练分布之外。我们开发了DataAlchemy,一个用于跨三个维度(任务复杂度、推理链长度、输出格式)训练和探测大语言模型...

阅读全文

LLM的链式思维推理是海市蜃楼吗?从数据分布视角的分析

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens ArXiv ID: 2508.01191作者: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu发布日期: 2025年8月2日最后更新: 2025年8月13日 摘要链式思维(Chain-of-Thought, CoT)提示已被证明能够提升大语言模型(LLM)的性能。然而,本文质疑CoT推理是否真的如表面所示那样深入,还是仅仅是一种表面现象。通过数据分布的视角,研究者开发了”DataAlchemy”研究环境来调查CoT推理。研究揭示,CoT推理实际上是”脆弱的”,高度依赖于训练数据的分布...

阅读全文

Victor WebSearch MCP - Enterprise-Grade Web Search Service / 高质量 Web 搜索服务

Victor WebSearch MCP - Enterprise-Grade Web Search Service Published: 2025-08-12 | Author: Victor Mustar | Platform: Hugging Face Space | Likes: 133 ⭐ English DocumentationOverviewVictor WebSearch MCP is a production-ready web search server that empowers AI assistants with real-time internet access capabilities. Built on the Gradio MCP framework and powered by Serper API, it provides high-qua...

阅读全文

无需预构建图的RAG:自适应推理结构的检索增强生成

无需预构建图的RAG:自适应推理结构的检索增强生成论文信息 标题: You Don’t Need Pre-built Graphs for RAG: Retrieval Augmented Generation with Adaptive Reasoning Structures 作者: Shengyuan Chen, Chuang Zhou, Zheng Yuan, Qinggang Zhang, Zeyang Cui, Hao Chen, Yilin Xiao, Jiannong Cao, Xiao Huang 发布日期: 2025-08-08 ArXiv链接: https://arxiv.org/abs/2508.06105 核心概述大型语言模型(LLM)在处理超出其知识和感知范围的问题时,常常会产生幻觉,生成事实错误的陈述。检索增强生成(RAG)通过从知识库检索查询相关的上...

阅读全文

GPT-5 - OpenAI 大型语言模型

GPT-5 - OpenAI 大型语言模型模型概述GPT-5 是 OpenAI 公司于 2025 年 8月发布的大型语言模型。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 GPT-5 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 Unified system:smart efficient model + GPT-5 thinking reasoning model + real-time router State-of-the-art across all domains:coding, math, writing, he...

阅读全文

Google 发布 Gemini 2.5 Deep Think: 并行思考推理模型,编程能力超越竞品

概述2025年8月1日,Google 正式发布了 Gemini 2.5 Deep Think,这是一个增强推理模式,使用前沿的并行思考和强化学习技术,显著提升了 Gemini 在解决复杂问题方面的能力。该模型在 5月20日的 Google I/O 大会上首次预览,并在两个多月后向 Google AI Ultra 订阅用户正式开放。 Gemini 2.5 Deep Think 的核心创新在于其「并行思考」方法,允许模型同时探索多个想法,在给出答案前进行修订和组合。这种方法使其在编程竞赛(LiveCodeBench V6: 87.6%)和数学奥林匹克(IMO 2025: Bronze 级别 60.7%)等基准测试中取得了业界领先的成绩。 核心技术创新并行思考机制Gemini 2.5 Deep Think 最大的突破在于其独特的并行思考方法: 同时探索多个假设: 模型可以并行探...

阅读全文

失败是成功之母:利用负样本增强少样本上下文学习

失败是成功之母:利用负样本增强少样本上下文学习论文信息 标题: Failures Are the Stepping Stones to Success: Enhancing Few-Shot In-Context Learning by Leveraging Negative Samples 作者: Yunhao Liang, Ruixuan Ying, Takuya Taniguchi, Zhe Cui 发布日期: 2025-07-31 ArXiv链接: https://arxiv.org/abs/2507.23211 核心概述大型语言模型展现出强大的少样本上下文学习(ICL)能力,但性能对提供的示例高度敏感。最近的研究集中在为每个输入查询检索相应的示例,这不仅提高了学习过程的效率和可扩展性,还缓解了手动示例选择中的固有偏差。然而,这些研究主要强调利用正样本,而忽略了负样本在上下...

阅读全文

Graph-R1: 基于端到端强化学习的智能体式图检索增强生成框架

Graph-R1: 基于端到端强化学习的智能体式图检索增强生成框架论文概述本文是一篇关于图检索增强生成的框架设计论文,由 Haoran Luo 等8位研究者共同完成。 研究目标本研究的主要目标包括: 提出Graph-R1,一个使用端到端强化学习的智能体式图检索增强生成框架 引入轻量级知识超图构建以降低构建成本 将检索建模为多轮智能体-环境交互,而非固定的一次性检索 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述Graph-R1采用三管齐下的方法:(1) 轻量级超图构建 - 高效构建捕捉n元关系的知识超图,同时最小化计算开...

阅读全文

MegatronApp: 分布式大语言模型训练的高效全面管理工具链

MegatronApp: 训练千亿模型时,你最需要的不是算力,而是这个工具链核心观点:Megatron-LM是业界最强的分布式训练框架之一,但它只解决了”怎么训”的问题,没解决”怎么管”的问题。MegatronApp用四个正交模块补齐了生产环境最缺的那块拼图:性能追踪、资源调度、流水线优化、训练可解释性。 为什么Megatron需要一个”管家”训练175B参数的GPT-3级别模型,你需要数百张GPU协同工作数周甚至数月。这时候问题来了: 哪张GPU在偷懒?某个节点性能下降5%,但1000张GPU的集群里你找不到它,训练效率就悄悄掉了20% 资源分配不合理?前向传播吃计算,反向传播吃带宽,但你的调度器一视同仁,A100的HBM带宽优势被浪费 流水线调度僵化?1F1B(one-forward-one-backward)是固定策略,但不同workload下最优策略不同,内存峰值和吞吐量的...

阅读全文

Promptomatix: 面向大型语言模型的自动提示优化框架

Promptomatix: 面向大型语言模型的自动提示优化框架论文概述本文是一篇关于提示工程的框架设计论文,由 Rithesh Murthy 等8位研究者共同完成。 Promptomatix是一个自动提示优化框架,能够将自然语言任务描述转换为高质量提示,无需手动调优或领域专业知识。该系统支持轻量级元提示优化器和DSPy驱动的编译器,具有模块化设计便于未来扩展。系统会分析用户意图,生成合成训练数据,选择合适的提示策略,并使用成本感知目标迭代优化提示,在减少提示长度和计算开销的同时实现竞争力或更优的性能。 研究目标本研究的主要目标包括: 引入Promptomatix框架,可从自然语言描述自动优化提示 支持基于元提示和DSPy驱动的两种优化方法 实现成本感知优化目标,平衡性能和效率 研究背景当前挑战 提示设计复杂:如何设计有效的提示来引导模型生成高质量输出 优化困难:手动优化提示既耗时...

阅读全文

DPO全景图:从理论到实践的完整指南

DPO全景图:从理论到实践的完整指南 ArXiv ID: 2410.15595作者: Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu机构: Zhejiang University发布日期: 2024-10-21最后更新: 2025-07-14 摘要在大语言模型(LLM)的训练旅程中,让模型”听懂人话”一直是个难题。传统的RLHF(基于人类反馈的强化学习)虽然效果不错,但就像用大炮打蚊子——复杂、昂贵、还容易翻车。你需要训练一个奖励模型(Reward Model),然后用PPO等强化学习算法反复迭代,整个过程既耗时又吃资源。 DPO(Direct Pref...

阅读全文

xAI 发布 Grok 4: 首个在「人类最后考试」中突破 50%% 的 AI 模型

概述2025年7月10日,埃隆·马斯克旗下的 xAI 公司发布了其旗舰 AI 模型 Grok 4,这是一个在多个前沿基准测试中创造新纪录的突破性模型。Grok 4 成为首个在「人类最后考试」(Humanity’s Last Exam)中突破 50% 准确率的 AI 模型,标志着人工智能在解决博士级别复杂问题方面迈出了历史性的一步。 核心突破「人类最后考试」历史性突破「人类最后考试」是一个包含 2,500 道精心策划的博士级别问题的基准测试,涵盖数学、物理、化学、语言学和工程学等领域。这个基准被设计为「同类中最后一个封闭式学术基准」,旨在测试 AI 在人类知识巅峰领域的能力。 Grok 4 Heavy 的表现: Humanity’s Last Exam: 50.7%(首个突破 50% 的模型) 带工具使用: 44.4%(使用多个 AI 智能体协作) 相比之下,竞争对手的表现: G...

阅读全文

Voxtral Small 24B 2507 - Mistral AI 大型语言模型

Voxtral Small 24B 2507 - Mistral AI 大型语言模型模型概述Voxtral Small 24B 2507 是 Mistral AI 公司于 2025 年 7月发布的大型语言模型,拥有 24B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Voxtral Small 24B 2507 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 40.0K,获得了 412 个点赞,显示出强大的社区影响力和用户认可度。 Voxtral Small 24B 2507 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布...

阅读全文

Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型

Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型模型概述Mistral Small 3.2 24B Instruct 2506 是 Mistral AI 公司于 2025 年 6月发布的大型语言模型,拥有 24B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral Small 3.2 24B Instruct 2506 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 726.8K,获得了 476 个点赞,显示出强大的社区影响力和用户认可度。 核心特性 24B 参数规...

阅读全文

Lingshu-7B - 阿里巴巴 大型语言模型

Lingshu-7B - 阿里巴巴 大型语言模型模型概述Lingshu-7B 是 阿里巴巴 公司于 2025 年 6月发布的大型语言模型,拥有 7B (also 32B variant available) 参数规模。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 Lingshu-7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 Lingshu-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B (also ...

阅读全文

Consilium MCP Server - 多AI专家共识决策平台

Consilium MCP Server - 多AI专家共识决策平台简介Consilium MCP Server 是一个创新的多AI专家共识平台,通过集成多个领先的AI模型(如 Mistral、SambaNova)提供协作式AI推理和决策能力。该服务器采用专家系统架构,让多个AI模型针对同一问题提供不同视角的分析,最终形成综合性的共识决策,为复杂问题提供更全面、更可靠的AI辅助决策方案。 功能特性 多AI模型协作 - 集成 Mistral、SambaNova 等多个先进AI模型 共识决策引擎 - 聚合多个AI专家的意见,形成综合决策 分布式推理 - 并行调用多个模型,提高决策效率 专家意见聚合 - 智能合并不同AI模型的观点和建议 Gradio界面 - 提供友好的交互界面和可视化结果 MCP标准集成 - 完全兼容 Model Context Protocol 规范 支持的工具基于项...

阅读全文

何时在检索增强生成中使用图: 图检索增强生成的综合性分析

何时在检索增强生成中使用图: 图检索增强生成的综合性分析论文概述本文是一篇关于图检索增强生成的研究论文,由 Zhishang Xiang 等7位研究者共同完成。 研究目标本研究的主要目标包括: 解决关键问题:在现实世界场景中图检索增强生成何时优于普通检索增强生成 引入GraphRAG-Bench,用于评估图检索增强生成系统的综合基准测试 提供对整个图检索增强生成流程的系统性评估:图构建、检索和生成 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述本文引入GraphRAG-Bench,这是一个包含多个难度级别和类型任务的综合...

阅读全文

Universal File Converter MCP Server - 专业级多格式文件转换服务

Universal File Converter MCP Server Platform: Hugging Face Space (Gradio MCP)License: Apache 2.0Author: Agents-MCP-HackathonPublished: 2025-06-05Stars/Likes: 24Quality Score: 3.85/5.0 概述 | Overview中文Universal File Converter 是一个基于 Gradio MCP 框架的通用文件格式转换服务器,支持 30+ 种文件格式之间的自由转换。该服务集成了专业的 ConvertAPI,为 AI 助手提供了强大的文件处理能力,涵盖文档、图片、表格、演示文稿和多媒体文件的全方位转换需求。 作为 Agents MCP Hackathon 的参赛项目,该服务器通过 H...

阅读全文

我应该使用哪种提示技术?软件工程任务提示技术实证研究

我应该使用哪种提示技术?软件工程任务提示技术实证研究论文概述本文是一篇关于提示工程的实证研究论文,由 E. G. Santana Jr 等8位研究者共同完成。 This 综合性 实证 study 系统性ally evaluates 14 established 提示工程 techniques across 10 软件工程 tasks using 4 大语言模型 models. The research reveals which prompting techniques are most effective for different types of SE tasks, providing practical guidance on technique selection based on task complexity, 推理 requirements, and contextu...

阅读全文

Web Scraper & Sitemap Generator - 网页抓取和站点地图生成

Web Scraper & Sitemap Generator Three-in-One Web Analysis Tool: A comprehensive web scraping and sitemap generation solution that combines content extraction, site structure mapping, and link organization. Features dual-mode operation with both a user-friendly Web UI (port 7861) and an MCP Server API (port 7862), making it perfect for content migration, SEO audits, and AI training data prep...

阅读全文

Gemma 3n E4B IT - 谷歌 大型语言模型

Gemma 3n E4B IT - 谷歌 大型语言模型模型概述Gemma 3n E4B IT 是 谷歌 公司于 2025 年 6月发布的大型语言模型,拥有 E4B (4B effective, 8B raw with MatFormer) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型支持商业使用,为企业部署提供了法律保障。 Gemma 3n E4B IT 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 699.2K,获得了 794 个点赞,显示出强大的社区影响力和用户认可度。 Gemma 3n E4B IT 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代...

阅读全文

DeepSeek-R1-0528 - DeepSeek 大型语言模型

DeepSeek-R1-0528 - DeepSeek 大型语言模型模型概述DeepSeek-R1-0528 是 DeepSeek 公司于 2025 年 5月发布的大型语言模型,拥有 671B total (MoE) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-R1-0528 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 599.4K,获得了 2,377 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-R1-0528 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领...

阅读全文

理解偏好学习中的性能差距:RLHF与DPO的二分法分析

Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO ArXiv ID: 2505.19770作者: Ruizhe Shi, Minhak Song, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du发布日期: 2025年5月26日最后更新: 2025年10月3日 摘要本文对强化学习人类反馈(RLHF)和直接偏好优化(DPO)之间的性能差距进行了精细的理论分析。研究将性能差距分解为两个来源,并在精确优化和有限样本优化场景下进行分析。结果显示,根据模型误规范的类型,RLHF、DPO或在线DPO可能各自表现更优。值得注意的是,当奖励模型类和策略模型类同构且都存在误规范时,在线DPO可以同时优于RLHF和标准DPO。...

阅读全文

理解偏好学习中的性能差距: 基于人类反馈的强化学习与直接偏好优化的二分法

理解偏好学习中的性能差距: 基于人类反馈的强化学习与直接偏好优化的二分法论文概述本文是一篇关于大语言模型的研究论文,由 R 等77位研究者共同完成。 研究目标本研究的主要目标包括: 对RLHF与DPO性能差距进行细粒度理论分解,分为显式和隐式表示差距 基于模型类误配置特征,确定RLHF、DPO或在线DPO何时优于其他方法 证明在同构模型类下,在线DPO可以同时超越RLHF和标准DPO 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述本文采用严格的理论分析来分解RLHF和DPO方法之间的性能差距。在精确优化机制下,他们分析了...

阅读全文

Claude Opus 4 - Anthropic 大型语言模型

Claude Opus 4 - Anthropic 大型语言模型模型概述Claude Opus 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Claude Opus 4 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 World’s best coding model at release:72.5% on SWE-bench 43.2% on Terminal:bench Hybrid dual-mode:near-ins...

阅读全文

Claude Sonnet 4 - Anthropic 大型语言模型

Claude Sonnet 4 - Anthropic 大型语言模型模型概述Claude Sonnet 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Claude Sonnet 4 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 Significant upgrade from Claude Sonnet 3.7:提供强大的AI能力支持 Superior coding and reasoning capabilities:提...

阅读全文

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型模型概述DeepSeek-Prover-V2-671B 是 DeepSeek 公司于 2025 年 4月发布的大型语言模型,拥有 671B (MoE) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-Prover-V2-671B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 1.6K,获得了 811 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-Prover-V2-671B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

阅读全文

DPO遇见PPO:RLHF的强化令牌优化

DPO Meets PPO: Reinforced Token Optimization for RLHF ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang发布日期: 2025年4月29日最后更新: 2025年5月21日 摘要在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,...

阅读全文

迈向评估性思维: 基于演化奖励模型的元策略优化

迈向评估性思维: 基于演化奖励模型的元策略优化论文概述本文是一篇关于奖励模型的优化方法论文,由 Zae Myung Kim 等4位研究者共同完成。 元策略优化(MPO)解决了大语言模型基于奖励对齐的两个关键限制:对奖励欺骗的脆弱性以及对奖励模型提示工程的依赖性(既脆弱又劳动密集)。MPO引入了一个元奖励模型,在训练过程中动态优化奖励模型的提示,监控不断演化的训练上下文并持续调整提示以保持高度对齐。这种元学习方法提供了抵抗策略利用的自适应奖励信号,同时大大减少了手动奖励提示设计的工作量。MPO实现了与广泛手工制作的奖励提示引导的模型相当或更好的性能,并且在不同任务中保持有效性,无需专门的奖励设计。 研究目标本研究的主要目标包括: 引入具有元奖励模型的元策略优化(MPO)框架,用于动态提示优化 通过自适应奖励信号调整解决奖励欺骗脆弱性 消除大量手动奖励提示工程的需求 研究背景当前挑战...

阅读全文

Qwen3-0.6B - 阿里巴巴 大型语言模型

Qwen3-0.6B - 阿里巴巴 大型语言模型模型概述Qwen3-0.6B 是 阿里巴巴 公司于 2025 年 4月发布的大型语言模型,拥有 0.6B (751.6M total) 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen3-0.6B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 19.5M,获得了 695 个点赞,显示出强大的社区影响力和用户认可度。 核心特性 0.6B (751.6M total) 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 Unique think...

阅读全文

Pre-DPO: 使用引导参考模型改进直接偏好优化中的数据利用

Pre-DPO: 使用引导参考模型改进直接偏好优化中的数据利用论文概述本文是一篇关于大型语言模型 (LLM) 优化方法的论文,由 J 等56位研究者共同完成。 研究目标本研究的主要目标包括: 提出了参考模型在直接偏好优化(DPO) 中作为数据权重调节器的新见解 引入了Pre-DPO范式,使用引导参考模型改进数据利用效率 设计了自适应加权机制,根据样本适配度分配样本权重 研究背景当前挑战 性能优化: 如何提升大型语言模型在实际任务中的表现 效率提升: 如何减少推理时间和计算资源消耗 可靠性保证: 如何确保模型输出的稳定性和准确性 可扩展性: 如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大型语言模型的性能和实用性。 核心方法方法概述Pre-DPO利用引导参考模型,该模型能够预见通过训练数据可实现的最优策略。核心创新在于使用该参...

阅读全文

大语言模型时代的RAG评估:综合性调研

论文概述这篇综述性论文系统地回顾了检索增强生成(RAG)系统在大语言模型时代的评估方法和框架,为这一快速发展的领域提供了全面的技术图谱。论文深入分析了RAG评估的多个维度,包括系统性能、事实准确性、安全性和计算效率等核心指标,系统性地回顾了传统评估方法,并详细探讨了针对LLM驱动的RAG系统的新兴评估技术。此外,还编译和分类了大量RAG专用数据集,为研究者选择合适的评估基准提供了宝贵参考。 论文信息: 发布时间:2025-04-21 作者:Aoran Gan, Hao Yu, Kai Zhang, Qi Liu, Wenyu Yan, Zhenya Huang, Shiwei Tong, Guoping Hu 研究方向:上下文工程 (Context Engineering), 检索增强生成 (Retrieval-Augmented Generation), 评估方法 (Evalua...

阅读全文

Llama 4 Scout - Meta 大型语言模型

Llama 4 Scout - Meta 大型语言模型模型概述Llama 4 Scout 是 Meta 公司于 2025 年 4月发布的大型语言模型,拥有 17B active (16 experts, MoE) 参数规模。作为基座模型,它为下游任务提供了强大的基础能力。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama 4 Scout 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 17B active (16 experts, MoE) 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 First open:wei...

阅读全文

GREATERPROMPT: 统一、可定制、高性能的开源提示优化工具包

GREATERPROMPT: 统一、可定制、高性能的开源提示优化工具包论文概述本文是一篇关于提示工程的优化方法论文,由 Wenliang Zheng 等4位研究者共同完成。 GREATERPROMPT通过提供统一、可定制的框架,将多种优化技术整合到单一API下,从而实现提示优化的民主化。与现有方法相比,这些方法要么缺乏标准化、灵活性有限,要么依赖昂贵的专有API,GREATERPROMPT通过文本反馈优化(适用于大型大语言模型)和内部梯度优化(适用于小型模型)来适应不同模型规模。借助包括GitHub、PyPI和Web UI在内的用户友好界面,它使专家研究人员和非技术用户都能在不同任务和模型规模上实现高性能的提示优化。 研究目标本研究的主要目标包括: 统一框架,在一致的API下整合多种提示优化方法 双重优化模式:大型模型的文本反馈和小型模型的梯度优化 消除对昂贵的闭源大语言模型API...

阅读全文

超图检索增强生成: 基于超图结构化知识表示的检索增强生成

超图检索增强生成: 基于超图结构化知识表示的检索增强生成论文概述本文是一篇关于图检索增强生成的研究论文,由 Haoran Luo 等8位研究者共同完成。 研究目标本研究的主要目标包括: 识别传统图检索增强生成方法中二元关系的局限性 提出使用超图表示n元关系(n >= 2)的超图检索增强生成方法 引入超边表示来捕捉复杂的多实体关系 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述超图检索增强生成通过使用超图而非普通图来扩展传统的基于图的检索增强生成。传统图使用边连接成对实体(二元关系),而超图使用超边可以同时...

阅读全文

基于大型语言模型的智能体优化综述

A 综述 on the 优化of Large Language Model-based Agents论文概述本文是一篇关于智能体系统的综述性研究论文,由 Shangheng Du 等7位研究者共同完成。 This 综合性 综述 provides the first 系统性 review of 大型语言模型 (LLM)-based agent 优化approaches, addressing the gap between vanilla 大型语言模型 (LLM) 优化and specialized agent functionalities. While current work typically relies on prompt design or 微调 applied to standard 大型语言模型 (LLM)s, these often lead to limited ...

阅读全文

更宽还是更深?通过自适应分支树搜索扩展LLM推理时计算

Key Contributions 引入了用于自适应推理时计算分配的AB-MCTS框架 动态平衡”更宽”探索与”更深”改进策略 通过有原则的多轮探索/利用泛化了重复采样 优于重复采样和标准MCTS基线 证明了结合响应多样性与解决方案改进的重要性 MethodologyAB-MCTS作为一种树搜索运行,其中每个节点代表一个部分解决方案。在每个节点,算法基于外部反馈信号自适应地决定是扩展新的候选响应(变宽)还是重新访问并改进现有响应(变深)。这种动态策略能够根据问题特征高效分配推理时计算资源。 Experiments在具有外部反馈机制的任务上进行评估,特别是编码任务。实证结果表明,AB-MCTS持续优于重复采样(纯宽度)和标准MCTS方法。自适应分支策略对于需要解决方案空间探索和迭代改进的任务特别有效。 Evaluation Notes这是一项及时的工作,解决了推理时扩展中更...

阅读全文

直接偏好优化的主动学习

直接偏好优化的主动学习论文概述本文是一篇关于大语言模型的优化方法论文,由 B 等89位研究者共同完成。 研究目标本研究的主要目标包括: 适用于在线和离线设置的直接偏好优化新型主动学习框架 在神经网络最后一层线性化直接偏好优化目标以实现高效计算 采用 D-最优设计方法选择最具信息量的偏好反馈 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述该方法在神经网络表示的最后一层线性化直接偏好优化目标,使得能够计算偏好反馈收集的 D-最优设计。这个数学框架允许原则性地选择最具信息量的反馈对。对于在线设置,算法主动选择向人类评估者呈现哪...

阅读全文

Gemma 3 27B IT - 谷歌 大型语言模型

Gemma 3 27B IT - 谷歌 大型语言模型模型概述Gemma 3 27B IT 是 谷歌 公司于 2025 年 3月发布的大型语言模型,拥有 27B 参数规模。 该模型支持商业使用,为企业部署提供了法律保障。 Gemma 3 27B IT 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 1.2M,获得了 1,639 个点赞,显示出强大的社区影响力和用户认可度。 Gemma 3 27B IT 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 27B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 Multimodal:te...

阅读全文

Infinite Retrieval: 基于注意力增强的无限长上下文处理

论文概述Infinite Retrieval(InfiniRetri)是一项突破性的研究成果,解决了大语言模型在处理超长上下文输入时面临的核心挑战。该方法的创新之处在于利用模型自身的注意力信息来实现对无限长输入的精确检索,而无需任何额外训练。研究团队发现模型的注意力分布与生成答案之间存在强相关性,基于这一洞察设计了InfiniRetri方法。在Needle-In-a-Haystack测试中,该方法处理超过100万token时达到100%准确率,在真实场景中带来高达288%的性能提升。 论文信息: 发布时间:2025-02-18 作者:Xiaoju Ye, Zhichun Wang, Jingyuan Wang 研究方向:上下文工程 (Context Engineering), 长上下文处理 (Long-Context Processing) 核心技术:注意力增强 (Attentio...

阅读全文

自动提示工程综述:优化视角

A Survey of Automatic Prompt Engineering: An Optimization Perspective ArXiv ID: 2502.11560作者: Wenwu Li, Xiangfeng Wang, Wenhao Li, Bo Jin发布日期: 2025-02-17 摘要基础模型的兴起使研究焦点从资源密集型的微调转向提示工程——一种通过输入设计而非权重更新来引导模型行为的范式。本综述首次从统一的优化视角对自动提示工程进行了全面考察。我们将提示优化形式化为离散、连续和混合提示空间上的最大化问题,考察了基于基础模型的优化、进化方法、基于梯度的优化和强化学习方法。通过分析优化变量(指令、软提示、样例)、任务特定目标和计算框架,我们在理论形式化与跨文本、视觉和多模态领域的实际实现之间架起桥梁。虽然手动提示工程在可扩展性、适应性和跨模态对齐方面存在局限...

阅读全文

xAI Grok 3 - xAI 推理语言模型

xAI Grok 3 - xAI 推理语言模型 厂商: xAI (Elon Musk)发布日期: 2025-02-17模型类型: 推理语言模型模态: 文本、图像许可证: 专有商业模型 (Proprietary)评分: 4.2/5.0 概述xAI Grok 3 是由 Elon Musk 创立的 xAI 公司于 2025 年 2 月 17 日正式发布的最新旗舰 AI 模型。该模型被誉为”推理代理时代”的里程碑,在强大的预训练知识基础上融合了卓越的推理能力。Grok 3 在 Colossus 超级集群上训练,使用的计算量是此前最先进模型的 10 倍,展现了 xAI 在 AI 基础设施方面的雄心。 Grok 3 的发布标志着 xAI 在与 OpenAI、Anthropic、Google 等巨头的竞争中迈出了重要一步。该模型不仅在多个基准测试中展现出色表现,还通过与 X 平台(原 ...

阅读全文

自适应思维图:统一链式、树式和图式结构的测试时自适应推理

Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures ArXiv ID: 2502.05078作者: Tushar Pandey, Ara Ghukasyan, Oktay Goktas, Santosh Kumar Radha发布日期: 2025年2月7日 摘要Adaptive Graph of Thoughts (AGoT) 是一个动态的、基于图的推理框架,在测试时增强大语言模型(LLM)的推理能力。该框架递归地将复杂查询分解为结构化的子问题,形成一个由相互依赖的推理步骤组成的动态有向无环图(DAG)。与传统的 Chain-of-Thought、Tree of Thoughts 或 Graph of Thoughts 方法不同,AGo...

阅读全文

QuEST: 使用1比特权重和激活值的大语言模型稳定训练

QuEST: 使用1比特权重和激活值的大语言模型稳定训练论文概述本文是一篇关于大语言模型的研究论文,由 A 等90位研究者共同完成。 研究目标本研究的主要目标包括: QuEST: 首个支持1比特权重和激活值训练的稳定量化感知训练方法 Trust梯度估计器,最小化量化梯度与真实全精度梯度之间的误差 Hadamard归一化和MSE最优拟合,实现精确的分布量化 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述QuEST通过两项关键创新实现稳定的1比特训练:(1) 使用Hadamard归一化改善权重/激活值分布的条件,然...

阅读全文

自适应思维图: 统一链、树和图结构的测试时自适应推理

自适应思维图: 统一链、树和图结构的测试时自适应推理论文概述本文是一篇关于推理能力的研究论文,由 Tushar Pandey 等4位研究者共同完成。 研究目标本研究的主要目标包括: 引入自适应思维图(AGoT),一个用于测试时推理的动态图基推理框架 将复杂查询递归分解为结构化子问题,形成有向无环图(DAG) 统一思维链、思维树和思维图范式的优势 研究背景当前挑战 性能优化:如何提升大型语言模型 (LLM)在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大型语言模型 (LLM)的性能和实用性。 核心方法方法概述AGoT通过测试时图构建采用动态自适应方法进行大型语言模型 (LLM)推理:(1) 递归分解 - 复杂查...

阅读全文

自监督提示优化(SPO):无需外部参考的成本高效框架

自监督提示优化(SPO):无需外部参考的成本高效框架论文概述本文是一篇关于提示工程的框架设计论文,由 J 等110位研究者共同完成。 研究目标本研究的主要目标包括: SPO: 无需外部参考(真实标签/人类反馈)的自监督提示优化框架 成对输出比较方法,直接从大语言模型输出中获取评估信号 大语言模型评估器,通过输出比较评估任务需求的遵从度 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述SPO通过两阶段过程运作,无需外部参考:(1) 选择阶段使用大语言模型评估器评估的成对输出比较来识别优秀提示 - 关键洞察是提示质量...

阅读全文

自监督提示优化

自监督提示优化论文概述本文是一篇关于提示工程的优化方法论文,由 Jinyu Xiang 等8位研究者共同完成。 自监督提示优化(Self-Supervised Prompt Optimization, SPO)解决了现有提示优化方法的一个关键局限:严重依赖外部参考(真值或人类反馈),而这些在实际场景中通常不可用或成本高昂。SPO 引入了一个成本高效的框架,可以为封闭式和开放式任务发现有效的提示,而无需外部参考。通过观察到提示质量直接体现在大语言模型输出中,以及大语言模型能够有效评估任务需求遵循情况,SPO 纯粹从输出比较中获得优化信号。该方法在使用最优方法成本的仅1.1%-5.6%的情况下,实现了可比或更优的结果,并且只需要少至三个样本。 研究目标本研究的主要目标包括: 引入无参考提示优化,消除对真值或人类反馈的需求 实现极高的成本效率:仅为现有方法成本的1.1%-5.6% 适用于...

阅读全文

基于潜在推理的测试时计算扩展:循环深度方法

论文概述这项研究提出了一种全新的语言模型架构,通过在潜在空间中进行隐式推理来实现测试时计算的扩展。与传统方法通过生成更多token来扩展推理能力不同,该模型采用了循环块迭代的创新设计,能够在测试时展开至任意深度,从而在不增加输出长度的情况下显著提升推理能力。研究团队将概念验证模型扩展到35亿参数,在计算效率上达到相当于500亿参数传统模型的水平,且无需专门训练数据,可在小上下文窗口下工作。 论文信息: 发布时间:2025-02-07 作者:Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein 研究方向:提示工程 (Prompt Engineerin...

阅读全文

揭秘大语言模型中的长链思维推理

Demystifying Long Chain-of-Thought Reasoning in LLMs ArXiv ID: 2502.03373作者: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue发布日期: 2025-02-05 摘要扩展推理计算能够增强大语言模型(LLM)的推理能力,长链思维(CoT)使回溯和错误纠正等策略成为可能。本文系统研究了长链思维推理的机制,揭示了四个主要发现:(1)监督微调(SFT)简化训练并缓解强化学习中的奖励攻击问题;(2)推理能力随着训练和推理阶段计算量的增加而涌现;(3)扩展可验证的奖励信号对于强化学习解锁长链思维推理至关重要;(4)错误纠正等核心能力存在于基础模型中,但需要适当的训练才能激活。我们的发现为训练长形式推理的大语言模型提供了洞察,并展示了训练和推理时的计算...

阅读全文

ChunkKV:基于语义块的KV缓存压缩技术

ChunkKV:基于语义块的KV缓存压缩技术 ArXiv ID: 2502.00299作者: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Yue Liu, Bo Li, Xuming Hu, Xiaowen Chu机构: NVIDIA, Hong Kong University of Science and Technology发布日期: 2025-02-01会议: NeurIPS 2025 摘要传统KV缓存压缩方法以单个token为单位进行重要性评估和淘汰,忽略了语言的语义连贯性。ChunkKV创新性地将语义块(semantic chunks)作为压缩的基本单元,保持完整的语言结构和上下文完整性。 系统通过三个核心技术实现高效压缩: 语义块识别:基于句法分析和语义边界检测,将token序列划分为有意义的语义单元 块级重要性评估...

阅读全文

Phi-4-mini-instruct 3.8B - 微软 大型语言模型

Phi-4-mini-instruct 3.8B - 微软 大型语言模型模型概述Phi-4-mini-instruct 3.8B 是 微软 公司于 2025 年 2月发布的大型语言模型,拥有 3.8B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 Phi-4-mini-instruct 3.8B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Competitive with 7-8B models。 核心特性 3.8B 参数规模:采用大规模参数设计,在性能和效率...

阅读全文

s1: 简单的测试时扩展

Key Contributions 引入了结合 budget forcing 技术的简单测试时扩展方法 在竞赛数学题上相比 o1-preview 实现了27%的性能提升 证明了使用极少训练数据(1000个问题)的有效性 通过扩展在 AIME24 上实现从50%到57%的准确率提升 展示了测试时计算可以通过 budget forcing 有效控制 应用于 Qwen2.5-32B-Instruct 基础模型 Methodologys1 方法使用 budget forcing(预算强制)技术通过操控模型的内部思考过程来控制测试时计算。在使用精心挑选的1000个问题数据集进行监督微调后,模型学会了有效分配推理时的计算资源。budget forcing 机制允许对计算-性能权衡进行持续控制。 Experiments主要在包括 AIME24 在内的数学竞赛问题上进行评估。s1-32B 模型(基...

阅读全文

Mistral Small 24B Instruct 2501 - Mistral AI 大型语言模型

Mistral Small 24B Instruct 2501 - Mistral AI 大型语言模型模型概述Mistral Small 24B Instruct 2501 是 Mistral AI 公司于 2025 年 1月发布的大型语言模型,拥有 24B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral Small 24B Instruct 2501 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 765.1K,获得了 946 个点赞,显示出强大的社区影响力和用户认可度。 核心特性 24B 参数规模:采用大规模参数设计,...

阅读全文

Janus-Pro-7B - DeepSeek 大型语言模型

Janus-Pro-7B - DeepSeek 大型语言模型模型概述Janus-Pro-7B 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型,拥有 7B 参数规模。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 Janus-Pro-7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 78.7K,获得了 3,508 个点赞,显示出强大的社区影响力和用户认可度。 Janus-Pro-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B 参数规模:采用大规模参数设计,在性能和效率之间取得...

阅读全文

图检索增强生成综述:定制化大语言模型的图检索增强生成

图检索增强生成综述:定制化大语言模型的图检索增强生成论文概述本文是一篇关于图检索增强生成的综述性研究论文,由 Qinggang Zhang 等8位研究者共同完成。 研究目标本研究的主要目标包括: 提供图检索增强生成(Graph-based Retrieval-Augmented Generation)范式的综合性综述 识别传统平面文本检索增强生成系统的三个关键局限 系统性地分析三个关键图检索增强生成创新:图结构化知识表示、高效的图检索、结构感知的知识集成 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述该综述系统性地分析了...

阅读全文

DeepSeek-R1 - DeepSeek 大型语言模型

DeepSeek-R1 - DeepSeek 大型语言模型模型概述DeepSeek-R1 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型,拥有 671B total (MoE) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-R1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 548.2K,获得了 12,773 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-R1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特...

阅读全文

SmolLM3 3B - Hugging Face 大型语言模型

SmolLM3 3B - Hugging Face 大型语言模型模型概述SmolLM3 3B 是 Hugging Face 公司于 2025 年 1月发布的大型语言模型,拥有 3B (3.08B) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 SmolLM3 3B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 SmolLM3 3B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型...

阅读全文

数学推理中开发过程奖励模型的经验教训

The Lessons of Developing Process Reward Models in Mathematical 推理论文概述本文是一篇关于推理能力的研究论文,由 Zhenru Zhang 等9位研究者共同完成。 This work from Alibaba provides critical insights into developing effective Process Reward Models (过程奖励模型s) for mathematical 推理 in 大型语言模型 (LLM)s. Through extensive experiments, it identifies key challenges in data annotation and evaluation, demonstrating that Monte Carlo estimation ...

阅读全文

基于图的检索增强生成(GraphRAG)

Retrieval-Augmented Generation with Graphs (GraphRAG) ArXiv ID: 2501.00309作者: Haoyu Han, Yu Wang, Harry Shomer, and 15 other authors发布日期: 2025-01-08 摘要检索增强生成(RAG)已成为通过整合外部知识增强大语言模型的强大范式。传统RAG系统依赖于从非结构化文本进行基于向量的检索,而GraphRAG利用图结构数据通过节点和边编码大规模异构和关系信息。本综述对GraphRAG进行了全面考察,提出了一个整体框架,定义了包括查询处理器、检索器、组织器、生成器和数据源在内的关键组件。我们系统地回顾了针对不同领域定制的技术,并讨论了图构建、检索效率和与大语言模型集成方面的挑战。通过考察医疗、金融和电子商务等专业领域的实现,我们突出了图结构在捕获复杂关...

阅读全文

METAGENE-1 - Meta 大型语言模型

METAGENE-1 - Meta 大型语言模型模型概述METAGENE-1 是 Meta 公司于 2025 年 1月发布的大型语言模型,拥有 7B 参数规模。 METAGENE-1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 METAGENE-1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 7B parameters for metagenomic analysis:提供强大的...

阅读全文

FlashInfer:大语言模型推理服务的高效可定制注意力引擎

FlashInfer:大语言模型推理服务的高效可定制注意力引擎 ArXiv ID: 2501.01005作者: Zihao Ye, Lequn Chen, Ruihang Lai, Wuwei Lin, Yineng Zhang, Stephanie Wang, Tianqi Chen, Baris Kasikci, Vinod Grover, Arvind Krishnamurthy, Luis Ceze机构: University of Washington, NVIDIA, OctoAI发布日期: 2025-01-02 摘要大语言模型(LLM)推理服务面临着关键的性能挑战:不同请求的KV缓存存储模式高度异构,导致内存访问效率低下。FlashInfer是一个创新的注意力计算引擎,专为解决这一挑战而设计。 系统采用统一的块稀疏行(BSR)格式来管理KV缓存,使得系统能够高效处理各...

阅读全文

FlashInfer:高效可定制的LLM推理Attention引擎

AbstractTransformer架构及其核心的注意力机制是大语言模型(LLM)的基础。随着模型规模不断扩大,高效的GPU注意力内核对于实现高吞吐量和低延迟推理至关重要。多样化的LLM应用需求催生了对灵活且高性能注意力解决方案的需求。本文介绍FlashInfer:一个为LLM服务设计的可定制高效注意力引擎。FlashInfer通过块稀疏格式和可组合格式解决KV缓存存储的异构性问题,优化内存访问并减少冗余。它还提供可定制的注意力模板,通过即时编译(JIT)适应各种场景。此外,FlashInfer的负载均衡调度算法能够适应用户请求的动态性,同时保持与CUDAGraph的兼容性。FlashInfer已集成到SGLang、vLLM和MLC-Engine等主流LLM服务框架中。 Key Contributions 块稀疏格式和可组合格式:创新性地解决KV缓存存储异构性问题,优化内存访问模式...

阅读全文

基于图结构的检索增强生成综述

基于图结构的检索增强生成综述 ArXiv ID: 2501.00309作者: Haoyu Han, Yu Wang, Harry Shomer, Kai Guo, Jiayuan Ding…发布日期: 2024-12-31分类: context-engineering评分: 4.5/5.0 摘要检索增强生成(RAG)技术通过从外部数据源检索相关信息来增强大语言模型(LLM)的能力,使其能够提供更准确、更新的知识。本综述论文系统地研究了基于图结构数据的RAG技术(GraphRAG),提出了一个包含查询处理器、检索器、组织器、生成器和数据源五大组件的全面框架。该综述覆盖了知识图谱、文档图、科学图谱、社交图等10个不同领域的GraphRAG技术,为研究者提供了跨学科的研究视角。 📊 GraphRAG:图结构时代的检索增强生成全景图在大语言模型(LLM)快速发展的今天,如何让A...

阅读全文

DeepSeek-V3 - DeepSeek 大型语言模型

DeepSeek-V3 - DeepSeek 大型语言模型模型概述DeepSeek-V3 是 DeepSeek 公司于 2024 年 12月发布的大型语言模型,拥有 671B total (MoE) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-V3 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 247.1K,获得了 3,977 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,GPT-4 class capabilities。 DeepSeek-V3 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客...

阅读全文

Gemini 2.0 Flash - 谷歌 大型语言模型

Gemini 2.0 Flash - 谷歌 大型语言模型模型概述Gemini 2.0 Flash 是 谷歌 公司于 2024 年 12月发布的大型语言模型。 该模型支持商业使用,为企业部署提供了法律保障。 Gemini 2.0 Flash 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 Native multimodal input:images, video, audio, and text Native multimodal output:text, images, and steerable TTS audio Designed for agentic AI ...

阅读全文

GReaTer: 推理梯度让小型语言模型成为强大的提示优化器

GReaTer: 推理梯度让小型语言模型成为强大的提示优化器论文概述本文是一篇关于提示工程的研究论文,由 S 等85位研究者共同完成。 研究目标本研究的主要目标包括: GReaTer:使用任务损失梯度的新型基于梯度的提示优化方法 轻量级开源模型的自优化能力,无需依赖大型大语言模型 直接融合超越文本反馈的细粒度梯度信息 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述GReaTer 利用任务特定的损失梯度来指导提示优化,脱离了纯文本方法。关键创新在于计算任务性能相对于提示表示的梯度,实现直接的优化信号。这使得轻量级模型能够自...

阅读全文

GReaTer: 推理上的梯度使小型语言模型成为强大的提示优化器

GReaTer: 梯度 over 推理 Makes Smaller Language Models Strong Prompt Optimizers论文概述本文是一篇关于提示工程的研究论文,由 Sarkar Snigdha Sarathi Das 等6位研究者共同完成。 GReaTer introduces a novel prompt 优化technique that directly incorporates gradient information over task-specific 推理, enabling open-source lightweight language models to self-optimize prompts without dependence on costly closed-source 大型语言模型 (LLM)s. Unlike text ...

阅读全文

什么使上下文学习在数学推理中有效:理论分析

什么使上下文学习在数学推理中有效:理论分析论文概述本文是一篇关于推理能力的研究论文,由 Jiayu Liu 等6位研究者共同完成。 本文提供了首个关于上下文学习(In-Context Learning, ICL)在大语言模型数学推理中有效性的理论分析。虽然少样本示例有时会带来负面性能,其有效性仍不可靠,但这项工作证明了推理效能可以通过面向大语言模型的语义相似性和示例的推理稳定性来限定。基于这一理论基础,作者提出了 LMS3,一种示例选择方法,能够自适应地为不同大语言模型选择最相关的样本,并包含一种新颖的自动拒绝机制来过滤不合适的示例。该方法在多个数据集上实现了一致的改进,而现有方法在这些数据集上均已失败。 研究目标本研究的主要目标包括: 首次通过语义相似性和推理稳定性界定上下文学习推理效能的理论分析 证明理论框架适用于单样本和少样本场景 提出具有理论基础的 LMS3 示例选择方法 ...

阅读全文

Llama 3.3 70B Instruct - Meta 大型语言模型

Llama 3.3 70B Instruct - Meta 大型语言模型模型概述Llama 3.3 70B Instruct 是 Meta 公司于 2024 年 11月发布的大型语言模型,拥有 70B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama 3.3 70B Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 588.9K,获得了 2,526 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,支持 128K tokens 的超长上下文窗口,Competitive with 405B models。 核心特性 70B 参数规模:采用大规模参数设计,在性能和效率之间...

阅读全文

Squeezed Attention:基于语义聚类的长上下文LLM推理加速

Squeezed Attention:基于语义聚类的长上下文LLM推理加速 ArXiv ID: 2411.09688作者: Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Monishwaran Maheswaran, Sebastian Zhao, June Paik, Michael W. Mahoney, Kurt Keutzer, Amir Gholami机构: UC Berkeley, SqueezeAI Lab发布日期: 2024-11-14会议: ACL 2025 摘要长上下文LLM推理面临的核心挑战是注意力计算的二次复杂度问题。当上下文长度从8K扩展到128K时,KV缓存大小和注意力计算量呈指数级增长,导致推理延迟急剧上升。 Squeezed Attention提出了一种创新的语义压缩方案,通过离线K-means聚类将...

阅读全文

ChemDFM-v1.5 8B - OpenDFM 大型语言模型

ChemDFM-v1.5 8B - OpenDFM 大型语言模型模型概述ChemDFM-v1.5 8B 是 OpenDFM 公司于 2024 年 11月发布的大型语言模型,拥有 8B 参数规模。 ChemDFM-v1.5 8B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Comparable or higher than GPT-4 on chemistry tasks。 ChemDFM-v1.5 8B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜...

阅读全文

SSSD:简单可扩展的投机解码技术

Abstract过去一年中,投机解码(Speculative Decoding)作为加速大语言模型推理的技术而广受欢迎。虽然已经提出了多种方法,但大多数在数据中心典型的批处理大小(≥8)下难以提供令人满意的性能,并且往往涉及复杂的部署流程。SSSD(Simply-Scalable Speculative Decoding)针对这些问题,提出了一种简单但高效的投机解码方案,专门优化了在大批处理场景下的性能。在continuous batching环境中,SSSD在短上下文生成场景下实现了4倍吞吐量提升且不增加延迟,在长上下文场景下同时改善延迟和吞吐量1.7-2倍。 Key Contributions 大批处理优化:首个专门针对数据中心典型批处理大小(≥8)优化的投机解码方法,解决了现有方案在大批量下性能急剧下降的问题 简化部署流程:相比现有复杂的投机解码方案,SSSD设计极简,易于集成...

阅读全文

LEGO-GraphRAG: 图检索增强生成的模块化框架与设计空间探索

LEGO-GraphRAG: 图检索增强生成的模块化框架与设计空间探索论文概述本文是一篇关于图检索增强生成的研究论文,由 Yukun Cao 等5位研究者共同完成。 研究目标本研究的主要目标包括: 引入 LEGO-GraphRAG,一个模块化框架,将图检索增强生成分解为子图提取、路径过滤和路径精炼模块 提供系统性的算法分类和每个图检索增强生成模块的神经网络模型分类 识别影响图检索增强生成有效性的关键设计因素(图耦合度、计算成本) 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述该论文提出了一个模块化框架,将图检索增强生成的...

阅读全文

基于大语言模型的少样本上下文偏好学习

基于大语言模型的少样本上下文偏好学习论文信息 标题: ICPL: Few-shot In-context Preference Learning via LLMs 作者: Chao Yu, Qixin Tan, Hong Lu, Jiaxuan Gao, Xinting Yang, Yu Wang, Yi Wu, Eugene Vinitsky 发布日期: 2024-10-22 ArXiv链接: https://arxiv.org/abs/2410.17233 核心概述基于偏好的强化学习是处理难以明确定义奖励函数任务的有效方法,但传统偏好学习往往需要从零开始,效率极低。本文展示了大语言模型(LLM)具有原生的偏好学习能力,可以实现高效的样本效率偏好学习,从而解决这一挑战。 主要贡献研究提出了ICPL(In-Context Preference Learning)框架,利用LLM...

阅读全文

LLM提示对决优化器:高效的无标注提示优化方法

LLM提示对决优化器:高效的无标注提示优化方法 ArXiv ID: 2510.13907作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang…发布日期: 2024-10-14分类: prompt-engineering评分: 3.8/5.0 摘要本文提出了提示对决优化器(PDO),这是一个样本高效的无标注提示优化框架。PDO将提示优化问题建模为对决老虎机(Dueling Bandit)问题,通过LLM评判器提供的成对偏好反馈进行优化。结合Double Thompson Sampling和Top-Performer引导变异策略,PDO在无需真实标注数据的情况下,在BIG-bench Hard和MS MARCO等基准上持续优于基线方法。 🎯 PDO:让提示优化摆脱标注数据的束缚核心问题...

阅读全文

过程奖励模型综述:从结果信号到大语言模型的过程监督

过程奖励模型综述:从结果信号到大语言模型的过程监督论文概述本文是一篇关于奖励模型的综述性研究论文,由 Congming Zheng 等3位研究者共同完成。 这篇综合性综述系统性地回顾了过程奖励模型(Process Reward Models,PRM),这是一种新兴范式,在步骤或轨迹级别而非仅在最终结果上评估和引导大语言模型推理。与仅评估最终答案的传统结果奖励模型(ORM)不同,过程奖励模型在整个推理过程中提供细粒度监督,能够更好地对齐复杂的多步骤任务。该综述涵盖了完整的过程奖励模型生命周期:(1) 通过人工标注、蒙特卡洛采样或大语言模型评判生成过程级监督数据,(2) 构建过程奖励模型架构(判别式 vs 生成式),(3) 将过程奖励模型应用于测试时扩展(通过最优N选择和搜索),(4) 在强化学习中使用过程奖励模型进行策略优化。该综述发表于2024年10月,及时地解决了在o1类推理模型时...

阅读全文

智能体上下文工程:自我进化的语言模型上下文系统

智能体上下文工程:自我进化的语言模型上下文系统 ArXiv ID: 2510.04618作者: Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong…发布日期: 2024-10-06分类: context-engineering评分: 4.2/5.0 摘要本文提出了智能体上下文工程(ACE)框架,将上下文从静态的提示文本转变为可进化的”执行手册”。ACE通过生成、反思和策展三个步骤,让语言模型能够从执行反馈中自主学习和优化上下文,无需人工标注。该方法有效解决了上下文崩溃和简洁性偏见问题,在智能体任务上实现+10.6%性能提升,在金融任务上提升+8.6%,展现了上下文工程的新范式。 🤖 ACE:让上下文自己进化的智能体系统核心创新想象一下,如果LLM的上下文提示能够像生物进化一样,从每次...

阅读全文

LFM2 1.2B - Liquid AI 大型语言模型

LFM2 1.2B - Liquid AI 大型语言模型模型概述LFM2 1.2B 是 Liquid AI 公司于 2024 年 10月发布的大型语言模型,拥有 1.2B (1.17B) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色。 该模型支持商业使用,为企业部署提供了法律保障。 LFM2 1.2B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Outperforms similar-sized models on knowledge, math, instruction-following。 核心特性 1.2B (1.17B) 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 Hybri...

阅读全文

Qwen2.5-7B-Instruct - 阿里巴巴 大型语言模型

Qwen2.5-7B-Instruct - 阿里巴巴 大型语言模型模型概述Qwen2.5-7B-Instruct 是 阿里巴巴 公司于 2024 年 9月发布的大型语言模型,拥有 7B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen2.5-7B-Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 5.2M,获得了 816 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,支持 128K tokens 的超长上下文窗口。 核心特性 7B 参数规模:采用大规模参数设计,在性能和...

阅读全文

Pharia-1-LLM 7B Control - Aleph Alpha 大型语言模型

Pharia-1-LLM 7B Control - Aleph Alpha 大型语言模型模型概述Pharia-1-LLM 7B Control 是 Aleph Alpha 公司于 2024 年 9月发布的大型语言模型,拥有 7B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 Pharia-1-LLM 7B Control 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 Pharia-1-LLM 7B Control 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域...

阅读全文

OpenAI o1-mini - OpenAI 大型语言模型

OpenAI o1-mini - OpenAI 大型语言模型模型概述OpenAI o1-mini 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 OpenAI o1-mini 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 80% cheaper than o1:preview Faster inference speed for cost:effective reasoning Specialized for STEM:math an...

阅读全文

OpenAI o1-preview - OpenAI 大型语言模型

OpenAI o1-preview - OpenAI 大型语言模型模型概述OpenAI o1-preview 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 OpenAI o1-preview 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 Advanced chain:of-thought reasoning before answering PhD:level performance on physics, chemistry, and biology benc...

阅读全文

Prithvi-WxC 2.3B - IBM 大型语言模型

Prithvi-WxC 2.3B - IBM 大型语言模型模型概述Prithvi-WxC 2.3B 是 IBM 公司于 2024 年 9月发布的大型语言模型,拥有 2.3B 参数规模。 该模型支持商业使用,为企业部署提供了法律保障。 Prithvi-WxC 2.3B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 Prithvi-WxC 2.3B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 2.3B 参数规模:采用大规模参数设计,在性能和效率之间取...

阅读全文

InkubaLM 0.4B - Lelapa AI 大型语言模型

InkubaLM 0.4B - Lelapa AI 大型语言模型模型概述InkubaLM 0.4B 是 Lelapa AI 公司于 2024 年 8月发布的大型语言模型,拥有 0.4B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 InkubaLM 0.4B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Comparable to larger models on domain tasks。 InkubaLM 0.4B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创...

阅读全文

图检索增强生成综述

图检索增强生成综述 ArXiv ID: 2408.08921作者: Boci Peng, Yun Zhu, Yongchao Liu, Xiaohe Bo, Haizhou Shi…发布日期: 2024-08-15分类: context-engineering评分: 4.1/5.0 摘要本文提供了图检索增强生成(GraphRAG)方法的首个全面综述。将GraphRAG工作流形式化为三个阶段:基于图的索引(Graph-Based Indexing)、图引导检索(Graph-Guided Retrieval)和图增强生成(Graph-Enhanced Generation)。系统回顾了每个阶段的核心技术和训练方法,探讨了下游任务、应用领域和评估方法,并配套开源GitHub仓库供研究者参考。 📊 GraphRAG综述:首个系统性的图检索增强生成全景为什么需要GraphRAG?...

阅读全文

推理时计算扩展:比扩展模型参数更有效的优化策略

Abstract让大语言模型(LLM)能够通过使用更多推理时计算来改进输出,是构建能够在开放式自然语言任务上持续自我改进的通用agent的关键一步。本文研究了LLM推理时计算的扩展规律,重点回答一个问题:如果允许LLM使用固定但非平凡的推理时计算量,它能在挑战性提示上将性能提升多少?我们发现,在许多任务上,适当地扩展推理时计算可以比扩展模型参数更有效地提升性能。这一发现为LLM的发展开辟了新的方向——不是一味追求更大的模型,而是让模型学会如何更好地”思考”。 Key Contributions 推理时计算扩展定律:首次系统性地研究了LLM推理时计算的扩展规律,揭示了在固定模型参数下,增加推理时计算如何影响性能 与参数扩展的对比:通过大量实验证明,在许多任务上,扩展推理时计算比扩展模型参数更有效且成本更低 多种扩展策略对比:评估了best-of-N采样、beam search、sequ...

阅读全文

EvoLLM-JP 10B - Sakana AI 大型语言模型

EvoLLM-JP 10B - Sakana AI 大型语言模型模型概述EvoLLM-JP 10B 是 Sakana AI 公司于 2024 年 8月发布的大型语言模型,拥有 9.86B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 EvoLLM-JP 10B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 9.86B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 Evolutionary Model Merge methodology:提供强大的AI能力支持 Merged from 3 base models (Shisa...

阅读全文

大语言模型在不同NLP任务中的提示工程方法综述

大语言模型在不同NLP任务中的提示工程方法综述论文概述本文是一篇关于提示工程的综述性研究论文,由 Shubham Vatsal 等2位研究者共同完成。 This 综合性 综述 examines 44 research papers covering 39 different prompting methods applied across 29 NLP tasks. The paper provides a 系统性 taxonomy of 提示工程 techniques and evaluates their performance across various datasets and 大语言模型s, offering practical guidance for researchers and practitioners in selecting appropriate prom...

阅读全文

大型语言模型推理: 综述

推理 with Large Language Models, a 综述论文概述本文是一篇关于推理能力的综述性研究论文,由 Aske Plaat 等6位研究者共同完成。 研究目标本研究的主要目标包括: 综合性 综述 of prompt-based 推理 with 大型语言模型 (LLM)s covering rapid field expansion Introduces taxonomy identifying different ways to generate, evaluate, and control multi-step 推理 Provides in-depth coverage of core approaches: Chain-of-Thought, Tree of Thoughts, and related methods 研究背景当前挑战 性能优化:如何提升大型...

阅读全文

Llama 3.1 405B Instruct - Meta 大型语言模型

Llama 3.1 405B Instruct - Meta 大型语言模型模型概述Llama 3.1 405B Instruct 是 Meta 公司于 2024 年 7月发布的大型语言模型,拥有 405B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama 3.1 405B Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 799.5K,获得了 580 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,支持 128K tokens 的超长上下文窗口,Competitive with GPT-4 class models。 核心特性 40...

阅读全文

SeaLLMs-v3 7B - SeaLLMs 大型语言模型

SeaLLMs-v3 7B - SeaLLMs 大型语言模型模型概述SeaLLMs-v3 7B 是 SeaLLMs 公司于 2024 年 7月发布的大型语言模型,拥有 7.62B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 SeaLLMs-v3 7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 SeaLLMs-v3 7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成...

阅读全文

受人类启发的情节记忆:实现无限上下文LLM

受人类启发的情节记忆:实现无限上下文LLM论文信息 标题: Human-inspired Episodic Memory for Infinite Context LLMs 作者: Zafeirios Fountas, Martin A Benfeghoul, Adnan Oomerjee, Fenia Christopoulou, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang 发布日期: 2024-07-12 ArXiv链接: https://arxiv.org/abs/2407.09450 核心概述大型语言模型(LLM)展现出卓越的能力,但在处理长上下文时仍然困难重重,限制了它们在长序列上保持连贯性和准确性的能力。相比之下,人类大脑擅长在跨越一生的广阔时间尺度上组织和检索情节性体验。本研究引入EM-LLM,一种将人类情节记忆和...

阅读全文

FlashAttention-3:通过异步和低精度实现快速准确的注意力机制

Abstract注意力机制作为无处不在的Transformer架构的核心层,是大语言模型和长上下文应用的瓶颈。FlashAttention通过最小化内存读写提出了一种在GPU上加速注意力计算的方法。然而,它尚未利用最新硬件的新功能,FlashAttention-2在H100 GPU上仅实现了35%的利用率。我们开发了三种主要技术来加速Hopper GPU上的注意力计算:利用Tensor Cores和TMA的异步特性来(1)通过warp特化重叠整体计算和数据移动,(2)交错执行块级矩阵乘法和softmax操作,以及(3)块量化和非相干处理来利用硬件对FP8低精度的支持。我们展示了FlashAttention-3在H100 GPU上实现了1.5-2.0倍的加速,使用FP16达到最高740 TFLOPs/s(75%利用率),使用FP8接近1.2 PFLOPs/s。 Ke...

阅读全文

Gemma-2-9B - Gemma 2 9B with improved architecture

Gemma-2-9B - Gemma 2 9B with improved architecture模型概述Gemma-2-9B 是 谷歌 公司于 2024 年 6月发布的大型语言模型,拥有 9B 参数规模。 Gemma-2-9B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 9B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 同系列模型Gemma-2-9B 属于 Gemma 系列模型。...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero