聚焦思维链 (F-CoT): 先整理再推理,token 减少 2-3 倍

聚焦思维链 (F-CoT): 先整理再推理,token 减少 2-3 倍 ArXiv ID: 2511.22176作者: Lukas Struppek, Dominik Hintersdorf, Hannah Struppek, Daniel Neider, Kristian Kersting机构: TU Darmstadt, Fraunhofer IAIS发布日期: 2025-11-27内容级别: Quick 摘要标准思维链(CoT)让模型在推理过程中同时处理信息理解和逻辑推导,导致冗余 token 生成。受认知心理学中注意聚焦理论启发,本文提出 F-CoT(Focused Chain-of-Thought),一种免训练的输入导向方法。F-CoT 在推理前先将查询中的关键信息组织为简洁的结构化上下文,将信息提取与推理过程分离。在算术问题上实现2-3 倍 token 生成量减少,...

阅读全文

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型模型概述DeepSeek-V3.2-Exp 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型,拥有 685B (MoE with DeepSeek Sparse Attention) 参数规模。 在代码生成和理解方面表现出色。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-V3.2-Exp 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 42.9K,获得了 607 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-V3.2-Exp 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero