聚焦思维链 (F-CoT): 先整理再推理，token 减少 2-3 倍

Posted on 十一月 27, 2025

聚焦思维链 (F-CoT): 先整理再推理，token 减少 2-3 倍 ArXiv ID: 2511.22176作者: Lukas Struppek, Dominik Hintersdorf, Hannah Struppek, Daniel Neider, Kristian Kersting机构: TU Darmstadt, Fraunhofer IAIS发布日期: 2025-11-27内容级别: Quick 摘要标准思维链（CoT）让模型在推理过程中同时处理信息理解和逻辑推导，导致冗余 token 生成。受认知心理学中注意聚焦理论启发，本文提出 F-CoT（Focused Chain-of-Thought），一种免训练的输入导向方法。F-CoT 在推理前先将查询中的关键信息组织为简洁的结构化上下文，将信息提取与推理过程分离。在算术问题上实现2-3 倍 token 生成量减少，...

阅读全文

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型

Posted on 九月 29, 2025

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型模型概述DeepSeek-V3.2-Exp 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型，拥有 685B (MoE with DeepSeek Sparse Attention) 参数规模。在代码生成和理解方面表现出色。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3.2-Exp 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 42.9K，获得了 607 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-V3.2-Exp 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成...

阅读全文