NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,通过离散流匹配范式实现任意模态间的理解和生成。模型原生支持文本、图像、视频和音频的任意组合输入输出,在多轮交互和跨模态检索任务上超越现有统一模型。
NExT-OMNI: 任意模态统一建模的技术突破
核心创新:离散流匹配范式
NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,其核心创新在于采用**离散流匹配(Discrete Flow Matching, DFM)**范式,突破了传统自回归架构的限制。
为什么选择离散流匹配?
传统的多模态模型主要依赖自回归架构,存在以下局限:
- 生成效率低: 必须逐token顺序生成,无法并行
- 跨模态建模困难: 不同模态的离散表示难以统一
- 长序列性能下降: 对于视频、音频等长序列模态效果欠佳
DFM范式通过构建度量诱导的概率路径,实现了:
- 并行解码: 动态生成策略支持多token同时生成
- 统一表示: 所有模态在同一离散空间建模
- 高效训练: 避免自回归的顺序依赖
技术架构深度解析
模型结构
1 | NExT-OMNI Architecture: |
三阶段训练策略
NExT-OMNI采用渐进式训练方法:
阶段1: 预训练(PT)
- 目标: 建立跨模态的基础表示
- 数据: ImageNet-1K, LAION(图像), LibriSpeech(音频), MMC4-Core(视频)
- 训练量: 约1.5T tokens
- 关键: 学习模态间的对齐关系
阶段2: 持续预训练(CPT)
- 目标: 增强领域知识和生成能力
- 数据: JourneyDB(高质量图像), WenetSpeech(多场景音频), ShareGPT4Video(视频理解)
- 训练量: 约0.3T tokens
- 关键: 提升生成质量和细节表现
阶段3: 监督微调(SFT)
- 目标: 指令跟随和多轮对话能力
- 数据: Infinity-Instruct, Evol-Instruct(对话数据)
- 训练量: 约0.2T tokens
- 关键: 优化人类交互体验
核心能力展示
1. 任意模态转换
NExT-OMNI支持12种模态组合:
| 输入模态 | 输出模态 | 应用场景 |
|---|---|---|
| 文本 | 图像 | 文生图创作 |
| 图像 | 文本 | 图像描述生成 |
| 音频 | 文本 | 语音转录 |
| 文本 | 音频 | 文本转语音(TTS) |
| 图像 | 视频 | 静态图动态化 |
| 视频 | 文本 | 视频摘要生成 |
| 音频+图像 | 文本 | 多模态理解 |
| 文本+图像 | 视频 | 故事视频生成 |
2. 性能对比分析
与现有统一模型相比,NExT-OMNI的优势:
多轮交互任务:
- 传统模型: 上下文理解随轮次衰减
- NExT-OMNI: 统一表示空间保持长期一致性,10轮对话准确率提升23%
跨模态检索:
- 传统模型: 需要独立训练检索头
- NExT-OMNI: 原生支持任意模态检索,检索精度提升18%(相比CLIP)
生成速度:
- 自回归模型: 100 tokens需5-8秒
- NExT-OMNI: 并行解码实现2-3秒生成(加速2.5x)
技术优势与局限
优势
- 架构统一性: 单一模型处理所有模态,无需模态特定适配器
- 训练效率: DFM范式相比扩散模型训练速度提升40%
- 推理速度: 并行解码大幅降低延迟
- 扩展性强: 可轻松添加新模态(如3D、触觉)
当前局限
- 资源约束: 仅训练到7B规模,未充分释放DFM潜力
- 生成质量: 图像生成细节仍不如专用扩散模型(如DALL-E 3)
- 长视频支持: 当前限制在30秒以内的视频生成
- 计算成本: 多模态联合训练需要大量GPU资源
实战应用场景
场景1: 智能内容创作
1 | # 输入: 文本描述 + 参考图片 |
场景2: 多模态客服助手
1 | # 用户可以通过语音、图片、文字任意组合提问 |
场景3: 辅助医疗诊断
1 | # 输入: 医学影像 + 患者描述(语音) |
与同类模型对比
| 特性 | NExT-OMNI | GPT-4o | Gemini 2.5 | Qwen3-Omni |
|---|---|---|---|---|
| 支持模态数 | 4(文本/图像/视频/音频) | 4 | 5(+代码执行) | 4 |
| Any-to-Any | ✅ 原生支持 | ⚠️ 部分支持 | ✅ 支持 | ✅ 支持 |
| 开源 | ✅ 即将开源 | ❌ 闭源 | ❌ 闭源 | ✅ 开源 |
| 并行生成 | ✅ DFM并行解码 | ❌ 自回归 | ✅ 并行机制 | ⚠️ 部分并行 |
| 参数量 | 7B | 未知(估计>100B) | 未知 | 30B |
| 推理速度 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 生成质量 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
开源计划与未来方向
开源承诺
研究团队承诺开源:
- 模型权重: 7B基础模型和微调模型
- 训练代码: 完整的三阶段训练pipeline
- 数据协议: 多模态数据处理和对齐方法
- 推理框架: 优化的并行解码实现
未来改进方向
- 模型规模扩展: 计划训练70B和400B版本
- 新模态支持: 添加3D空间、触觉、嗅觉等模态
- 生成质量提升: 集成更先进的扩散模型
- 领域适配: 医疗、教育、娱乐等垂直领域版本
- 推理优化: 量化、蒸馏等轻量化技术
总结评价
技术创新度: ⭐⭐⭐⭐ (4/5)
- DFM范式是对传统自回归的重要突破
- 统一表示空间设计优雅
实用价值: ⭐⭐⭐⭐ (4/5)
- 7B规模可本地部署
- 多场景应用潜力大
- 开源降低使用门槛
生态完整性: ⭐⭐⭐ (3/5)
- 代码和权重尚未正式发布
- 需要观察社区接受度
性能表现: ⭐⭐⭐ (3/5)
- 基础能力竞争力强
- 但受限于7B规模
- 生成质量仍有提升空间
总评: NExT-OMNI代表了多模态基础模型的一个重要技术方向,其离散流匹配范式为解决跨模态统一建模提供了新思路。虽然当前版本受资源限制,但开源后有望在社区驱动下快速迭代。特别适合需要本地部署、低延迟多模态交互的应用场景。建议关注官方开源发布,期待70B+版本的性能表现。
相关资源
- 论文: arXiv:2510.13721
- PDF: 下载论文
- 代码: 待发布
- 模型权重: 待发布
- Demo: 待发布
作者团队
Run Luo, Xiaobo Xia, Lu Wang, Longze Chen, Renke Shan, Jing Luo, Min Yang, Tat-Seng Chua
新加坡国立大学 NExT++ Research Center