NExT-OMNI: 基于离散流匹配的全模态基础模型

NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,通过离散流匹配范式实现任意模态间的理解和生成。模型原生支持文本、图像、视频和音频的任意组合输入输出,在多轮交互和跨模态检索任务上超越现有统一模型。

NExT-OMNI: 任意模态统一建模的技术突破

核心创新:离散流匹配范式

NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,其核心创新在于采用**离散流匹配(Discrete Flow Matching, DFM)**范式,突破了传统自回归架构的限制。

为什么选择离散流匹配?

传统的多模态模型主要依赖自回归架构,存在以下局限:

  1. 生成效率低: 必须逐token顺序生成,无法并行
  2. 跨模态建模困难: 不同模态的离散表示难以统一
  3. 长序列性能下降: 对于视频、音频等长序列模态效果欠佳

DFM范式通过构建度量诱导的概率路径,实现了:

  • 并行解码: 动态生成策略支持多token同时生成
  • 统一表示: 所有模态在同一离散空间建模
  • 高效训练: 避免自回归的顺序依赖

技术架构深度解析

模型结构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
NExT-OMNI Architecture:

输入层:
├── 文本编码器: Qwen2.5-7B Tokenizer
├── 视觉编码器: CLIP-ViT-Large (336x336)
├── 音频编码器: Whisper-Turbo
└── 视频编码器: 帧采样 + CLIP-ViT

核心层:
└── 统一Transformer (基于Qwen2.5-7B)
├── 多模态自注意力机制
├── 离散流匹配解码器
└── 度量诱导概率路径

输出层:
├── 文本解码头 (~128M参数)
├── 图像生成头 (扩散模型)
├── 音频生成头 (波形合成)
└── 视频生成头 (帧序列生成)

三阶段训练策略

NExT-OMNI采用渐进式训练方法:

阶段1: 预训练(PT)

  • 目标: 建立跨模态的基础表示
  • 数据: ImageNet-1K, LAION(图像), LibriSpeech(音频), MMC4-Core(视频)
  • 训练量: 约1.5T tokens
  • 关键: 学习模态间的对齐关系

阶段2: 持续预训练(CPT)

  • 目标: 增强领域知识和生成能力
  • 数据: JourneyDB(高质量图像), WenetSpeech(多场景音频), ShareGPT4Video(视频理解)
  • 训练量: 约0.3T tokens
  • 关键: 提升生成质量和细节表现

阶段3: 监督微调(SFT)

  • 目标: 指令跟随和多轮对话能力
  • 数据: Infinity-Instruct, Evol-Instruct(对话数据)
  • 训练量: 约0.2T tokens
  • 关键: 优化人类交互体验

核心能力展示

1. 任意模态转换

NExT-OMNI支持12种模态组合:

输入模态 输出模态 应用场景
文本 图像 文生图创作
图像 文本 图像描述生成
音频 文本 语音转录
文本 音频 文本转语音(TTS)
图像 视频 静态图动态化
视频 文本 视频摘要生成
音频+图像 文本 多模态理解
文本+图像 视频 故事视频生成

2. 性能对比分析

与现有统一模型相比,NExT-OMNI的优势:

多轮交互任务:

  • 传统模型: 上下文理解随轮次衰减
  • NExT-OMNI: 统一表示空间保持长期一致性,10轮对话准确率提升23%

跨模态检索:

  • 传统模型: 需要独立训练检索头
  • NExT-OMNI: 原生支持任意模态检索,检索精度提升18%(相比CLIP)

生成速度:

  • 自回归模型: 100 tokens需5-8秒
  • NExT-OMNI: 并行解码实现2-3秒生成(加速2.5x)

技术优势与局限

优势

  1. 架构统一性: 单一模型处理所有模态,无需模态特定适配器
  2. 训练效率: DFM范式相比扩散模型训练速度提升40%
  3. 推理速度: 并行解码大幅降低延迟
  4. 扩展性强: 可轻松添加新模态(如3D、触觉)

当前局限

  1. 资源约束: 仅训练到7B规模,未充分释放DFM潜力
  2. 生成质量: 图像生成细节仍不如专用扩散模型(如DALL-E 3)
  3. 长视频支持: 当前限制在30秒以内的视频生成
  4. 计算成本: 多模态联合训练需要大量GPU资源

实战应用场景

场景1: 智能内容创作

1
2
3
4
5
6
7
8
9
10
11
12
13
# 输入: 文本描述 + 参考图片
input = {
"text": "根据这张风景图,创建一个清晨日出的延时视频,配上舒缓的背景音乐",
"image": "mountain_landscape.jpg"
}

# 输出: 视频 + 音频
output = next_omni.generate(
input_modalities=["text", "image"],
output_modalities=["video", "audio"],
duration=15, # 15秒视频
style="cinematic"
)

场景2: 多模态客服助手

1
2
3
4
5
6
7
8
9
10
11
# 用户可以通过语音、图片、文字任意组合提问
user_input = {
"audio": "这个产品怎么使用?",
"image": "product_photo.jpg"
}

response = next_omni.chat(
input=user_input,
output_modality="video", # 返回使用教程视频
language="zh-CN"
)

场景3: 辅助医疗诊断

1
2
3
4
5
6
7
8
9
10
11
12
# 输入: 医学影像 + 患者描述(语音)
input = {
"image": "x_ray_scan.jpg",
"audio": "patient_description.mp3"
}

# 输出: 文本报告 + 标注图像
diagnosis = next_omni.analyze(
input_modalities=["image", "audio"],
output_modalities=["text", "annotated_image"],
task="medical_diagnosis"
)

与同类模型对比

特性 NExT-OMNI GPT-4o Gemini 2.5 Qwen3-Omni
支持模态数 4(文本/图像/视频/音频) 4 5(+代码执行) 4
Any-to-Any ✅ 原生支持 ⚠️ 部分支持 ✅ 支持 ✅ 支持
开源 ✅ 即将开源 ❌ 闭源 ❌ 闭源 ✅ 开源
并行生成 ✅ DFM并行解码 ❌ 自回归 ✅ 并行机制 ⚠️ 部分并行
参数量 7B 未知(估计>100B) 未知 30B
推理速度 ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
生成质量 ⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐

开源计划与未来方向

开源承诺

研究团队承诺开源:

  1. 模型权重: 7B基础模型和微调模型
  2. 训练代码: 完整的三阶段训练pipeline
  3. 数据协议: 多模态数据处理和对齐方法
  4. 推理框架: 优化的并行解码实现

未来改进方向

  1. 模型规模扩展: 计划训练70B和400B版本
  2. 新模态支持: 添加3D空间、触觉、嗅觉等模态
  3. 生成质量提升: 集成更先进的扩散模型
  4. 领域适配: 医疗、教育、娱乐等垂直领域版本
  5. 推理优化: 量化、蒸馏等轻量化技术

总结评价

技术创新度: ⭐⭐⭐⭐ (4/5)

  • DFM范式是对传统自回归的重要突破
  • 统一表示空间设计优雅

实用价值: ⭐⭐⭐⭐ (4/5)

  • 7B规模可本地部署
  • 多场景应用潜力大
  • 开源降低使用门槛

生态完整性: ⭐⭐⭐ (3/5)

  • 代码和权重尚未正式发布
  • 需要观察社区接受度

性能表现: ⭐⭐⭐ (3/5)

  • 基础能力竞争力强
  • 但受限于7B规模
  • 生成质量仍有提升空间

总评: NExT-OMNI代表了多模态基础模型的一个重要技术方向,其离散流匹配范式为解决跨模态统一建模提供了新思路。虽然当前版本受资源限制,但开源后有望在社区驱动下快速迭代。特别适合需要本地部署、低延迟多模态交互的应用场景。建议关注官方开源发布,期待70B+版本的性能表现。


相关资源

作者团队

Run Luo, Xiaobo Xia, Lu Wang, Longze Chen, Renke Shan, Jing Luo, Min Yang, Tat-Seng Chua

新加坡国立大学 NExT++ Research Center

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero