NExT-OMNI: 基于离散流匹配的全模态基础模型

Posted on 十月 15, 2025

NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,通过离散流匹配范式实现任意模态间的理解和生成。模型原生支持文本、图像、视频和音频的任意组合输入输出,在多轮交互和跨模态检索任务上超越现有统一模型。

NExT-OMNI: 任意模态统一建模的技术突破

核心创新:离散流匹配范式

NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,其核心创新在于采用**离散流匹配(Discrete Flow Matching, DFM)**范式,突破了传统自回归架构的限制。

为什么选择离散流匹配?

传统的多模态模型主要依赖自回归架构,存在以下局限:

生成效率低: 必须逐token顺序生成,无法并行
跨模态建模困难: 不同模态的离散表示难以统一
长序列性能下降: 对于视频、音频等长序列模态效果欠佳

DFM范式通过构建度量诱导的概率路径,实现了:

并行解码: 动态生成策略支持多token同时生成
统一表示: 所有模态在同一离散空间建模
高效训练: 避免自回归的顺序依赖

技术架构深度解析

模型结构

NExT-OMNI Architecture:

输入层:
├── 文本编码器: Qwen2.5-7B Tokenizer
├── 视觉编码器: CLIP-ViT-Large (336x336)
├── 音频编码器: Whisper-Turbo
└── 视频编码器: 帧采样 + CLIP-ViT

核心层:
└── 统一Transformer (基于Qwen2.5-7B)
    ├── 多模态自注意力机制
    ├── 离散流匹配解码器
    └── 度量诱导概率路径

输出层:
├── 文本解码头 (~128M参数)
├── 图像生成头 (扩散模型)
├── 音频生成头 (波形合成)
└── 视频生成头 (帧序列生成)

三阶段训练策略

NExT-OMNI采用渐进式训练方法:

阶段1: 预训练(PT)

目标: 建立跨模态的基础表示
数据: ImageNet-1K, LAION(图像), LibriSpeech(音频), MMC4-Core(视频)
训练量: 约1.5T tokens
关键: 学习模态间的对齐关系

阶段2: 持续预训练(CPT)

目标: 增强领域知识和生成能力
数据: JourneyDB(高质量图像), WenetSpeech(多场景音频), ShareGPT4Video(视频理解)
训练量: 约0.3T tokens
关键: 提升生成质量和细节表现

阶段3: 监督微调(SFT)

目标: 指令跟随和多轮对话能力
数据: Infinity-Instruct, Evol-Instruct(对话数据)
训练量: 约0.2T tokens
关键: 优化人类交互体验

核心能力展示

1. 任意模态转换

NExT-OMNI支持12种模态组合:

输入模态	输出模态	应用场景
文本	图像	文生图创作
图像	文本	图像描述生成
音频	文本	语音转录
文本	音频	文本转语音(TTS)
图像	视频	静态图动态化
视频	文本	视频摘要生成
音频+图像	文本	多模态理解
文本+图像	视频	故事视频生成

2. 性能对比分析

与现有统一模型相比,NExT-OMNI的优势:

多轮交互任务:

传统模型: 上下文理解随轮次衰减
NExT-OMNI: 统一表示空间保持长期一致性,10轮对话准确率提升23%

跨模态检索:

传统模型: 需要独立训练检索头
NExT-OMNI: 原生支持任意模态检索,检索精度提升18%(相比CLIP)

生成速度:

自回归模型: 100 tokens需5-8秒
NExT-OMNI: 并行解码实现2-3秒生成(加速2.5x)

技术优势与局限

优势

架构统一性: 单一模型处理所有模态,无需模态特定适配器
训练效率: DFM范式相比扩散模型训练速度提升40%
推理速度: 并行解码大幅降低延迟
扩展性强: 可轻松添加新模态(如3D、触觉)

当前局限

资源约束: 仅训练到7B规模,未充分释放DFM潜力
生成质量: 图像生成细节仍不如专用扩散模型(如DALL-E 3)
长视频支持: 当前限制在30秒以内的视频生成
计算成本: 多模态联合训练需要大量GPU资源

实战应用场景

场景1: 智能内容创作

# 输入: 文本描述 + 参考图片
input = {
    "text": "根据这张风景图,创建一个清晨日出的延时视频,配上舒缓的背景音乐",
    "image": "mountain_landscape.jpg"
}

# 输出: 视频 + 音频
output = next_omni.generate(
    input_modalities=["text", "image"],
    output_modalities=["video", "audio"],
    duration=15,  # 15秒视频
    style="cinematic"
)

场景2: 多模态客服助手

# 用户可以通过语音、图片、文字任意组合提问
user_input = {
    "audio": "这个产品怎么使用?",
    "image": "product_photo.jpg"
}

response = next_omni.chat(
    input=user_input,
    output_modality="video",  # 返回使用教程视频
    language="zh-CN"
)

场景3: 辅助医疗诊断

# 输入: 医学影像 + 患者描述(语音)
input = {
    "image": "x_ray_scan.jpg",
    "audio": "patient_description.mp3"
}

# 输出: 文本报告 + 标注图像
diagnosis = next_omni.analyze(
    input_modalities=["image", "audio"],
    output_modalities=["text", "annotated_image"],
    task="medical_diagnosis"
)

与同类模型对比

特性	NExT-OMNI	GPT-4o	Gemini 2.5	Qwen3-Omni
支持模态数	4(文本/图像/视频/音频)	4	5(+代码执行)	4
Any-to-Any	✅ 原生支持	⚠️ 部分支持	✅ 支持	✅ 支持
开源	✅ 即将开源	❌ 闭源	❌ 闭源	✅ 开源
并行生成	✅ DFM并行解码	❌ 自回归	✅ 并行机制	⚠️ 部分并行
参数量	7B	未知(估计>100B)	未知	30B
推理速度	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
生成质量	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐

开源计划与未来方向

开源承诺

研究团队承诺开源:

模型权重: 7B基础模型和微调模型
训练代码: 完整的三阶段训练pipeline
数据协议: 多模态数据处理和对齐方法
推理框架: 优化的并行解码实现

未来改进方向

模型规模扩展: 计划训练70B和400B版本
新模态支持: 添加3D空间、触觉、嗅觉等模态
生成质量提升: 集成更先进的扩散模型
领域适配: 医疗、教育、娱乐等垂直领域版本
推理优化: 量化、蒸馏等轻量化技术

总结评价

技术创新度: ⭐⭐⭐⭐ (4/5)

DFM范式是对传统自回归的重要突破
统一表示空间设计优雅

实用价值: ⭐⭐⭐⭐ (4/5)

7B规模可本地部署
多场景应用潜力大
开源降低使用门槛

生态完整性: ⭐⭐⭐ (3/5)

代码和权重尚未正式发布
需要观察社区接受度

性能表现: ⭐⭐⭐ (3/5)

基础能力竞争力强
但受限于7B规模
生成质量仍有提升空间

总评: NExT-OMNI代表了多模态基础模型的一个重要技术方向,其离散流匹配范式为解决跨模态统一建模提供了新思路。虽然当前版本受资源限制,但开源后有望在社区驱动下快速迭代。特别适合需要本地部署、低延迟多模态交互的应用场景。建议关注官方开源发布,期待70B+版本的性能表现。

作者团队

Run Luo, Xiaobo Xia, Lu Wang, Longze Chen, Renke Shan, Jing Luo, Min Yang, Tat-Seng Chua

新加坡国立大学 NExT++ Research Center