NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,通过离散流匹配范式实现任意模态间的理解和生成。模型原生支持文本、图像、视频和音频的任意组合输入输出,在多轮交互和跨模态检索任务上超越现有统一模型。
NExT-OMNI: 任意模态统一建模的技术突破核心创新:离散流匹配范式NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,其核心创新在于采用**离散流匹配(Discrete Flow Matching, DFM)**范式,突破了传统自回归架构的限制。
为什么选择离散流匹配?传统的多模态模型主要依赖自回归架构,存在以下局限:
生成效率低: 必须逐token顺序生成,无法并行
跨模态建模困难: 不同模态的离散表示难以统一
长序列性能下降: 对于视频、音频等长序列模态效果欠佳
DFM范式通过构建度量诱导的概率路径,实现了:
并行解...