阿里巴巴最近开源了一个名为 Qwen2.5-Omni 的多模态模型,号称是“低配版 GPT-4o”,但功能却非常强大。这个模型支持文本、图像、音频和视频的输入,并能实时生成文本和语音输出1。它采用了创新的 Thinker-Talker 架构,将理解和生成分离优化,并通过 TMRoPE 编码 实现音视频的精准同步。
https://qwenlm.github.io/zh/blog/qwen2.5-omni/
更令人惊讶的是,这个模型的参数规模仅为 7B,但在多模态任务上的表现超越了许多更大规模的模型。它还支持在普通设备上运行,比如拥有 16GB 内存的电脑。