阿里巴巴最近开源了一个名为 Qwen2.5-Omni 的多模态模型

exploretime

阿里巴巴最近开源了一个名为 Qwen2.5-Omni 的多模态模型，号称是“低配版 GPT-4o”，但功能却非常强大。这个模型支持文本、图像、音频和视频的输入，并能实时生成文本和语音输出1。它采用了创新的 Thinker-Talker 架构，将理解和生成分离优化，并通过 TMRoPE 编码 实现音视频的精准同步。

https://qwenlm.github.io/zh/blog/qwen2.5-omni/

更令人惊讶的是，这个模型的参数规模仅为 7B，但在多模态任务上的表现超越了许多更大规模的模型。它还支持在普通设备上运行，比如拥有 16GB 内存的电脑。

社区规范 | 隐私政策 | 不良信息举报 | 加入我们

希望你在这里度过愉快的时光！