Qwen2.5-Omni 是阿里巴巴云 Qwen 团队开发的一款开源多模态 AI 模型,专为处理多种输入模态(如文本、图像、音频和视频)而设计,并能实时生成文本或自然语音响应。以下是它的一些主要特点:
全能架构:采用创新的 Thinker-Talker 架构,支持跨模态理解和流式生成文本及语音响应。
时间对齐技术:引入 TMRoPE(时间对齐多模态位置编码),实现音频与视频输入的精准同步。
实时交互:支持分块输入和即时输出,适合实时音视频交互场景。
自然语音生成:在语音生成的自然性和稳定性方面表现优异。
多模态性能:在多模态任务中表现卓越,同时在单模态任务(如语音识别、翻译、图像推理等)中也有出色表现。
Qwen2.5-Omni 于 2025 年 3 月 26 日发布,代码和模型文件托管在 GitHub 上,免费供用户下载和使用。