Qwen3-Omni – 阿里通义开源的原生端到端全模态大模型，支持119种文本语言交互

Qwen3-Omni模型的发布，标志着开源多模态人工智能领域的一个重要里程碑。该报告旨在对Qwen3-Omni进行全面深入的技术剖析，通过先进的深度学习技术，输入的视频、音频、文本直接进入核心模型，中间不经过任何“中转翻译”，输出时直接生成文本或语音。Qwen3-Omni 在处理和理解复杂数据方面表现优异，能够实现高效和精确的模态转换。

Qwen3-Omni是什么

Qwen3-Omni是阿里通义团队推出的业界首个原生端到端全模态AI模型，能无缝处理文本、图像、音频和视频等多种模态数据。模型在36项音频及音视频基准测试中22项达到SOTA水平，支持119种语言的文本处理，具备全球化语言能力。模型延迟低至211毫秒，高度可控，支持系统提示词自定义，具备强大的内置工具调用功能。Qwen团队开源了多个版本，包括Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking和Qwen3-Omni-30B-A3B-Captioner，推动技术发展和应用创新。模型现已上线Qwen Chat模型体验平台。

Qwen3-Omni的主要功能

原生全模态：Qwen3-Omni是原生全模态大模型，预训练全模态不降智。
强大的性能：在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA，超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型，同时图像和文本性能在同尺寸模型中达到SOTA水平。
多语言：支持119种文本语言交互、19种语音理解语言与10种语音生成语言。
更快响应：纯模型端到端音频对话延迟低至211ms，视频对话延迟低至507ms。
长音频：支持长达30分钟音频理解。
个性化：支持system prompt随意定制，能修改回复风格，人设等。
工具调用：支持function call，实现与外部工具/服务的高效集成。
开源通用音频Captioner：开源Qwen3-Omni-30B-A3B-Captioner，低幻觉且非常详细的通用音频caption模型，填补开源社区空白。

Qwen3-Omni的技术原理

Thinker-Talker架构：
- Thinker：主要负责文本生成任务，能处理文本输入、输出高层语义表征，为后续的语音生成提供基础信息。
- Talker：专注于流式语音Token的生成，直接用Thinker输出的语义表征，通过自回归方式预测多码本序列，实现低延迟的逐帧流式语音生成。
- MTP模块：在解码过程中，MTP模块负责输出当前帧的残差码本，通过Code2Wav模块将码本合成对应的音频波形，实现高效的流式音频生成。
创新架构设计：
- AuT音频编码器：基于海量音频数据（2000万小时）训练而成，具备强大的通用音频表征能力，为模型处理音频任务提供坚实基础。
- MoE架构：Thinker和Talker均采用MoE（Mixture of Experts）架构，支持高并发处理和快速推理，显著提升模型在多任务处理时的效率和性能。
- 多码本技术：Talker用多码本自回归方案，在每步生成过程中，能生成一个编解码帧，MTP模块会同步输出剩余的残差码本，设计进一步优化语音生成的效率和质量。
全模态不降智：在文本预训练阶段，模型将单模态数据与跨模态数据混合训练。混合训练方式保证了各模态的性能与纯单模态训练相当，显著增强模型的跨模态能力，使模型在处理多模态任务时更加得心应手。Qwen3-Omni在语音识别和指令跟随任务上的表现十分出色，性能与Gemini-2.5-Pro等顶尖模型相当，能准确地理解和执行语音指令，为用户提供流畅的语音交互体验。
实时音频和音视频交互：整个流程（包括AuT音频编码、Thinker文本处理、Talker语音生成及Code2wav音频合成）均实现全流式处理，支持首帧Token直接流式解码为音频输出，确保实时音频和音视频交互的高效性和流畅性。