Qwen3-Omni – 阿里通义开源的原生端到端全模态大模型,支持119种文本语言交互

发现1天前更新 up博主
55 0

Qwen3-Omni模型的发布,标志着开源多模态人工智能领域的一个重要里程碑。该报告旨在对Qwen3-Omni进行全面深入的技术剖析,通过先进的深度学习技术,输入的视频、音频、文本直接进入核心模型,中间不经过任何“中转翻译”,输出时直接生成文本或语音。Qwen3-Omni 在处理和理解复杂数据方面表现优异,能够实现高效和精确的模态转换。09247ef5946c0ff336b8f17ed1736fad

Qwen3-Omni是什么

Qwen3-Omni是阿里通义团队推出的业界首个原生端到端全模态AI模型,能无缝处理文本、图像、音频和视频等多种模态数据。模型在36项音频及音视频基准测试中22项达到SOTA水平,支持119种语言的文本处理,具备全球化语言能力。模型延迟低至211毫秒,高度可控,支持系统提示词自定义,具备强大的内置工具调用功能。Qwen团队开源了多个版本,包括Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking和Qwen3-Omni-30B-A3B-Captioner,推动技术发展和应用创新。模型现已上线Qwen Chat模型体验平台。

t-15

Qwen3-Omni的主要功能

  • 原生全模态:Qwen3-Omni是原生全模态大模型,预训练全模态不降智。
  • 强大的性能:在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时图像和文本性能在同尺寸模型中达到SOTA水平。
  • 多语言:支持119种文本语言交互、19种语音理解语言与10种语音生成语言。
  • 更快响应:纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms。
  • 长音频:支持长达30分钟音频理解。
  • 个性化:支持system prompt随意定制,能修改回复风格,人设等。
  • 工具调用:支持function call,实现与外部工具/服务的高效集成。
  • 开源通用音频Captioner:开源Qwen3-Omni-30B-A3B-Captioner,低幻觉且非常详细的通用音频caption模型,填补开源社区空白。

Qwen3-Omni的技术原理

  • Thinker-Talker架构
    • Thinker:主要负责文本生成任务,能处理文本输入、输出高层语义表征,为后续的语音生成提供基础信息。
    • Talker:专注于流式语音Token的生成,直接用Thinker输出的语义表征,通过自回归方式预测多码本序列,实现低延迟的逐帧流式语音生成。
    • MTP模块:在解码过程中,MTP模块负责输出当前帧的残差码本,通过Code2Wav模块将码本合成对应的音频波形,实现高效的流式音频生成。
  • 创新架构设计
    • AuT音频编码器:基于海量音频数据(2000万小时)训练而成,具备强大的通用音频表征能力,为模型处理音频任务提供坚实基础。
    • MoE架构:Thinker和Talker均采用MoE(Mixture of Experts)架构,支持高并发处理和快速推理,显著提升模型在多任务处理时的效率和性能。
    • 多码本技术:Talker用多码本自回归方案,在每步生成过程中,能生成一个编解码帧,MTP模块会同步输出剩余的残差码本,设计进一步优化语音生成的效率和质量。
  • 全模态不降智:在文本预训练阶段,模型将单模态数据与跨模态数据混合训练。混合训练方式保证了各模态的性能与纯单模态训练相当,显著增强模型的跨模态能力,使模型在处理多模态任务时更加得心应手。Qwen3-Omni在语音识别和指令跟随任务上的表现十分出色,性能与Gemini-2.5-Pro等顶尖模型相当,能准确地理解和执行语音指令,为用户提供流畅的语音交互体验。
  • 实时音频和音视频交互:整个流程(包括AuT音频编码、Thinker文本处理、Talker语音生成及Code2wav音频合成)均实现全流式处理,支持首帧Token直接流式解码为音频输出,确保实时音频和音视频交互的高效性和流畅性。
t-15

Qwen3-Omni的应用场景

  • 内容创作:模型能生成高质量的文本、图像、音频和视频内容,为创作者提供丰富的创意素材,提升创作效率。
  • 智能客服:模型支持多语言文本和语音交互,快速准确地理解用户问题并提供解决方案,提升客户服务体验。
  • 教育领域:模型能生成个性化的学习材料和互动内容,如音频讲解、图像示例等,满足不同学生的学习需求。
  • 医疗辅助:模型能处理医学影像、语音记录等多模态数据,辅助医生进行诊断和治疗方案制定。
  • 多媒体娱乐:模型能创作音乐、视频等多媒体内容,为用户提供个性化娱乐体验。
© 版权声明

相关文章

暂无评论

none
暂无评论...