AudioFly – 科大讯飞开源的文生音效模型,支持本地部署、推理和微调。

发现1周前发布 up博主
111 0

主要介绍

AudioFly是科大讯飞推出的开源文生音效模型,基于潜在扩散模型(LDM)架构,能够根据文本描述生成高质量音频。该模型支持44.1kHz采样率,在文本与音效的匹配度上表现优异,适用于短视频配音、有声故事生成、游戏音效设计等场景。2025年9月,科大讯飞宣布AudioFly与星火化学大模型Spark Chemistry-X1-13B同步开源,并在GitCode平台首发,全球开发者可免费获取模型资源,支持本地部署、推理和微调。

80fac024b8e998e49f6f67b5e5fc956a

 

 

AudioFly的主要功能

  • 文本到音效生成:根据用户输入的文本描述生成对应的音效。例如,输入“雷声在远处轰鸣”,模型能生成相应的雷声音效。
  • 高质量音频输出:生成的音频采样率为44.1kHz,音质清晰,适合多种应用场景。
  • 多场景支持:支持单事件(如“狗叫”)和多事件(如“狗叫和风声”)场景的音效生成,能准确反映描述内容。
  • 高效生成:基于先进的扩散模型架构,生成过程高效,能快速响应用户需求。

AudioFly的技术原理

  • 潜在扩散模型(LDM)架构:AudioFly 用潜在扩散模型架构,一种基于深度学习的生成模型。模型通过逐步去除噪声生成目标音频,类似于图像生成中的扩散过程。
  • 大规模数据训练:模型在大量开放数据集(如 AudioSet、AudioCaps、TUT)及内部专有数据上进行训练,数据涵盖各种音效和场景,使模型能生成多样化的音效。
  • 特征对齐:通过优化模型的训练目标,确保生成的音频在特征上与真实音频高度一致,同时在内容上与文本描述紧密对齐。

AudioFly的应用场景

  • 短视频配音:为短视频快速生成匹配的音效,提升视频的吸引力和沉浸感。
  • 有声故事创作:根据文字内容生成音效,增强故事的氛围和情感表达。
  • 影视音效制作:辅助影视制作团队快速生成所需的音效,提高制作效率。
  • 游戏音效设计:为游戏场景生成实时音效,增强玩家的沉浸感和体验。
  • 广告与营销:为广告视频或音频内容生成定制音效,提升广告的吸引力和记忆点。

© 版权声明

相关文章

暂无评论

none
暂无评论...