AudioFly – 科大讯飞开源的文生音效模型，支持本地部署、推理和微调。

主要介绍

AudioFly是科大讯飞推出的开源文生音效模型，基于潜在扩散模型（LDM）架构，能够根据文本描述生成高质量音频。该模型支持44.1kHz采样率，在文本与音效的匹配度上表现优异，适用于短视频配音、有声故事生成、游戏音效设计等场景。2025年9月，科大讯飞宣布AudioFly与星火化学大模型Spark Chemistry-X1-13B同步开源，并在GitCode平台首发，全球开发者可免费获取模型资源，支持本地部署、推理和微调。

AudioFly的主要功能

文本到音效生成：根据用户输入的文本描述生成对应的音效。例如，输入“雷声在远处轰鸣”，模型能生成相应的雷声音效。
高质量音频输出：生成的音频采样率为44.1kHz，音质清晰，适合多种应用场景。
多场景支持：支持单事件（如“狗叫”）和多事件（如“狗叫和风声”）场景的音效生成，能准确反映描述内容。
高效生成：基于先进的扩散模型架构，生成过程高效，能快速响应用户需求。

AudioFly的技术原理

潜在扩散模型（LDM）架构：AudioFly 用潜在扩散模型架构，一种基于深度学习的生成模型。模型通过逐步去除噪声生成目标音频，类似于图像生成中的扩散过程。
大规模数据训练：模型在大量开放数据集（如 AudioSet、AudioCaps、TUT）及内部专有数据上进行训练，数据涵盖各种音效和场景，使模型能生成多样化的音效。
特征对齐：通过优化模型的训练目标，确保生成的音频在特征上与真实音频高度一致，同时在内容上与文本描述紧密对齐。