LLaDA 2.0 – 蚂蚁集团开源的离散扩散大语言模型,比同级自回归模型快 2.1 倍

发现2周前更新 up博主
97 00

蚂蚁技术研究院正式推出LLaDA2.0系列离散扩散大语言模型(dLLM),并同步公开技术报告。LLaDA2.0 包含 MoE 架构的 16B (mini) 和 100B (flash) 两个版本,打破了扩散模型难以扩展的瓶颈,首次将参数规模扩展至 100B 量级。LLaDA2.0广泛应用于代码生成、数学推理、智能体任务、文本生成和知识问答领域。在代码生成方面,能高效产出高质量代码片段;在数学推理上,表现出色。对于复杂智能体任务,LLaDA2.0表现出优秀的协调能力,使其适用于智能系统和自动化流程。

d127d9249701f92eff4a4276107c4073

t-39

LLaDA 2.0的主要功能

  • 大规模参数扩展:LLaDA 2.0 提供了 16B 和 100B 两个版本,是目前规模最大的扩散语言模型,突破了扩散模型难以大规模扩展的限制。
  • 高效推理加速:借助并行解码机制,LLaDA 2.0 的推理速度高达 535 tokens/s,比同级自回归模型快 2.1 倍,显著提升了生成效率。
  • 平滑过渡与知识继承:采用 Warmup-Stable-Decay(WSD)策略,实现从自回归模型到扩散模型的平滑过渡,继承了 AR 模型的知识,避免了从头训练的成本。
  • 卓越性能表现:在代码生成、数学推理、智能体任务等结构化生成任务中展现出显著优势,同时在其他领域与开源 AR 模型持平。
  • 完全开源共享:LLaDA 2.0 的模型权重(16B/100B)及相关训练代码已在 Hugging Face 完全开源,方便开发者使用和进一步研究。

LLaDA 2.0的技术原理

  • 扩散模型架构:LLaDA 2.0 基于扩散模型(Diffusion Model),通过逐步去噪的方式生成文本,与传统的自回归生成方式不同,能够并行解码多个标记,从而提高生成速度。
  • 混合专家架构(MoE):结合 MoE 架构,在每次推理中仅激活部分参数(约14.4亿),在保持高性能的同时显著降低计算成本。
  • Warmup-Stable-Decay(WSD)策略:通过三阶段预训练(逐步增加块大小、全序列训练、缩小块大小),实现从自回归模型到扩散模型的平滑过渡,继承已有知识并优化推理效率。
  • 置信度感知并行训练(CAP):在并行解码时,通过辅助损失函数奖励“预测正确且置信度高”的标记,提升解码效率,实现高速推理。
  • 扩散模型版 DPO:利用证据下界(ELBO)近似条件概率,将偏好学习(DPO)适配到扩散模型,优化模型输出以符合人类偏好。
  • 文档级注意力掩码:在多文档拼接训练时,设计文档级注意力掩码,避免无关文档间的错误连接,确保长文本的语义连贯性。

LLaDA 2.0的应用场景

  • 代码生成:LLaDA 2.0 在代码生成任务中表现出色,能生成高质量的代码片段,帮助开发者快速实现功能。
  • 数学推理:模型在数学问题求解和复杂推理任务中展现了强大的能力,可用于教育、科研等领域。
  • 智能体任务:支持复杂的智能体调用和长文本任务,适用于需要多步骤推理和工具调用的场景。
  • 文本生成:能生成高质量的文本内容,适用于创意写作、内容生成等场景。
  • 知识问答:在知识理解与问答任务中表现良好,可用于智能客服、知识图谱等领域。
© 版权声明

相关文章

暂无评论

none
暂无评论...