京东正式开源其自研大模型推理引擎xLLM。据悉,该引擎基于国产芯片深度优化,是一款专注于大模型高效推理的基础软件。xLLM在内部多场景应用中实现的5倍效率提升和90%成本优化,已经强有力地证明了其技术实力和商业价值。展现出显著的技术与成本优势。此次开源将推动国产大模型推理技术在产业界的进一步应用与生态共建。
xLLM是什么
xLLM 是京东开源的高效智能推理框架,专为国产芯片优化,支持端云一体部署。框架用服务-引擎分离架构,服务层负责请求调度与容错,引擎层专注运算优化,具备多流并行、图融合、动态负载均衡等特性。xLLM 支持大模型、多模态模型及生成式推荐等多种场景,提供高性能、低成本的推理服务,助力智能客服、实时推荐、内容生成等业务高效落地,推动大语言模型在国产芯片上的规模化应用。
xLLM的主要功能
- 全图化 / 多层流水线执行编排:通过框架层异步解耦调度、模型图层计算通信异步并行及算子内核层深度流水优化,实现多层流水线执行编排,减少计算空泡并提升整体推理效率。
- 动态 Shape 的图执行优化:用参数化与多图缓存方法实现动态尺寸适配,结合受管控的显存池和自定义算子集成,提升静态图灵活性并保障显存安全复用,优化动态输入处理性能。
- MoE 算子优化:针对 MoE 模型,实现 GroupMatmul 和 Chunked Prefill 算子优化,分别提升计算效率和长序列输入的处理能力,增强模型推理性能。
- 高效显存优化:采用离散物理内存与连续虚拟内存的映射管理,按需分配内存空间,智能调度内存页复用,减少内存碎片与分配延迟,适配国产芯片算子,提升显存利用效率。
- 全局多级 KV Cache 管理:实现多级缓存的 KV 智能卸载与预取,构建以 KV Cache 为中心的分布式存储架构,优化多节点间 KV 的智能传输路由,提升缓存效率和数据传输性能。
- 算法优化:通过投机推理优化和 MoE 专家动态负载均衡,实现多核并行提升效率,动态调整专家分布,优化算法性能,提升推理吞吐量和负载均衡能力。
xLLM官网地址
- 官网:https://xllm.readthedocs.io/
xLLM的应用场景
- 智能客服:快速响应用户咨询,提供准确的解答和建议,提升客户满意度和客服效率。
- 实时推荐:基于用户行为数据,实时生成个性化推荐内容,提高用户参与度和转化率。
- 内容生成:xLLM 能生成高质量的文本内容,如新闻、文章、创意文案等,助力内容创作。
- 多模态应用:支持多模态模型(如文本 + 图像),用在图像描述生成、视觉问答等场景。
- 生成式推荐:结合生成式技术,生成更丰富、更个性化的推荐结果,提升用户体验。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...
xLLM是什么

