阿里新开源Ovis-U1 –支持多模态统一模型

资讯5天前发布 up博主
47 0

Ovis-U1是阿里巴巴集团Ovis团队推出的多模态统一模型,拥有30亿参数。首次实现了多模态理解、文生图像和图像编辑的统一。Ovis-U1的架构设计堪称巧妙,它主要依靠视觉分词器(Visual Tokenizer)、视觉嵌入表和大型语言模型(LLM)这三大核心组件来运作。这几个组件协同工作,实现了视觉与文本嵌入的高效对齐。基于先进的架构和协同统一训练方式,实现高保真图像合成和高效的文本视觉交互。在多模态理解、生成和编辑等多个学术基准测试中,Ovis-U1均取得领先的成绩,展现出强大的泛化能力和出色的性能表现。

阿里新开源Ovis-U1 –支持多模态统一模型阿里新开源Ovis-U1 –支持多模态统一模型阿里新开源Ovis-U1 –支持多模态统一模型

Ovis-U1的主要功能

多模态理解:支持理解复杂的视觉场景和文本内容,回答有关图像的问题,执行视觉问答(VQA)任务,及进行图像描述生成。

文本到图像生成:根据文本描述生成高质量的图像,支持多种风格和复杂的场景描述。

图像编辑:根据文本指令对图像进行精确编辑,包括添加、调整、替换、删除图像中的元素,及风格转换等。

Ovis-U1的技术原理

架构设计

视觉解码器(Visual Decoder):基于扩散的Transformer架构(MMDiT),从文本嵌入生成高质量图像。

双向令牌细化器(Bidirectional Token Refiner):增强文本和视觉嵌入之间的交互,提升文本到图像合成和图像编辑任务的性能。

视觉编码器(Visual Encoder):基于预训练的视觉编码器(如Aimv2-large-patch14-448),进行微调适应多模态任务。

适配器(Adapter):连接视觉编码器和多模态大语言模型(MLLM),对视觉和文本嵌入进行对齐。

多模态大语言模型(MLLM):作为模型的核心,处理文本和视觉信息,支持多种多模态任务。

统一训练方法:Ovis-U1在多模态理解、文本到图像生成和图像编辑任务上同时进行训练,基于共享知识提升模型的泛化能力。训练过程分为六个阶段,逐步优化模型在不同任务上的性能。每个阶段都有特定的任务和训练目标,逐步提升模型的多模态能力。

数据组成

多模态理解数据:包括公开数据集(如COYO、Wukong、Laion、ShareGPT4V、CC3M)和内部开发的数据。

文本到图像生成数据:用Laion5B数据集和JourneyDB数据集,基于预训练模型生成详细的图像描述。

图像+文本到图像生成数据:涵盖图像编辑、参考图像驱动的图像生成、像素级控制的图像生成等多种任务的数据。

性能优化:在图像编辑任务中,调整文本和图像的引导系数(CFG),实现对编辑指令的精确控制。用多个基准测试(如OpenCompass、GenEval、DPG-Bench、ImgEdit-Bench、GEdit-Bench-EN)全面评估模型的多模态能力。

Ovis-U1的应用场景

内容创作:Ovis-U1根据文本描述生成高质量图像和视频帧序列,为艺术家和视频编辑人员提供创意构思和内容构建的高效辅助工具,显著提升创作效率。

广告与营销:模型依据产品特点和目标受众描述生成吸引人的广告图像与宣传海报,为社交媒体营销创作图片和视频内容,助力品牌增强传播效果,吸引更多用户关注。

游戏开发:Ovis-U1依据游戏背景和角色描述生成游戏场景、角色及道具图像,为游戏设计提供创意灵感和初步素材。

建筑设计:Ovis-U1根据建筑风格和周边环境描述生成建筑概念图及室内场景和家具布置图像,帮助客户快速理解设计意图,辅助设计师高效展示设计方案,提高设计沟通效率。

科学研究:模型能生成复杂科学现象和数据的可视化图像及实验场景和设备图像,帮助研究人员更好地理解和展示研究成果。

© 版权声明

相关文章

暂无评论

none
暂无评论...