DINOv3 – Meta开源的通用视觉基础模型,支持精细的图像解析与多种视觉任务
DINOv3 是 Meta AI 开发的第三代自监督视觉 Transformer 模型,通过自监督学习(SSL)训练,可生成强大且高分辨率的图像特征。代表了当前计算机视觉领域自监督学习的最高水平。Me...
VeOmni – 字节跳动开源的全模态深度学习框架
VeOmni 是字节跳动(ByteDance)开发的一个全模态深度学习框架,旨在支持多模态数据融合的场景,特别是在计算机视觉和自然语言处理(NLP)领域。全模态指的是能够处理多种类型的数据,例如文本...
Genie Envisioner – 智元推出的首个机器人世界模型开源平台
智元机器人推出面向真实世界机器人操控的统一世界模型平台Genie Envisioner(GE)。这一突破性技术让机器人首次能够在虚拟数字环境中进行预演练习,掌握技能后再执行实际任务,大幅降低实体调试风...
Mureka V7.5 – 昆仑万维推出的AI音乐生成模型,支持多样化的音乐风格
昆仑万维宣布正式上线音乐生成模型 Mureka V7.5,该模型不仅在音色和演奏技法上更加细腻,还在咬字清晰度和情感表达上取得显著进步,能够精准捕捉中文音乐的独特韵味,与此同时,公司语音团队推出了基于...
MuleRun – 全球首个AI Agent市场,代理执行多种任务,提供即插即用AI工具
MuleRun是全球首个AI Agent市场,旨在提供一个平台,提供多种即插即用的AI工具(Mule Agents),能够执行从游戏辅助、内容创作到自动化任务的多种功能,用户通过一个入口即可访问大量A...
最新开源AGL框架BISHENG灵思,多智能体协作处理复杂任务
BISHENG灵思是毕昇推出的一款开源通用AI Agent,旨在通过结合业务专家的知识与经验,帮助用户高效完成复杂任务。创新地提出了AGL(Agent指导语言)框架,将业务专家的偏好和知识注入AI系统...
花生AI – B站推出AI视频创作工具,3分钟即可生成完整视频
B站近日正在测试一款创新的AI视频创作工具——“花生AI”。这款工具旨在助力用户迅速生成视频,且产出质量颇高。用户可以通过文案或音频轻松生成视频,工具提供了智能匹配素材和模板制作两种方式。在使用“花生...
DeepFig-端侧推理引擎,实现“数据永不离端”:联邦学习+差分隐私构筑AI安全底座
DeepFig是什么 DeepFig是一家专注于端侧人工智能(On-Device AI)解决方案的技术提供商,致力于通过本地化模型部署实现“数据不出设备”的隐私保护目标。其核心产品为端侧推理引擎,能够...
Voost – 创新的双向虚拟试穿和试脱AI模型,增强服装与身体的关系推理能力。
NXN Labs的研究团队开发了一个叫做Voost的人工智能系统,旨在提升虚拟试衣和试脱技术的表现。就像是一个超级聪明的"换衣魔法师"。这个系统最神奇的地方在于,它不仅能让你"试穿"任何衣服,还能从穿...
Skywork UniPic 2.0 – 昆仑万维开源的统一多模态模型,支持文本到图像生成和图像编辑任务
Skywork UniPic 2.0是昆仑万维正式开源的多模态建模的高效训练和推理框架,围绕生成和编辑模块轻量化、连接多模态理解模型进行联合训练,构建了理解、生图、编辑一体化的核心能力,旨在实现“高效...









