Ring-1T – 蚂蚁百灵开源的万亿参数思考大模型,展现出强大的数学推理能力。蚂蚁集团重磅推出万亿参数思考模型Ring-1T,并全面开源模型权重、训练配方。Ring-1T不仅在数学竞赛上刷新开源SOTA,还在逻辑推理和医疗问答中脱颖而出。 并结合人类反馈强化学习(RLHF)提升...发现资讯3周前01120
混元3D-Omni – 腾讯混元推出的3D资产生成框架,能够生成高精度的3D模型腾讯混元团队推出了混元 3D-Omni,一个基于 Hunyuan3D 2.1 构建的统一多模态可控 3D 生成框架。该框架不仅支持图像作为输入,还可接受点云、体素、边界框与骨骼姿态等多种控制信号,支持...发现资讯4周前01100
八爪鱼RPA是一款基于机器人流程自动化平台八爪鱼RPA是一款基于机器人流程自动化(Robotic Process Automation, RPA)技术的办公流程自动化工具,旨在通过模拟人类操作,如鼠标点击、键盘输入、数据读取等,实现自动化任务...发现资讯5天前01070
Mano – 明略科技推出的GUI智能操作模型,为自动化操作提供高效解决方案mano 是由明略科技研发的专用大模型,专注于图形用户界面(gui)的智能化操作。该模型建立在多模态基础架构之上,融合了在线强化学习与自动化训练数据采集等前沿技术。Mano的创新,不单单是解决了目前的...发现资讯2周前01000
腾讯AI Lab推出的全长度歌曲生成模型–SongBloom ,仅需 10 秒音频样本和对应歌词SongBloom 是一个由腾讯 AI Lab 联合顶尖高校研发的开源歌曲生成模型。它采用自回归扩散模型,将扩散模型的高保真度与语言模型的可扩展性相结合,能够快速生成完整歌曲,支持双通道、48kHz ...发现资讯1周前0910
LLaVA-OneVision-1.5 – EvolvingLMMS-Lab开源的多模态框架,实现跨模态的信息检索LLaVA-OneVision-1.5 是由 EvolvingLMMS-Lab 开发的全开源多模态框架,旨在通过高效训练和高质量数据实现多模态任务的高性能和低成本。该模型支持基于文本查询图像或基于图像...发现资讯2周前0910
Hitem3D – AI 3D模型生成工具,一键生成高精度三维模型Hitem3D AI是一款由人工智能驱动的下一代3D模型生成平台,支持用户上传图片后,一键生成高精度三维模型。这一技术突破让复杂模型从原需数日建模压缩到3分钟,并且可输出多种生产所需格式。 Hitem...发现资讯2周前0890
Qwen3-VL Cookbooks – 阿里推出的多模态任务开发指南,支持多种应用场景Qwen3-VL Cookbook是一份为开发者准备的多模态实践指南,涵盖从文档解析到视频理解的各类应用场景。核心能力包括万物识别、文档解析、OCR+关键信息提取、视频理解、智能体控制和空间理解3D定...发现资讯2周前0880
UniPixel – 香港理工联合腾讯推出的像素级多模态大模型,实现语言与视觉的深度融合香港理工大学和腾讯ARC Lab的研究团队推出了首个统一的像素级多模态大模型——UniPixel。一个能够无缝集成像素级感知与通用视觉推理能力的大型多模态模型。该模型首次实现了视频理解与精确物体标注的...发现资讯4天前0810
RTFM – 李飞飞团队推出的实时生成式世界模型,仅需单块H100 GPU可实现交互式体验RTFM是一款基于大规模视频数据进行端到端训练、效率极高的自回归扩散Transformer模型。仅需一块H100 GPU,RTFM模型就能实时渲染出持久且3D一致的场景,无论是真实空间还是虚拟想象场景...发现资讯4天前0790