RTFM – 李飞飞团队推出的实时生成式世界模型,仅需单块H100 GPU可实现交互式体验RTFM是一款基于大规模视频数据进行端到端训练、效率极高的自回归扩散Transformer模型。仅需一块H100 GPU,RTFM模型就能实时渲染出持久且3D一致的场景,无论是真实空间还是虚拟想象场景...发现资讯2个月前04930
Manus 1.5 – Manus最新AI Agent版本,速度提升近四倍,支持Web全栈开发Manus 今日宣布推出全新的 Manus 1.5,这是该公司迄今功能最强的 AI 智能体,在任务执行速度、可靠性与输出质量方面均实现显著提升。Manus 1.5 建立在重新架构的引擎之上,使一切变得...发现资讯2个月前04590
Coral NPU – 谷歌推出的全栈开源AI平台,高效执行机器学习(ML)模型的推理任务谷歌正式推出 Coral NPU,一个面向边缘人工智能(Edge AI)的开源全栈平台。旨在解决性能、碎片化和隐私这三大核心挑战,而这些挑战限制了功能强大、始终在线的 AI 技术在低功耗边缘设备和可穿...发现资讯2个月前03150
DeepSeek-OCR – DeepSeek团队开源的视觉语言模型,实现7-20倍的压缩比。DeepSeek 开源了新模型 OCR 。支持对任意图像进行自由式文字识别,能够快速提取图片中的全部文本信息,不依赖版面结构。能够自动识别并重建文档中的排版结构,包括段落、标题、页眉页脚等,实现“结构...发现资讯2个月前05120
混元世界模型1.1 – 腾讯混元开源的3D世界生成模型,支持在单张显卡上部署腾讯混元世界模型 1.1 版本(WorldMirror)正式发布并开源,支持多视图图像或视频输入,单卡即可部署实现秒级3D世界生成。。混元世界模型1.1采用多模态先验提示和通用几何预测架构,结合课程学...发现资讯2个月前03840
Seed3D 1.0 – 字节推出的3D生成大模型,支持单图生成高质量仿真级3D模型字节跳动Seed团队推出3D生成大模型——Seed3D 1.0,实现从单张图像到高质量仿真级3D模型的端到端生成。仅需一张任意视角的二维图像,即可生成一个包含精细几何结构、高保真纹理贴图以及基于物理渲...发现资讯2个月前02640
蛐蛐 (QuQu) – 开源的桌面端语音输入与文本处理工具,支持上下文感知的智能输出蛐(QuQu)是一款本地化、免费且针对中文优化的语音输入工具,通过集成阿里巴巴FunASR本地模型,实现语音数据的全流程本地处理,杜绝云端上传风险,同时深度优化中文识别能力,支持网络用语、方言及专业术...发现资讯2个月前08370
夸克AI眼镜 – 阿里推出的智能AI眼镜,24小时续航支持全天候使用阿里巴巴发布了其首款自研AI眼镜——夸克AI眼镜。据悉,阿里巴巴AI眼镜已完成研发,预计将于年内正式发布。夸克AI眼镜搭载了高通骁龙AR1芯片+低功耗协处理器的双芯设计以及安卓+RTOS双系统,实现动...发现资讯2个月前04330
Google Skills – 谷歌推出的AI技能学习平台,支持真实代码编写和实时反馈,Google 近日推出了一个名为“Google Skills”的全新学习平台,旨在帮助用户掌握数字时代所需的核心技能。致力于弥合 AI 领域的技能鸿沟。Google Skills 平台致力于培养具备实...发现资讯2个月前03140
Moonshot AI推出的命令行通用智能体工具–Kimi CLI ,支持多种编程语言Moonshot AI正式推出开源工具 Kimi CLI,一款融合智能代理与传统 Shell 操作的命令行编码利器,目前已进入技术预览阶段,代码已在 GitHub 开源,即刻向全球开发者开放。用户可一...发现资讯2个月前03940