Depth Anything 3 – 字节跳动推出的视觉空间重建模型,可重建完整3D场景自字节跳动(ByteDance Seed)的研究团队推出—Depth Anything 3 (DA3)视觉空间重建模型,旨在打破3D视觉任务之间的壁垒,实现一个“大一统”的视觉几何模型。DA3的核心思...发现资讯2个月前03800
HunyuanOCR – 腾讯混元推出的端到端OCR视觉语言模型,仅1B参数,腾讯正式推出其全新开源模型 HunyuanOCR,参数量仅为1B。该模型基于腾讯独创的混元多模态架构设计,已在多个行业标准的 OCR 应用中取得了 SOTA(最先进水平)的佳绩。HunyuanOCR ...发现2个月前03850
Claude Opus 4.5 – Anthropic推出的最新AI编程模型,编程测试中表现卓越Anthropic正式推出其最新研发的AI模型Claude Opus4.5。该模型不仅能帮助用户提升工作效率,还能激发创造力,拓展职业能力边界。在编码、智能代理及计算机应用等多个领域展现出卓越性能,尤...发现2个月前03260
NemoVideo – AI视频编辑工具,快速生成爆款视频,支持多种流行风格及动态字幕效果NemoVideo 是一款为视频创作者提供基于 AI 的“爆款仿剪Agent工具”,工具通过 AI 技术实现自动剪辑,如消除静音、加字幕等,能根据用户需求生成创意简报和脚本,帮助快速制作爆款视频。帮助...发现2个月前04440
MindVideo AI – 免费AI视频生成器,支持文本或图像转化为高质量视频MindVideo AI是一款先进的在线AI视频生成器,利用人工智能算法快速将文本或图像转化为高质量视频。用户只需输入文字描述或上传图片,就能在几秒钟内生成高质量视频,支持高达4K分辨率。特色包括丰富...发现2个月前06610
Olmo 3 – AI2最新开源的大语言模型系列,支持从编程到推理等多种任务Ai2发布了新一代语言模型家族Olmo3,从训练数据、程序代码、评测流程,到各阶段检查点与用来回溯推理过程的工具都公开,让外部团队可以完整重现与延伸这套模型。模型包括多个版本,Olmo 3-Base...发现2个月前04690
WorldGen – Meta推出的3D世界生成端到端系统,几分钟内生成完整的 3D 世界。Meta 推出了 WorldGen,这是一种端到端系统,可仅凭单条文本提示词,自动生成可交互、可导航的三维世界,不仅具备高度沉浸感,更支持用户真正步入其中、自由探索。WorldGen 融合了程序化逻辑...发现2个月前03600
Supertonic – 开源的AI文本转语音系统,最快的TTS系统,实现零延迟响应Supertonic开源了AI端侧离线文本转语音系统,支持本地高性能语音合成,无需云端依赖,确保隐私和零延迟。Supertonic 具有高度可配置性,用户可根据需求调整推理步骤、批量处理等参数,并支持...发现2个月前05800
小米推出首个跨领域具身大模型–MiMo-Embodied ,支持复杂动态环境中的多模态交互,小米集团正式发布具身大模型MiMo-Embodied,并宣布该模型全面开源。该模型的创新之处在于构建了一个统一的技术架构,首次实现了两大领域核心任务的协同处理。整合了自动驾驶和具身智能两大领域的任务...发现2个月前05140
Elser.AI – AI动漫创作平台,支持从静态图片到动态视频的转换Elser AI 正式宣布推出全球首个整合全流程的 AI 动漫创作平台,通过先进的技术将用户的简单创意转化为高质量的动漫内容,涵盖漫画、视频和短剧等多种形式。ELSER.AI的核心突破,在于用AI智能...发现2个月前05280