Seedance 1.5 Pro – 字节推出的音画同步多模态视频模型,整体效果自然流畅。字节跳动推出的Seedance 1.5 Pro模型,具备原生音画同步能力的多模态视频生成模型。该模型可实现精准音画同步,实现较高的视听一致性,且支持多种语言和地方方言口音,能够捕捉其独有的语音韵律与情...发现资讯1周前01290
LongCat-Video-Avatar – 美团开源的数字人视频生成模型,支持音频文本生成视频LongCat-Video-Avatar 是由美团开源的一个基于深度学习的视频生成模型,旨在生成高质量的数字人视频。支持音频、文本或图像输入生成拟真视频,通过创新技术提升动作自然度、长视频稳定性及角色...发现资讯1周前0740
Molmo 2 – Ai2开源的AI视频分析模型,提供灵活的多模态处理能力艾伦人工智能研究所(Ai2)发布了全新的 Molmo2开源视频语言模型,支持多图像.视频输入,能推理事件、生成字幕并追踪物体。模型基于 Qwen 3 和 Olmo 架构,具备强大的视频分析能力,能在视...发现资讯1周前01250
Step-GUI – 阶跃星辰推出的AI Agent系列模型,10分钟就能在手机端部署step-gui 是阶跃星辰推出的ai agent系列模型,包含云侧模型 step-gui 和端侧模型 step-gui edge(原名:gelab-zero)。用户只需10分钟就能在手机端部署AI助...发现资讯1周前0780
A2UI – 谷歌开源Agent生成用户界面的声明式协议,支持定制化a2ui(agent-to-user interface)是谷歌推出的开源协议,专为ai agent与用户界面之间的高效、安全交互而设计。核心是让AI生成“界面描述数据”,而非可执行代码,客户端通过预...发现资讯1周前0830
TRELLIS.2 – 微软开源的40亿参数3D生成模型,支持透明度和逼真渲染微软开源了新一代AI工具TRELLIS.2,一个具备40亿参数的大型3D生成模型。专注于从单张图片高效生成高质量3D资产。该模型解决了如何生成具有复杂拓扑结构和锐利特征的3D物体,以及如何还原逼真的物...发现资讯1周前0650
GPT-5.2-Codex – OpenAI推出的智能体编程模型,能高效生成高质量的代码gpt-5.2-codex 是 openai 推出的面向智能体编程任务的专业级模型,聚焦于高复杂度软件工程实践与防御型网络安全场景。其核心突破在于引入了“上下文压缩”技术,让其在处理代码重构、迁移等长...发现资讯1周前0900
UnityVideo – 港科大联合可灵快手开源的视频生成框架,实现视频内容的多模态解析港科大、港中文、清华大学与快手“可灵”团队联合发布UnityVideo,一个统一多模态与多任务的视频生成框架。框架通过动态噪声注入和模态自适应学习机制,实现 RGB 视频与辅助模态之间的双向学习,加速...发现资讯2周前01050
LuxReal – 群核科技推出的AI 3D视频创作平台,快速生成高质量群核科技发布基于3D技术所打造的AI内容创作工具——LuxReal,基于图像、3D 模型等多模态输入,快速生成主体一致、画面可控的视频内容,适用电商、影视、广告等行业。“LuxReal通过构建3D渲染...发现资讯2周前01040
Seedance 1.0 lite – 火山引擎推出的视频生成模型,支持文生视频和图生视频Seedance 1.0 lite是火山引擎推出的豆包视频生成模型的小参数量版本,支持文生视频和图生视频两种生成方式,支持生成5秒或10秒、480p或720p分辨率的视频。支持360度环绕、航拍、变焦...发现资讯2周前01250