SpatialGen – 群核科技开源的3D场景生成模型,生成具有时空一致性的多视角图像SpatialGen是一款基于扩散模型架构的多视角图像生成模型,可根据文字、参考图和3D空间布局,生成具有时空一致性的多视角图像。SpatialGen 可根据文字描述、参考图像和3D空间布局,生成具有...发现资讯4个月前06410
Wav2Lip – 开源的高保真唇形同步工具,自动生成与语音同步的口型动画Wav2Lip 是一个 口型同步技术开源项目,可以在任意语音对任意说话的脸部视频进行口型同步。旨在提升视频中唇部同步的保真度。此项目通过 Wav2Lip 实现精确的唇动匹配,再利用 Real-ESRG...发现资讯4个月前05130
Hunyuan-MT-7B – 腾讯开源的轻量级翻译模型,能快速准确地完成翻译任务Hunyuan-MT-7B是什么 Hunyuan-MT-7B 是腾讯混元发布的轻量级翻译模型,参数量为70亿,支持33个语种及5种民汉语言/方言的互译,包括粤语、维吾尔语、藏语等。模型采用完整的训练范...发现资讯5个月前03780
EchoMimicV3 – 蚂蚁集团推出的多模态数字人视频生成框架,实现高效的模型训练和快速的动画生成。EchoMimicV3 是由蚂蚁集团研发的一款高效、多模态、多任务的数字人视频生成框架。该模型拥有 13 亿参数,采用任务混合与模态混合的创新范式,结合独特的训练与推理策略,能够在多种输入条件下实现快...发现资讯4个月前03800
VibeVoice – 微软推出的开源文本转语音模型,支持动态对话和交互式应用近日,微软研究院提出了一种全新的语音生成模型 VibeVoice。它能够将文字脚本直接转化为流畅、自然的长对话音频。创作者无需再为音色匹配、语速调整、对话间隔等细节问题耗费精力,只需提供一份带角色标注...发现资讯4个月前04520
DeepCode – 港大实验室推出的多Agent代码生成平台,支持扩展且功能丰富的后端代码DeepCode是一款全新的开源Agentic编程平台,能够将所有应用程序、工具和AI代理集中在一个统一的环境中。可将研究论文与自然语言需求自动转化为可生产部署的前端、后端或完整应用代码。 DeepC...发现资讯4个月前04760
deepfig重塑企业运营,开启智能自动化新时代Deepfig是什么? Deepfig是一款领先的智能自动化工作流平台。它致力于解决企业日常运营中面临的流程碎片化、数据孤岛、人工操作效率低下等核心痛点。通过其强大的集成能力和可视化设计,Deepfi...发现资讯5个月前04570
Step-Audio 2 mini – 阶跃星辰开源的端到端语音模型,能精准理解各种音频内容Step-Audio 2 mini是什么 Step-Audio 2 mini是阶跃星辰推出的开源端到端语音模型。突破传统语音模型结构,采用真端到端多模态架构,直接将原始音频输入转化为语音响应输出,时延...发现资讯5个月前05650
AutoClip – 开源免费AI视频剪辑工具,自动识别高光片段,处理成功率高达95%以上AutoClip 是一个智能视频剪辑和内容推荐系统,专为内容创作者、视频编辑者和广大视频爱好者设计,工具能自动识别视频中的高光片段,精准切片并生成优化后的标题,提升内容吸引力。工具支持B站视频下载和字...发现资讯4个月前04.3K0
Elser AI –动漫创作的生成式人工智能平台 ,一键生成高质量动漫内容创作Elser AI 是一款免费且功能强大的 AI 漫画生成器,旨在帮助用户轻松创作出精美的漫画作品。它支持用户多次免费生成漫画,尤其适用于长篇漫画的创作,并采用技术手段确保人物形象的统一性。只需简单三步...发现资讯4个月前01.1K0