可灵O1 – 可灵AI推出全球首个统一多模态视频生成模型,轻松生成和编辑视频内容。全球首个大一统的多模态视频、图片创作工具“可灵O1”正式上线。模型通过创新的多模态视觉语言(MVL)架构,实现视频生成、编辑与理解的无缝融合。可灵O1基于全新的视频和图像模型,以自然语言作为语义骨架...发现资讯4周前02070
Vidi2 – 字节跳动推出的多模态视频理解与生成模型,自动剪辑、智能分镜、智能字幕等多种功能字节跳动推出的视频理解模型Vidi2,通过精准捕捉与识别,在基准测试中取得了显著领先成绩,尤其适用于长视频处理。Vidi2引入了新的基准测试VUE-STG和VUE-TR-V2,以更好地评估STG能力...发现资讯4周前01880
Talo – AI实时语音翻译工具,打破语言障碍,增强沟通效果Talo是一款专为视频通话设计的实时AI翻译工具,旨在打破语言障碍,让全球范围内的无障碍沟通。它利用先进的AI技术,提供即时、准确的语音翻译,用户只需将会议链接粘贴到Talo界面并选择所需语言,即可开...发现资讯4周前03420
StepAudio R1 – 阶跃星辰推出的全球首个开源原生音频推理模型,真正实现深度推理。StepAudio R1 是阶跃星辰团队推出的全球首个开源原生音频推理模型。模型通过创新的模态锚定推理蒸馏(MGRD)框架,解决了传统音频模型在复杂推理中性能下降的问题,真正实现基于声学特征的深度推理...发现资讯4周前01700
Temvideo.ai – AI视频制作Agent,一键生成营销视频Temvideo.ai 是一款专为跨境电商营销设计的AI视频制作工具,旨在帮助电商商家高效生成高转化率的营销视频。通过智能算法帮助用户快速生成高质量的营销视频。用户只需提供想法和素材,一键批量生成营...发现资讯4周前02120
DeepSeek-Math-V2 – DeepSeek开源的数学推理模型,能实现自我验证和修正推理过程DeepSeek上线全新数学专用模型DeepSeekMath-V2,该模型基于DeepSeek-V3.2-Exp-Base构建,参数规模达685B。它最大的亮点是能像数学家一样自我验证和修正推理过程...发现资讯4周前01900
讯飞输入法 – 科大讯飞推出的AI语音输入法工具,支持语音、拼音、手写、拍照等多种输入方式,科大讯飞语音输入法app是科大讯飞推出的一款手机语音输入法软件,语音准确,输入流畅,手写快捷,还有海量键盘皮肤、表情包、颜文字,1分钟400字,更智能更好用,讯飞语音输入法需要联网才能使用,软件拥有语...资讯4周前03610
Depth Anything 3 – 字节跳动推出的视觉空间重建模型,可重建完整3D场景自字节跳动(ByteDance Seed)的研究团队推出—Depth Anything 3 (DA3)视觉空间重建模型,旨在打破3D视觉任务之间的壁垒,实现一个“大一统”的视觉几何模型。DA3的核心思...发现资讯4周前02010
Z-Image – 阿里通义推出的图像生成模型,能快速生成高质量的逼真图像随着AI大模型的快速发展,越来越多的用户使用AI来辅助工作、提高效率。阿里通义大模型官方最新发布的生图模型 Z-Image 上线后迅速登顶 Hugging Face 趋势榜双榜第一,模型发布首日下载量...资讯4周前02010
ViMax – 港大开源的多智能体视频生成框架,导演、编剧、制片人和视频生成器ViMax 是一个多智能体视频生成框架,支持自动化多镜头视频生成,并确保角色与场景的一致性。该框架集导演、编剧、制片人和视频生成器功能于一体,支持多种模式生成分钟级长视频,保持人物与场景一致性。ViM...资讯1个月前01550