Talo – AI实时语音翻译工具,打破语言障碍,增强沟通效果
Talo是一款专为视频通话设计的实时AI翻译工具,旨在打破语言障碍,让全球范围内的无障碍沟通。它利用先进的AI技术,提供即时、准确的语音翻译,用户只需将会议链接粘贴到Talo界面并选择所需语言,即可开...
StepAudio R1 – 阶跃星辰推出的全球首个开源原生音频推理模型,真正实现深度推理。
StepAudio R1 是阶跃星辰团队推出的全球首个开源原生音频推理模型。模型通过创新的模态锚定推理蒸馏(MGRD)框架,解决了传统音频模型在复杂推理中性能下降的问题,真正实现基于声学特征的深度推理...
Temvideo.ai – AI视频制作Agent,一键生成营销视频
Temvideo.ai 是一款专为跨境电商营销设计的AI视频制作工具,旨在帮助电商商家高效生成高转化率的营销视频。通过智能算法帮助用户快速生成高质量的营销视频。用户只需提供想法和素材,一键批量生成营...
DeepSeek-Math-V2 – DeepSeek开源的数学推理模型,能实现自我验证和修正推理过程
DeepSeek上线全新数学专用模型DeepSeekMath-V2,该模型基于DeepSeek-V3.2-Exp-Base构建,参数规模达685B。它最大的亮点是能像数学家一样自我验证和修正推理过程...
讯飞输入法 – 科大讯飞推出的AI语音输入法工具,支持语音、拼音、手写、拍照等多种输入方式,
科大讯飞语音输入法app是科大讯飞推出的一款手机语音输入法软件,语音准确,输入流畅,手写快捷,还有海量键盘皮肤、表情包、颜文字,1分钟400字,更智能更好用,讯飞语音输入法需要联网才能使用,软件拥有语...
Depth Anything 3 – 字节跳动推出的视觉空间重建模型,可重建完整3D场景
自字节跳动(ByteDance Seed)的研究团队推出—Depth Anything 3 (DA3)视觉空间重建模型,旨在打破3D视觉任务之间的壁垒,实现一个“大一统”的视觉几何模型。DA3的核心思...
Z-Image – 阿里通义推出的图像生成模型,能快速生成高质量的逼真图像
随着AI大模型的快速发展,越来越多的用户使用AI来辅助工作、提高效率。阿里通义大模型官方最新发布的生图模型 Z-Image 上线后迅速登顶 Hugging Face 趋势榜双榜第一,模型发布首日下载量...
ViMax – 港大开源的多智能体视频生成框架,导演、编剧、制片人和视频生成器
ViMax 是一个多智能体视频生成框架,支持自动化多镜头视频生成,并确保角色与场景的一致性。该框架集导演、编剧、制片人和视频生成器功能于一体,支持多种模式生成分钟级长视频,保持人物与场景一致性。ViM...
FLUX.2 – Black Forest Labs开源的AI图像生成与编辑模型,支持同时参考多达10张图片
视觉智能实验室 Black Forest Labs 推出了其新一代图像生成模型 FLUX.2,该模型专为实际创作工作流程设计。该模型在细节生成、风格一致性、文本渲染和复杂指令遵循方面均有显著提升。模...
HunyuanOCR – 腾讯混元推出的端到端OCR视觉语言模型,仅1B参数,
腾讯正式推出其全新开源模型 HunyuanOCR,参数量仅为1B。该模型基于腾讯独创的混元多模态架构设计,已在多个行业标准的 OCR 应用中取得了 SOTA(最先进水平)的佳绩。HunyuanOCR ...









