Sora 2 – OpenAI 推出的新一代AI音视频生成模型,首次实现了环境音效与画面动态同步生成OpenAI推出的新一代视频生成模型Sora 2,首次实现了音频与画面的智能同步生成。新模型通过多模态融合算法,能够理解视频内容的情绪基调、场景特征和动作节奏,并据此生成匹配的背景音乐、环境音效甚至人...发现资讯6天前01680
AudioFly – 科大讯飞开源的文生音效模型,支持本地部署、推理和微调。主要介绍 AudioFly是科大讯飞推出的开源文生音效模型,基于潜在扩散模型(LDM)架构,能够根据文本描述生成高质量音频。该模型支持44.1kHz采样率,在文本与音效的匹配度上表现优异,适用于短视频...发现资讯2周前01650
SpikingBrain-1.0 – 中国科学院推出的类脑脉冲大模型,能实现数量级的效率提升近日,中国科学院自动化研究所科研团队成功研发出首款类脑脉冲大模型SpikingBrain-1.0。SpikingBrain-1.0在多个性能方面实现突破:实现极低数据量高效训练、实现推理效率数量级提升...发现资讯1个月前01650
Mini-o3 – 字节联合港大推出的视觉推理模型,支持多轮交互推理自字节跳动和香港大学的研究团队推出了 Mini-o3,一个旨在复现OpenAI强大但未公开的o3模型能力的开源系统。Mini-o3的核心目标是扩展模型与工具的交互能力,使其能够执行长达数十步的深度推理...发现资讯3周前01600
混元图像3.0 – 腾讯开源的原生多模态图像生成模型,支持多种风格的图像生成腾讯混元最新发布并开源原生多模态生图模型——混元图像3.0,这是首个开源工业级原生多模态生图模型,也是目前效果最好的开源生图模型。混元图像3.0具备常识并能够利用知识进行推理;同时语义理解准确度高,并...发现资讯2周前01590
Qwen3-Omni – 阿里通义开源的原生端到端全模态大模型,支持119种文本语言交互Qwen3-Omni模型的发布,标志着开源多模态人工智能领域的一个重要里程碑。该报告旨在对Qwen3-Omni进行全面深入的技术剖析,通过先进的深度学习技术,输入的视频、音频、文本直接进入核心模型,中...发现资讯3周前01580
混元3D Studio – 腾讯推出的一站式3D创作平台,快速生成高质量的3D概念设计腾讯正式推出3D创作工具集“混元3D Studio”,支持高质量地生成或处理3D 模型。既能帮助专业创作者降低3D 模型制作成本、快速实现创意模型,又能降低普通用户在3D 建模的使用门槛,让更多人可以...发现资讯3周前01550
WebWeaver – 阿里通义开源的双Agent框架,提高研究效率和质量WebWalker是阿里巴巴通义实验室提出的一个用于提升大型语言模型(LLM)网页信息检索能力的框架,它是一个基于阿里通义大模型(通义千问)的开源框架,旨在通过对话式AI助手(Agent)来提升用户与...发现资讯3周前01550
win11和 win10 全版本 永久激活码密钥工具(有效激活)低调使用💻 Windows 11 激活密钥 Windows 11以其焕然一新的视觉效果 因此,本文将为大家提供一份完整的win11安装密钥大全,帮助大家解决密钥问题 所有的Windows激活密钥激活码如下...发现2个月前01510
Lessie AI – 全球首个People Search AI Agent,精准定位潜在合作伙伴Lessie AI是一款定位为「People Search AI Agent」的AI搜索智能体工具,旨在通过人工智能技术将传统依赖人脉或手动搜索的“找人”流程标准化、自动化。其重要性在於通過自動化流程...发现资讯3周前01480