发现 | 第23页

发现科技资讯

排序

发布更新浏览点赞

Sora 2 – OpenAI 推出的新一代AI音视频生成模型，首次实现了环境音效与画面动态同步生成

OpenAI推出的新一代视频生成模型Sora 2，首次实现了音频与画面的智能同步生成。新模型通过多模态融合算法，能够理解视频内容的情绪基调、场景特征和动作节奏，并据此生成匹配的背景音乐、环境音效甚至人...

发现资讯

6天前

01680

AudioFly – 科大讯飞开源的文生音效模型，支持本地部署、推理和微调。

主要介绍 AudioFly是科大讯飞推出的开源文生音效模型，基于潜在扩散模型（LDM）架构，能够根据文本描述生成高质量音频。该模型支持44.1kHz采样率，在文本与音效的匹配度上表现优异，适用于短视频...

发现资讯

2周前

01650

SpikingBrain-1.0 – 中国科学院推出的类脑脉冲大模型，能实现数量级的效率提升

近日，中国科学院自动化研究所科研团队成功研发出首款类脑脉冲大模型SpikingBrain-1.0。SpikingBrain-1.0在多个性能方面实现突破：实现极低数据量高效训练、实现推理效率数量级提升...

发现资讯

1个月前

01650

Mini-o3 – 字节联合港大推出的视觉推理模型，支持多轮交互推理

自字节跳动和香港大学的研究团队推出了 Mini-o3，一个旨在复现OpenAI强大但未公开的o3模型能力的开源系统。Mini-o3的核心目标是扩展模型与工具的交互能力，使其能够执行长达数十步的深度推理...

发现资讯

3周前

01600

混元图像3.0 – 腾讯开源的原生多模态图像生成模型，支持多种风格的图像生成

腾讯混元最新发布并开源原生多模态生图模型——混元图像3.0，这是首个开源工业级原生多模态生图模型，也是目前效果最好的开源生图模型。混元图像3.0具备常识并能够利用知识进行推理；同时语义理解准确度高，并...

发现资讯

2周前

01590

Qwen3-Omni – 阿里通义开源的原生端到端全模态大模型，支持119种文本语言交互

Qwen3-Omni模型的发布，标志着开源多模态人工智能领域的一个重要里程碑。该报告旨在对Qwen3-Omni进行全面深入的技术剖析，通过先进的深度学习技术，输入的视频、音频、文本直接进入核心模型，中...

发现资讯

3周前

01580

混元3D Studio – 腾讯推出的一站式3D创作平台，快速生成高质量的3D概念设计

腾讯正式推出3D创作工具集“混元3D Studio”，支持高质量地生成或处理3D 模型。既能帮助专业创作者降低3D 模型制作成本、快速实现创意模型，又能降低普通用户在3D 建模的使用门槛，让更多人可以...

发现资讯

3周前

01550

WebWeaver – 阿里通义开源的双Agent框架，提高研究效率和质量

WebWalker是阿里巴巴通义实验室提出的一个用于提升大型语言模型（LLM）网页信息检索能力的框架，它是一个基于阿里通义大模型（通义千问）的开源框架，旨在通过对话式AI助手（Agent）来提升用户与...

发现资讯

3周前

01550

win11和 win10 全版本永久激活码密钥工具（有效激活）低调使用

💻 Windows 11 激活密钥 Windows 11以其焕然一新的视觉效果因此，本文将为大家提供一份完整的win11安装密钥大全，帮助大家解决密钥问题所有的Windows激活密钥激活码如下...

发现

2个月前

01510

Lessie AI – 全球首个People Search AI Agent，精准定位潜在合作伙伴

Lessie AI是一款定位为「People Search AI Agent」的AI搜索智能体工具，旨在通过人工智能技术将传统依赖人脉或手动搜索的“找人”流程标准化、自动化。其重要性在於通過自動化流程...

发现资讯

3周前

01480

加载更多