Emu3.5 – 智源研究院推出的多模态世界大模型,速度提升了近20倍智源研究院正式发布了“悟界 EMU3.5”多模态世界大模型,标志着人工智能从“语言学习”向“多模态世界学习”演进的新纪元。Emu3.5 在图像生成和编辑任务上取得了与Gemini 2.5 Flash ...发现资讯2个月前03650
Music 2.0 – MiniMax推出的新一代音乐创作模型,支持多种唱法与风格切换MiniMax正式发布新一代音乐生成模型MiniMax Music 2.0。这一模型在音乐理解与声学表现能力上实现升级,能够精准捕捉人声情绪与器乐动态,为用户提供专业级音乐创作体验。在人声表现上接近真...发现资讯2个月前02330
Firefly Image 5 – Adobe推出的最新图像生成模型,支持400万像素原生输出Adobe上线其最新一代图像生成与编辑模型Firefly Image 5,新模型支持400万像素原生输出,提供图像分层编辑等图像功能,还新增视频和音频生成工具。其细节锐度与色彩表现大幅提升,特别是在人...发现资讯2个月前02860
Gambo – AI游戏开发Agent,支持创作者自定义游戏场景和关卡设计,增强游戏的可定制性。Gambo,自称为“全球首个Game Vibe Coding Agent”,用户只需通过简单的文字描述,能快速生成完整的游戏,包括场景、角色、音效和交互逻辑。为用户提供了一种全新的游戏创作方式。Gam...发现资讯2个月前04980
Sonic-3 – Cartesia推出的实时语音对话模型,支持多种语言的自然语音输出Cartesia 公司推出新一代实时对话文本转语音模型 Sonic-3,该模型基于 State Space Model(SSM)架构打造,推理延迟低至 90 毫秒,端到端响应仅需 190 毫秒,是最快...发现资讯2个月前03760
FlowithOS – Flowith推出的全球首个智能体操作系统,自动执行复杂任务flowithOS 是全球首个为 Agent 原生设计的智能体操作系统,可以根据用户们发出的任务指令,进行多网页搜索,通过“代码+视觉”的方式来理解用户屏幕画面,并进行自主地思考与执行,完成各种操作...发现资讯2个月前02850
SoulX-Podcast – Soul推出的多人语音合成模型,自然地切换不同说话人的语音Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast,它不仅能稳定生成超过60分钟的多人对话,更在多语种、多方言甚至笑声、叹息等“副语言”的控制上,取...发现资讯2个月前05250
GitHub推出–Agent HQ 集成AI智能体平台,助你快速打造专业级智能体GitHub 推出Agent HQ,将 AI 编程助手彻底整合进平台,让开发者能像管理团队一样指挥多个 AI 代理。这是首款突破原生界面限制、直接嵌入编辑器的合作伙伴智能体,其核心目标是统一管理各类 ...发现资讯2个月前03200
GigaBrain-0 – 最新开源VLA具身模型,打造了全球首个最全具身智能数据体系最新推出的GigaBrain-0是一款基于世界模型(World Model)的视觉-语言-动作(VLA)基础模型,专为机器人复杂操作任务设计。GigaBrain-0通过加入深度信息的输入,提升了物体3...发现资讯2个月前02740
FIBO – 开源的图像生成模型,支持快速迭代和精准控制,提升创意效率。FIBO是一个开源的文本生成图像模型,专为长结构化描述训练而成,能够根据用户输入的文本描述快速生成高质量的图像。支持将简短的文本提示扩展为详细的结构化JSON描述,能将简短的文本提示自动扩展为长达千字...发现资讯2个月前02860