Sonic-3 – Cartesia推出的实时语音对话模型,支持多种语言的自然语音输出Cartesia 公司推出新一代实时对话文本转语音模型 Sonic-3,该模型基于 State Space Model(SSM)架构打造,推理延迟低至 90 毫秒,端到端响应仅需 190 毫秒,是最快...发现资讯2个月前03700
FlowithOS – Flowith推出的全球首个智能体操作系统,自动执行复杂任务flowithOS 是全球首个为 Agent 原生设计的智能体操作系统,可以根据用户们发出的任务指令,进行多网页搜索,通过“代码+视觉”的方式来理解用户屏幕画面,并进行自主地思考与执行,完成各种操作...发现资讯2个月前02760
SoulX-Podcast – Soul推出的多人语音合成模型,自然地切换不同说话人的语音Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast,它不仅能稳定生成超过60分钟的多人对话,更在多语种、多方言甚至笑声、叹息等“副语言”的控制上,取...发现资讯2个月前05220
GitHub推出–Agent HQ 集成AI智能体平台,助你快速打造专业级智能体GitHub 推出Agent HQ,将 AI 编程助手彻底整合进平台,让开发者能像管理团队一样指挥多个 AI 代理。这是首款突破原生界面限制、直接嵌入编辑器的合作伙伴智能体,其核心目标是统一管理各类 ...发现资讯2个月前03170
GigaBrain-0 – 最新开源VLA具身模型,打造了全球首个最全具身智能数据体系最新推出的GigaBrain-0是一款基于世界模型(World Model)的视觉-语言-动作(VLA)基础模型,专为机器人复杂操作任务设计。GigaBrain-0通过加入深度信息的输入,提升了物体3...发现资讯2个月前02710
FIBO – 开源的图像生成模型,支持快速迭代和精准控制,提升创意效率。FIBO是一个开源的文本生成图像模型,专为长结构化描述训练而成,能够根据用户输入的文本描述快速生成高质量的图像。支持将简短的文本提示扩展为详细的结构化JSON描述,能将简短的文本提示自动扩展为长达千字...发现资讯2个月前02810
Grokipedia – xAI公司推出的AI 版维基百科,支持多语言无缝切换埃隆·马斯克推出了AI驱动的在线百科全书Grokipedia,这是一个完全由Grok聊天机器人驱动和维护的在线百科全书。该平台目前收录超过88.5万篇文章,所有内容均由AI自主生成和维护。基于xAI的...发现资讯2个月前04010
火山引擎推出的AI视频生成模型– 1.0 pro fast ,速度提升约3倍,成本降低72%火山引擎正式上线豆包视频生成模型 1.0profast。该模型在继承 Seedance1.0pro 模型核心优势的基础上,实现了显著的效率突破:生成速度最高提升约 3 倍,价格直降 72%。pro f...发现资讯2个月前03780
清华联合巨人网络开源的多方言语音合成大模型框架DiaMoE-TTS巨人网络AI Lab与清华大学电子工程系SAT Lab的研究团队联合首创多方言语音合成大模型框架DiaMoE-TTS,并宣布将数据、代码、方法全方位开源,旨在推动方言语音合成的公平与普惠。该框架基于国...发现资讯2个月前03130
UniPixel – 香港理工联合腾讯推出的像素级多模态大模型,实现语言与视觉的深度融合香港理工大学和腾讯ARC Lab的研究团队推出了首个统一的像素级多模态大模型——UniPixel。一个能够无缝集成像素级感知与通用视觉推理能力的大型多模态模型。该模型首次实现了视频理解与精确物体标注的...发现资讯2个月前03810