MAI-Voice-1 – 微软推出的极速语音生成模型,生成高度自然和富有表现力的语音微软人工智能部门正式推出其首批两款自研 AI 模型 ——MAI-Voice-1 语音模型与 MAI-1-preview 通用模型。MAI-Voice-1是一个语音模型,能够在不到一秒的时间内生成一分种...发现资讯1个月前02610
MobileCLIP2 – 苹果开源的端侧多模态模型,提高模型对不同模态数据的适应性苹果公司的研究人员最近推出了 MobileCLIP2,该模型在GitHub和Hugging Face上进行了开源,提供了预训练权重和数据生成代码,以供开发者使用。MobileCLIP2通过改进多模态增...发现资讯1个月前02520
阶跃星辰推出的端到端语音大模型 – Step-Audio 2 mini,能精准理解各种音频内容近日,阶跃星辰正式推出了最新的开源端到端语音大模型 ——Step-Audio2mini。采用了真正的端到端多模态架构,并将语音理解、音频推理与生成统一建模,不仅时延更低、输出更快,还能更加精准地理解副...发现资讯1个月前03260
AudioStory – 腾讯ARC推出的音频生成模型,自动分析视频内容并生成匹配的背景音轨腾讯ARC实验室刚刚发布的AudioStory技术,核心在于其统一的理解与生成框架。该模型能够处理视频配音、音频延续和长篇叙事音频合成等多种任务。通过将大语言模型与音频生成系统结合,AudioStor...发现资讯1个月前02370
Open-Fiesta – 开源的AI聊天平台,支持键盘提交和流式 APIOpen-Fiesta 是一个开源的多模型AI聊天平台,它支持多种AI提供商和模型,如Gemini、DeepSeek R1等,让你可以轻松切换和比较不同模型的输出。此外,它还提供了网络搜索和图片附件功...发现资讯1个月前02280
腾讯混元开源的翻译模型 –Hunyuan-MT-7B,支持33个语种及5种民汉语言腾讯混元正式开源 Hunyuan-MT-7B ,这是一个轻量且能力全面的多语言翻译大模型,该模型推理速度较快,在相同硬件条件下能够处理更多请求,响应也更为及时。 Hunyuan-MT-7B 是腾讯混元...发现资讯1个月前04580
Teable – AI数据管理平台,支持私有部署和精细权限管理在当今数据驱动的商业环境中,高效的在线表格与数据管理平台已成为企业运营不可或缺的工具。Teable 是一款企业级高性能多维表格解决方案,通过无代码方式快速构建业务管理系统,支持私有部署和精细权限管理...发现资讯1个月前02110
AgentScope 1.0 – 阿里通义开源的多Agent开发框架,提供实时监控和智能体评测功能AgentScope是阿里通义团队发布并开源的智能体开发框架,旨在赋予开发人员使用大模型轻松构建多智能体应用的能力。AgentScope 1.0 是一款以开发者为核心,集成了多个内置智能体专注于多智能...发现资讯1个月前06490
最新推出的语音模型一GPT-realtime,支持多种语言和语音风格GPT-realtime是一个专用于语音AI Agent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,而且这个模型是...发现资讯2个月前02420
深度赋能,化繁为简:用deepfig工作流自动化重塑企业运营效率deepfig是什么? deepfig是一款强大的智能流程自动化(IPA)平台。它的核心使命是打破企业内部的“数据孤岛”和“系统壁垒”,通过无需代码的可视化方式,将那些原本需要人工在不同软件、平台之间...发现资讯2个月前01950