Open-Fiesta – 开源的AI聊天平台,支持键盘提交和流式 APIOpen-Fiesta 是一个开源的多模型AI聊天平台,它支持多种AI提供商和模型,如Gemini、DeepSeek R1等,让你可以轻松切换和比较不同模型的输出。此外,它还提供了网络搜索和图片附件功...发现资讯4个月前04750
AudioStory – 腾讯ARC推出的音频生成模型,自动分析视频内容并生成匹配的背景音轨腾讯ARC实验室刚刚发布的AudioStory技术,核心在于其统一的理解与生成框架。该模型能够处理视频配音、音频延续和长篇叙事音频合成等多种任务。通过将大语言模型与音频生成系统结合,AudioStor...发现资讯4个月前05300
阶跃星辰推出的端到端语音大模型 – Step-Audio 2 mini,能精准理解各种音频内容近日,阶跃星辰正式推出了最新的开源端到端语音大模型 ——Step-Audio2mini。采用了真正的端到端多模态架构,并将语音理解、音频推理与生成统一建模,不仅时延更低、输出更快,还能更加精准地理解副...发现资讯4个月前06730
MobileCLIP2 – 苹果开源的端侧多模态模型,提高模型对不同模态数据的适应性苹果公司的研究人员最近推出了 MobileCLIP2,该模型在GitHub和Hugging Face上进行了开源,提供了预训练权重和数据生成代码,以供开发者使用。MobileCLIP2通过改进多模态增...发现资讯4个月前06370
MAI-Voice-1 – 微软推出的极速语音生成模型,生成高度自然和富有表现力的语音微软人工智能部门正式推出其首批两款自研 AI 模型 ——MAI-Voice-1 语音模型与 MAI-1-preview 通用模型。MAI-Voice-1是一个语音模型,能够在不到一秒的时间内生成一分种...发现资讯4个月前05630
ReadyBase – AI PDF生成平台,几秒钟即可生成精美个性化文档ReadyBase AI PDF生成平台是一款利用人工智能技术自动布局生成个性化文档的强大工具。它可以帮助用户快速创建专业、美观的PDF文档,无需手动调整格式或设计,大大提高了文档制作的效率和质量。 ...发现资讯4个月前04890
美团开源的– Meeseeks模型指令遵循能力评测集,为模型开发者提供优化方向美团M17团队推出全新评测基准Meeseeks,专注于大模型指令遵循能力的系统化研究与精准评估。该评测基准基于真实业务数据构建,采用精细化的三级评测框架,全面衡量模型的指令遵循能力。 Meeseeks...发现资讯4个月前05840
Quick BI – 阿里旗下瓴羊推出的AI商业分析Agent,高效获取精准数据结果阿里巴巴旗下的瓴羊发布首个数据分析Agent,Quick BI里的“智能小Q”升级为一名由问数、解读和报告三大核心Agent组成的“超级数据分析师”,可以帮助用户快速获取数据、解读数据和输出洞察报告...发现资讯4个月前04510
Grok Code Fast 1 – xAI推出的AI编程模型,快速生成代码grok-code-fast-1是马斯克旗下xAI公司发布的专门用于编程的AI模型,被称为"快速且经济的推理模型"。它属于智能体类型,能够在无需大量人工监督的情况下处理编程任务,主打高速开发体验。Gr...发现资讯4个月前06460
最新推出的语音模型一GPT-realtime,支持多种语言和语音风格GPT-realtime是一个专用于语音AI Agent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,而且这个模型是...发现资讯4个月前05100