Sidekick – AI流程自动化平台,帮助用户快速实现常见任务的自动化Sidekick是一款基于AI的智能流程自动化平台,让用户无需安装额外软件即可与本地大语言模型(LLM)对话,并能结合Mac上的文件、文件夹和网站信息生成回应,Sidekick支持文本生成图像,无需额...发现资讯1个月前02060
AudioFly – 科大讯飞开源的文生音效模型,支持本地部署、推理和微调。主要介绍 AudioFly是科大讯飞推出的开源文生音效模型,基于潜在扩散模型(LDM)架构,能够根据文本描述生成高质量音频。该模型支持44.1kHz采样率,在文本与音效的匹配度上表现优异,适用于短视频...发现资讯4周前02010
Kotaemon—— 基于 RAG 技术的开源工具,支持多模态检索和复杂推理方法,满足多样化的查询需求Kotaemon 是什么 Kotaemon是一款基于Retrieval-Augmented Generation (RAG)技术的开源工具,由Cinnamon团队开发。它通过结合信息检索和语言生成技术...发现资讯3个月前02010
IndexTTS2 – B站开源的最新文本转语音模型,可精准模仿该音频的声线哔哩哔哩(B 站)Index 团队宣布全面开源其自主研发的文本转语音(TTS)系统 ——IndexTTS-2.0,它支持两种生成模式:一种明确指定生成的标记数量以精确控制语音持续时间;另一种以自回归的...发现资讯1个月前01980
HuMo – 清华联合字节推出的多模态视频生成框架,实现最高级别定制和控制。字节开源的Humo模型支持文生视频、图生视频及音频生成视频,可结合文本、图像与音频多模态输入,并支持多图参考合成。HuMo 框架具备强大的多模态输入处理能力,可以同时利用文本、图像和音频三种信息,协同...发现资讯2个月前01940
Mini-o3 – 字节联合港大推出的视觉推理模型,支持多轮交互推理自字节跳动和香港大学的研究团队推出了 Mini-o3,一个旨在复现OpenAI强大但未公开的o3模型能力的开源系统。Mini-o3的核心目标是扩展模型与工具的交互能力,使其能够执行长达数十步的深度推理...发现资讯1个月前01910
小米开源的图像编辑框架–Lego-Edit ,能完成多种复杂的图像编辑任务Lego-Edit是一个为通用基于指令的图像编辑设计的框架。它使用Builder(一个MLLM)来调用Bricks(模型级工具)以实现灵活性,并采用强化学习(RL)来增强Builder的推理和工具组合...发现资讯1个月前01880
SpikingBrain-1.0 – 中国科学院推出的类脑脉冲大模型,能实现数量级的效率提升近日,中国科学院自动化研究所科研团队成功研发出首款类脑脉冲大模型SpikingBrain-1.0。SpikingBrain-1.0在多个性能方面实现突破:实现极低数据量高效训练、实现推理效率数量级提升...发现资讯2个月前01880
Gemini Enterprise – 谷歌推出的企业级AI Agent平台,支持创建定制智能体谷歌云正式推出 Gemini Enterprise 平台,让团队能在安全的环境中探索、建立、分享与执行 AI 智慧代理。使用 Gemini Enterprise,用户将可以访问功能强大的自动化智能代理...发现资讯2周前01870