FLM-Audio – 智源研究院开源的全双工音频对话模型,支持本地部署与二次开发flm-audio 是由北京智源人工智能研究院联合 spin matrix 与新加坡南洋理工大学共同推出的原生全双工音频对话大模型,支持中文和英文双语交互。该模型采用创新的原生全双工架构,能够在每一个...发现资讯6个月前06250
Infography – 自动将文本内容转化可视化图表生成平台Infography是一款由专业团队开发的AI工具,能将复杂的数据或文本内容转化为直观的视觉呈现,主要面向市场营销人员、产品经理、教育工作者以及任何需要将复杂信息以视觉化方式呈现的用户。Infogra...发现资讯3个月前06230
WhisperLiveKit – 开源AI语音识别工具,支持多种语言,能将语音实时转录为文字WhisperLiveKit是一款本地部署的AI会议工具,能够实现语音实时转录并识别不同说话人,解决了传统语音转写工具的非实时性、隐私风险和说话人混淆问题。支持实时语音转文字和说话人识别功能,适用于会...发现资讯7个月前06230
Temvideo.ai – AI视频制作Agent,一键生成营销视频Temvideo.ai 是一款专为跨境电商营销设计的AI视频制作工具,旨在帮助电商商家高效生成高转化率的营销视频。通过智能算法帮助用户快速生成高质量的营销视频。用户只需提供想法和素材,一键批量生成营...发现资讯3个月前06220
Hunyuan-MT-7B – 腾讯开源的轻量级翻译模型,能快速准确地完成翻译任务Hunyuan-MT-7B是什么 Hunyuan-MT-7B 是腾讯混元发布的轻量级翻译模型,参数量为70亿,支持33个语种及5种民汉语言/方言的互译,包括粤语、维吾尔语、藏语等。模型采用完整的训练范...发现资讯7个月前06210
豆包大模型1.6-vision – 火山引擎推出的视觉深度思考模型,具备工具调用能力火山引擎宣布正式推出豆包大模型 1.6-vision,以工具调用的差异化能力,将图像融入其思维链中,实现对图片的定位、剪裁、点选、画线、缩放、旋转等精细处理。在增强推理可解释性的同时,可高效精准地完成...发现资讯5个月前06200
Maimo – 专注于信息处理和知识管理的AI工作平台,支持文档、视频、音频和播客等多种格式Maimo是一款专为行业研究的人工智能工作空间,旨在优化和简化研究流程。支持上传和管理多种格式的文档,并能和常用的工具无缝集成,平台支持多种格式的内容,包括文档、YouTube视频、音频文件和播客,方...发现资讯3个月前06190
MiroFlow v0.2 – MiroMind开源的研究智能体框架,协调多个工具和子智能体完成任务MiroFlow v0.2是MiroMind团队开发的开源研究智能体框架,旨在将任意大型语言模型(LLM)的能力提升至媲美OpenAI深度研究级别的水平。其核心设计聚焦于高效、可靠地执行复杂工具调用任...发现资讯6个月前06190
A2UI – 谷歌开源Agent生成用户界面的声明式协议,支持定制化a2ui(agent-to-user interface)是谷歌推出的开源协议,专为ai agent与用户界面之间的高效、安全交互而设计。核心是让AI生成“界面描述数据”,而非可执行代码,客户端通过预...发现资讯3个月前06170
Gemini TTS – 谷歌推出的AI文本转语音模型,支持单人或多人语音合成Gemini TTS 是谷歌推出的先进AI文字转语音技术,最新版本为 Gemini 2.5 Flash 和 Pro 模型。新版本增强了模型的表现力、节奏控制和多说话人一致性,旨在满足内容创作者、开发者...发现资讯3个月前06170