资讯 | 第260页

发现科技资讯

排序

发布更新浏览点赞

FLM-Audio – 智源研究院开源的全双工音频对话模型，支持本地部署与二次开发

flm-audio 是由北京智源人工智能研究院联合 spin matrix 与新加坡南洋理工大学共同推出的原生全双工音频对话大模型，支持中文和英文双语交互。该模型采用创新的原生全双工架构，能够在每一个...

发现资讯

6个月前

06250

Infography – 自动将文本内容转化可视化图表生成平台

Infography是一款由专业团队开发的AI工具，能将复杂的数据或文本内容转化为直观的视觉呈现，主要面向市场营销人员、产品经理、教育工作者以及任何需要将复杂信息以视觉化方式呈现的用户。Infogra...

发现资讯

3个月前

06230

WhisperLiveKit – 开源AI语音识别工具，支持多种语言，能将语音实时转录为文字

WhisperLiveKit是一款本地部署的AI会议工具，能够实现语音实时转录并识别不同说话人，解决了传统语音转写工具的非实时性、隐私风险和说话人混淆问题。支持实时语音转文字和说话人识别功能，适用于会...

发现资讯

7个月前

06230

Temvideo.ai – AI视频制作Agent，一键生成营销视频

Temvideo.ai 是一款专为跨境电商营销设计的AI视频制作工具，旨在帮助电商商家高效生成高转化率的营销视频。‌通过智能算法帮助用户快速生成高质量的营销视频。用户只需提供想法和素材，一键批量生成营...

发现资讯

3个月前

06220

Hunyuan-MT-7B – 腾讯开源的轻量级翻译模型，能快速准确地完成翻译任务

Hunyuan-MT-7B是什么 Hunyuan-MT-7B 是腾讯混元发布的轻量级翻译模型，参数量为70亿，支持33个语种及5种民汉语言/方言的互译，包括粤语、维吾尔语、藏语等。模型采用完整的训练范...

发现资讯

7个月前

06210

豆包大模型1.6-vision – 火山引擎推出的视觉深度思考模型，具备工具调用能力

火山引擎宣布正式推出豆包大模型 1.6-vision，以工具调用的差异化能力，将图像融入其思维链中，实现对图片的定位、剪裁、点选、画线、缩放、旋转等精细处理。在增强推理可解释性的同时，可高效精准地完成...

发现资讯

5个月前

06200

Maimo – 专注于信息处理和知识管理的AI工作平台，支持文档、视频、音频和播客等多种格式

Maimo是一款专为行业研究的人工智能工作空间，旨在优化和简化研究流程。支持上传和管理多种格式的文档，并能和常用的工具无缝集成，平台支持多种格式的内容，包括文档、YouTube视频、音频文件和播客，方...

发现资讯

3个月前

06190

MiroFlow v0.2 – MiroMind开源的研究智能体框架，协调多个工具和子智能体完成任务

MiroFlow v0.2是MiroMind团队开发的开源研究智能体框架，旨在将任意大型语言模型（LLM）的能力提升至媲美OpenAI深度研究级别的水平。其核心设计聚焦于高效、可靠地执行复杂工具调用任...

发现资讯

6个月前

06190

A2UI – 谷歌开源Agent生成用户界面的声明式协议，支持定制化

a2ui（agent-to-user interface）是谷歌推出的开源协议，专为ai agent与用户界面之间的高效、安全交互而设计。核心是让AI生成“界面描述数据”，而非可执行代码，客户端通过预...

发现资讯

3个月前

06170

Gemini TTS – 谷歌推出的AI文本转语音模型，支持单人或多人语音合成

Gemini TTS 是谷歌推出的先进AI文字转语音技术，最新版本为 Gemini 2.5 Flash 和 Pro 模型。新版本增强了模型的表现力、节奏控制和多说话人一致性，旨在满足内容创作者、开发者...

发现资讯

3个月前

06170

加载更多