Youtu-agent – 腾讯优图推出的开源智能体框架,提供智能体能调用的各种工具Youtu-Agent是一个面向实际应用的开源框架,覆盖文件管理、数据分析、学术研究和信息综述等多个应用场景。该框架以极简设计和高性能表现为核心,旨在为研究人员和开发者提供高效、易用、可复现的智能体开...发现资讯2个月前02850
VibePPT – AI PPT制作工具,能快速生成具有专业设计感的演示文稿VibePPT是一款AI驱动的在线智能PPT生成平台,支持通过自然语言 Prompt 一键生成结构完整、视觉专业的演示文稿,内置多种商务、教育、科技、营销等主题模板,自动匹配配色与排版,并可智能配图...发现资讯2个月前02830
VeOmni – 字节跳动开源的全模态深度学习框架VeOmni 是字节跳动(ByteDance)开发的一个全模态深度学习框架,旨在支持多模态数据融合的场景,特别是在计算机视觉和自然语言处理(NLP)领域。全模态指的是能够处理多种类型的数据,例如文本...发现资讯3个月前02830
RynnRCP – 阿里达摩院首次开源的机器人上下文协议达摩院将MCP(模型上下文协议)理念引入具身智能,首次提出并开源RCP(Robotics Context Protocol)协议,推出一套完整的机器人服务协议和框架RynnRCP。旨在推动具身智能开发...发现资讯3个月前02830
最新开源的轻量级文本转语音模型–KittenTTS ,无需联网即可生成语音,适合离线场景。KittenTTS是一款开源的轻量级文本转语音(TTS)模型,是发布的新款开源文本转语音模型 ——Kitten TTS。这一模型的设计目标是实现高质量的语音合成,同时保持轻量级和高效能,适合在各种设备...发现资讯3个月前02830
最新推出的语音模型一GPT-realtime,支持多种语言和语音风格GPT-realtime是一个专用于语音AI Agent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,而且这个模型是...发现资讯2个月前02820
白嫖党狂喜!GPT Plus / Business 免费试用 1 个月来啦!很多人想体验 GPT Plus,却一直舍不得开会员。现在机会来了! 官方放福利:GPT Plus 和 Business 会员限时免费试用一个月! Plus:更快更强,写论文、写代码效率直接翻倍。 Bu...资讯# GPT Plus2个月前02790
如何更快的获取国内外最新的ai资讯一、专业科技媒体与AI垂直平台(权威深度) 这类渠道聚焦AI领域,内容经过编辑筛选,适合系统性了解行业动态、技术突破和商业应用。 国际平台: TechCrunch / VentureBeat:综合科技...资讯3个月前02770
AudioStory – 腾讯ARC推出的音频生成模型,自动分析视频内容并生成匹配的背景音轨腾讯ARC实验室刚刚发布的AudioStory技术,核心在于其统一的理解与生成框架。该模型能够处理视频配音、音频延续和长篇叙事音频合成等多种任务。通过将大语言模型与音频生成系统结合,AudioStor...发现资讯2个月前02740
WhisperLiveKit – 开源AI语音识别工具,支持多种语言,能将语音实时转录为文字WhisperLiveKit是一款本地部署的AI会议工具,能够实现语音实时转录并识别不同说话人,解决了传统语音转写工具的非实时性、隐私风险和说话人混淆问题。支持实时语音转文字和说话人识别功能,适用于会...发现资讯2个月前02740