GLM-TTS – 智谱开源的AI文本转语音模型,支持多种方言和特殊语音的合成智谱正式发布工业级语音合成系统 GLM-TTS,只需录音3秒,或者上传3秒-10秒的录音文件,即可快速克隆你自己的声音。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中,实现自然流畅、贴近真人...发现资讯3个月前06530
TalkCody – 开源AI编程助手,涵盖 50 多种主流 AI 模型,支持多模态输入talkcody 是一款开源的 ai 编程助手,旨在提升开发者在软件开发过程中的效率。支持Ollama离线模型和自定义提示,将复杂调试化繁为简。采用 Rust 和 Tauri 构建,具备原生性能和低资...发现资讯3个月前06520
MemMachine – 开源AI记忆系统,实现高效记忆管理MemMachine是解决AI Agent长期记忆问题的开源项目,通过双层记忆系统实现真正的记忆功能,而非简单的RAG检索。MemMachine通过情景记忆、语义记忆和用户画像记忆,帮助AI应用学习...发现资讯3个月前06520
HuMo – 清华联合字节推出的多模态视频生成框架,实现最高级别定制和控制。字节开源的Humo模型支持文生视频、图生视频及音频生成视频,可结合文本、图像与音频多模态输入,并支持多图参考合成。HuMo 框架具备强大的多模态输入处理能力,可以同时利用文本、图像和音频三种信息,协同...发现资讯6个月前06520
可灵2.6 – 快手可灵推出音画同出的AI视频生成模型,支模型持文生音画和图生音画两种模式可灵推出视频生成2.6模型,该模型提供了里程碑式的“音画同出”能力,彻底改变了传统AI视频生成模型“先无声画面、后人工配音”的工作流程,用户仅需输入一段文字或一张图片,即可自动产出融合自然语音、精准音...发现资讯3个月前06510
MovieFlow – AI视频创作平台,自动将文字转化为完整的视频内容MovieFlow AI是一款免费的AI视频生成工具,支持创建最长三分钟的电影级视频,无需预先付费。MovieFlow 内置先进的自然语言处理引擎,用户输入关键词或大致情节后,它能自动生成逻辑清晰、结...发现资讯3个月前06500
混元图像3.0 – 腾讯开源的原生多模态图像生成模型,支持多种风格的图像生成腾讯混元最新发布并开源原生多模态生图模型——混元图像3.0,这是首个开源工业级原生多模态生图模型,也是目前效果最好的开源生图模型。混元图像3.0具备常识并能够利用知识进行推理;同时语义理解准确度高,并...发现资讯6个月前06500
TLDW – AI视频摘要工具,支持YouTube视频URL输入或视频文件上传。TLDW是一款专门为优化视频观看体验而设计的AI工具,它可以分析YouTube视频并提取其中的关键时刻,让你用最短的时间获得最有价值的信息。该工具旨在帮助用户将冗长的YouTube视频转化为简洁、易于...发现资讯4个月前06490
GigaBrain-0 – 最新开源VLA具身模型,打造了全球首个最全具身智能数据体系最新推出的GigaBrain-0是一款基于世界模型(World Model)的视觉-语言-动作(VLA)基础模型,专为机器人复杂操作任务设计。GigaBrain-0通过加入深度信息的输入,提升了物体3...发现资讯5个月前06490
vivo Vision探索版 – vivo推出的首款MR头显设备,支持观看空间照片与视频、3D电竞赛事直播vivo Vision发布会暨影像盛典正式开启,vivo Vision探索版正式亮相,这是蓝厂首款MR头显。vivo Vision从一开始立项,“减重”就是核心命题,因为太重的话大家就很难长时间沉浸体...发现资讯7个月前06460