NeuTTS Air – Neuphonic开源的语音合成模型,提升语音合成的自然度和准确性NeuTTS Air是由Neuphonic开发的一款超拟真、可离线运行的文本到语音(TTS)模型,支持多种操作系统和设备平台,包括移动设备、个人电脑、树莓派等,易于集成到各种应用中。NeuTTS Ai...发现资讯3个月前04500
Paper2Video – 国立大学推出的学术论文生成演示视频项目,自动生成演示视频Paper2Poster是一款开源的多模态智能系统,支持本地部署以及 API 接入,并将生成可编辑的 .pptx 海报文件,在产出成果的基础上引入 PaperQuiz 来对传达效果进行量评。给它一篇论...发现资讯3个月前04350
Gemini Enterprise – 谷歌推出的企业级AI Agent平台,支持创建定制智能体谷歌云正式推出 Gemini Enterprise 平台,让团队能在安全的环境中探索、建立、分享与执行 AI 智慧代理。使用 Gemini Enterprise,用户将可以访问功能强大的自动化智能代理...发现资讯3个月前06510
Androidify – 谷歌开源的如何构建AI Android应用项目,创建个性化安卓机器人Androidify是谷歌推出的一项开源计划,旨在帮助开发者深入了解如何在 android 平台上打造由人工智能驱动的应用程序。用户可以通过上传个人照片或输入文字描述,生成专属的安卓机器人形象,并自由...发现资讯3个月前03820
xLLM – 京东开源的智能推理框架,实现5倍效率提升和90%成本优化京东正式开源其自研大模型推理引擎xLLM。据悉,该引擎基于国产芯片深度优化,是一款专注于大模型高效推理的基础软件。xLLM在内部多场景应用中实现的5倍效率提升和90%成本优化,已经强有力地证明了其技术...发现资讯3个月前04090
Mano – 明略科技推出的GUI智能操作模型,为自动化操作提供高效解决方案mano 是由明略科技研发的专用大模型,专注于图形用户界面(gui)的智能化操作。该模型建立在多模态基础架构之上,融合了在线强化学习与自动化训练数据采集等前沿技术。Mano的创新,不单单是解决了目前的...发现资讯3个月前03650
Imagine v0.9 – xAI推出的视频生成模型,通过语音指令能快速创建内容imagine v0.9 是由 xai 团队开发的全新一代视频生成模型。该模型能够在20秒内快速生成约6秒的高质量视频,具备精准的运动控制、动态镜头变换以及自然语音对话合成等先进功能。支持语音交互、动...发现资讯3个月前05330
SceneGen – 上海交大推出的3D场景生成框架,单图到3D场景一步生成上海交通大学的研究团队推出了一种名为 SceneGen 的新颖框架,在这一领域取得了突破性进展。它以一张场景图像和图中物体的分割掩码作为输入,能够在一次前向传播中,同时生成场景内多个3D资产的几何、纹...发现资讯3个月前03230
Agent Kit – OpenAI推出的AI Agent开发工具,无需编写代码即可设计复杂工作流Agent Kit 是 OpenAI 推出的一个基于 Agent 的工作流编排工具,旨在帮助你将智能体从原型阶段推进至生产阶段。它涵盖了你构建、部署和优化智能体工作流所需的全部功能,能大幅减少流程中的...发现资讯3个月前03890
Ming-UniAudio – 蚂蚁集团开源的音频多模态模型,支持语音理解和生成任务随着大语言模型(LLM)的快速发展,语音语言模型在语音理解、生成和编辑等方面取得了显著进展。Ming-UniAudio 是蚂蚁集团开源的一个创新语音处理项目,这是一个基于统一连续分词器的语音大模型,能...发现资讯3个月前04850