UniPixel – 香港理工联合腾讯推出的像素级多模态大模型,实现语言与视觉的深度融合香港理工大学和腾讯ARC Lab的研究团队推出了首个统一的像素级多模态大模型——UniPixel。一个能够无缝集成像素级感知与通用视觉推理能力的大型多模态模型。该模型首次实现了视频理解与精确物体标注的...发现资讯3周前01910
八爪鱼RPA是一款基于机器人流程自动化平台八爪鱼RPA是一款基于机器人流程自动化(Robotic Process Automation, RPA)技术的办公流程自动化工具,旨在通过模拟人类操作,如鼠标点击、键盘输入、数据读取等,实现自动化任务...发现资讯1个月前03020
清华联合巨人网络开源的多方言语音合成大模型框架DiaMoE-TTS巨人网络AI Lab与清华大学电子工程系SAT Lab的研究团队联合首创多方言语音合成大模型框架DiaMoE-TTS,并宣布将数据、代码、方法全方位开源,旨在推动方言语音合成的公平与普惠。该框架基于国...发现资讯3周前01510
Veo 3.1 – 谷歌推出的AI视频生成模型,能快速生成高质量的视频谷歌正式发布最新一代AI视频生成模型 Veo 3.1,该模型支持生成4秒、6秒或8秒的720P或1080P视频片段并自带音轨,可通过文本提示、图像或视频片段输入生成内容,提供首尾帧插值、场景延展及多图...发现资讯1个月前01350
Local-NotebookLM – 开源PDF转播客AI工具,支持多种音频输出格式Local-NotebookLM是一款开源的AI工具,能够将PDF文档转换为多种风格和格式的音频内容,如播客、访谈、辩论等。它支持自定义音频长度和风格,具备智能PDF解析、多语言支持、灵活模型选择和逼...发现资讯1个月前01320
ZenMux – 全球首个企业级 AI 模型聚合平台最近发现超实用的AI平台——ZenMux,全球首个企业级 AI 模型聚合平台。集成GPT-5、Claude、Gemini、Kimi、DeepSeek、Qwen等全球顶级大模型,为开发者提供统一的 AP...发现资讯1个月前02550
FS-DFM – 苹果联合俄亥俄州立大学推出的扩散语言模型,速度提升128倍苹果提出 FS-DFM 扩散模型,仅需 8 轮快速迭代,即可生成与传统模型上千轮迭代质量相媲美的文本,且写入速度比同类模型最多可提高 128 倍。FS-DFM 在扩散模型的基础上进行了进一步简化,目标...发现资讯1个月前01430
微软推出的首款自研图像生成式AI模型–MAI-Image-1 ,能处理复杂的图像生成任务微软正式发布了其首款自主研发的图像生成 AI 模型 ——MAI-Image-1。这一创新模型不仅在生成逼真图像方面表现优异,还能模拟自然光照效果,为用户带来更为生动的视觉体验。该模型在保证生成质量的同...发现资讯1个月前01510
腾讯AI Lab推出的全长度歌曲生成模型–SongBloom ,仅需 10 秒音频样本和对应歌词SongBloom 是一个由腾讯 AI Lab 联合顶尖高校研发的开源歌曲生成模型。它采用自回归扩散模型,将扩散模型的高保真度与语言模型的可扩展性相结合,能够快速生成完整歌曲,支持双通道、48kHz ...发现资讯1个月前01760
Get Jobs – 开源的AI简历投递工具,自动化多平台投递简历Get Jobs 是一款一键自动化投递Boss/猎聘等岗位的神器,支持AI生成JD匹配招呼语+秒发简历,智能过滤无效职位。就是用自动化脚本 + AI 匹配帮你把简历一键海投到 Boss 直聘、前程无忧...发现资讯1个月前02670