up博主

帅气的我简直无法用语言描述!
UniFluid – 谷歌联合麻省理工新推出的多模态视觉生成与理解统一自回归框架

UniFluid – 谷歌联合麻省理工新推出的多模态视觉生成与理解统一自回归框架

随着AI技术的进一步发展和完善,我们可以看到更多令人惊叹的应用,如更精确的图像编辑工具、更智能的视觉内容创作辅助工具等等。也可以激发更多人探索自回归模型在视觉任务中的潜力,推动 AI 在理解和生成视觉...
8个月前
05520
TokenFD –上交联合美团推出图文对齐粒度的新突破 ,远超现有模型。

TokenFD –上交联合美团推出图文对齐粒度的新突破 ,远超现有模型。

TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型,主要用于文档理解任务。通过Token级对齐,实现了图像Token与语言Token在同一特征空间中的共享,支持Token级图文交互,在处...
8个月前
07160
SVG Converter – 免费的图像转换矢量格式工具,一键秒变高清矢量图

SVG Converter – 免费的图像转换矢量格式工具,一键秒变高清矢量图

SVG Converter是在线矢量化工具,支持将多种位图图像(如JPG、PNG、BMP等)快速转换为矢量图形(如SVG、AI、EPS、PDF等)。SVG Converter支持多种文件格式,具备高质...
8个月前
07120
GR00T N1 – 英伟达全球首个开源的人形机器人基础模型

GR00T N1 – 英伟达全球首个开源的人形机器人基础模型

GR00T N1是全球首个面向通用人形机器人的开放基础模型。它不仅拥有理解视觉与语言指令的“智慧之眼”,还能通过实时生成流畅动作的“敏捷之手”,在复杂多变的环境中完成多样化任务。NVIDIA 将对这一...
8个月前
06880
SmolDocling – 轻量级的多模态文档处理模型,0.35秒解锁全文档奥秘!

SmolDocling – 轻量级的多模态文档处理模型,0.35秒解锁全文档奥秘!

最近 IBM 和 Hugging Face 的研究人员联合推出了一个新的小型视觉-语言模型 SmolDocling,这款专为文档转换任务而设计的模型,轻量级、高速且支持完整文档OCR的多模态视觉语言模...
8个月前
07430
Zoom新 推出的 智能 助手AI Companion ,具有记忆、推理、任务执行和协调能力

Zoom新 推出的 智能 助手AI Companion ,具有记忆、推理、任务执行和协调能力

Zoom公布,推出代理式AI Companion功能,并于现有的Zoom AI Companion及其他人工智能(AI)功能进行升级。利用推理及记忆来采取行动并协调任务执行,包括对话式自助服务、并支持...
8个月前
06790
Cube 3D – Roblox 推出的 AI 3D 生成模型,提高3D创作效率

Cube 3D – Roblox 推出的 AI 3D 生成模型,提高3D创作效率

Roblox 宣布开源发布 Cube 3D 工具,这是一种全新的三维基础模型,旨在为用户提供一种全新的创作方式。通过 Cube 3D,用户可以在 Roblox 平台上直接利用基于文本的提示来创建三维物...
8个月前
06710
LangManus –开启AI自动化框架,多智能体协同完成步骤复杂任务

LangManus –开启AI自动化框架,多智能体协同完成步骤复杂任务

在人工智能和自动化技术不断发展的今天,如何高效地将多个工具和智能体结合在一起,以完成复杂的任务,成为了众多开发者的挑战。LangManus 作为一款刚开源的 AI Agent 工具,凭借其强大的大语言...
8个月前
06400
draw.io – 免费在线绘图工具,快速创建各种图表

draw.io – 免费在线绘图工具,快速创建各种图表

今天,我们要介绍的是一款备受推崇的在线绘图工具——draw.io。凭借其出色的易用性、全面的功能、灵活的存储选项以及强大的协作能力,已成为用户创建和管理图表的首选工具。无论是用于工作、学习还是个人创意...
8个月前
05700
Noiz AI 最新AI语音克隆与合成工具,快速生成多语言配音

Noiz AI 最新AI语音克隆与合成工具,快速生成多语言配音

Noiz AI是一款先进的人工智能语音合成平台,通过自主研发的大规模语音模型,提供逼真、自然且高度定制的语音内容。平台能够高效完成语音克隆、多语言配音和内容翻译,大幅降低创作成本与周期。能根据用户上传...
8个月前
08980