资讯 | 第14页

发现科技资讯

排序

发布更新浏览点赞

SAIL-VL2 – 字节抖音联合国立大学开源的视觉语言模型，突破传统密集型模型的限制

抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。它能高效地将视觉输入对齐到语言模型的表示空间。整个系统由三个核心部分组成：视觉编码器SAIL-ViT、视觉-语言适配器和大...

发现资讯

4个月前

06180

Hitem3D – AI 3D模型生成工具，一键生成高精度三维模型

Hitem3D AI是一款由人工智能驱动的下一代3D模型生成平台，支持用户上传图片后，一键生成高精度三维模型。这一技术突破让复杂模型从原需数日建模压缩到3分钟，并且可输出多种生产所需格式。 Hitem...

发现资讯

4个月前

01.8K0

LLaVA-OneVision-1.5 – EvolvingLMMS-Lab开源的多模态框架，实现跨模态的信息检索

LLaVA-OneVision-1.5 是由 EvolvingLMMS-Lab 开发的全开源多模态框架，旨在通过高效训练和高质量数据实现多模态任务的高性能和低成本。该模型支持基于文本查询图像或基于图像...

发现资讯

4个月前

05060

MineContext – 字节开源的主动式上下文感知 AI 工具，支持多模态信息处理

‌MineContext是字节跳动开源的主动式上下文感知AI工具‌，通过屏幕截图和内容理解帮助用户管理数字工作环境，支持自动生成摘要、待办清单等功能，所有数据本地处理以保障隐私安全。它会根据用户的上下...

发现资讯

4个月前

01K0

Qwen3-VL Cookbooks – 阿里推出的多模态任务开发指南，支持多种应用场景

Qwen3-VL Cookbook是一份为开发者准备的多模态实践指南，涵盖从文档解析到视频理解的各类应用场景。核心能力包括万物识别、文档解析、OCR+关键信息提取、视频理解、智能体控制和空间理解3D定...

发现资讯

4个月前

04170

UserLM-8b – 微软开源的用户对话模拟模型，支持生成多种用户话语

userlm-8b 是由微软发布的一款专注于模拟对话中“用户”行为的语言模型，与传统扮演“助手”角色的模型不同。该模型基于大量真实对话数据进行训练，能够生成贴近真实用户表达方式的对话内容。具备生成用户...

发现资讯

4个月前

08370

NeuTTS Air – Neuphonic开源的语音合成模型，提升语音合成的自然度和准确性

NeuTTS Air是由Neuphonic开发的一款超拟真、可离线运行的文本到语音（TTS）模型，支持多种操作系统和设备平台，包括移动设备、个人电脑、树莓派等，易于集成到各种应用中。NeuTTS Ai...

发现资讯

4个月前

07880

Paper2Video – 国立大学推出的学术论文生成演示视频项目，自动生成演示视频

Paper2Poster是一款开源的多模态智能系统，支持本地部署以及 API 接入，并将生成可编辑的 .pptx 海报文件，在产出成果的基础上引入 PaperQuiz 来对传达效果进行量评。给它一篇论...

发现资讯

4个月前

06800

Gemini Enterprise – 谷歌推出的企业级AI Agent平台，支持创建定制智能体

谷歌云正式推出 Gemini Enterprise 平台，让团队能在安全的环境中探索、建立、分享与执行 AI 智慧代理。使用 Gemini Enterprise，用户将可以访问功能强大的自动化智能代理...

发现资讯

4个月前

09740

Androidify – 谷歌开源的如何构建AI Android应用项目，创建个性化安卓机器人

Androidify是谷歌推出的一项开源计划，旨在帮助开发者深入了解如何在 android 平台上打造由人工智能驱动的应用程序。用户可以通过上传个人照片或输入文字描述，生成专属的安卓机器人形象，并自由...

发现资讯

4个月前

05590

加载更多