发现 | 第18页

发现科技资讯

排序

发布更新浏览点赞

Intern-S1-mini – 上海AI Lab开源的轻量级科学多模态推理模型，适合在资源受限的设备上快速部署

InternLM 团队正式发布了其开源的轻量级多模态推理模型 ——Intern-S1-mini。该模型参数仅为8B，结合了先进的 Qwen3-8B 语言模型与0.3B 视觉编码器 InternViT...

发现资讯

1个月前

02530

LangExtract - 谷歌开源的结构化信息提取工具，能从非结构化文本中高效提取结构化信息。

LangExtract 是一款高精度信息抽取工具，本质是一个开源Python库，利用大型语言模型，从长文档中自动提取结构化信息，并且提供可视化来源定位。谷歌开源的 LangExtract 则利用大模型...

发现资讯

3个月前

02520

VibeVoice – 微软推出的开源文本转语音模型，支持动态对话和交互式应用

近日，微软研究院提出了一种全新的语音生成模型 VibeVoice。它能够将文字脚本直接转化为流畅、自然的长对话音频。创作者无需再为音色匹配、语速调整、对话间隔等细节问题耗费精力，只需提供一份带角色标注...

发现资讯

1个月前

02490

VeOmni – 字节跳动开源的全模态深度学习框架

VeOmni 是字节跳动（ByteDance）开发的一个全模态深度学习框架，旨在支持多模态数据融合的场景，特别是在计算机视觉和自然语言处理（NLP）领域。全模态指的是能够处理多种类型的数据，例如文本...

发现资讯

2个月前

02490

FastVLM - 苹果开源的视觉语言模型，能够准确理解和生成与图像内容

FastVLM是一款专为高分辨率图像处理优化的视觉语言模型，基于苹果自研的MLX框架开发，专为Apple Silicon设备量身定制。FastVLM支持完全本地化处理，无需依赖云端上传数据，完美契合苹...

发现资讯

2个月前

02480

Open-Fiesta – 开源的AI聊天平台，支持键盘提交和流式 API

Open-Fiesta 是一个开源的多模型AI聊天平台，它支持多种AI提供商和模型，如Gemini、DeepSeek R1等，让你可以轻松切换和比较不同模型的输出。此外，它还提供了网络搜索和图片附件功...

发现资讯

1个月前

02470

DeepFig：AI驱动的智能社交媒体多平台发布与创作工具

DeepFig是什么？ DeepFig是一款专为社交媒体运营者设计的AI智能内容创作与分发工具。它核心解决了多平台运营中“内容同质化”与“适配低效化”的痛点，通过先进的AI大模型技术，实现“一次创作...

发现资讯

2个月前

02470

RynnRCP – 阿里达摩院首次开源的机器人上下文协议

达摩院将MCP（模型上下文协议）理念引入具身智能，首次提出并开源RCP（Robotics Context Protocol）协议，推出一套完整的机器人服务协议和框架RynnRCP。旨在推动具身智能开发...

发现资讯

2个月前

02460

Wav2Lip – 开源的高保真唇形同步工具，自动生成与语音同步的口型动画

Wav2Lip 是一个口型同步技术开源项目，可以在任意语音对任意说话的脸部视频进行口型同步。旨在提升视频中唇部同步的保真度。此项目通过 Wav2Lip 实现精确的唇动匹配，再利用 Real-ESRG...

发现资讯

1个月前

02440

加载更多