Intern-S1-mini – 上海AI Lab开源的轻量级科学多模态推理模型,适合在资源受限的设备上快速部署InternLM 团队正式发布了其开源的轻量级多模态推理模型 ——Intern-S1-mini。该模型参数仅为8B,结合了先进的 Qwen3-8B 语言模型与0.3B 视觉编码器 InternViT...发现资讯1个月前02530
LangExtract - 谷歌开源的结构化信息提取工具,能从非结构化文本中高效提取结构化信息。LangExtract 是一款高精度信息抽取工具,本质是一个开源Python库,利用大型语言模型,从长文档中自动提取结构化信息,并且提供可视化来源定位。谷歌开源的 LangExtract 则利用大模型...发现资讯3个月前02520
最新推出的语音模型一GPT-realtime,支持多种语言和语音风格GPT-realtime是一个专用于语音AI Agent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,而且这个模型是...发现资讯2个月前02500
VibeVoice – 微软推出的开源文本转语音模型,支持动态对话和交互式应用近日,微软研究院提出了一种全新的语音生成模型 VibeVoice。它能够将文字脚本直接转化为流畅、自然的长对话音频。创作者无需再为音色匹配、语速调整、对话间隔等细节问题耗费精力,只需提供一份带角色标注...发现资讯1个月前02490
VeOmni – 字节跳动开源的全模态深度学习框架VeOmni 是字节跳动(ByteDance)开发的一个全模态深度学习框架,旨在支持多模态数据融合的场景,特别是在计算机视觉和自然语言处理(NLP)领域。全模态指的是能够处理多种类型的数据,例如文本...发现资讯2个月前02490
FastVLM - 苹果开源的视觉语言模型,能够准确理解和生成与图像内容FastVLM是一款专为高分辨率图像处理优化的视觉语言模型,基于苹果自研的MLX框架开发,专为Apple Silicon设备量身定制。FastVLM支持完全本地化处理,无需依赖云端上传数据,完美契合苹...发现资讯2个月前02480
Open-Fiesta – 开源的AI聊天平台,支持键盘提交和流式 APIOpen-Fiesta 是一个开源的多模型AI聊天平台,它支持多种AI提供商和模型,如Gemini、DeepSeek R1等,让你可以轻松切换和比较不同模型的输出。此外,它还提供了网络搜索和图片附件功...发现资讯1个月前02470
DeepFig:AI驱动的智能社交媒体多平台发布与创作工具DeepFig是什么? DeepFig是一款专为社交媒体运营者设计的AI智能内容创作与分发工具。它核心解决了多平台运营中“内容同质化”与“适配低效化”的痛点,通过先进的AI大模型技术,实现“一次创作...发现资讯2个月前02470
RynnRCP – 阿里达摩院首次开源的机器人上下文协议达摩院将MCP(模型上下文协议)理念引入具身智能,首次提出并开源RCP(Robotics Context Protocol)协议,推出一套完整的机器人服务协议和框架RynnRCP。旨在推动具身智能开发...发现资讯2个月前02460
Wav2Lip – 开源的高保真唇形同步工具,自动生成与语音同步的口型动画Wav2Lip 是一个 口型同步技术开源项目,可以在任意语音对任意说话的脸部视频进行口型同步。旨在提升视频中唇部同步的保真度。此项目通过 Wav2Lip 实现精确的唇动匹配,再利用 Real-ESRG...发现资讯1个月前02440