up导航
  • blog
  • 网站提交
    • ai工具
    • blog
    • 网站提交

    发现

    共 266 篇文章
    发现科技资讯
    排序
    发布更新浏览点赞
    Intern-S1-mini – 上海AI Lab开源的轻量级科学多模态推理模型,适合在资源受限的设备上快速部署

    Intern-S1-mini – 上海AI Lab开源的轻量级科学多模态推理模型,适合在资源受限的设备上快速部署

    InternLM 团队正式发布了其开源的轻量级多模态推理模型 ——Intern-S1-mini。该模型参数仅为8B,结合了先进的 Qwen3-8B 语言模型与0.3B 视觉编码器 InternViT...
    发现资讯
    1个月前
    02530
    LangExtract - 谷歌开源的结构化信息提取工具,能从非结构化文本中高效提取结构化信息。

    LangExtract - 谷歌开源的结构化信息提取工具,能从非结构化文本中高效提取结构化信息。

    LangExtract 是一款高精度信息抽取工具,本质是一个开源Python库,利用大型语言模型,从长文档中自动提取结构化信息,并且提供可视化来源定位。谷歌开源的 LangExtract 则利用大模型...
    发现资讯
    3个月前
    02520
    最新推出的语音模型一GPT-realtime,支持多种语言和语音风格

    最新推出的语音模型一GPT-realtime,支持多种语言和语音风格

    GPT-realtime是一个专用于语音AI Agent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,而且这个模型是...
    发现资讯
    2个月前
    02500
    VibeVoice – 微软推出的开源文本转语音模型,支持动态对话和交互式应用

    VibeVoice – 微软推出的开源文本转语音模型,支持动态对话和交互式应用

    近日,微软研究院提出了一种全新的语音生成模型 VibeVoice。它能够将文字脚本直接转化为流畅、自然的长对话音频。创作者无需再为音色匹配、语速调整、对话间隔等细节问题耗费精力,只需提供一份带角色标注...
    发现资讯
    1个月前
    02490
    VeOmni – 字节跳动开源的全模态深度学习框架

    VeOmni – 字节跳动开源的全模态深度学习框架

    VeOmni 是字节跳动(ByteDance)开发的一个全模态深度学习框架,旨在支持多模态数据融合的场景,特别是在计算机视觉和自然语言处理(NLP)领域。全模态指的是能够处理多种类型的数据,例如文本...
    发现资讯
    2个月前
    02490
    FastVLM - 苹果开源的视觉语言模型,能够准确理解和生成与图像内容

    FastVLM - 苹果开源的视觉语言模型,能够准确理解和生成与图像内容

    FastVLM是一款专为高分辨率图像处理优化的视觉语言模型,基于苹果自研的MLX框架开发,专为Apple Silicon设备量身定制。FastVLM支持完全本地化处理,无需依赖云端上传数据,完美契合苹...
    发现资讯
    2个月前
    02480
    Open-Fiesta – 开源的AI聊天平台,支持键盘提交和流式 API

    Open-Fiesta – 开源的AI聊天平台,支持键盘提交和流式 API

    Open-Fiesta 是一个开源的多模型AI聊天平台,它支持多种AI提供商和模型,如Gemini、DeepSeek R1等,让你可以轻松切换和比较不同模型的输出。此外,它还提供了网络搜索和图片附件功...
    发现资讯
    1个月前
    02470
    DeepFig:AI驱动的智能社交媒体多平台发布与创作工具

    DeepFig:AI驱动的智能社交媒体多平台发布与创作工具

    DeepFig是什么? DeepFig是一款专为社交媒体运营者设计的AI智能内容创作与分发工具。它核心解决了多平台运营中“内容同质化”与“适配低效化”的痛点,通过先进的AI大模型技术,实现“一次创作...
    发现资讯
    2个月前
    02470
    RynnRCP – 阿里达摩院首次开源的机器人上下文协议

    RynnRCP – 阿里达摩院首次开源的机器人上下文协议

    达摩院将MCP(模型上下文协议)理念引入具身智能,首次提出并开源RCP(Robotics Context Protocol)协议,推出一套完整的机器人服务协议和框架RynnRCP。旨在推动具身智能开发...
    发现资讯
    2个月前
    02460
    Wav2Lip – 开源的高保真唇形同步工具,自动生成与语音同步的口型动画

    Wav2Lip – 开源的高保真唇形同步工具,自动生成与语音同步的口型动画

    Wav2Lip 是一个 口型同步技术开源项目,可以在任意语音对任意说话的脸部视频进行口型同步。旨在提升视频中唇部同步的保真度。此项目通过 Wav2Lip 实现精确的唇动匹配,再利用 Real-ESRG...
    发现资讯
    1个月前
    02440
    加载更多
    Copyright © 2025 up导航 浙ICP备2024076937号 
    网址
    网址文章软件书籍