up导航
  • blog
  • 网站提交
    • ai工具
    • blog
    • 网站提交

    发现

    共 266 篇文章
    发现科技资讯
    排序
    发布更新浏览点赞
    小米开源的图像编辑框架–Lego-Edit ,能完成多种复杂的图像编辑任务

    小米开源的图像编辑框架–Lego-Edit ,能完成多种复杂的图像编辑任务

    Lego-Edit是一个为通用基于指令的图像编辑设计的框架。它使用Builder(一个MLLM)来调用Bricks(模型级工具)以实现灵活性,并采用强化学习(RL)来增强Builder的推理和工具组合...
    发现资讯
    3周前
    01840
    混元3D 3.0 – 腾讯混元最新推出的3D生成模型,建模精度提升3倍

    混元3D 3.0 – 腾讯混元最新推出的3D生成模型,建模精度提升3倍

    在2025腾讯全球数字生态大会上,腾讯混元3D 3.0模型正式发布,混元3D 3.0模型现已集成于混元3D AI创作引擎,面向用户免费开放,并同步上线腾讯云API。混元3D 3.0模型建模精度比上一版...
    发现资讯
    4周前
    01840
    Colorify AI – AI图像上色工具,上传照片后可立即看到上色效果

    Colorify AI – AI图像上色工具,上传照片后可立即看到上色效果

    ColorifyAI 是一款利用人工智能技术将文本或照片迅速转化为高质量填色页的AI工具。开发者通过 proprietary large-model 技术有效地识别语义或照片轮廓,从而快速生成用户所需...
    发现资讯
    1个月前
    01840
    VLAC – 上海AI实验室开源的具身奖励大模型,支持人机协作模式

    VLAC – 上海AI实验室开源的具身奖励大模型,支持人机协作模式

    VLAC是上海人工智能实验室开源的具身奖励大模型,旨在解决机器人真实世界强化学习中的效率与泛化难题。VLAC模型通过数据驱动的奖励机制和多模态认知架构,初步解决了机器人真实世界学习的效率与泛化难题。其...
    发现资讯
    3周前
    01780
    HuMo – 清华联合字节推出的多模态视频生成框架,实现最高级别定制和控制。

    HuMo – 清华联合字节推出的多模态视频生成框架,实现最高级别定制和控制。

    字节开源的Humo模型支持文生视频、图生视频及音频生成视频,可结合文本、图像与音频多模态输入,并支持多图参考合成。HuMo 框架具备强大的多模态输入处理能力,可以同时利用文本、图像和音频三种信息,协同...
    发现资讯
    1个月前
    01770
    Sidekick – AI流程自动化平台,帮助用户快速实现常见任务的自动化

    Sidekick – AI流程自动化平台,帮助用户快速实现常见任务的自动化

    Sidekick是一款基于AI的智能流程自动化平台,让用户无需安装额外软件即可与本地大语言模型(LLM)对话,并能结合Mac上的文件、文件夹和网站信息生成回应,Sidekick支持文本生成图像,无需额...
    发现资讯
    3周前
    01760
    comfyui教程(完整版)从零开始教你玩转ComfyUI-保姆级部署教程-手把手带你ComfyUI工作流搭建

    comfyui教程(完整版)从零开始教你玩转ComfyUI-保姆级部署教程-手把手带你ComfyUI工作流搭建

    第一节:认识ComfyUI并安装 本教程专为初学者设计,详细介绍了 2024 年最新版的SD ComfyUI的使用方法。通过逐步指导,让你无需任何基础,快速学会并使用这一强大的AI绘图工具。 1、什么...
    发现# comfyui
    3周前
    01740
    IndexTTS2 – B站开源的最新文本转语音模型,可精准模仿该音频的声线

    IndexTTS2 – B站开源的最新文本转语音模型,可精准模仿该音频的声线

    哔哩哔哩(B 站)Index 团队宣布全面开源其自主研发的文本转语音(TTS)系统 ——IndexTTS-2.0,它支持两种生成模式:一种明确指定生成的标记数量以精确控制语音持续时间;另一种以自回归的...
    发现资讯
    3周前
    01730
    Qianfan-VL – 百度开源的视觉理解模型,最高支持4K分辨率输入

    Qianfan-VL – 百度开源的视觉理解模型,最高支持4K分辨率输入

    百度智能云千帆正式推出全新视觉理解模型 ——Qianfan-VL,共推出了3B、8B和70B三个版本,参数量覆盖从小到大的范围,能够灵活适应从边缘计算到云端推理的各类应用场景,并全面开源。 Qianf...
    发现资讯
    3周前
    01710
    Kotaemon—— 基于 RAG 技术的开源工具,支持多模态检索和复杂推理方法,满足多样化的查询需求

    Kotaemon—— 基于 RAG 技术的开源工具,支持多模态检索和复杂推理方法,满足多样化的查询需求

    Kotaemon 是什么 Kotaemon是一款基于Retrieval-Augmented Generation (RAG)技术的开源工具,由Cinnamon团队开发。它通过结合信息检索和语言生成技术...
    发现资讯
    2个月前
    01710
    加载更多
    Copyright © 2025 up导航 浙ICP备2024076937号 
    网址
    网址文章软件书籍