【2025-comfyUI教程】新手必读:ComfyUI 文生图的完整工作原理、节点详解

科技2天前发布 up博主
30 0

在 ComfyUI 中,一幅图像的生成其实就是一条“流水线”。它从模型加载开始,到提示词输入,再到采样与解码,最后输出为可见图像。整体逻辑可以概括为以下几个步骤:

1.加载模型(Checkpoint加载器)。
2.输入正面 / 负面提示词(CLIP文本编码器)。
3.初始化 latent(空Latent)。
4.通过 K采样器 在 latent 空间采样生成图像 latent。
5.使用 VAE解码 将 latent 转换为真实图像。
6.最终 保存图像。d5fd7437907e80e8ca5005b8b33f7384下面结合工作流图,逐一拆解每个节点的功能。

1. Checkpoint加载器5063f9d43170a23774b55acd5cb6fe30

用来加载基础大模型,是影响出图结果的核心。基础生成模型(Base Model) 是整个创作“画师”。它决定了画面的清晰度、风格、提示词理解能力。

输出:
  • 模型(用于采样器)
  • CLIP(用于文本编码器)
  • VAE(用于图像解码)

2. CLIP文本编码器(正向提示词)7927fa2c5e2299c63207a08371d3e8cb

连接到正面条件的CLIP文本。

把输入的文字提示转化为语义向量,让模型能够“理解”人类的语言,从而指导图像生成。

正向提示词如何写?一般遵循,
  • 先写质量词(如:高质量、高清、细节丰富)
  • 再写主体词(如:一个女孩,双马尾,蓝色头发,校服)
  • 在写氛围词(如:教室背景,动漫风格)

这样写,是因为越靠前,词汇的权重越高。对呈现的呈现影响也会越大。

3. CLIP文本编码器(负面提示词)

和正向提示词作用相反,用来“抑制”不想要的特征,例如模糊、混乱、低质量、缺少细节等。

在一些新模型中,负向提示词可能不是必需的,因为模型本身已内置了质量优化。

4. 空Latent9cd97d5aff1709cdd92b7d6c70657075

生成一个随机的 latent 空间(噪声图),作为整个生成过程的起点。不同的模型对宽高的支持不同,比如SD1.5仅支持最大512 * 512大小的图像。

latent 空间也叫潜空间。他的作用有一点类似文本向量,用来简化计算机的理解,让他更容易生成图像。

参数设置
  • 宽度:图片宽度
  • 高度:图片高度
  • 批量大小:一次生成几张图片。

5. K采样器a0cca951f28ca0ed95c47aaf8ab178c7

核心的采样节点,基于扩散模型在 latent 空间里生成图像。

在生成模型(尤其是扩散模型)中,模型训练出来的是一个 噪声到图像的映射函数

  • 采样器就是从噪声生成图像的算法或策略
  • K采样器本质上是一种 迭代算法,通过多次更新噪声向量,将其逐步转换成清晰的图像。

就像雕塑家从一块粗糙的石头开始,逐步敲打,最终得到完整的雕像。

图像生成的过程如下:从一个模糊不清的图像,逐渐变得清晰。

输入:
  • 模型(来自 Checkpoint)
  • 正面条件(Prompt 编码器)
  • 负面条件(Negative Prompt 编码器)
  • Latent(来自空Latent)
参数设置:
  • 随机种子:控制生成图像的随机性。相同的种子 + 相同的条件会生成完全一致的图像。
  • 运行后操作:控制图像生成完成后的额外操作,例如是否随机化种子等。
  • 步数:控制采样的迭代次数,即去噪过程的步数。
  • CFG:控制提示词对结果影响力度
  • 采样器:选择具体的去噪迭代算法。
  • 调度器:控制去噪随步数变化的强度。
  • 噪声:控制 Latent 图像去噪的强度。

6. VAE解码da6d51716af69eea28431b699f078602

功能:将采样器输出的 latent 空间数据解码为可见图像。

输入:
  • Latent(来自采样器)
  • VAE(VAE模型,有的模型内置,也可以从外部引用单独的VAE模型)

输出:真实可见图像。

7. 保存图像0526a346a5bd6be95163e98f220e5c17

  • 功能:将生成的图像保存到本地。

总结

以上就是一个文生图的基本工作流。就是用一个模型,基于提示词等等一系列条件,把一个无序的空Latent图像,通过很多步的重复,变成目标图像。

  • 先有一个大模型(Checkpoint),
  • 通过提示词(CLIP)提供创作方向,
  • 在 latent 空间里用采样器不断迭代(逐步去噪),
  • 再通过 VAE 解码,
  • 最终得到清晰可见的图像。

一句话总结就是,模型是画师,提示词是灵感,采样器是雕刻过程,VAE 是还原工具,最终呈现就是一幅完整的作品。

© 版权声明

相关文章

暂无评论

none
暂无评论...