AI绘画各参数含义与选择

status

type

date

slug

summary

AI绘画的背景和应用领域

AI绘画，即通过人工智能技术实现的自动或半自动的绘画创作，是数字艺术和计算机视觉领域的一个热门研究方向。它利用深度学习模型来理解和生成图像，自动化创作、图像修复、图像增强、图像风格转换、图像生成等。可以在多种应用领域发挥作用，如娱乐产业中的游戏设计、电影特效制作；广告行业中的视觉内容创造；以及为艺术家提供新的创作工具等。

AI绘画模型

1. CheckPoint

CheckPoint是一个基于深度学习技术实现的图像生成模型。CheckPoint是Stable Diffusion（SD）的基础模型，也是SD能够绘图的基础模型。它包含了生成图像所需的一切，不需要额外的文件。不同的主模型，其画风和擅长的领域会有侧重。大部分checkpoint模型都是基于sd模型进行二次训练的，目前比较流行和常见的checkpoint模型有Anything系列、AbyssOrangeMix3、ChilloutMix、Deliberate、国风系列等等。常见文件模式:尾缀ckpt、safetensors。

2. Lora

Lora是一种针对语言模型优化参数调整的方法。在AI绘画中，可以将某一类型的人物或者事物的风格固定下来。它们通常为10-200 MB。现在比较火的Korean Doll Likeness、Taiwan Doll Likenes、Cute Girl mix都是真人Lora模型，效果很惊艳。常见文件模式:尾缀ckpt、safetensors、pt。

Textual Inversion: Textual Inversion（也称为Embedding）是一种使用文本提示来训练模型的方法。它根据模型引用给定的图像并选择最匹配的图像。这种方法对计算资源要求较低，适用于需要快速生成大量高质量图像的场景².

请注意，这里提到的模型只是AI绘画领域中的一小部分，还有很多其他的模型和算法。

3. VAE

变分自编码器(Variational Autoencoder, VAE)是一种常见于AI绘画中使用来生成新图片或风格迁移的模型。VAE通过编码器将输入数据压缩成潜在空间表示，再通过解码器重构出数据。它是一种滤镜+微调的模型，可以用于图像美化。有的大模型是会自带VAE的，比如Chilloutmix。如果再加VAE则可能画面效果不会更好，甚至适得其反。SD自带的VAE是”animevae”，效果一般，建议使用”kl-f8-anime2”或者”vae-ft-mse-840000-ema-pruned”。anime2适合画二次元，840000适合画写实人物。常见文件模式: 尾缀ckpt、pt。

AI绘画参数详解

提示词（Prompt）和反向提示词（Negative Prompt）

提示词内输入的东西就是你想要画的东西，反向提示词内输入的就是你不想要画的东西。

提示框内只能输入英文，所有符号都要使用英文半角，词语之间使用半角逗号隔开。

反向提示词

这里重点提一下反向提示词，与提示词相反，反向提示词输入的是你不希望SD产生的。这是SD的一个非常强大但未被充分利用的功能。有时候你正面提示词写一堆，出来的效果也不理想，但是加上一个反向提示词就能获得理想的结果。

一般负面提示：低分辨率、错误、裁剪、最差质量、低质量、jpeg伪像、帧外、水印、签名 > General: lowres, error, cropped, worst quality, low quality, jpeg artifacts, out of frame, watermark, signature

人物肖像的负面提示：变形、丑陋、残缺、毁容、文本、额外的四肢、面部切割、头部切割、额外的手指、额外的手臂、绘制不佳的脸、突变、比例不良、头部裁剪、四肢畸形、手突变、融合手指、长脖子

Negative prompts for people portraits: deformed, ugly, mutilated, disfigured, text, extra limbs, face cut, head cut, extra fingers, extra arms, poorly drawn face, mutation, bad proportions, cropped head, malformed limbs, mutated hands, fused fingers, long neck

逼真图像的负面提示：插图、绘画、素描、艺术、素描

Negative prompts for photorealistic images: Photorealistic: illustration, painting, drawing, art, sketch

采样迭代步数（Steps）

Stable-Diffusion通过从充满噪点的画布开始创建图像，然后逐渐去噪以达到最终输出。Steps就是控制这些去噪步骤的数量。通常，越高越好，但一般情况下，我们使用的默认值是20个步骤，这其实已经足以生成任何类型的图像。

以下是有关在不同情况下使用steps的一般指南：

如果你正在测试新提示并希望获得快速结果来调整输入，请使用10-15个steps。

找到所需的提示后，将步骤增加到20-30,很多人的习惯是28。

如果你正在创建带有毛皮或任何具有详细纹理的主题的面部或动物，并且觉得生成的图像缺少其中一些细节，请尝试将其提高到40或者更高。

[!NOTE] Tips 有些人习惯于一上来就创建具有100或150步的图像，这对于LMS等采样器很有用，但除非你有很强的显卡，否则很多时候都是浪费时间。先用小步骤去测试，找到合适的提示词后再提升步数才是正确的方法。而且，使用改进的快速采样器（如 DDIM 和 DPM++系列）一般用100以内的步数就完全OK了，通过对这些采样器使用大量步骤，很可能只会浪费时间和GPU算力，而不会提高图像质量。

采样方法（Sampler）

正如我们之前提到的，SD通过对起始噪声画布进行降噪来工作。这就是扩散采样器发挥作用的地方。简单来说，这些采样器是算法，它们在每个步骤后获取生成的图像并将其与文本提示请求的内容进行比较，然后对噪声进行一些更改，直到它逐渐达到与文本描述匹配的图像。

用户最常用的三个采样器分别是Euler a，DDIM和DPM++系列。你可以尝试这三个，看看哪个更适合你的提示。

总体而言，欧拉采样器（Euler a）具有更平滑的颜色和较少定义的边缘，使其更具“梦幻”外观，因此如果这是你在生成的图像中喜欢的效果，请使用Euler a。DPM2和DPM++系列更加写实。LMS、DPM fast 虽然出图快，但有可能人是不完整的。

生成批次和生成数量

生成批次是显卡一共生成几批图片。

每批数量是显卡每批生成几张图片。

也就是说你每点击一次生成按钮，生成的图片数量=批次*数量

需要注意的是每批数量是显卡一次所生成的图片数量，速度要比调高批次快一点，但是调的太高可能会导致显存不足导致生成失败，而生成批次不会导致显存不足，只要时间足够会一直生成直到全部输出完毕。

输出分辨率（宽度和高度）

图片分辨率非常重要，直接决定了你的图片内容的构成和细节的质量。

输出大小

输出大小决定了画面内容的信息量，很多细节例如全身构图中的脸部，饰品，复杂纹样等只有在大图上才能有足够的空间表现，如果图片过小，像是脸部则只会缩成一团，是没有办法充分表现的。

但是图片越大,ai就越倾向于往里面塞入更多的东西，绝大多数模型都是在512*512分辨率下训练的，少数在768*768下训练，所以当输出尺寸比较大比如说1024*1024的时候，ai就会尝试在图中塞入两到三张图片的内容量，于是会出现各种肢体拼接，不受词条控制的多人，多角度等情况，增加词条可以部分缓解，但是更关键的还是控制好画幅，先画中小图，再放大为大图。

大致的输出大小和内容关系参考：