
类型:人工智能
简介:基于AI的绘画生成工具,主要用于根据文本描述生成详细图像。
提示词的主要作用是缩小Stable Diffusion模型生成图像的解空间,即在模型数据中检索范围时限制生成内容的范围,而不是直接指定最终的绘画结果。不同模型对提示词的反应也因其训练方式而异;一些模型针对自然语言进行特化训练,而另一些则对单词标签进行特化训练,这导致它们对不同风格的提示词语言反应不同。
一、Stable Diffusion提示词内容
在编写Stable Diffusion提示词时,可以包含以下几种类型的内容:
1、自然语言:可以使用描述性的句子作为提示词。大多数情况下,英文和中文都是有效的,但应避免复杂的语法结构。
2、单词标签:可以使用逗号分隔的单词作为提示词。通常选择常见和普通的单词,并确保单词的风格与图像的整体风格相匹配,以避免风格混杂或出现噪点。同时注意避免拼写错误。
3、Emoji和颜文字:Emoji(表情符号)也是可以使用的,并且非常准确。由于Emoji通常只占一个字符,因此在语义准确性上表现良好。关于emoji的具体含义,可以参考Emoji List, v15.0。此外,Emoji在构图上也有一定的影响。
对于使用Danbooru数据的模型来说,西式颜文字也可以在一定程度上控制出图的表情,例如::-) 表示微笑,:-( 表示不悦等。
二、Stable Diffusion提示词语法
根据想要绘制的内容编写提示词,多个提示词之间使用英文半角逗号`,`分隔,例如:
masterpiece, best quality, ultra-detailed, illustration, close-up, straight on, face focus, 1girl, white hair, golden eyes, long hair, halo, angel wings, serene expression, looking at viewer
通常情况下,概念性的、大范围的或风格化的关键词放在前面,其次是叙述画面内容的关键词,最后是描述细节的关键词。大致顺序为:
(画面质量提示词), (画面主题内容)(风格), (相关艺术家), (其他细节)
然而,在模型中每个词语自带的权重可能有所不同。如果模型的训练集中频繁出现某种关键词,那么仅输入该词就可能极大地影响画面;相反,如果模型训练集中较少出现某种关键词,即使输入许多相关词汇也可能对画面的影响有限。提示词的顺序非常重要,越靠后的位置权重越低。
关键词最好具有特异性,比如“Anime”一词就相对泛化,而“Jojo”一词则能清晰地指向Jojo动漫的画风。措辞越具体越好,尽可能避免留下解释空间的表达方式。
可以通过括号人工调整提示词的权重,方法如下:
- (word) – 将权重提高1.1倍
- ((word)) – 将权重提高1.21倍(= 1.1 * 1.1)
- [word] – 将权重降低至原先的90.91%
- (word:1.5) – 将权重提高1.5倍
- (word:0.25) – 将权重减少为原先的25%
( n ) = ( n : 1.1 ) (( n )) = ( n : 1.21 ) ((( n ))) = ( n : 1.331 ) (((( n )))) = ( n : 1.4641 ) ((((( n )))) = ( n :
1.61051 ) (((((( n )))))) = ( n : 1.771561 )
请注意,权重值最好不要超过1.5。
通过Prompt Editing可以使AI在不同的步数生成不同的内容,例如在某阶段之后,主体由男人变为女人。语法示例如下:
- [to:when] 在指定数量的 step 后,将to处的提示词添加到提示
- [from::when] 在指定数量的 step 后从提示中删除 from处的提示词
- [from:to:when] 在指定数量的 step 后将 from处的提示词替换为 to处的提示词
例如:
- a [fantasy:cyberpunk:16]landscape 在一开始,读入的提示词为: the model will be drawing a fantasy landscape.
- 在第 16 步之后,提示词将被替换为:a cyberpunk landscape, 它将继续在之前的图像上计算;
- 对于提示词为: fantasy landscape with a [mountain:lake:0.25] and [an oak:achristmas tree:0.75][ in foreground::0.6][ in background:0.25][shoddy:masterful:0.5],100 步采样, 一开始。提示词为: fantasy landscape with a mountain and an oak in foregroundshoddy
- 在第 25 步后,提示词为: fantasy landscape with a lake and an oak in foreground inbackground shoddy
- 在第 50 步后,提示词为:fantasy landscape with a lake and an oak inforeground in background masterful
- 在第 60 步后,提示词为:fantasy landscape with a lakeand an oak in background masterful
- 在第 75 步后,提示词为:fantasy landscape with a lakeand a christmas tree in background masterful
- 示词还可以轮转,例如:[cow|horse] in a field
- 在第一步时,提示词为“cow in a field”; 在第二步时,提示词为”horse in a field.”; 在第三步时,提示词为”cow in a field” ,以此类推。
三、Token处理
实际上,程序是将输入的关键词以Token的形式传入模型进行计算的:
例如:
“ (Medieval astronomer using a telescope with a cosmic starry sky in the background.sketch, hand draw style, con, uncomplicated background )”
转换为Token ID即:
263, 10789, 40036, 1996, 320, 19037,593, 320, 18304, 30963, 2390, 530, 518, 5994, 8, 11, 263, 5269, 267, 2463, 4001, 1844, 267, 5646, 267,569, 16621, 5994, 264
转换为Token ID即为一系列数字。一个单词可能对应一个或多个Token,多个单词也可能对应同一个Token。




