作为在曾在多种 AI 绘画比赛中获奖,去年美图年度 10 大 AI 设计师之一的深度 AI 绘画使用者,我来回答下这个问题。
在我们常用的 AI 绘画软件中,有以 DALLE 这种直接用自然语言描述类型的 AI 绘画软件,也有以 Mid Journey、Stable Diffusion 这种以单词、短句为代表类型的 AI 绘画软件。
自然语言描述的不需要专门学习,只需要通过正常的描述就可以,好处是简单易上手,但是缺点是可能不能够非常精确控制每一个效果。
而以单词、短句为代表的 AI 绘画软件,上手会复杂些,但是可以进行更加精准的控制,下面我将主要以最常用 Stable Diffusion 这一类软件(开源,大部分国内的 AI 绘画软件都以这个为基础)为例,介绍 AI 绘画提示词编写的逻辑。
一、提示词是什么
在学习之前,先让我们了解下什么是提示词。
提示词(Prompt)就是我们对 AI 的具体指令,告诉 AI 我们想要什么。提示词主要有 2 类,分别是正向提示词和反向提示词。
1.提示词语法
提示词即对画面的描述,你想要出现在画面中的内容。而对于不同风格的画面,我们可以有不同的语法范式。
完整的一个通用性提示词语法是这样的:
(quality),(subject),(style),(action/scene),(artist),(filters)
(quality): 代表画面的品质,通常我们选用 Best Quality 最高质量来控制
(subject): 代表画面的主题,形成画面的主要内容,这是所有提示词的组成最关键部分。
(style):代表画面效果的艺术风格。
(action/scene):代表动作、场景,主要用来描述了主体在什么场景,做了什么事情。
(artist): 代表艺术家名字,对于特定的风格强化,如梵高风格很好用,平时可以不用加。
(filters):代表细节补充描述。这是让画面更加丰富,更加具有个性和可控细节的。
2.提示词举例
下面我们来用几种不同类型的艺术风格进行距离
例如对于想要生成和摄影一样真实的 AI 绘画作品,你可以这样描述:
Photography by 【艺术家】+【机位、景别】+【主体】 +【环境】
Prompt:Photography by highspeed photography Half-body shot A ballerina is dancing in the background
而如果你想要生成电影风格的作品,你可以这样描述:
【年代】【风格】 Film still of【片名 】+directed by【导演 / 摄影】filmed in【拍摄地 】+【 主体描述】+【 背景词汇】
Prompt:2010 racing film stillof fast Furious, filmed atbrooklyn bridge, a muscle car drifting, dust,rain, custom racing, 4k,photorealistic,intricate details
如果是生成绘画作品,你可以这样描述:
【画种】by【艺术家】,【主题 】,【风格】
Prompt:masterpiece, oil painting by Van Gogh, the space of imagination,books, films, musics, concepts, ideas, surrealism
如果是生成三维效果的产品,你可以这样描述:
【画种】by【艺术家】,【主题】,【风格】
Prompt:3D view, product beauty shot toy Forest cabin by antonio gaudi needle felting teture,life stlye
如果是生成二次元漫画的作品,你可以这样描述:
Prompt:illustration by Ghibli, long shot of Howl's Moving Castle,8k, best quality, super detailed
3.正向提示词(Prompt):
正向提示词就是上面说的语法内容,就是你希望在画面中显示的内容。
例如你可以这样描述:
best quality, masterpiece, highres, 1girl, medieval armor, hair ornament, necklace, jewelry, Beautiful face, upon_body, tyndall effect, photorealistic, dark studio, rim lighting, two tone lighting, (high detailed skin:1.2), 8k uhd, dslr, soft lighting, high quality, volumetric lighting, candid, Photograph, high resolution, 4k, 8k, Bokeh
这代表什么呢?翻译成中文是这样的短语,它包含了画面整体的描述,主题内容,场景要求:
“最佳质量,杰作,高分辨率,一个女孩,中世纪盔甲,发饰,项链,珠宝,美丽的脸庞,身体上方,泰因德尔效应,逼真的照片效果,暗室摄影,边缘光照明,双色照明,(高度详细的皮肤:1.2),8K 超高清,数码单反相机,柔和的光线,高质量,体积光照明,真实自然的摄影,高分辨率摄影,4K,8K,背景虚化。”
而如果你想要提升你的画质效果,可以采用如下提示词:
High detailed、ultra detailed、fine detailed、Hyper detailed、super detailed、realistic、4K、HDR
4.反向提示词(Negative prompt):
指你不想在画面中出现的元素或属性,你不希望在画面中出现的内容。
例如你可以这样描述:
red eyes, big head, nsfw, monochrome, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, lowres, bad anatomy, bad hands, text, error, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, ugly, pregnant, vore, duplicate, morbid, mut ilated, tran nsexual, hermaphrodite, long neck, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, bad anatomy, bad proportions, malformed limbs, extra limbs, cloned face, disfigured, gross proportions, (((missing arms))), (((missing legs))), (((extra arms))), (((extra legs))), pubic hair, plump, bad legs, error legs, username, blurry, bad feet
这是一些常用的负面词汇清单,我就不再一一赘述,直接拿来用就可以。
5.注意事项
- 提示词放入的顺序就是优先级,权重值从前向后递减。
2.不要堆积叠加过多的提示词,AI 会记不住,如果内容特别多,可以适当提高迭代步数。
3. 如果使用 Stable Diffusion,建议提示词 token 值不小于 75,不大于 150(太少有效信息不足,太多后面的词会被遗忘)。
4. 在 Mid Journey, Stable Diffusion 软件中提示词需要采用全英文,提示词中的标点符号也应全部使用英文符号。
5. 单词、短语和句子基本上是等价的。例如,“1boy、Lake、swimming”与“A Boy swimming in lake”在语义上是相同的,但是采用短语更加符合 Stable Diffusion 的语义习惯。
二、编写提示词的整体思路
在给出正向提示词时,我们通常采用分类描述的方式。具体可以分为以下三类:整体描述、主体、场景。
在开始生成图片前,你需要好好考虑以下这些方面内容:
- 你需要的是一张照片还是一幅画作?
- 照片的主题是什么?人物?动物还是风景?
- 您希望添加哪些细节?环境和背景是什么?
- 是否使用特定的艺术风格?3D 渲染、吉卜力工作室、电影海报
- 是否需要特定的照片类型?微距、长焦
考虑好以上内容后,我们需要把这些加入到整体描述提示词的中。
1.画面整体描述
通常我们需要首先考虑画面的整体质量,需要涵盖以下四个方面:
- 画质描述:可以分为高画质、中等画质或低画质,2k 、4k 高清分辨率等。
- 艺术风格描述:CG、二次元、3D 渲染、海报、真人照片、油画、水墨画等。
- 构图镜头描述:画面中人物的占比,是半身像还是全身像,正面、俯视还是侧面,是否需要摄影镜头。
- 光线或色调描述:自然光线、聚光、背光?鲜艳、暗淡、冷色调或暖色调。
2.主体
以人物为例,主体的描述通常包括以下两个方面:特征、姿势。
- 特征:特征描述通常包括人脸上五官、年龄、皮肤、毛发、服饰及其他装饰细节特征等
- 姿势:即主体的动态,例如坐姿、立姿、跑步等。
3.场景
基本场景描述通常包括时间、地点、光线、天气、细节等描述,这一点往往根据实际画面需求进行调整。
三、提示词语法
仅仅有了提示词的想法还不够,我们还需要知道怎么把提示词重新组合成 Stable Diffusion 可以容易识别的格式。
1.提示词顺序
文字的单词顺序很重要。
提示词的重要性取决于其在句子中的位置,通常主要内容应该放在前面。因此建议应该尽可能将每个短语明确、分顺序列出,而不是试图把它们压缩成一个简单的英文短句,这样更加便于机器理解。
另外需要注意的是,不同的提示词之间要采用英文逗号分隔,这样 AI 才能判断每一个单词的主体。
2.权重调整
权重系数可改变提示词特定部分的比重,我们还可以使用强化和弱化方式来调整提示词的重要性。
例如: (Masterpieces:1.1),这个形式代表的是(提示词短语:权重系数)。权重数值默认为 1。数值小于 1 表示弱化,数值大于 1 表示强化,通常我们权重系数会设置在 0.3~1.6 之间。
而在 Stable Diffusion 的提示词使用中,使用()表示强化,使用[]表示弱化。
我们可以使用多层嵌套来进一步增强或减弱提示词的重要性。
(word)等于将权重提高到 1.1 倍,((word))则将权重提高到 1.21 倍(=111.1),[word]- 将权重降低到 90.91%,(word:1.5)则是将权重提高到 1.5 倍,(word:0.25)是将权重减少为原先的 25%
具体效果举例来说:
((Masterpieces))实际效果等于 (Masterpieces:1.1),每一个扩号等于乘以 1.1 权重。 [Masterpieces]实际效果约等于 (Masterpieces:0.9)。
结语
通过上面的介绍,你是否了解了提示词的基本逻辑用法呢,如果想要了解更多的 Stable Diffusion 知识,还可以查看我的更多文章:
德里克文:Stable Diffusion 进阶指南 -1
如果想要学习更多 AI 绘画内容,也欢迎关注我,我每天都会更新 AI 绘画及人工智能的相关作品及知识。
我是德里克文,一个对 AI 绘画,人工智能有强烈兴趣,从业多年的室内设计师!如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!