Midjourney简明教程（四）：Prompt提示词入门

无心的拉 · 发表于 2023-7-20 13:27:14

前面已经完成了Midjourney的筹备工作，接下来我们来学习Midjourney绘图的核心——提示词。

教程框架

一、什么是提示词

提示词是AI绘图的核心和主体，是与AI对话的语言，只有精到、准确的提示词才能生成特定风格、满足既定需求的图片，也就是说提示词Prompt是AI绘画的魔法和咒语
关于提示词的定义，我们先来看看官方文档上的界定：

A Prompt is a short text phrase that the Midjourney Bot interprets to produce an image. The Midjourney Bot breaks down the words and phrases in a prompt into smaller pieces, called tokens, that can be compared to its training data and then used to generate an image. A well-crafted prompt can help make unique and exciting images.

中文翻译为：

提示词Prompt是这样一个简短的文本表述语句，Midjourney机器人将其转译来生成一个图像。Midjourney机器人将提示词中的单词和短语分化成更小的片段，称之为令牌，而这些令牌可以与Midjourney训练数据进行斗劲，然后用来生成图像。一个精心设计的提示词可以辅佐你生成独特的和令人兴奋的图像。

从上面的定义可以看出，提示词是一种人机对话的自然语言，人类可以输入我们日常使用的语言来让Ai来措置，而不是以往法式员们使用的特定编程语言。
如果你看到我之前列举的AI绘画底层道理的资源，概略能大白，模型训练时AI会将自然语言提示词拆解为一个个token令牌，将文本转化为数字，将文本这种高维信息降维为数学可以措置的向量数据，从而将视觉信息转化数学运算，颠末复杂的算法增加噪点以及逆向去噪最终释放维度还原为图片信息。
这也就必然程度上意味着，Midjourney绘画更擅长措置文本信息，而且并不包含逻辑推演和计算。我看到推特上有人在提示词中使用数学函数和公式，并由此生成了标致的图片。但我以为这只是随机性的副产物，Midjourney并不具备数学计算的能力，我们日常使用提示词时主要还是聚焦在文本语言的叙述上。
二、提示词布局

知道了提示词的含义，下面我们来拆解一下提示词的布局。
Discord输入框中，输入法在英文状态下输入反斜杠/，于是系统就唤起常用命令，我们选择imagine，此时鼠标就定位到提示词输入框，这一部门就是我们日常输入提示词的区域。

按照官方文档介绍，提示词基本布局分为三部门：图片提示（Image Prompts）、文本提示词（Text Prompt）、后缀参数（Parameters），且每一部门用空格分隔。
在当然这三部门中，文本提示词是必不成少的部门，也是提示词的主体，图片提示词在需要提供参考图片（也即垫图）时使用，如果不需要可以略去，后缀参数可以使用系统默认的设置，也可以本身设定。一言以蔽之，提示词的核心是文本提示词（以及后缀参数），也是我们日常最需要花功夫的部门。

我们以文本提示词一只猫（a cat）为例，提示词的三种情形：

提示词主要是对生成对象的文本描述，要想斗劲精到地反映对象需要全面、精炼、简洁地用词，大体上描述一个对象或者一个图片，文本提示词可以从主体描述、环境氛围、艺术类别、艺术风格、材质、构图、视角、光照、色调等等方面来解构，这个后续会进一步阐释。
三、提示词与Midjourney绘图的基本操作

在Discord输入框输入上述提示词后，按Enter键系统就会开始绘图，并一次性返回一组四宫格图片（每张512 x 512像素）。这组四宫格图片有默认的序号，从上到下从左到右依次为1、2、3、4

图片下方有两排按钮，分袂为U和V：

U指对图片放大，比如U1指的是对第一张图片放大，放大后的图片有更高的像本质量。如果你对放大后的图片对劲可以点击小红心给系统反馈，辅佐训练算法；如果你不对劲，也可以点击第一个“Make Variations”(发生变体)进入Remix模式，改削提示词并以该图为基准继续生成。

V指的是Variations（变体），当我们对生成的四张图片中的某一张对劲并想以此继续生成时可以使用V+数字序号，比如V1指的是以第一张图为基准继续发生图片。

基本上来说，Midjourney在输入提示词后第一回就生成对劲的概率不高，我们往往需要不竭地V图和U图才能找到对劲的图片，我们常常开打趣说AI绘画就像抽卡，指的也就是Midjourney出图随机，废片率高，可控性差，很难一次成图。
四、基础语法

上面就是Midjourney结合提示词绘图的基本操作，下面我们来介绍Midjourney基础语法，主要包罗两部门：参数、常见操作与命令
（一）参数

参数是Midjourney提示词的后缀部门，由于Midjourney会不按期更新，后缀参数也会不竭变化，有的不再撑持，有的升级，有的需要结合其他后缀一块使用，因此需要持续存眷并更新本身的认识。
1、参数的语法

后缀参数与文本提示词之间用一个空格隔开；
后缀参数以--开头，紧跟着参数名或参数名缩写，如果参数还带有数值或属性，也要用空格隔开；
分歧参数之间要用空格隔开；

2、常用参数

--version或--v

命令：--v+空格+版本号数字
制定或选择模型版本，由于目前最新版本是5.1，图片质量更佳，我们可以使用--v 5.1。当然，我们可以直接调用settings命令设置默认的模型版本。

--aspect或--ar

宽高比，宽高比主要影响构图和图片形状，Midjourney 的默认宽高比为 1:1，你也可以改削为其他宽高比，比如常见的3:4或9:16。以往版本会对宽高比有限制，目前V5版本和niji 5版本均解除了宽高比限制

--chaos或--c

命令：--c+空格+数值（数值范围为0~1000，默认为0）
chaos参数影响初始的四宫格图片之间的差异。chaos越小，每次生成的四宫格组图之间风格差异越小，反之越大。

--quality或--q

命令：--q+空格+数值（目前数值接受.25, .5， 1和2，默认为1）
在提示词后加上--quality 或 --q 参数，可以影响图像生成的质量（不影响分辩率）或图片细节，但高质量的图像需要更长的生成时间，也意味着每次生成耗费的 GPU 分钟数也会增加。较高的quality值并不总是更好，较低的quality可能也有不错的效果，比如抽象外不雅观。

--seed

命令：--seed +空格+数值（数值范围为 0–4294967295）
Midjourney 机器人使用随机生成的seed值来创建视觉噪声场作为生成初始图像网格的起点，并最终影响图片的质量；尽管seed值是系统随机生成，但可以指定seed值，使用不异的种子值和类似的提示词可以发生相似的生成成果，一般我们使用不异的seed值来一致的人物形象或者场景。因为Midjourney生成图片是随机或抽卡，成果存在很大不确定性，而使用不异的seed值可以让成果风格保持一致。
如何查看图片的seed值？可以在图片成果右上方“添加反映”出找到信封（envelope）符号并点击，系统机器人会返回该任务的任务ID和seed值。我们可以复制这个seed值去书写提示词，以生成类似风格的图片。

--stop

命令：--stop+空格+数值（数值范围为10–100）
stop可以让Midjourney在生成图片的必然进度遏制生成，以此造成某些模糊或不那么精细的成果。最低进度是10%，最高是100%。

--stylize或--s

命令：--s+空格+数值（取值范围是0~1000，默认值是100）
stylize参数影响Midjourney默认的美学样式和风格化强度，数值越大，生成的图片就越有艺术感，但与提示词的相关性也弱。

下图是stylize参数在分歧版本的取值范围和默认值，需要注意的是，Niji版本不撑持stylize参数。

--tile

该参数用于生成无缝纹理，无缝纹理常用在壁纸、面料织物等上的无缝图案。该参数适用于v1, v2,v3, test, testp, v5和v5.1版本。

--repeat或--r

命令：--repeat+空格+数值
该命令可以让机器人反复执行提示词N次，发生N组四宫格图片。
因为反复执行提示词会大量消耗GPU资源，所以该参数命令仅限尺度版和专业版会员使用，且尺度版次数数值为 2–10，专业版次数数值为2–40。此外，--repeat 参数只能在快速fast GPU 模式下使用

--iw

该参数为图片提示相对文本提示词的权重，较高的图片提示权重意味着参考图片对图片成果影响更大。
下面是分歧版本下图片权重的取值范围与默认值

--no

负向提示词（Negative Prompt），该参数以--no开头，后接图片不想呈现的元素。比如下图生成七彩试管，如果需要排除红色，只需要后缀“--no red”

--niji

Niji 是 Midjourney 和 Spellbrush 合作推出的一款专门针对动漫和二次元风格的模型，可通过在提示词后添加 --niji 调用，由此发生动漫风图片。
貌似Midjourney很注重动漫二次元风格模型的开发，目前已经推出多种细分动漫风格模型。在使用语法上，需要在后缀参数添加niji版本+细分模型（参考下图）。
目前可用且常用的Niji动漫细分模型有：
（1）--style cute
这种动漫风格偏可爱风
（2）--style scenic
这种动漫风格偏大场景的风光风格
（3）--style expressive
这是niji v5版本的功能，漫画风格更加方向欧美二次元，更写实更加方向游戏原画。

（二）高级提示词命令与操作

垫图（ Image Prompt）

前面提示词布局部门讲过图片提示词，但没有细讲，这里出格介绍。
图片提示可以和文本提示词结合使用，以便文本提示词按照参考图片来生成预期的图片，而且还可以赋予图片提示权重，即后缀参数“--iw”来分配图片提示的参考程度。图片提示还可以单独使用，多张参考图片融合。
图片上传：点击输入框的“+”号——“上传文件”，可以多选一次上传多张，然后按Enter键，此时图片就上传到Midjourney处事器。

右键任一图片，选择“复制链接”即复制了该图片在Midjourney处事器上的地址。在书写提示词时，将图片链接粘贴进输入框，且若多个链接间空格分隔，图片链接与文本提示词之间也用空格分隔。

这样我们就完成了图片提示或者垫图操作，系统会按照图片生成新的图片。一般我们使用垫图功能主要场景是参考上传的图片来生图，比如上传本身的照片+文本提示生成个人皮克斯风格头像，再比如上传模特照片+文本提示生成特定穿戴的新模特照片。
Blend融图

提示词输入框调用blend命令，可以上传2-5张图片，不需要文本提示词，然后按Enter键，系统会将它们融合为一个新图像，这就是融图。

融图的使用场景是，将分歧的图片或分歧元素融合在一张新图片中，比如上传本身的图片及一张风光照，将本身融进风光中。
Remix模式

remix目前我没看到正确而准确的翻译，有人将其翻译为“混音”，但这种翻译只是翻译了mix，而没有翻译出re。在音乐范围，混音和remix都有混合的共性，但remix含义更丰硕，简单翻译一下就是对音乐进行改编或者从头编曲。关于混音Audio Mixing和remix的区别，可以参考文章《为什么Remix不能翻译为混音？》。
回到Midjourney中的Remix模式，所谓remix就是指对于已经生成的图片改写文本提示词、后缀参数等生成新图片，而这种新图片采用原图片的构图，并辅佐更改图像的设置或灯光以及主体调整。按照我的理解，Remix多用在对图片微调。
Remix模式的开启和封锁可以通过调用settings命令，在默认设置中开启或封锁。

我们在V图发生变体时，对颠末放大后的图片“Make Variations”，就在调用“Remix Prompt”，即提示词改编。
比如初始图的提示词是：a cat,我们使用“Make Variations”改编提示词为：a cat with blue eyes in the sun

Describe命令：图生提示词

有些时候我们看到某张图片很想知道这张图片是什么风格、某些提示词如何写但本身又不知道，那么describe命令就可以用来解决这样的问题。
调用describe命令用来上传当地图片，按Enter确认，系统会自动识别图片信息，然后返回四段参考提示词以及提示词序号，选择任一序号，可以直接点击生成查当作果也可以进入Remix模式改削提示词再生成。
按照我的使用体验，系统识别能力有限，参考提示词的生成成果并不是让人对劲，但它确实提供了一种想象力，通过图片识别生成提示词来解决绘图爱好者缺乏灵感或者进行思路探索的问题。

多重提示（Multi Prompts）

所谓多重提示指的是这样的场景：

我们的提示词中某个短句是一个完整的概念还是多个概念容易引发歧义时，比如hot dog，到底是指热狗香肠这一个实体，还是指的是一个热的气喘吁吁的狗，包含热以及一只狗两个概念？那么多重提示词就用来区分两个或多个单独的概念。
提示词的某个短句分歧组成部门我们想增加某个部门的权重或者生成时的影响程度，比如还是hot dog,我们指的是一只气喘吁吁的狗，如果此时我们想增加hot（热）的程度，表示非常热，那么可以通过多重提示词赋予hot更好的权重。

多重提示的语法：在需要分隔概念时使用英文输入法下双冒号+空格来区隔，若想增加双冒号前元素的权重，就在冒号后输入数值来暗示权重。
如下图所示，左图仅区隔概念，右图不仅区隔还增加hot的权重

需要注意，权重默认为1，且Midjourney的V1、V2、V3版本只接受整数作为权重，而V4版本及后续版本可以接受权重的小数位。
此外，还需要补充一个概念——负向提示词权重（Negative Prompt Weights），也就是多重提示中的权重为负值，用在排除不想要的元素，比如下图中排除红色。在这一点上，负向提示词权重等价于使用负向提示词后缀“--no red”

此外，一段提示词中所有权重的总和必需是正数。
摆列组合功能Permutation

Permutation 摆列组合功能用在这样的场景：一段提示词执行分歧的任务，发生分歧的风格或规格的图片，这样可以查看各自效果便于灵感探索或者比照选择合适的提示词。

摆列组合功能的语法是，使用大括号{}包罗分歧的选项，选项之前用英文逗号分隔。
摆列组合功能的输出是，系统会选择每一个大括号的元素与括号外的提示词组合成一段提示词来执行一次生成任务，而全部任务数可以借助初中数学摆列组合公式来计算。如下图的一段提示词会发生三次绘图任务

使用摆列组合功能可以在一段提示词中的分歧部门组合分歧的元素（比如图片提示、文本提示、后缀参数、提示词权重等），如下图所示的一段提示词会发生2*2*2*2*2=32个任务。因为单次执行过多任务对GPU发生过大压力，因此Midjourney限制摆列组合功能仅限专业版会员在Fast模式下使用，且一次最多12个并爆发业数。

此外，摆列组合功能还可以在大括号中进行嵌套，但那样可能更复杂，一般人也用不到。
五、文本提示词的写作方式

在具体文本提示词写作上，目前颠末Midjourney绘画爱好者各自探索，已经形成了多种提示词写作方式，尤其是对于长提示词或者超长提示词。综合推特上AI绘画大佬Nick St. Pierre的帖子以及其他人的分享，我总结有如下提示词写作方式：
1、常规提示词写法（normal prompting）

这是我们写作提示词的最常用的方式，短语词组之间使用逗号分隔

a cat in polygonal art colorful animal sitting in dark background, in the style of escher-inspired, low resolution, color gradients, highly realistic, digital print, neon realism, mosaic-inspired realism --ar 3:4 --v5.1

2、分类提示词法（Category prompting）

这种写法方式使用逗号、竖线或分号分隔分歧类此外元素，且在元素组前面额外添加一个类别号称，这样写作的好处是布局清晰，非常适合使用 ChatGPT 实现自动化。

IMAGE: Cinematic | GENRE: Adventure | MOOD: Mysterious |SCENE: A group of explorers venture into a dense forest,discovering hidden secrets and ancient relics | ACTORS: Explorers |LOCATION TYPE: Forest | TAGS: Adventure, mystery, forest, movie scene--ar 16:9 --v 5
Style: Magazine photography, Subject: Body builder Elon Musk, Features: he is extremely muscular with massive vascularity and striated muscles, covered in colorful tattoos --ar 2:3
VISUAL_FORMAT: Cinematic::1 | GENRE: Adventure::1 | MOOD: Mysterious::1 | SCENE: A group of explorers venture into a dense forest, discovering hidden secrets and ancient relics::1 | ACTORS: Explorers::1 | LOCATION TYPE: Forest::10 | TAGS: Adventure, mystery, forest, movie scene::1 --ar 16:9

3、叙事式提示词法（Narrative prompting ）

当 Midjourney 开发人员颁布发表最新模型可以更好地舆解自然语言时，这种写作方式一度在 V5 中变得风行。具体就是指在写作时用我们日常的自然语言以散文风格或者写小作文的形式来写提示词。这种方式在表达情绪或描述场景时可能有用，但没法控制或确定哪个词组词汇对提示词更有用。

In a cinematic adventure scene, a group of explorers tread cautiously through a dense forest. With a mysterious atmosphere surrounding them,they uncover hidden secrets and ancient relics that lay hidden within the forest's depths. --ar 16:9 --v 5

4、疑问句提示词写作法（Interrogative prompting）

据Nick St. Pierre介绍，这种写作法源自V3版本时期，由Eroteme Art提出。这种方式难以控制，但也可能有意想不到的艺术效果。

What would a mysterious adventure scene look like, where a group of explorers venture into a dense forest and discover hidden secrets and ancient relics? --ar 16:9 --v 5

好了，以上就是Midjourney提示词写作入门的基本常识，接下来是文本提示词的解构，欢迎持续存眷、点赞、保藏、分享，我们下期再见~

		自动登录	找回密码
密码			立即注册

Midjourney简明教程（四）：Prompt提示词入门

本帖子中包含更多资源