AI 提示词基本结构怎么写｜主体/风格/光影/构图/材质/画质/参数完整公式

一条稳定可复用的提示词不是关键词越多越好，而是把画面拆成主体、场景、风格、光影、构图、材质、画质和参数八个可控制段落。本教程给你一套可直接套用的公式，并配 5 条不同场景的真实样本。

本文目录

为什么先理解结构，而不是急着堆关键词
推荐的八段式提示词公式
可视化：一条提示词长什么样
错误示范 vs 正确示范
5 条真实样本（人像/产品/插画/建筑/视频）
写结构化提示词最容易踩的 5 个坑
不同平台的参数段写法对照

为什么先理解结构，而不是急着堆关键词

很多刚接触 AI 绘画的人写提示词时，会把"高级、唯美、电影感、震撼、精致、超清、大师作品"这类词一股脑堆在一起。这样做有时确实能出还不错的画面，但有三个明显问题：第一，你不知道是哪一个词在起作用，下次想复制就只能整段照抄；第二，词与词之间互相打架，比如"梦幻"和"写实摄影"会拉扯模型的风格判断；第三，画面控制只剩下"再换一张"这一个动作，没法精修。

结构化写法把提示词拆成功能明确的段落：主体负责"画什么"，场景负责"在哪里"，风格负责"像什么风格"，光影负责"什么时间什么氛围"，构图负责"镜头距离和视觉焦点"，材质负责"近看时的真实细节"，画质负责"清晰度和完成度"，参数负责"画幅、版本、步数、时长等技术条件"。每一段都可以单独修改，不会牵连其他段。

这套思路最大的好处是可修改、可调试。当你已经得到一条满意的人像提示词，只想把摄影棚换成咖啡馆，只需要替换场景和光影；如果只想把写实摄影改成插画，则只替换风格段；如果画面主体老是偏离，就优先检查主体段是否含糊，而不是无目的地堆形容词。

可视化：一条提示词长什么样

主体young ceramic artist · linen apron · holding a clay bowl

场景walnut workbench · ceramic studio · soft afternoon

风格photorealistic portrait · documentary style

光影soft window light · low contrast · warm undertone

构图medium shot · shallow depth of field · rule of thirds

材质natural skin texture · linen fabric · matte clay surface

画质sharp focus · clean background · color graded

参数--ar 3:4 --v 6 --s 200 · seed 12345

把同一条提示词按段落上下排开，你立刻能看出哪些段是空的、哪些段塞得过满。一个常见的诊断方法：盯着这张图，找出最薄的两段，优先加细节，而不是给已经很厚的段继续堆词。

错误示范 vs 正确示范

✗ 错误示范

beautiful girl, masterpiece, best quality, 8k, ultra detailed, cinematic, stunning, amazing, awesome, perfect

没有主体身份、没有场景、没有光线、没有构图。十个词里九个是无效形容词，模型只能按照训练集里的"美女"先验出图，每次结果差异极大。

✓ 正确示范

a young ceramic artist in a linen apron, standing beside a walnut workbench in a sunlit studio, soft window light from the left, shallow depth of field, medium shot, natural skin texture, photorealistic portrait, sharp focus

主体（陶艺师）、场景（工作室）、光线（柔和窗光）、构图（中景+浅景深）、材质（真实皮肤）、风格（写实人像）都齐了。画面方向被这几段共同锁住，下次只想换主角职业，只动主体段就够。

5 条真实样本（人像/产品/插画/建筑/视频）

样本 1 · 人像摄影Midjourney v6

portrait of a 35-year-old female architect in a dark wool coat, walking through an empty plaza in Lisbon at golden hour, warm side light from the west, medium-long shot, photorealistic, 50mm lens, shallow depth of field, muted earth tones --ar 3:4 --v 6 --s 200

主体段说明了职业、年龄、服装；场景段给了具体地点和时间；光影段同时含方向和色温；构图段写了镜头焦段。最容易翻车的"漂亮女人"被替换成了具体身份。

样本 2 · 产品海报SDXL

transparent perfume bottle with amber liquid and brushed gold cap, centered on a cream linen surface with soft shadow, minimal commercial photography, top-left soft box light, low contrast, centered composition with bottom third negative space, glass refraction and liquid swirl, ultra sharp edges, color graded --ar 4:5

把抽象的"高级感"翻译成具体可执行的元素：留白、低对比、柔和棚拍光、克制色彩、玻璃折射。删掉这些细节，画面就会回到"普通产品图"。

样本 3 · 国风插画Niji v6

a young woman in song dynasty hanfu, standing under an old plum tree in light snow, narrow palette of indigo, ivory and faded crimson, ink wash illustration with light watercolor texture, three-quarter view, soft diffused light, traditional Chinese composition with empty top half --ar 2:3 --niji 6

国风容易翻车的点是"色彩失控"和"风格混杂"。这里用"窄色板（indigo/ivory/faded crimson）"明确限定，并指定"水墨+淡水彩"的笔触，避免模型自由发挥成日式厚涂。

样本 4 · 建筑摄影Flux Dev

brutalist concrete cultural center, sharp geometric facade with deep shadow recesses, overcast afternoon light, wide-angle architectural photo, low ground-level perspective, two-point linear composition, raw concrete texture with visible formwork, museum scale, no people --ar 16:9

建筑题材最关键是"光天气+视角+镜头"。阴天/逆光/侧光会彻底改变体块阅读，本条用 overcast 把阴影压扁，强化几何感。"no people"防止模型默认塞游客进来。

样本 5 · 视频分镜Runway / Seedance / Kling

a 5-second cinematic shot, close-up of a single raindrop falling onto a glass window at night, neon city lights blurred in background, slow motion 120fps look, camera holds static, gentle vertical impact ripple, shallow depth of field, cinematic color grading, no camera shake

视频比图像多三件事要写：时长（5 秒）、运镜（camera holds static）、动作（gentle vertical impact）。最常见的翻车是不写运镜，结果模型默认"缓慢推镜"破坏静帧氛围。

写结构化提示词最容易踩的 5 个坑

坑 1：用形容词代替具体元素

"高级、梦幻、震撼"这类词模型只能猜。把它们翻译成可见元素："高级"→留白、低饱和、稳定排版；"梦幻"→柔光、薄雾、浅景深、粉蓝色调；"震撼"→低机位、广角、强对比光、巨大主体比例。

坑 2：风格段和光影段互相打架

"写实摄影 + 油画质感"、"赛博朋克 + 自然窗光"是典型矛盾搭配。一条提示词里只允许一个主风格基调，其他词必须服从它。

坑 3：画质词堆成清单

"masterpiece, best quality, ultra detailed, 8k, hdr, raw, professional"叠十层，画质并不会再涨，反而稀释主体段权重。Midjourney v6/Flux 几乎不需要写画质词，SDXL 写 2-3 个就够。

坑 4：主体描述太抽象

"a woman"、"a man"、"a product"全都是无效主体。模型会按照训练集均值出图。最低限度要给类别+身份+1 个识别特征，比如"a 28-year-old female violinist with short black hair"。

坑 5：参数堆在中间

--ar、--s、seed、--v 这些参数务必放在提示词末尾，并和画面描述用空格隔开。混进句子中间会被部分模型当成噪声词处理，导致画面方向偏移。

不同平台的参数段写法对照

平台	画幅	风格化/创意度	种子	负面词	版本
Midjourney v6	--ar 16:9	--s 0~1000（默认 100）	--seed 12345	--no people	--v 6 / --niji 6
SDXL / 1.5	1024×1024 等尺寸	cfg 5~9	seed 12345	negative prompt 独立段	checkpoint 名
Flux Dev/Schnell	WebUI 内设置	guidance 2.5~5	seed	不强依赖负面词	dev / schnell
Niji 6	--ar 2:3 / 3:4	--s 100~400	--seed	--no realistic	--niji 6
视频模型	16:9 / 9:16 / 1:1	guidance / motion strength	seed 部分支持	常被忽略	看模型版本

小结：结构化写法的核心不是模板，而是把画面拆成功能段，每段对应一个可单独控制的画面属性。先把八段写出来，再决定哪些段保留、哪些段删掉，最后用平台对应的参数语法收尾。

常见问题

提示词越长越好吗？

不一定。Midjourney v6、Flux 这类新模型对长提示词的响应反而打折，关键词权重会被稀释。建议把每段保持在 1-3 个短语，整条 50-100 词为上限。

中文提示词和英文提示词哪个更稳？

目前主流图像模型（Midjourney、SDXL、Flux）在英文提示词上表现更稳。中文可以用作整理思路的底稿，再翻译成英文。本站编辑器和模板库都支持中英并存。

主体段应该写到什么细度？

至少包含类别、身份、1 个识别特征。人像写年龄段+职业+服装；产品写品类+材质+颜色+卖点；建筑写类型+风格+尺度。再多就属于细节描写，可移到材质段。

参数到底要放最前面还是最后？

末尾。所有平台都默认参数和描述分开，放中间会破坏注意力分配。Midjourney 用 -- 双连字符，Stable Diffusion 在 UI 外单独设置，视频模型多数走表单字段。

一定要按这个八段顺序写吗？

顺序对画面结果影响有限，但对你自己排查问题非常关键。建议固定一个顺序写，出问题时你能立刻定位是哪一段没写到位。

AI 提示词基本结构怎么写

为什么先理解结构，而不是急着堆关键词

推荐的八段式提示词公式

可视化：一条提示词长什么样

错误示范 vs 正确示范

✗ 错误示范

✓ 正确示范

5 条真实样本（人像/产品/插画/建筑/视频）

写结构化提示词最容易踩的 5 个坑

不同平台的参数段写法对照

常见问题

提示词越长越好吗？

中文提示词和英文提示词哪个更稳？

主体段应该写到什么细度？

参数到底要放最前面还是最后？

一定要按这个八段顺序写吗？