Stable Diffusion四类模型(CheckPoint大模型、LoRA小模型、Embedding嵌入向量、Hypernetwork超网络)的核心概念及分类特点。
模型类型概览
四类模型总述
- SD中模型分为四类:CheckPoint(大模型)、LoRA(小模型)、Embedding(嵌入向量)、Hypernetwork(超网络);主要常用前两类。
- 注:CheckPoint相比LoRA为大模型;但相比专利模型或大语言模型(LLM),其规模仍较小。
形象比喻
- CheckPoint ≈ 一本字典/词典;
- LoRA ≈ 字典中某一页夹入的书签,仅影响特定风格与细节;
- Embedding ≈ 字典中插入的一张词汇卡片,代表一个风格包(如某类人物、内容或整体风格);
- Hypernetwork ≈ 字典的编辑团队,负责全局调整。
CheckPoint(大模型/底模型)详解
命名由来与技术本质。“Checkpoint”源于训练中断续传机制:可在训练中断后从断点恢复,无需重头开始;支持同一训练中生成多个版本供择优。
主流分类与代表模型
- 写实类:MJ Realistic、Dream Shaper、Realistic Vision(接近摄影级效果,难辨AI/实拍);
- 二次元类:Rev, Anything V4.5(偏日系)、Meina Mix(偏美系);提示词含 *digital painting*, *anime*, *masterpiece*;
- 2.5D/3D类:MJ Fantasy(具赛博朋克感)、Ghost Mix(可出机甲风);
- 国风类:由国内炼丹师训练为主,关键词含 *hanfu*, *Chinese ink painting*, *traditional Chinese style*。
- 注:每下载一个模型,须亲自验证其正向/反向提示词、注意事项、迭代步数等;
LoRA(低秩适应)详解
定位与功能。全称Low-Rank Adaptation,是轻量级微调模型,用于在不改动大模型前提下注入新风格或细节。
典型应用示例
- Jimi(吉卜力工作室风格)、MoXin-V1(墨心国风小姐姐)、Guochao(国潮元素);
- 多见于Civitai(C站)与Hugging Face(HF)平台。
- 使用语法与权重控制 提示词中写为 `<lora:jimi:0.8>` 或 `<lora:moxin_v1:1.0>`; 权重建议设为 `0.6–0.8`,多LoRA并用时避免全设为1以防风格冲突。
- 注:可以同时使用多个LoRA,混合不同风格和概念(例如:一个“科幻机甲”LoRA + 一个“皮克斯风格”LoRA)。
Embedding(嵌入向量/文本反转嵌入)详解
这是一种将特定的视觉概念“压缩”成几个特殊关键词(Token) 的模型文件(通常为几十KB)。在生成时,你只需要在提示词中使用这些特殊关键词,就能触发对应的概念。它像是一个“视觉密码字典”,告诉模型:“当我提到 [我的狗] 这个词时,指的是我上传的那张狗的照片的样子。”本质与体积是小型文本嵌入文件(`.pt` 或 `.bin`),通常仅数十KB至数百KB,作用为将关键词映射为语义向量。
三类核心用途
- 负面提示整合包:如 `bad-hands-3`,一键规避手部畸形;
- 风格增强:如 `detail`,在正向提示中加入 `detail` 即可提升画面精细度;
- 角色/特征绑定:如《守望先锋》角色“Junkrat”,通过嵌入实现五官、发型、服饰等特征复现。
Hypernetwork(超网络)
- 这是一个附加的小型神经网络(通常为几十到几百MB),在生成过程中被插入到Stable Diffusion模型(通常是UNet)的特定层中,动态微调该层的输出。它从更底层的网络行为上影响生成结果。
- 获取方法。位于C站/HF平台,筛选“Hypernetwork”类别下载。
- 当前因LoRA普及,Hypernetwork已极少使用;功能与LoRA高度重叠,但结构更复杂、训练成本更高。