Stable Diffusion 四类模型概念及分类特点

Stable Diffusion四类模型（CheckPoint大模型、LoRA小模型、Embedding嵌入向量、Hypernetwork超网络）的核心概念及分类特点。

模型类型概览

四类模型总述

SD中模型分为四类：CheckPoint（大模型）、LoRA（小模型）、Embedding（嵌入向量）、Hypernetwork（超网络）；主要常用前两类。
注：CheckPoint相比LoRA为大模型；但相比专利模型或大语言模型（LLM），其规模仍较小。

形象比喻

CheckPoint ≈ 一本字典/词典；
LoRA ≈ 字典中某一页夹入的书签，仅影响特定风格与细节；
Embedding ≈ 字典中插入的一张词汇卡片，代表一个风格包（如某类人物、内容或整体风格）；
Hypernetwork ≈ 字典的编辑团队，负责全局调整。

CheckPoint（大模型/底模型）详解

命名由来与技术本质。“Checkpoint”源于训练中断续传机制：可在训练中断后从断点恢复，无需重头开始；支持同一训练中生成多个版本供择优。

主流分类与代表模型

写实类：MJ Realistic、Dream Shaper、Realistic Vision（接近摄影级效果，难辨AI/实拍）；
二次元类：Rev, Anything V4.5（偏日系）、Meina Mix（偏美系）；提示词含 *digital painting*, *anime*, *masterpiece*；
2.5D/3D类：MJ Fantasy（具赛博朋克感）、Ghost Mix（可出机甲风）；
国风类：由国内炼丹师训练为主，关键词含 *hanfu*, *Chinese ink painting*, *traditional Chinese style*。
注：每下载一个模型，须亲自验证其正向/反向提示词、注意事项、迭代步数等；

LoRA（低秩适应）详解

定位与功能。全称Low-Rank Adaptation，是轻量级微调模型，用于在不改动大模型前提下注入新风格或细节。

典型应用示例

Jimi（吉卜力工作室风格）、MoXin-V1（墨心国风小姐姐）、Guochao（国潮元素）；
多见于Civitai（C站）与Hugging Face（HF）平台。
使用语法与权重控制提示词中写为 `<lora:jimi:0.8>` 或 `<lora:moxin_v1:1.0>`；权重建议设为 `0.6–0.8`，多LoRA并用时避免全设为1以防风格冲突。
注：可以同时使用多个LoRA，混合不同风格和概念（例如：一个“科幻机甲”LoRA + 一个“皮克斯风格”LoRA）。

Embedding（嵌入向量/文本反转嵌入）详解

这是一种将特定的视觉概念“压缩”成几个特殊关键词（Token）的模型文件（通常为几十KB）。在生成时，你只需要在提示词中使用这些特殊关键词，就能触发对应的概念。它像是一个“视觉密码字典”，告诉模型：“当我提到 [我的狗] 这个词时，指的是我上传的那张狗的照片的样子。”本质与体积是小型文本嵌入文件（`.pt` 或 `.bin`），通常仅数十KB至数百KB，作用为将关键词映射为语义向量。

三类核心用途

负面提示整合包：如 `bad-hands-3`，一键规避手部畸形；
风格增强：如 `detail`，在正向提示中加入 `detail` 即可提升画面精细度；
角色/特征绑定：如《守望先锋》角色“Junkrat”，通过嵌入实现五官、发型、服饰等特征复现。

Hypernetwork（超网络）

这是一个附加的小型神经网络（通常为几十到几百MB），在生成过程中被插入到Stable Diffusion模型（通常是UNet）的特定层中，动态微调该层的输出。它从更底层的网络行为上影响生成结果。
获取方法。位于C站/HF平台，筛选“Hypernetwork”类别下载。
当前因LoRA普及，Hypernetwork已极少使用；功能与LoRA高度重叠，但结构更复杂、训练成本更高。