Stable Diffusion 四类模型概念及分类特点

Stable Diffusion四类模型(CheckPoint大模型、LoRA小模型、Embedding嵌入向量、Hypernetwork超网络)的核心概念及分类特点。

模型类型概览

四类模型总述

  • SD中模型分为四类:CheckPoint(大模型)、LoRA(小模型)、Embedding(嵌入向量)、Hypernetwork(超网络);主要常用前两类。
  • 注:CheckPoint相比LoRA为大模型;但相比专利模型或大语言模型(LLM),其规模仍较小。

形象比喻

  • CheckPoint ≈ 一本字典/词典;
  • LoRA ≈ 字典中某一页夹入的书签,仅影响特定风格与细节;
  • Embedding ≈ 字典中插入的一张词汇卡片,代表一个风格包(如某类人物、内容或整体风格);
  • Hypernetwork ≈ 字典的编辑团队,负责全局调整。

CheckPoint(大模型/底模型)详解

命名由来与技术本质。“Checkpoint”源于训练中断续传机制:可在训练中断后从断点恢复,无需重头开始;支持同一训练中生成多个版本供择优。

主流分类与代表模型

  • 写实类:MJ Realistic、Dream Shaper、Realistic Vision(接近摄影级效果,难辨AI/实拍);
  • 二次元类:Rev, Anything V4.5(偏日系)、Meina Mix(偏美系);提示词含 *digital painting*, *anime*, *masterpiece*;
  • 2.5D/3D类:MJ Fantasy(具赛博朋克感)、Ghost Mix(可出机甲风);
  • 国风类:由国内炼丹师训练为主,关键词含 *hanfu*, *Chinese ink painting*, *traditional Chinese style*。
  • 注:每下载一个模型,须亲自验证其正向/反向提示词、注意事项、迭代步数等;

LoRA(低秩适应)详解

定位与功能。全称Low-Rank Adaptation,是轻量级微调模型,用于在不改动大模型前提下注入新风格或细节。

典型应用示例

  • Jimi(吉卜力工作室风格)、MoXin-V1(墨心国风小姐姐)、Guochao(国潮元素);
  • 多见于Civitai(C站)与Hugging Face(HF)平台。
  • 使用语法与权重控制    提示词中写为 `<lora:jimi:0.8>` 或 `<lora:moxin_v1:1.0>`;   权重建议设为 `0.6–0.8`,多LoRA并用时避免全设为1以防风格冲突。
  • 注:可以同时使用多个LoRA,混合不同风格和概念(例如:一个“科幻机甲”LoRA + 一个“皮克斯风格”LoRA)。

Embedding(嵌入向量/文本反转嵌入)详解

这是一种将特定的视觉概念“压缩”成几个特殊关键词(Token) 的模型文件(通常为几十KB)。在生成时,你只需要在提示词中使用这些特殊关键词,就能触发对应的概念。它像是一个“视觉密码字典”,告诉模型:“当我提到 [我的狗] 这个词时,指的是我上传的那张狗的照片的样子。”本质与体积是小型文本嵌入文件(`.pt` 或 `.bin`),通常仅数十KB至数百KB,作用为将关键词映射为语义向量。

三类核心用途

  • 负面提示整合包:如 `bad-hands-3`,一键规避手部畸形;
  • 风格增强:如 `detail`,在正向提示中加入 `detail` 即可提升画面精细度;
  • 角色/特征绑定:如《守望先锋》角色“Junkrat”,通过嵌入实现五官、发型、服饰等特征复现。

Hypernetwork(超网络)

  • 这是一个附加的小型神经网络(通常为几十到几百MB),在生成过程中被插入到Stable Diffusion模型(通常是UNet)的特定层中,动态微调该层的输出。它从更底层的网络行为上影响生成结果。
  • 获取方法。位于C站/HF平台,筛选“Hypernetwork”类别下载。
  • 当前因LoRA普及,Hypernetwork已极少使用;功能与LoRA高度重叠,但结构更复杂、训练成本更高。
订阅评论
提醒

0 评论
最新
最旧 最多投票
内联反馈
查看所有评论