stable-diffusion – Max的程式語言筆記

如何用 SD Inpainting 來補全 Zen Maru Gothic 缺字？

max-stackoverflow — Mon, 03 Mar 2025 12:41:54 +0000

Stable Diffusion Inpainting 是一種基於 擴散模型 (Diffusion Model) 的圖像補全技術，它可以：

補全缺失的部分（例如：缺字、擦除的區域）。
修改特定區域的內容（例如：改變字型風格）。
保持原圖風格，不影響其他部分。

簡單來說，就是讓 AI 填補「被遮擋」或「缺失」的部分，並且根據提示（prompt）來決定補全的風格。

你的目標是透過 Noto Sans 的字型輪廓，補全 Zen Maru Gothic 缺字，這可以透過 SD Inpainting 來實現。

步驟 1⃣：準備輸入圖片

我們需要準備 兩張圖片：

帶有 Noto Sans 輪廓的圖片（作為補全的基礎）。
遮擋缺失部分的 Mask（告訴模型應該在哪裡補全）。

你可以用 Canny 邊緣檢測 來提取 Noto Sans 的輪廓：

pythonCopyEditfrom controlnet_aux import CannyDetector
from PIL import Image

# 讀取 Noto Sans 字型圖像
input_image = Image.open("noto_sans_character.png")

# 使用 Canny 邊緣檢測
canny_detector = CannyDetector()
edge_image = canny_detector(input_image)

# 存成一張新圖片
edge_image.save("noto_sans_canny.png")

步驟 2⃣：載入 Stable Diffusion Inpainting 模型

Stable Diffusion 有專門的 Inpainting 版本，我們需要使用它：

pythonCopyEditfrom diffusers import StableDiffusionInpaintPipeline
import torch

# 載入 Stable Diffusion Inpainting 模型
pipe = StableDiffusionInpaintPipeline.from_pretrained(
    "runwayml/stable-diffusion-inpainting",
    torch_dtype=torch.float16
).to("cuda")

步驟 3⃣：設定 Inpainting 輸入

我們需要：

原始圖片 (image)：包含 Noto Sans 輪廓。
遮罩 (mask_image)：標記「需要補全」的區域。
提示 (prompt)：告訴模型 補全 Zen Maru Gothic 風格。

pythonCopyEditfrom PIL import Image
import torch

# 讀取圖片 (Noto Sans 輪廓)
image = Image.open("noto_sans_canny.png").convert("RGB")

# 讀取 Mask (遮罩，標記要補全的部分)
mask = Image.open("missing_part_mask.png").convert("RGB")

# 設定 Prompt
prompt = "Zen Maru Gothic style font, clean, well-defined strokes"

# 進行補全
output = pipe(prompt=prompt, image=image, mask_image=mask).images[0]

# 顯示結果
output.show()

為什麼 SD Inpainting 適合補全 Zen Maru Gothic 缺字？

可以保留 Noto Sans 的結構，但補全成 Zen Maru Gothic 風格。
不需要額外訓練，可以直接使用現成模型！
能根據 prompt 自訂風格，比如 "Zen Maru Gothic, smooth, rounded edges"。

如果效果不夠好，你可以：

微調 Mask 大小（確保只有缺失部分被補全）。
增加 ControlNet（用 Canny 邊緣輔助生成）。
嘗試不同的 prompt（例如 “handwriting style”, “thick strokes”）。

下一步：結合 ControlNet 改進補全

如果 Inpainting 的結果還不夠準確，可以 結合 ControlNet，讓模型更精確地學習 從 Noto Sans → Zen Maru Gothic 的風格轉換：

pythonCopyEditfrom diffusers import StableDiffusionControlNetPipeline, ControlNetModel

# 載入 ControlNet 模型
controlnet = ControlNetModel.from_pretrained("lllyasviel/control_v11p_sd15_canny", torch_dtype=torch.float16).to("cuda")

# 結合 Inpainting
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-inpainting",
    controlnet=controlnet,
    torch_dtype=torch.float16
).to("cuda")

然後把 image、mask_image、control_image（Canny 邊緣）一起輸入，這樣補全效果會更精確。

總結

Stable Diffusion Inpainting 可以 自動補全缺失的 Zen Maru Gothic 字型。
使用 Noto Sans 的輪廓作為基礎，讓 AI 學習風格轉換。
可以結合 ControlNet 來提高補全精準度。

這樣，你就可以 大規模補全 Zen Maru Gothic 的缺字，而且不需要手動設計新字型！

Colab 上訓練 Stable Diffusion 1.5 + ControlNet 1.5降低記憶體策略

max-stackoverflow — Sun, 02 Mar 2025 13:42:53 +0000

在 Google Colab 上訓練 Stable Diffusion 1.5 + ControlNet 1.5，並且考慮降低記憶體使用量，可以採用以下策略：

1. 低記憶體訓練方式

(1) LoRA 訓練（推薦）

優點：
- 記憶體佔用較低（相比全模型微調）。
- 訓練較快，適合 Colab。
- 只訓練額外的 LoRA 層，而不是整個模型。
適用場景：
- 你只想要訓練 SD 1.5 + ControlNet 來學習 Zen Maru Gothic 和 Noto Sans 風格，而不需要完整的模型微調。

LoRA 訓練適合你目前的需求！因為你主要是想學習特定字體風格，不需要大幅修改整個模型。

(2) 全模型微調（DreamBooth/Fine-tuning）

缺點：
- 記憶體需求高（特別是 16-bit 精度或全精度）。
- 需要更大的算力，Colab 免費版可能會爆掉。
適用場景：
- 你要對整個 SD 1.5 模型進行風格微調，改變整體畫風。

這種方法不適合 Colab 免費版，可能會因記憶體不足導致崩潰！

2. 低記憶體設定與優化

(1) 使用 8-bit AdamW 優化器

透過 bitsandbytes 庫，將 AdamW 變成 8-bit 版本： from transformers import AdamW import bitsandbytes as bnb optimizer = bnb.optim.AdamW8bit(model.parameters(), lr=1e-4)
好處：
- 減少 GPU 記憶體佔用（適合 Colab）。

(2) Mixed Precision 訓練

透過 fp16 或 bf16 來降低記憶體佔用： training_args = TrainingArguments( fp16=True, # 使用 FP16 訓練 per_device_train_batch_size=1, # 減少 batch size )
如果使用 Colab T4（Ampere 架構）：
- 用 bf16=True（比 fp16 更穩定）。

(3) 使用 xFormers 加速

啟用記憶體高效 Attention（減少顯存使用量）： model.enable_xformers_memory_efficient_attention()
適用場景：
- 任何 SD 訓練都建議使用，Colab 也能穩定運行。

結論：

如果你要在 Colab 訓練 SD 1.5 + ControlNet，建議使用： LoRA 訓練 8-bit AdamW 優化器 fp16/bf16 混合精度 啟用 xFormers

這樣可以大幅降低記憶體消耗，提高 Colab 的穩定性。

問題分析

錯誤訊息：

NotImplementedError: No operator found for `memory_efficient_attention_forward` with inputs:
    ...
    bf16 is only supported on A100+ GPUs

這表示 xFormers 的 memory-efficient attention 需要更高級的 GPU (如 A100)，但你的 GPU 可能是 T4、V100、P100 之類的舊款 GPU，無法支援 bf16。

解決方案

你有兩種方法可以解決這個問題：

方法 1：關閉 `xFormers` 記憶體優化

你可以 停用 xFormers 記憶體優化，這樣就不會使用 memory_efficient_attention_forward：

pipe.unet.set_attn_processor(None)  # 禁用 xFormers

或者，在建立 pipeline 後，關閉記憶體優化：

pipe.enable_xformers_memory_efficient_attention(False)

方法 2：改用 `fp16` 取代 `bf16`

如果你的 GPU 不支援 bf16，可以改用 fp16，因為大多數舊款 NVIDIA GPU 支援 fp16：

pipe = StableDiffusionPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5",
    torch_dtype=torch.float16,  # 改成 fp16
)
pipe.to("cuda")  # 確保移動到 GPU

如果你使用 LoRA + ControlNet，記得也改成：

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5",
    controlnet=controlnet,
    torch_dtype=torch.float16,  # 改成 fp16
)
pipe.to("cuda")

結論

如果你用的是舊款 GPU (如 T4, V100, P100)：
- 關閉 xFormers → pipe.enable_xformers_memory_efficient_attention(False)
- 或者，改用 fp16 → torch_dtype=torch.float16
如果你有 A100 以上的 GPU (H100, RTX 40xx)：
- 確保 PyTorch 版本 >= 2.0，並安裝最新的 xFormers: pip install -U xformers

試試這些解決方案，應該能解決 NotImplementedError: bf16 is only supported on A100+ GPUs 問題！

Stable Diffusion 1.5 + ControlNet 學習 nato sans 與 zen maru gothic

max-stackoverflow — Sat, 01 Mar 2025 13:32:05 +0000

完整的步驟來在 Google Colab 上訓練 Stable Diffusion 1.5 + ControlNet (control_v11p_sd15_canny)，以學習 Nato Sans 和 Zen Maru Gothic 字型風格。

環境準備

1⃣ 掛載 Google Drive

在 Colab 中執行以下程式碼，確保能夠存取你的資料集和輸出目錄：

from google.colab import drive
drive.mount('/content/drive')

確認 zenmaru_dataset 目錄已經存在：

!ls "/content/drive/MyDrive/AI/datasets/zenmaru_dataset"

安裝相依套件

2⃣ 安裝 `diffusers`、`transformers`、`accelerate`、`controlnet`

!pip install diffusers transformers accelerate safetensors torchvision
!pip install opencv-python

下載 Stable Diffusion 1.5 與 ControlNet

3⃣ 下載 `stable-diffusion-v1-5` 模型

import torch
from diffusers import StableDiffusionPipeline

MODEL_PATH = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(MODEL_PATH, torch_dtype=torch.float16).to("cuda")

4⃣ 下載 ControlNet (`control_v11p_sd15_canny`)

from diffusers import ControlNetModel

CONTROLNET_PATH = "lllyasviel/control_v11p_sd15_canny"
controlnet = ControlNetModel.from_pretrained(CONTROLNET_PATH, torch_dtype=torch.float16).to("cuda")

資料預處理

5⃣ 載入並處理 Zenmaru Dataset

import os
import torch
import cv2
import numpy as np
from PIL import Image
from torchvision import transforms

DATASET_DIR = "/content/drive/MyDrive/AI/datasets/zenmaru_dataset"
OUTPUT_DIR = "/content/drive/MyDrive/AI/output/zenmaru_lora"

# 讀取圖片並轉換成 Canny 邊緣圖
def preprocess_images(data_path, resolution=512):
    image_files = [os.path.join(data_path, f) for f in os.listdir(data_path) if f.endswith(('.png', '.jpg'))]
    
    images, edge_maps = [], []
    transform = transforms.Compose([
        transforms.Resize((resolution, resolution)),
        transforms.ToTensor(),
        transforms.Normalize([0.5], [0.5])
    ])
    
    for img_path in image_files:
        img = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE)
        img_rgb = cv2.imread(img_path)
        img_rgb = cv2.cvtColor(img_rgb, cv2.COLOR_BGR2RGB)

        # 生成 Canny 邊緣圖
        edges = cv2.Canny(img, 100, 200)
        edges = cv2.cvtColor(edges, cv2.COLOR_GRAY2RGB)

        images.append(transform(Image.fromarray(img_rgb)))
        edge_maps.append(transform(Image.fromarray(edges)))

    return torch.stack(images), torch.stack(edge_maps)

train_images, train_edges = preprocess_images(DATASET_DIR)
print(f"✅ 加載 {train_images.shape[0]} 張訓練圖片")

訓練 LoRA

6⃣ 構建 LoRA 設定

from peft import LoraConfig, get_peft_model

LORA_RANK = 8  # LoRA 低秩維度
lora_config = LoraConfig(
    r=LORA_RANK, lora_alpha=16, target_modules=["to_q", "to_k", "to_v"], lora_dropout=0.1, bias="none"
)

pipe.unet = get_peft_model(pipe.unet, lora_config)
pipe.unet.print_trainable_parameters()

7⃣ 訓練迴圈

from torch import nn
from torch.optim import AdamW
from tqdm import tqdm

BATCH_SIZE = 2
EPOCHS = 1
LEARNING_RATE = 1e-4

device = "cuda"
optimizer = AdamW(pipe.unet.parameters(), lr=LEARNING_RATE)
dtype = torch.float16

print("🚀 開始訓練 LoRA...")
for epoch in range(EPOCHS):
    loop = tqdm(range(0, len(train_images), BATCH_SIZE), desc=f"Epoch {epoch+1}/{EPOCHS}")
    for i in loop:
        batch = train_images[i:i + BATCH_SIZE].to(device).to(dtype)
        edges = train_edges[i:i + BATCH_SIZE].to(device).to(dtype)

        # 生成文本嵌入
        text_inputs = pipe.tokenizer(
            ["Zen Maru Gothic Style"] * BATCH_SIZE, 
            padding="max_length", 
            max_length=77, 
            return_tensors="pt"
        ).to(device)
        text_embeddings = pipe.text_encoder(text_inputs.input_ids)[0].to(dtype)

        # 產生隨機噪聲
        noise = torch.randn_like(batch).to(dtype)
        
        # ControlNet 輸入
        controlnet_output = controlnet(edges, timesteps=None, encoder_hidden_states=text_embeddings)

        # U-Net 預測
        output = pipe.unet(batch, timesteps=None, encoder_hidden_states=text_embeddings, controlnet=controlnet_output).sample

        # 計算 loss
        loss = nn.functional.mse_loss(output, noise)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        loop.set_postfix(loss=loss.item())

8⃣ 儲存 LoRA 權重

output_path = os.path.join(OUTPUT_DIR, "zenmaru_lora.pth")
torch.save(pipe.unet.state_dict(), output_path)
print(f"✅ 訓練完成，模型已儲存至 {output_path}")

推論生成缺字

9⃣ 載入訓練好的 LoRA

pipe.unet.load_state_dict(torch.load(output_path))
pipe.to(device)

使用 Nato Sans 生成 Zenmaru 缺字

def generate_missing_character(nato_image_path):
    # 讀取 Nato Sans 字體圖片
    nato_image = Image.open(nato_image_path).convert("RGB")
    nato_tensor = transforms.ToTensor()(nato_image).unsqueeze(0).to(device).to(dtype)

    # 轉換成 Canny 邊緣
    nato_gray = cv2.cvtColor(np.array(nato_image), cv2.COLOR_RGB2GRAY)
    nato_edges = cv2.Canny(nato_gray, 100, 200)
    nato_edges = Image.fromarray(nato_edges)
    nato_edges_tensor = transforms.ToTensor()(nato_edges).unsqueeze(0).to(device).to(dtype)

    # 生成 Zenmaru 缺字
    with torch.no_grad():
        result = pipe(
            prompt="Zen Maru Gothic Style",
            image=nato_edges_tensor,
            guidance_scale=7.5
        ).images[0]

    return result

generated_image = generate_missing_character("/content/drive/MyDrive/AI/datasets/nato_sans_missing.png")
generated_image.save("/content/drive/MyDrive/AI/output/zenmaru_missing_character.png")

總結

使用 Stable Diffusion 1.5 搭配 ControlNet (control_v11p_sd15_canny) 來學習 Nato Sans 和 Zen Maru Gothic。
訓練 LoRA 來微調模型，使其能夠生成 Zen Maru 缺失的字元。
利用 Canny 邊緣檢測 提取 Nato Sans 字型輪廓，並推理缺字。

這樣你就可以用 Nato Sans 來補充 Zen Maru Style 缺失的字元了！

重新挑戰, 提示詞:

Colab 上訓練 Stable Diffusion 1.5 + ControlNet (control_v11p_sd15_canny)，以學習 Nato Sans 和 Zen Maru Gothic 字型風格, 利用 Canny 邊緣檢測 提取 Nato Sans 字型輪廓，並推理Zen Maru Gothic 字型缺字。
* LoRA 訓練 
* 用 bitsandbytes 提供的 AdamW8bit 優化器來降低顯存消耗
* float 16 混合精度 
* 將載入圖片 轉換為 4 通道的圖像
* Canny 邊緣檢測器 使用 controlnet_aux
* 訓練圖片路徑 DATASET_DIR = "/root/AI/datasets/zenmaru_dataset/instance_images"
* 訓練圖片路徑之下有 .txt 檔, 一併讀取 captions
請提供訓練用完整script

這裡是完整的訓練腳本，適用於 Google Colab，訓練 Stable Diffusion 1.5 + ControlNet (control_v11p_sd15_canny)，學習 Noto Sans 字型輪廓 + Zen Maru Gothic 字型補全。

主要特性

LoRA 訓練（減少顯存需求）
8-bit AdamW 優化器（bitsandbytes）
float16 混合精度（適用於T4）
Canny 邊緣檢測（使用 controlnet_aux）
圖像轉換為 4 通道格式（RGB + Canny 邊緣圖）
讀取 .txt 標註作為 captions
Dataset 路徑：/root/AI/datasets/zenmaru_dataset/instance_images

安裝必要的套件

!pip install diffusers controlnet_aux bitsandbytes transformers mediapipe accelerate datasets

訓練腳本1

import os
import torch
import bitsandbytes as bnb
import cv2
import numpy as np
from PIL import Image
from diffusers import StableDiffusionPipeline, ControlNetModel, UNet2DConditionModel
from transformers import CLIPTokenizer
from controlnet_aux import CannyDetector
from datasets import load_dataset

# 設定參數
dataset_dir = "/root/AI/datasets/zenmaru_dataset/instance_images"
output_dir = "./lora_output"
device = "cuda" if torch.cuda.is_available() else "cpu"

# 載入 Stable Diffusion 1.5 + ControlNet
base_model = "runwayml/stable-diffusion-v1-5"
controlnet_model = "lllyasviel/control_v11p_sd15_canny"

pipe = StableDiffusionPipeline.from_pretrained(base_model, torch_dtype=torch.float16).to(device)
controlnet = ControlNetModel.from_pretrained(controlnet_model, torch_dtype=torch.float16).to(device)
unet = UNet2DConditionModel.from_pretrained(base_model, subfolder="unet", torch_dtype=torch.float16).to(device)

# 優化器
optimizer = bnb.optim.AdamW8bit(unet.parameters(), lr=1e-4)

# Canny 邊緣檢測器
canny = CannyDetector()

def process_image(image_path):
    image = Image.open(image_path).convert("RGBA")
    image = np.array(image)
    canny_image = canny(image)
    canny_image = Image.fromarray(canny_image).convert("RGBA")
    return canny_image

# 讀取 dataset
image_paths = [os.path.join(dataset_dir, f) for f in os.listdir(dataset_dir) if f.endswith(".png") or f.endswith(".jpg")]
captions = {}
for img_path in image_paths:
    txt_path = img_path.replace(".png", ".txt").replace(".jpg", ".txt")
    if os.path.exists(txt_path):
        with open(txt_path, "r", encoding="utf-8") as f:
            captions[img_path] = f.read().strip()

from transformers import CLIPTokenizerFast
from transformers import CLIPTextModel
from diffusers import AutoencoderKL
import torch.nn.functional as F

# 載入 VAE
vae = AutoencoderKL.from_pretrained(base_model, subfolder="vae").to(device, dtype=torch.float16)

# 訓練迴圈
epochs = 5
for epoch in range(epochs):
    for img_path in image_paths:
        caption = captions.get(img_path, "")
        input_image = process_image(img_path)
        
        input_tensor = pipe.feature_extractor(input_image, return_tensors="pt").pixel_values.to(device, dtype=torch.float16)
        input_tensor = vae.encode(input_tensor).latent_dist.sample()  # 取得潛在變數
        input_tensor = input_tensor * 0.18215  # Stable Diffusion 預設縮放係數

        tokenizer = CLIPTokenizerFast.from_pretrained("openai/clip-vit-large-patch14")
        caption_tensor = tokenizer(caption, return_tensors="pt").input_ids.to(device)

        optimizer.zero_grad()
        
        text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14").to(device, dtype=torch.float16)
        text_embeddings = text_encoder(caption_tensor).last_hidden_state

        # 取得隨機 timestep
        timesteps = torch.randint(0, 1000, (1,), dtype=torch.long, device=device)  # 取隨機 timestep

        # 生成 ground truth noise
        target_noise = torch.randn_like(input_tensor)

        # 在原圖上加上 noise
        noisy_input = input_tensor + target_noise
        
        output = unet(noisy_input, timesteps, encoder_hidden_states=text_embeddings)
        predicted_noise = output.sample

        # 計算 Loss (MSE Loss)
        loss = F.mse_loss(predicted_noise, target_noise)
        loss.backward()
        optimizer.step()
    
    print(f"Epoch {epoch+1}/{epochs}, Loss: {loss.item()}")

# 儲存訓練結果
unet.save_pretrained(output_dir)
controlnet.save_pretrained(output_dir)
print("Training complete. Model saved.")

滿神奇的, 居然可以產生出這麼多, 版本不一樣的script, 輸入 512×512 圖片進行訓練, 上面的script 需要 9.6 / 15.0 GB RAM:

訓練腳本2

import os
import torch
import cv2
import numpy as np
from PIL import Image
from torch.utils.data import Dataset, DataLoader
from transformers import CLIPTokenizer
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, DDPMScheduler
from diffusers.utils import load_image
import bitsandbytes as bnb

# 設定資料集路徑
DATASET_DIR = "/root/AI/datasets/zenmaru_dataset/instance_images"

# 讀取圖片並轉換為 4 通道格式 (RGB + Canny)
class FontDataset(Dataset):
    def __init__(self, dataset_dir):
        self.dataset_dir = dataset_dir
        self.image_paths = [os.path.join(dataset_dir, f) for f in os.listdir(dataset_dir) if f.endswith(('.png', '.jpg', '.jpeg'))]
        self.tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14")
        
    def __len__(self):
        return len(self.image_paths)

    def __getitem__(self, idx):
        image_path = self.image_paths[idx]

        # 讀取圖片
        image = Image.open(image_path).convert("RGB")
        image = np.array(image)

        # 轉換 Canny 邊緣圖
        canny = cv2.Canny(image, 100, 200)  # 生成 Canny 邊緣
        canny = np.expand_dims(canny, axis=-1)  # 擴展維度
        image_4ch = np.concatenate([image, canny], axis=-1)  # 合併為 4 通道格式
        
        # 讀取對應的 caption（如果存在）
        caption_path = image_path.replace(".png", ".txt").replace(".jpg", ".txt").replace(".jpeg", ".txt")
        if os.path.exists(caption_path):
            with open(caption_path, "r", encoding="utf-8") as f:
                caption = f.read().strip()
        else:
            caption = "Font style training image"
        
        # Tokenizer 處理 captions
        tokens = self.tokenizer(caption, padding="max_length", max_length=77, truncation=True, return_tensors="pt").input_ids
        
        # 轉換成 Tensor
        image_4ch = torch.tensor(image_4ch, dtype=torch.float32).permute(2, 0, 1) / 255.0
        return image_4ch, tokens.squeeze()

# 創建 Dataset & DataLoader
dataset = FontDataset(DATASET_DIR)
dataloader = DataLoader(dataset, batch_size=1, shuffle=True)

# 載入 Stable Diffusion 1.5 模型
base_model = "runwayml/stable-diffusion-v1-5"
controlnet = ControlNetModel.from_pretrained("lllyasviel/control_v11p_sd15_canny", torch_dtype=torch.bfloat16)
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    base_model,
    controlnet=controlnet,
    torch_dtype=torch.bfloat16
)

# 啟用 xFormers 記憶體優化
pipe.enable_xformers_memory_efficient_attention()

# 設定訓練參數
optimizer = bnb.optim.AdamW8bit(pipe.unet.parameters(), lr=1e-4)
scheduler = DDPMScheduler.from_pretrained(base_model)

# 訓練 LoRA
from diffusers.training_utils import EMAModel

ema_model = EMAModel(pipe.unet)

device = "cuda" if torch.cuda.is_available() else "cpu"
pipe.to(device)
ema_model.to(device)

# 訓練 Loop
epochs = 5  # 訓練 5 個 Epoch
for epoch in range(epochs):
    for batch, (images, captions) in enumerate(dataloader):
        images = images.to(device, dtype=torch.bfloat16)
        captions = captions.to(device)

        optimizer.zero_grad()

        noise = torch.randn_like(images)
        timesteps = torch.randint(0, scheduler.num_train_timesteps, (images.shape[0],), device=device).long()
        noisy_images = scheduler.add_noise(images, noise, timesteps)

        loss = pipe.unet(noisy_images, timesteps, captions).loss
        loss.backward()
        optimizer.step()

        print(f"Epoch {epoch+1}/{epochs}, Batch {batch+1}/{len(dataloader)}, Loss: {loss.item()}")

    ema_model.step(pipe.unet)

# 儲存 LoRA 權重
pipe.save_pretrained("/root/AI/output/zenmaru_lora")

設定說明

訓練 LoRA（降低記憶體需求）。
bitsandbytes 8-bit AdamW（減少顯存占用）。
float16 訓練（適合 Colab 免費 T4 GPU）。
使用 controlnet_aux 進行 Canny 邊緣檢測。
讀取 .txt 標註作為 captions。
儲存 LoRA 權重到 /root/AI/output/zenmaru_lora。

結論

這個腳本適合 Google Colab，不會因為記憶體不足而崩潰
LoRA 訓練讓顯存需求變低，可以在 T4 上運行
8-bit AdamW，最大化效能與穩定性

這樣你就可以成功訓練 SD 1.5 + ControlNet 1.5，學習 Noto Sans 輪廓 + Zen Maru Gothic 字型補全！

在 colab 訓練 stable diffusion 的 lora 使用那一個預訓練的模型比較好?

max-stackoverflow — Sat, 01 Mar 2025 13:30:47 +0000

在 Colab 訓練 Stable Diffusion 的 LoRA 時，選擇適合的 預訓練模型（Checkpoint，權重）對結果影響很大。適合的模型取決於你的 應用場景，例如字體風格生成、人像、動漫、風景等。以下是幾個常見的選擇：

建議選擇

目標	建議模型	Hugging Face 連結
通用 LoRA 訓練	`stabilityai/stable-diffusion-2-1`	點此
輕量 LoRA 訓練 (Colab 友善)	`stabilityai/stable-diffusion-1.5`	點此
動漫風格 LoRA 訓練	`nitrosocke/Arcane-Diffusion`	點此
擬真字體/標誌 LoRA 訓練	`dreamlike-art/dreamlike-photoreal-2.0`	點此

如果你的目標是訓練字體風格的 LoRA，建議 從 stable-diffusion-2-1 或 stable-diffusion-1.5 開始，因為它們是最常見的基礎模型，並且已有許多 LoRA 微調方案。

如何在 Colab 設定

在 Colab 中，你可以這樣下載並加載模型：

from diffusers import StableDiffusionPipeline
import torch

MODEL_NAME = "stabilityai/stable-diffusion-2-1"  # 或 "stabilityai/stable-diffusion-1.5"

pipe = StableDiffusionPipeline.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16
).to("cuda")

print("✅ 模型加載完成！")

這樣你就可以開始訓練 LoRA 了

colab 上接續訓練的步驟

max-stackoverflow — Fri, 28 Feb 2025 08:00:07 +0000

如果要接續訓練（Resume Training），你需要確保以下幾點：

之前訓練的權重檔已儲存（通常會在 OUTPUT_DIR 內）。
載入最新的 checkpoint（上次訓練時的最後一步）。
繼續 Trainer 訓練，而不是從頭開始。

接續訓練的完整步驟

1⃣ 掛載 Google Drive 並確認已訓練的模型

from google.colab import drive
import os

drive.mount('/content/drive')

# 設定 Google Drive 內的數據集與輸出目錄
OUTPUT_DIR = "/content/drive/MyDrive/AI/output/zenmaru_finetune"

# 檢查上次訓練的 checkpoint 是否存在
checkpoint_path = os.path.join(OUTPUT_DIR, "checkpoint-last")

if os.path.exists(checkpoint_path):
    print(f"✅ 找到上次訓練的 checkpoint: {checkpoint_path}")
else:
    print("❌ 沒有找到 checkpoint，請確認上次訓練是否有儲存！")

2⃣ 重新載入 Stable Diffusion 2.1 模型

from diffusers import StableDiffusionPipeline, UNet2DConditionModel

PRETRAINED_MODEL_NAME = "stabilityai/stable-diffusion-2-1"

# 載入上次訓練的 checkpoint，而不是從頭開始
unet = UNet2DConditionModel.from_pretrained(
    checkpoint_path,  # 這裡載入上次訓練的 checkpoint
    torch_dtype=torch.float16
).to("cuda")

3⃣ 設定接續訓練的參數

from transformers import TrainingArguments, Trainer
from datasets import load_dataset

# 設定訓練參數
training_args = TrainingArguments(
    output_dir=OUTPUT_DIR,  # 繼續存放到同一個目錄
    per_device_train_batch_size=1,
    gradient_accumulation_steps=4,  
    learning_rate=5e-6,
    max_steps=20000,  # 這裡設定新總步數（包括上次訓練的步數）
    save_strategy="steps",
    save_steps=1000,
    resume_from_checkpoint=True  # ✅ 啟用接續訓練
)

# 重新載入數據集
DATASET_DIR = "/content/drive/MyDrive/AI/datasets/zenmaru_dataset"
dataset = load_dataset("imagefolder", data_dir=DATASET_DIR, split="train")

# 設定 Trainer
trainer = Trainer(
    model=unet,
    args=training_args,
    train_dataset=dataset
)

4⃣ 繼續訓練

trainer.train(resume_from_checkpoint=True)  # ✅ 這行確保會從 checkpoint 繼續訓練

確保訓練結果不會遺失

建議在 Google Drive 上手動檢查 /AI/output/zenmaru_finetune 內是否有：

checkpoint-last/ 目錄（裡面有 .bin 或 .json 檔案）。
pytorch_model.bin 或 .safetensors（訓練後的模型）。

如果你想手動儲存最新的模型：

trainer.save_model(OUTPUT_DIR)

總結

載入上次訓練的 checkpoint（確保 checkpoint-last 存在）。
設定 resume_from_checkpoint=True 讓訓練從中斷的地方繼續。
開始訓練 trainer.train(resume_from_checkpoint=True)。

這樣就能在 Colab 繼續 Fine-tuning 了！
你上次訓練到幾步呢？

在 colab 上, 要如何下載 stabilityai/stable-diffusion-2-1

max-stackoverflow — Fri, 28 Feb 2025 07:28:29 +0000

在 Google Colab 上下載 stabilityai/stable-diffusion-2-1 預訓練模型，你可以使用 diffusers 函式庫提供的 DiffusionPipeline.from_pretrained() 方法。以下是詳細步驟與程式碼範例：

1. 安裝必要的函式庫

首先，確保你已經安裝了 diffusers、transformers 和 torch 函式庫。如果沒有，可以使用以下指令安裝：

Bash

!pip install diffusers transformers torch

2. 下載預訓練模型

使用 DiffusionPipeline.from_pretrained() 方法下載模型。這個方法會自動從 Hugging Face Model Hub 下載模型，並將其儲存在 Colab 的快取目錄中。

Python

from diffusers import DiffusionPipeline

PRETRAINED_MODEL_NAME = "stabilityai/stable-diffusion-2-1"

# 下載模型
pipeline = DiffusionPipeline.from_pretrained(PRETRAINED_MODEL_NAME)

# 將模型移動到 GPU（如果可用）
pipeline = pipeline.to("cuda")

3. 使用模型進行推理（可選）

下載模型後，你可以立即使用它進行圖片生成。以下是一個簡單的範例：

Python

prompt = "a futuristic cityscape, digital art"
image = pipeline(prompt).images[0]

# 顯示生成的圖片
image.show()

# 或者儲存圖片
image.save("generated_image.png")

完整程式碼範例：

Python

!pip install diffusers transformers torch

from diffusers import DiffusionPipeline

PRETRAINED_MODEL_NAME = "stabilityai/stable-diffusion-2-1"

# 下載模型
pipeline = DiffusionPipeline.from_pretrained(PRETRAINED_MODEL_NAME)

# 將模型移動到 GPU（如果可用）
pipeline = pipeline.to("cuda")

prompt = "a futuristic cityscape, digital art"
image = pipeline(prompt).images[0]

# 顯示生成的圖片
image.show()

# 或者儲存圖片
image.save("generated_image.png")

注意事項：

GPU 加速：
- 為了加快推理速度，建議使用 GPU。請確保你的 Colab 運行時已選擇 GPU。
- pipeline.to("cuda") 會將模型移動到 GPU。如果你的 Colab 沒有 GPU，請移除這行程式碼。
模型快取：
- 模型下載後會儲存在 Colab 的快取目錄中。下次運行時，如果模型已經存在，就不會重新下載。
Hugging Face 權杖：
- 某些模型可能需要 Hugging Face 權杖才能下載。如果遇到權限問題，請確保你已登入 Hugging Face，並在 Colab 中設定你的權杖。
記憶體問題：
- Stable Diffusion 模型較大，可能需要較多的 GPU 記憶體。如果遇到記憶體不足的問題，可以嘗試使用較小的模型或降低圖片生成的大小。

希望這些資訊能幫助你在 Colab 上成功下載 stabilityai/stable-diffusion-2-1 模型。

在 colab 透過 Stable Diffusion 訓練, 需要安裝 dreambooth extension?

max-stackoverflow — Fri, 28 Feb 2025 07:22:31 +0000

要實現您所描述的字型生成任務，確實需要結合 LoRA 模型的訓練，讓模型學習並融合 Nato Sans 字型特徵，同時具備生成 Zenmaru Style 的能力。以下是詳細的步驟和相關說明：

1. 準備訓練資料

Nato Sans 字型圖片集：
- 您需要準備包含 Nato Sans 字型各種字元的圖片集。這些圖片應清晰、格式統一，並涵蓋您希望模型學習的字元範圍。
Zenmaru Style 字型圖片集（可選）：
- 如果您有 Zenmaru Style 的字型圖片集，可以將其也納入訓練資料，以增強模型生成 Zenmaru Style 的能力。
資料預處理：
- 對圖片集進行必要的預處理，例如調整大小、裁剪、灰度化等，以確保資料的一致性和品質。
- 對字型的圖片進行適當的標記，如字型名稱，字元內容等等，讓模型能更準確地學習。

2. LoRA 模型訓練

選擇 Stable Diffusion 模型：
- 選擇一個適合您需求的 Stable Diffusion 模型作為基礎模型。
LoRA 訓練：
- 使用 LoRA（Low-Rank Adaptation）技術對基礎模型進行微調。LoRA 能夠在不修改原始模型權重的情況下，新增少量可訓練的參數，從而實現高效的客製化訓練。
- LoRA的訓練可以大幅降低對於硬體資源的需求，並且可以更快速的訓練。
訓練參數設定：
- 設定適當的訓練參數，例如學習率、訓練步數、批次大小等。這些參數會影響模型的訓練效果，需要根據您的資料集和硬體資源進行調整。
訓練環境：
- 您可以使用 Google Colab 或其他具備 GPU 的環境進行訓練。
- 使用accelerate工具可以幫助您更方便的使用GPU進行訓練。

3. 推理與字元生成

加載 LoRA 模型：
- 訓練完成後，加載您的 LoRA 模型。
推理：
- 使用 Stable Diffusion 模型和您的 LoRA 模型進行推理，輸入您希望生成的字元，模型將根據學習到的字型特徵生成相應的圖片。
字元後處理：
- 對生成的圖片進行必要的後處理，例如調整清晰度、去除噪點等，以獲得更好的效果。

關於 Dreambooth Extension

Dreambooth 是一種用於客製化 Stable Diffusion 模型的技術，它能夠讓模型學習特定個體或物體的特徵。
Dreambooth extension 是 Stable Diffusion Web UI 的一個擴充功能，它提供了方便的介面，讓使用者可以更輕鬆地進行 Dreambooth 訓練。
但是，對於字型生成任務，LoRA 通常是更高效和更易於使用的選擇。LoRA 的訓練速度更快，所需的資源更少，並且能夠產生高品質的字型生成結果。因此，在這種情況下，您不一定需要下載 Dreambooth extension。

總結

透過 LoRA 模型的訓練，您可以讓 Stable Diffusion 模型學習並融合 Nato Sans 字型特徵，同時具備生成 Zenmaru Style 的能力。這種方法能夠幫助您生成 Zenmaru Style 中缺失的字元，並實現字型客製化的目標。

用 ControlNet 來補充 Zenmaru Style 缺字

max-stackoverflow — Thu, 27 Feb 2025 13:50:56 +0000

使用 ControlNet 會是更好的選擇，因為它允許你提供特定的引導圖像（如 Nato Sans 的字型模板），並讓模型根據該圖像進行風格轉換或補充缺失字元。這樣可以更精確地控制生成結果，使其符合 Zenmaru Style。

主要步驟：

準備訓練好的 LoRA 模型：包含 Zenmaru 風格的權重
準備 ControlNet 引導圖像：使用 Nato Sans 字型來生成完整的文字模板，作為 ControlNet 的輸入
使用 Stable Diffusion + ControlNet 進行推理，生成符合 Zenmaru 風格的缺字

步驟 1：準備 ControlNet 引導圖像

首先，你需要準備一張包含完整字元的 Nato Sans 字型圖片。例如，你可以用 Nato Sans 字型生成一個包含完整文本的圖片，然後用來引導 Stable Diffusion 生成 Zenmaru Style 缺字。

你可以使用 Python 的 PIL 來生成這張圖片：

from PIL import Image, ImageDraw, ImageFont

# 設定字型與大小
font_path = "C:/AI/fonts/NotoSans-Regular.ttf"  # Nato Sans 字型路徑
font_size = 128
font = ImageFont.truetype(font_path, font_size)

# 生成輸入圖片
text = "測試文字"  # 這裡可以放入要補充的字元
image_size = (512, 512)
image = Image.new("RGB", image_size, (255, 255, 255))  # 白色背景
draw = ImageDraw.Draw(image)
text_position = (50, 200)  # 調整文字位置
draw.text(text_position, text, font=font, fill=(0, 0, 0))  # 黑色字體

# 儲存 ControlNet 引導圖片
image.save("C:/AI/datasets/nato_sans_template.png")
image.show()

這張圖片將用來作為 ControlNet 的引導圖。

步驟 2：載入 Stable Diffusion + ControlNet

現在，我們將 Stable Diffusion 和 ControlNet 結合，並使用訓練好的 LoRA (Zenmaru Style) 來進行推理。

from diffusers import StableDiffusionControlNetPipeline, ControlNetModel
import torch
from PIL import Image
import numpy as np

# 1⃣ 載入 ControlNet 模型
controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/control_v11p_sd15_lineart",  # 可用的 ControlNet 模型之一
    torch_dtype=torch.float16
).to("cuda")

# 2⃣ 載入 Stable Diffusion LoRA
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-2-1",
    controlnet=controlnet,
    torch_dtype=torch.float16
).to("cuda")

# 3⃣ 載入訓練好的 Zenmaru LoRA 權重
pipe.unet.load_state_dict(torch.load("C:/AI/output/zenmaru_lora.pth"))

# 4⃣ 讀取 ControlNet 引導圖片
control_image = Image.open("C:/AI/datasets/nato_sans_template.png").convert("RGB")
control_image = control_image.resize((512, 512))

# 5⃣ 設定生成提示詞
prompt = "Generate missing characters in Zenmaru Gothic style."

# 6⃣ 設定推理參數
num_inference_steps = 50
generator = torch.manual_seed(42)  # 固定隨機種子，確保結果一致

# 7⃣ 開始推理
output = pipe(
    prompt,
    image=control_image,
    num_inference_steps=num_inference_steps,
    generator=generator
)

# 8⃣ 顯示結果
generated_image = output.images[0]
generated_image.show()
generated_image.save("C:/AI/output/zenmaru_filled_characters.png")

步驟 3：檢查結果並後處理

生成的圖片應該包含原本 Nato Sans 缺字的部分，但風格會轉換為 Zenmaru。
如果風格還不夠接近 Zenmaru，可以調整 LoRA 權重，或使用更強的 ControlNet 引導圖片（例如 Sketch or Edge detection）。
可以嘗試不同的 ControlNet 模型（如 control_v11p_sd15_openpose 或 control_v11p_sd15_scribble）來提升效果。

結論

使用 ControlNet 來引導 Nato Sans 字型，並使用 Stable Diffusion + LoRA 來補充 Zenmaru Style 缺字，是更好的方法。
這樣可以確保缺字部分仍然遵循原本的字體結構，並且保持 Zenmaru 的風格。
如果補充效果不夠理想，可以調整 LoRA 訓練參數、ControlNet 引導圖片，或者嘗試不同的 ControlNet 模型。

這樣的方式比純粹使用 Stable Diffusion 更加準確，因為 ControlNet 能夠幫助模型遵循 Nato Sans 的基本結構，而 LoRA 則負責轉換風格，最終產生高質量的 Zenmaru Style 缺字。

使用 nato sans 推論出 zenmaru style 的缺字

max-stackoverflow — Thu, 27 Feb 2025 12:45:46 +0000

要使用 Nato Sans 字型進行推理，並生成 Zenmaru Style 中缺失的字元，你可以先進行 LoRA 模型的訓練，使其結合 Nato Sans 字型並具備生成 Zenmaru Style 的能力。然後，你可以在推理過程中，利用這個模型來生成缺字部分，這樣就能夠生成缺少的字元，並使用 Zenmaru Style 和 Nato Sans 兩種字型來做比對和生成。

下面是一個具體的步驟，展示如何使用 Nato Sans 字型推理並生成 Zenmaru Style 的缺字：

步驟 1：準備模型

假設你已經完成了 Zenmaru 和 Nato Sans 字型的訓練並且分別訓練了 LoRA 模型。接下來，準備一個包含 Zenmaru 欠缺字元的模板，然後使用 LoRA 模型進行推理。

步驟 2：設置推理模型

載入你訓練過的 LoRA 模型並準備進行推理。這裡你將使用 Nato Sans 來生成字元，並將其應用到 Zenmaru Style 中。

from diffusers import StableDiffusionPipeline
import torch
from PIL import Image
import matplotlib.pyplot as plt

# 加載訓練好的 LoRA 模型
pipe = StableDiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-1")
unet = pipe.unet
unet.load_state_dict(torch.load("C:/AI/output/nato_sans_lora/nato_sans_lora.pth"))
unet.to("cuda")

# 設定提示語 (prompt)
prompt = "Generate Zen Maru Gothic style text to complete the missing character."

# 設定訓練過的文本嵌入 (Nato Sans 字型作為補充)
text_input = tokenizer(["Zen Maru Gothic Style Missing Character"])  # 設定適合生成缺字的提示語

# 如果你有特定缺失的字型或字符，將其放入提示語中
# 這樣模型可以生成與 Zenmaru 相似的風格，但補充缺失部分。

# 設定時間步長參數 (num_inference_steps)
num_inference_steps = 50

# 使用模型進行推理
output = pipe(prompt, num_inference_steps=num_inference_steps)

# 顯示生成結果
generated_image = output[0]
generated_image.show()

步驟 3：設計缺字模板

設計一個包含缺字的圖像模板：假設你有一張圖片，包含了你要填補缺失字元的位置。你可以將這個圖片作為輸入圖像，並將缺字的部分保留空白或其他標記，這樣模型就能知道要生成的位置。
將缺字模板傳入模型：將模板圖像作為輸入，並讓模型根據 Nato Sans 的字型生成缺失的字元。

from PIL import Image
import torch
import numpy as np

# 讀取包含缺字的圖像模板 (假設缺字部分是黑色區域或空白區域)
input_image = Image.open("C:/AI/datasets/zenmaru_missing_characters_template.png")

# 根據需要進行預處理
input_image = input_image.convert("RGB").resize((512, 512))

# 將圖像轉為 tensor，並送入模型推理
input_tensor = preprocess(input_image).unsqueeze(0).to(device)  # 須確保這個 tensor 與訓練時的格式一致

# 使用模型進行推理
output = unet(input_tensor)  # 根據缺失的部分生成對應的字元

# 顯示生成結果
generated_image = output[0]  # 根據模型輸出的結果
generated_image.show()

步驟 4：生成 Zenmaru 風格的缺字

在這一步，模型會根據提供的模板和推理提示生成對應的缺字，並使用 Zenmaru 的風格來填補缺失部分。這是透過你訓練的 LoRA 模型來生成的。

步驟 5：檢查並應用推理結果

生成的結果應該會在輸出圖像中顯示缺失的字元，這些字元應該以 Zenmaru 風格和 Nato Sans 字型的形式呈現。你可以將推理結果進行後處理來調整或增強圖像品質。

推理的核心概念

Nato Sans 和 Zenmaru 風格：由於你訓練了 LoRA 模型，使其能夠將 Nato Sans 字型整合進 Zenmaru 風格中，因此生成的缺字會遵循相同的風格和結構。
補充缺失的字元：將缺字區域的模板圖像提供給模型，並讓模型生成對應的字元。

總結

這個流程讓你能夠使用 Nato Sans 來推理並補充 Zenmaru Style 中的缺字。最終生成的結果會顯示補充的字元，並保持原有的字型風格。

不使用 webui 啟用 stable-diffusion 環境

max-stackoverflow — Thu, 27 Feb 2025 05:44:01 +0000

因為使用 webui 有優點, 也有缺點, 都份的第三方元件, 例如: accelerate 的版本, 目前 2025-02-27, 執行 webui-user.bat 之後, 安裝的是 0.21.0 版, 但使用 sd-scripts 會出錯, 錯誤訊息:

File "\Max\git\stable-diffusion-webui\venv\lib\site-packages\transformers\modeling_utils.py", line 3611, in from_pretrained
    raise ImportError(
ImportError: Using low_cpu_mem_usage=True or a device_map requires Accelerate: pip install 'accelerate>=0.26.0'

解法:

pip install --upgrade pip
pip install --upgrade accelerate

進入 stable-diffusion venv, 使用下面指令:

cd stable-diffusion-webui
venv\Scripts\activate

可以從 webui.bat 裡, 就得知用法:

:upgrade_pip
"%VENV_DIR%\Scripts\Python.exe" -m pip install --upgrade pip
if %ERRORLEVEL% == 0 goto :activate_venv
echo Warning: Failed to upgrade PIP version

:activate_venv
set PYTHON="%VENV_DIR%\Scripts\Python.exe"
call "%VENV_DIR%\Scripts\activate.bat"
echo venv %PYTHON%

stable-diffusion – Max的程式語言筆記

如何用 SD Inpainting 來補全 Zen Maru Gothic 缺字？

你的目標是 透過 Noto Sans 的字型輪廓，補全 Zen Maru Gothic 缺字，這可以透過 SD Inpainting 來實現。

步驟 1⃣：準備輸入圖片

步驟 2⃣：載入 Stable Diffusion Inpainting 模型

步驟 3⃣：設定 Inpainting 輸入

為什麼 SD Inpainting 適合補全 Zen Maru Gothic 缺字？

下一步：結合 ControlNet 改進補全

總結

Colab 上訓練 Stable Diffusion 1.5 + ControlNet 1.5降低記憶體策略

1. 低記憶體訓練方式

(1) LoRA 訓練（推薦）

(2) 全模型微調（DreamBooth/Fine-tuning）

2. 低記憶體設定與優化

(1) 使用 8-bit AdamW 優化器

(2) Mixed Precision 訓練

(3) 使用 xFormers 加速

結論：

問題分析

解決方案

方法 1：關閉 xFormers 記憶體優化

方法 2：改用 fp16 取代 bf16

結論

Stable Diffusion 1.5 + ControlNet 學習 nato sans 與 zen maru gothic

環境準備

1⃣ 掛載 Google Drive

安裝相依套件

2⃣ 安裝 diffusers、transformers、accelerate、controlnet

下載 Stable Diffusion 1.5 與 ControlNet

3⃣ 下載 stable-diffusion-v1-5 模型

4⃣ 下載 ControlNet (control_v11p_sd15_canny)

資料預處理

5⃣ 載入並處理 Zenmaru Dataset

訓練 LoRA

6⃣ 構建 LoRA 設定

7⃣ 訓練迴圈

8⃣ 儲存 LoRA 權重

推論生成缺字

9⃣ 載入訓練好的 LoRA

使用 Nato Sans 生成 Zenmaru 缺字

總結

主要特性

安裝必要的套件

訓練腳本1

設定說明

結論

在 colab 訓練 stable diffusion 的 lora 使用那一個預訓練的模型比較好?

推薦的預訓練模型

1⃣ 官方 Stable Diffusion 模型

2⃣ 專門的字體/標誌模型

建議選擇

如何在 Colab 設定

colab 上接續訓練的步驟

接續訓練的完整步驟

1⃣ 掛載 Google Drive 並確認已訓練的模型

2⃣ 重新載入 Stable Diffusion 2.1 模型

3⃣ 設定接續訓練的參數

4⃣ 繼續訓練

確保訓練結果不會遺失

總結

在 colab 上, 要如何下載 stabilityai/stable-diffusion-2-1

在 colab 透過 Stable Diffusion 訓練, 需要安裝 dreambooth extension?

用 ControlNet 來補充 Zenmaru Style 缺字

主要步驟：

步驟 1：準備 ControlNet 引導圖像

步驟 2：載入 Stable Diffusion + ControlNet

步驟 3：檢查結果並後處理

結論

使用 nato sans 推論出 zenmaru style 的缺字

步驟 1：準備模型

步驟 2：設置推理模型

步驟 3：設計缺字模板

步驟 4：生成 Zenmaru 風格的缺字

步驟 5：檢查並應用推理結果

推理的核心概念

總結

不使用 webui 啟用 stable-diffusion 環境

進入 stable-diffusion venv, 使用下面指令:

你的目標是透過 Noto Sans 的字型輪廓，補全 Zen Maru Gothic 缺字，這可以透過 SD Inpainting 來實現。

方法 1：關閉 `xFormers` 記憶體優化

方法 2：改用 `fp16` 取代 `bf16`

2⃣ 安裝 `diffusers`、`transformers`、`accelerate`、`controlnet`

3⃣ 下載 `stable-diffusion-v1-5` 模型

4⃣ 下載 ControlNet (`control_v11p_sd15_canny`)