Zi2ZiModel 字型風格轉換任務中，提高學習穩定性和推論品質

2025-03-092025-03-09

在這個 Noto Sans → Zen Maru Gothic 的字型風格轉換任務中，提高學習穩定性和推論品質的關鍵點包括：

1. 改進生成器學習

(1) 增強風格嵌入的影響力

目前的 UNet 架構是透過 style 融合進 innermost 層，但影響可能較為局部。可以考慮：

AdaIN (Adaptive Instance Normalization)
用於將風格向量調整至不同層的特徵圖，使風格控制更細緻：
class AdaIN(nn.Module): def __init__(self, style_dim, num_features): super().__init__() self.scale = nn.Linear(style_dim, num_features) self.bias = nn.Linear(style_dim, num_features) def forward(self, x, style): gamma = self.scale(style).unsqueeze(2).unsqueeze(3) beta = self.bias(style).unsqueeze(2).unsqueeze(3) return gamma * x + beta
改進方式：
- 在 UNet 各層中（特別是中層）加入 AdaIN，避免風格僅影響底層特徵。

(2) 使用更強的跳躍連接

目前的 Skip Connection 直接拼接特徵，但可以嘗試：

變換後的 Skip Connection (ResSkip)
skip = F.interpolate(skip, size=x.shape[2:], mode="bilinear", align_corners=False) out = torch.cat([x, skip], dim=1) # 改用不同解析度的 skip connection
這樣可以提升高解析度特徵的保留度，讓字型細節更加清晰。

2. 穩定訓練 GAN

(3) 使用梯度懲罰（Gradient Penalty）

目前的 Discriminator 直接使用 BCE 損失，容易造成 梯度消失 或 模式崩壞。可加入梯度懲罰：

def gradient_penalty(D, real_samples, fake_samples, device):
    alpha = torch.rand(real_samples.size(0), 1, 1, 1).to(device)
    interpolates = (alpha * real_samples + (1 - alpha) * fake_samples).requires_grad_(True)
    d_interpolates, _ = D(interpolates)
    gradients = torch.autograd.grad(outputs=d_interpolates, inputs=interpolates,
                                    grad_outputs=torch.ones_like(d_interpolates),
                                    create_graph=True, retain_graph=True)[0]
    penalty = ((gradients.norm(2, dim=1) - 1) ** 2).mean()
    return penalty

並在 backward_D 加入：

lambda_gp = 10
gp = gradient_penalty(self.netD, real_AB, fake_AB, self.gpu_ids[0])
self.d_loss += lambda_gp * gp

(4) 使用相對論對抗損失（Relativistic Loss）

目前的 D 只是單純判別真/假，改為：

d_real, _ = self.netD(real_AB)
d_fake, _ = self.netD(fake_AB)
d_loss = torch.mean(F.softplus(d_fake - d_real))  # 讓 D 學習「真比假更真」

這能提升對抗學習的穩定性。

3. 提升推論品質

(5) 增強感知損失（Perceptual Loss）

目前 L1 Loss 主要考慮像素差異，但可能會造成模糊結果。可加入：

vgg = torchvision.models.vgg19(pretrained=True).features[:16].eval().cuda()
for param in vgg.parameters():
    param.requires_grad = False

def perceptual_loss(fake, real):
    f_fake = vgg(fake)
    f_real = vgg(real)
    return F.l1_loss(f_fake, f_real)

然後在 backward_G 加入：

percep_loss = perceptual_loss(self.fake_B, self.real_B) * 10
self.g_loss += percep_loss

這樣可以讓輸出更加銳利。

4. 其他細節優化

(6) 改進學習率調度

目前使用 CosineAnnealingLR，但可以考慮：

Warmup + Cosine Decay
這能避免初期訓練不穩：
scheduler_G = torch.optim.lr_scheduler.OneCycleLR(optimizer_G, max_lr=lr, total_steps=total_steps)

(7) 賦形模糊（Shape-Aware Blurring）

目前 D 採用 GaussianBlur，可以嘗試：

基於 Laplacian Pyramid 的 Blur，針對字型邊緣做更細緻的處理。

總結

✔ 風格嵌入最佳化：AdaIN, 深層風格控制
✔ 生成器改進：ResSkip, 高解析度特徵保留
✔ GAN 穩定性：Gradient Penalty, Relativistic Loss
✔ 提升視覺品質：Perceptual Loss, Shape-Aware Blur
✔ 優化訓練：Warmup, 更好的 LR 調度

這些方法應該能顯著提升字型風格轉換的穩定性和推論品質！🚀

Max的程式語言筆記