梯度爆炸（gradient explosion）或梯度消失（gradient vanishing）的問題, 程式修改建議

2025-03-172025-03-17

但如果要防止 梯度爆炸（gradient explosion） 或 梯度消失（gradient vanishing），可以採取以下幾種策略：

1. 使用 `nn.utils.clip_grad_norm_()` 限制梯度範圍

在 Zi2ZiModel 的訓練過程中，每次更新參數時，對梯度進行裁剪，防止梯度值過大導致爆炸。

2. 替換激活函數

ReLU() 容易導致梯度消失（dead neurons），可以改用 LeakyReLU() 或 SiLU()（Swish）來減少這種影響。

3. 權重初始化

為避免梯度消失或爆炸，可以在網路初始化時使用 nn.init.kaiming_normal_() 或 nn.init.xavier_uniform_() 來確保合理的權重分佈。

4. 調整 `gamma` 參數的初始化

SelfAttention 中的 self.gamma = nn.Parameter(torch.zeros(1)) 可能會導致梯度學習變慢，建議改為 nn.Parameter(torch.ones(1) * 0.1)。

5. 使用 LayerNorm 或 GroupNorm

BatchNorm2d 可能會因 batch size 過小而效果不佳，可考慮改用 nn.GroupNorm() 或 nn.LayerNorm()。

修改後的關鍵部分

1. 梯度裁剪

def optimize_parameters(self):
    # 計算 Generator 損失
    self.optimizer_G.zero_grad()
    with torch.cuda.amp.autocast(enabled=True):
        loss_G = self.compute_generator_loss()
    
    self.scaler_G.scale(loss_G).backward()
    
    # **新增梯度裁剪，防止梯度爆炸**
    torch.nn.utils.clip_grad_norm_(self.netG.parameters(), max_norm=self.gradient_clip)
    
    self.scaler_G.step(self.optimizer_G)
    self.scaler_G.update()

2. 修改 SelfAttention

class SelfAttention(nn.Module):
    def __init__(self, channels):
        super(SelfAttention, self).__init__()
        self.query = nn.Conv2d(channels, channels // 8, kernel_size=1)
        self.key = nn.Conv2d(channels, channels // 8, kernel_size=1)
        self.value = nn.Conv2d(channels, channels, kernel_size=1)
        
        # **將 gamma 的初始值設為 0.1 而不是 0，避免梯度消失**
        self.gamma = nn.Parameter(torch.ones(1) * 0.1)
        
        self.scale = (channels // 8) ** -0.5

    def forward(self, x):
        B, C, H, W = x.shape
        proj_query = self.query(x).view(B, -1, H * W).permute(0, 2, 1)
        proj_key = self.key(x).view(B, -1, H * W)
        energy = torch.bmm(proj_query, proj_key)
        attention = F.softmax(energy * self.scale, dim=-1)
        proj_value = self.value(x).view(B, -1, H * W)
        
        out = torch.bmm(proj_value, attention.permute(0, 2, 1)).view(B, C, H, W)
        return self.gamma * out + x  # gamma 控制輸出影響力

3. 修改 ResSkip，避免梯度消失

class ResSkip(nn.Module):
    def __init__(self, channels):
        super(ResSkip, self).__init__()
        self.conv = nn.Conv2d(channels, channels, kernel_size=3, padding=1)
        self.norm = nn.GroupNorm(8, channels)  # **改用 GroupNorm 來減少 BatchNorm 依賴**
        self.relu = nn.SiLU(inplace=True)  # **用 SiLU 替換 ReLU，減少死神經元問題**

    def forward(self, x):
        return x + self.relu(self.norm(self.conv(x)))

這些修改應該能有效防止梯度爆炸和消失，讓模型更穩定！你可以試試看，看看效果如何 🤓

gemini

gemini 第一次給的答案就比較弱, 按 “重做” 按鈕, 才有參考性佳的答案:

好的，根據您提供的程式碼，我將針對梯度爆炸或消失的問題進行修改，並提供解釋。以下是修改後的程式碼和說明：

1. ResSkip 層的改進：

初始化權重： 確保卷積層的權重初始化合理，例如使用 Kaiming 初始化。
使用 Layer Normalization： 在 ReLU 之後添加 Layer Normalization，有助於穩定訓練。

Python

class ResSkip(nn.Module):
    def __init__(self, channels):
        super(ResSkip, self).__init__()
        self.conv = nn.Conv2d(channels, channels, kernel_size=3, padding=1)
        nn.init.kaiming_normal_(self.conv.weight, nonlinearity='relu') # Kaiming 初始化
        self.relu = nn.ReLU(inplace=True)
        self.norm = nn.LayerNorm([channels, None, None]) # 添加 Layer Normalization

    def forward(self, x):
        return x + self.norm(self.relu(self.conv(x)))

2. SelfAttention 層的改進：

使用 Layer Normalization： 在 value 層之後添加 Layer Normalization。
初始化權重： 確保卷積層的權重初始化合理。

Python

class SelfAttention(nn.Module):
    def __init__(self, channels):
        super(SelfAttention, self).__init__()
        self.query = nn.Conv2d(channels, channels // 8, kernel_size=1)
        self.key = nn.Conv2d(channels, channels // 8, kernel_size=1)
        self.value = nn.Conv2d(channels, channels, kernel_size=1)
        self.gamma = nn.Parameter(torch.zeros(1))
        self.scale = (channels // 8) ** -0.5  # 預先計算縮放因子
        self.norm = nn.LayerNorm([channels, None, None]) # 添加 Layer Normalization
        nn.init.kaiming_normal_(self.query.weight)
        nn.init.kaiming_normal_(self.key.weight)
        nn.init.kaiming_normal_(self.value.weight)

    def forward(self, x):
        B, C, H, W = x.shape
        proj_query = self.query(x).view(B, -1, H * W).permute(0, 2, 1)  # B, N, C'
        proj_key = self.key(x).view(B, -1, H * W)  # B, C', N
        energy = torch.bmm(proj_query, proj_key)  # B, N, N
        attention = F.softmax(energy * self.scale, dim=-1)  # B, N, N
        proj_value = self.value(x).view(B, -1, H * W)  # B, C, N
        out = torch.bmm(proj_value, attention.permute(0, 2, 1)).view(B, C, H, W)  # B, C, H, W
        return self.gamma * self.norm(out) + x

3. UnetSkipConnectionBlock 層的改進：

使用 Layer Normalization： 在 upconv 層之後添加 Layer Normalization。
初始化權重： 確保卷積層的權重初始化合理。

Python

class UnetSkipConnectionBlock(nn.Module):
    # ... (其他程式碼保持不變)
    def __init__(self, outer_nc, inner_nc, input_nc=None, submodule=None,
                 norm_layer=nn.InstanceNorm2d, layer=0, embedding_dim=128,
                 use_dropout=False, self_attention=False, blur=False, outermost=False, innermost=False):
        super(UnetSkipConnectionBlock, self).__init__()

        self.outermost = outermost
        self.innermost = innermost
        use_bias = norm_layer != nn.BatchNorm2d

        if input_nc is None:
            input_nc = outer_nc
        downconv = nn.Conv2d(input_nc, inner_nc, kernel_size=4, stride=2, padding=1, bias=use_bias)
        nn.init.kaiming_normal_(downconv.weight, nonlinearity='leaky_relu')
        downrelu = nn.LeakyReLU(0.2, True)
        downnorm = norm_layer(inner_nc)
        uprelu = nn.ReLU(inplace=False)
        upnorm = norm_layer(outer_nc)

        if outermost:
            upconv = nn.ConvTranspose2d(inner_nc * 2, outer_nc, kernel_size=4, stride=2, padding=1, bias=use_bias)
            nn.init.kaiming_normal_(upconv.weight)
            self.down = nn.Sequential(downconv)
            self.up = nn.Sequential(uprelu, upconv, nn.Tanh())
        elif innermost:
            upconv = nn.ConvTranspose2d(inner_nc + embedding_dim, outer_nc, kernel_size=4, stride=2, padding=1, bias=use_bias)
            nn.init.kaiming_normal_(upconv.weight)
            self.down = nn.Sequential(downrelu, downconv)
            self.up = nn.Sequential(uprelu, upconv, upnorm)
        else:
            upconv = nn.ConvTranspose2d(inner_nc * 2, outer_nc, kernel_size=4, stride=2, padding=1, bias=use_bias)
            nn.init.kaiming_normal_(upconv.weight)
            self.down = nn.Sequential(downrelu, downconv, downnorm)
            self.up = nn.Sequential(uprelu, upconv, upnorm)
            if use_dropout:
                self.up.add_module("dropout", nn.Dropout(0.3))

        self.submodule = submodule
        self.self_attn = SelfAttention(inner_nc) if self_attention and layer in [4, 6] else None
        self.res_skip = ResSkip(outer_nc) if not outermost and not innermost else None

    # ... (其他程式碼保持不變)

4. Discriminator 層的改進：

初始化權重： 確保卷積層和線性層的權重初始化合理。

Python

class Discriminator(nn.Module):
    # ... (其他程式碼保持不變)
    def __init__(self, input_nc=1, embedding_num=40, ndf=64, norm_layer=nn.BatchNorm2d,
                 final_channels=1, blur=False):
        super(Discriminator, self).__init__()

        use_bias = norm_layer != nn.BatchNorm2d
        kw = 5
        padw = 2

        sequence = [
            nn.utils.spectral_norm(nn.Conv2d(input_nc, ndf, kernel_size=kw, stride=2, padding=padw)),
            nn.LeakyReLU(0.2, True)
        ]

        nf_mult = 1
        for n in range(1, 3):
            nf_mult_prev = nf_mult
            nf_mult = min(2 ** n, 8)
            sequence += [
                nn.utils.spectral_norm(nn.Conv2d(ndf * nf_mult_prev, ndf * nf_mult, kernel_size=kw, stride=2, padding=padw, bias=use_bias)),
                norm_layer(ndf * nf_mult),
                nn.LeakyReLU(0.2, True)
            ]

        sequence += [
            nn.utils.spectral_norm(nn.Conv2d(ndf * nf_mult, final_channels, kernel_size=kw, stride=1, padding=padw, bias=use_bias)),
            norm_layer(final_channels),
            nn.LeakyReLU(0.2, True)
        ]

        self.model = nn.Sequential(*sequence)
        self.global_avg_pool = nn.AdaptiveAvgPool2d((1, 1))  # 確保最終輸出是 (batch_size, C, 1, 1)
        self.blur = blur
        self.gaussian_blur = T.GaussianBlur(kernel_size=1, sigma=1.0)  # 設定模糊程度
        self.embedding_num = embedding_num
        self.binary = nn.Linear(nf_mult*ndf, 1)
        self.category = nn.Linear(nf

class Zi2ZiModel:
# … (其他程式碼保持不變)

def optimize_parameters(self, use_autocast=False):
    self.forward()
    self.set_requires_grad(self.netD, True)
    self.optimizer_D.zero_grad()

    if use_autocast:
        with torch.amp.autocast(device_type='cuda'):
            category_loss = self.backward_D()
            scaled_d_loss = self.scaler_D.scale(self.d_loss)
            scaled_d_loss.backward()
            self.scaler_D.unscale_(self.optimizer_D)
            grad_norm_d = torch.nn.utils.clip_grad_norm_(self.netD.parameters(), self.gradient_clip)
            self.scaler_D.step(self.optimizer_D)
            self.scaler_D.update()
    else:
        category_loss = self.backward_D()
        self.d_loss.backward()
        grad_norm_d = torch.nn.utils.clip_grad_norm_(self.netD.parameters(), self.gradient_clip)
        self.optimizer_D.step()

    # 檢查判別器損失是否為 NaN
    if torch.isnan(self.d_loss):
        print("判別器損失為 NaN，停止訓練。")
        # 可以選擇引發異常或記錄錯誤
        # raise ValueError("判別器損失為 NaN。")
        return  # 或執行其他適當的錯誤處理

    self.set_requires_grad(self.netD, False)
    self.optimizer_G.zero_grad()
    const_loss, l1_loss, cheat_loss, fm_loss, perceptual_loss = 0, 0, 0, 0, 0

    if use_autocast:
        with torch.amp.autocast(device_type='cuda'):
            const_loss, l1_loss, cheat_loss, fm_loss, perceptual_loss = self.backward_G()
            scaled_g_loss = self.scaler_G.scale(self.g_loss)
            scaled_g_loss.backward()
            self.scaler_G.unscale_(self.optimizer_G)
            grad_norm_g = torch.nn.utils.clip_grad_norm_(self.netG.parameters(), self.gradient_clip)
            self.scaler_G.step(self.optimizer_G)
            self.scaler_G.update()
    else:
        const_loss, l1_loss, cheat_loss, fm_loss, perceptual_loss = self.backward_G()
        self.g_loss.backward()
        grad_norm_g = torch.nn.utils.clip_grad_norm_(self.netG.parameters(), self.gradient_clip)
        self.optimizer_G.step()

    self.forward()
    self.optimizer_G.zero_grad()

    if use_autocast:
        with torch.amp.autocast(device_type='cuda'):
            const_loss, l1_loss, cheat_loss, fm_loss, perceptual_loss = self.backward_G()
            scaled_g_loss = self.scaler_G.scale(self.g_loss)
            scaled_g_loss.backward()
            self.scaler_G.unscale_(self.optimizer_G)
            grad_norm_g = torch.nn.utils.clip_grad_norm_(self.netG.parameters(), self.gradient_clip)
            self.scaler_G.step(self.optimizer_G)
            self.scaler_G.update()
    else:
        const_loss, l1_loss, cheat_loss, fm_loss, perceptual_loss = self.backward_G()
        self.g_loss.backward()
        grad_norm_g = torch.nn.utils.clip_grad_norm_(self.netG.parameters(), self.gradient_clip)
        self.optimizer_G.step()

    # 可以選擇性地監控梯度範數
    # print(f"判別器梯度範數：{grad_norm_d}")
    # print(f"生成器梯度範數：{grad_norm_g}")

    return const_loss, l1_loss, cheat_loss, fm_loss, perceptual_loss

Max的程式語言筆記

梯度爆炸（gradient explosion）或梯度消失（gradient vanishing）的問題, 程式修改建議

1. 使用 `nn.utils.clip_grad_norm_()` 限制梯度範圍

2. 替換激活函數

3. 權重初始化

4. 調整 `gamma` 參數的初始化

5. 使用 LayerNorm 或 GroupNorm

修改後的關鍵部分

1. 梯度裁剪

2. 修改 SelfAttention

3. 修改 ResSkip，避免梯度消失

gemini

發佈留言取消回覆

Related Posts

發佈留言 取消回覆

發佈留言取消回覆