要實作 MA-Font 論文中提出的 Multi-Head Attention Module,雖然論文本身可能沒有明確將其命名為「Multi-Head Attention Module」 (MA-Font 論文更著重於 Multi-Adaptation Method),但根據現代深度學習在風格遷移、少樣本學習,特別是字體生成領域的應用趨勢,以及注意力機制在捕捉風格特徵上的優勢,我們可以推斷 MA-Font 的模型中很可能使用了某種形式的注意力機制,包含 Multi-Head Attention 的概念

因此,以下我將基於 Multi-Head Attention 的通用原理,並結合 MA-Font 論文的核心思想 (多重適應方法),來解釋如何在 zi2zi-pytorch 環境下實作一個適用於 MA-Font 風格的 Multi-Head Attention Module。

首先,理解 Multi-Head Attention Module 的核心概念與目的:

Multi-Head Attention 是注意力機制 (Attention Mechanism) 的一種進階形式,其核心思想是讓模型能夠同時從多個不同的「角度」 ( heads ) 去關注輸入資訊,捕捉更豐富、更細緻的特徵關聯性。 在 MA-Font 的情境下,Multi-Head Attention 的目的很可能是:

  1. 更有效地從少量風格樣本中提取風格特徵: 少樣本字體生成的核心挑戰在於如何僅用極少量 (few-shot) 的風格樣本,學習到目標風格的精髓。 Multi-Head Attention 可以幫助模型從不同方面分析這些少量樣本,更全面地理解風格的複雜性。
  2. 捕捉風格特徵的多樣性和細微差異: 字體風格往往包含多個方面的特徵,例如筆畫的粗細、字形的結構、裝飾性的元素等等。 Multi-Head Attention 的多個 heads 可以專注於捕捉不同種類的風格特徵,使風格表示更加豐富和精細。
  3. 強化風格編碼器 (Style Encoder) 的性能: 在 MA-Font 模型中,風格編碼器負責從風格樣本中提取風格向量。 引入 Multi-Head Attention Module 可以提升風格編碼器的性能,使其能夠產生更具代表性、更能有效引導生成器生成目標風格字體的風格向量。

實作 Multi-Head Attention Module 的步驟 (以 PyTorch 為例):

以下是一個可能的 PyTorch 實作 Multi-Head Attention Module 的程式碼範例,並解釋每個步驟的意義。 這個模組可以被整合到 MA-Font 的風格編碼器 (Style Encoder) 中。

import torch
import torch.nn as nn
import torch.nn.functional as F

class MultiHeadAttention(nn.Module):
    def __init__(self, embed_dim, num_heads):
        Multi-Head Attention Module 初始化

            embed_dim (int): 輸入特徵的維度 (也通常是輸出特徵的維度)
            num_heads (int): 注意力頭 (attention heads) 的數量
        self.embed_dim = embed_dim
        self.num_heads = num_heads

        # 確保 embedding 維度可以被 head 數量整除
        assert embed_dim % num_heads == 0, "Embedding dimension must be divisible by number of heads"

        self.head_dim = embed_dim // num_heads  # 每個 head 的維度

        # 線性投影層 (Linear Projections) for Query, Key, Value
        self.query_proj = nn.Linear(embed_dim, embed_dim)
        self.key_proj = nn.Linear(embed_dim, embed_dim)
        self.value_proj = nn.Linear(embed_dim, embed_dim)

        self.output_proj = nn.Linear(embed_dim, embed_dim) # Output Linear Projection

    def forward(self, query, key, value, mask=None):
        Multi-Head Attention Module 的前向傳播

            query (Tensor): Query 張量,形狀 (batch_size, seq_len_q, embed_dim)
            key (Tensor): Key 張量,形狀 (batch_size, seq_len_k, embed_dim)
            value (Tensor): Value 張量,形狀 (batch_size, seq_len_v, embed_dim)
                            通常 seq_len_k == seq_len_v
            mask (Tensor, 可選): Mask 張量,用於遮蔽 (padding 或 future tokens),形狀 (batch_size, seq_len_q, seq_len_k)
                                 (在 MA-Font 字體風格編碼中,mask 可能較少使用,但在序列模型中常用)

            Tensor: 注意力輸出張量,形狀 (batch_size, seq_len_q, embed_dim)
        batch_size = query.size(0)
        seq_len_q = query.size(1)
        seq_len_k = key.size(1)

        # 1. 線性投影 (Linear Projections) - 將 Query, Key, Value 投影到不同的子空間
        Q = self.query_proj(query).view(batch_size, seq_len_q, self.num_heads, self.head_dim).transpose(1, 2) # (batch_size, num_heads, seq_len_q, head_dim)
        K = self.key_proj(key).view(batch_size, seq_len_k, self.num_heads, self.head_dim).transpose(1, 2)   # (batch_size, num_heads, seq_len_k, head_dim)
        V = self.value_proj(value).view(batch_size, seq_len_k, self.num_heads, self.head_dim).transpose(1, 2)   # (batch_size, num_heads, seq_len_k, head_dim)

        # 2. 縮放點積注意力 (Scaled Dot-Product Attention) - 在每個 head 中計算注意力權重
        attention_weights = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(self.head_dim, dtype=torch.float32)) # (batch_size, num_heads, seq_len_q, seq_len_k)

        if mask is not None:
            attention_weights = attention_weights.masked_fill(mask == 0, float('-inf')) # 將 mask 為 0 的位置填充為負無窮,在 softmax 後權重會趨近於 0

        attention_weights = F.softmax(attention_weights, dim=-1) # 對 Key 的維度做 softmax,得到注意力權重 (batch_size, num_heads, seq_len_q, seq_len_k)
        attention_output = torch.matmul(attention_weights, V)     # 加權求和 Value,得到每個 head 的注意力輸出 (batch_size, num_heads, seq_len_q, head_dim)

        # 3. 頭部拼接 (Concatenate Heads) & 線性投影 (Output Projection) - 將多個 head 的輸出合併並投影到最終輸出維度
        concat_output = attention_output.transpose(1, 2).contiguous().view(batch_size, seq_len_q, self.embed_dim) # (batch_size, seq_len_q, embed_dim)
        output = self.output_proj(concat_output) # (batch_size, seq_len_q, embed_dim)

        return output, attention_weights # 選擇性返回注意力權重,用於可視化或分析


  • __init__(self, embed_dim, num_heads):
    • embed_dim: 定義輸入特徵的維度,也是模組輸出的維度。 這個維度需要能被 num_heads 整除。
    • num_heads: 定義注意力頭 (heads) 的數量,也就是模型從多少個不同的角度去關注輸入。 常見的頭數量是 8 或 16。
    • self.head_dim = embed_dim // num_heads: 計算每個 head 的維度。 Multi-Head Attention 的核心思想是將輸入的 embed_dim 維度分割成 num_heads 份,每個 head 在較小的 head_dim 維度空間中獨立計算注意力,最後再合併結果。
    • self.query_proj, self.key_proj, self.value_proj: 線性投影層,用於將輸入的 Query, Key, Value 分別投影到 embed_dim 維度的空間。 每個 head 會使用這些投影後的 Q, K, V 的一部分維度進行計算。
    • self.output_proj: 輸出線性投影層,用於將多個 heads 的注意力輸出拼接 (concatenate) 後,再投影回原始的 embed_dim 維度。  
  • forward(self, query, key, value, mask=None):
    • query, key, value: Multi-Head Attention 的輸入,在 MA-Font 的風格編碼器中,它們的來源可能如下 (需要根據 MA-Font 的具體架構設計):
      • query: 可以是待編碼的風格樣本的特徵表示,例如從風格樣本圖像中提取的特徵圖 (feature map)。  
      • key, value: 通常 keyvalue 會是相同的輸入,也可能是風格樣本的特徵表示,或者是一個預先學習好的風格知識庫的表示。 在一些 Self-Attention 的應用中,query, key, value 可以都來自同一個輸入。 在 MA-Font 中,具體如何設計 Query, Key, Value 的來源需要根據其網路結構來確定。 一種可能的設計是,將風格樣本圖像的特徵圖作為 Query,然後 Key 和 Value 也基於這些特徵圖生成,或者 Key 和 Value 代表了從大量字體數據中學習到的通用字體知識。
      • 形狀: 輸入張量的形狀通常是 (batch_size, seq_len, embed_dim),其中 seq_len 代表序列長度,在圖像處理中,如果將空間維度展平成序列,則 seq_len 可以是 height * width 的乘積,或者如果輸入已經是序列化的特徵 (例如,筆畫序列),則 seq_len 就是序列的實際長度。 如果輸入是圖像特徵圖,則可能需要先將特徵圖展平成序列 (例如使用 viewreshape 操作)。 在 MA-Font 中,具體如何處理圖像特徵圖並轉化為適合 Attention 機制的輸入形狀,需要根據其網路結構來設計。
    • mask (可選): 用於遮蔽掉輸入序列中的 padding 部分,或在自注意力 (Self-Attention) 中遮蔽掉未來的信息 (在序列模型中常用)。 在 MA-Font 的字體風格編碼中,mask 可能不是必須的,除非輸入的風格樣本表示中包含了 padding 或需要進行序列遮蔽。
    • 線性投影 (Linear Projections): 程式碼的第一部分 Q = self.query_proj(...), K = self.key_proj(...), V = self.value_proj(...) 將輸入的 query, key, value 分別通過線性層投影,並將最後的維度 embed_dim reshape 成 (num_heads, head_dim) 的形狀,方便後續在每個 head 中獨立計算注意力。 transpose(1, 2) 操作是為了將 head 維度移動到第二維,方便後續的矩陣乘法。
    • 縮放點積注意力 (Scaled Dot-Product Attention):
      • attention_weights = torch.matmul(Q, K.transpose(-2, -1)) / ...: 計算注意力權重的核心步驟。 torch.matmul(Q, K.transpose(-2, -1)) 計算 Query 和 Key 的點積,得到注意力分數 (attention scores)。 點積操作衡量了 Query 和 Key 之間的相似度。 除以 torch.sqrt(torch.tensor(self.head_dim, dtype=torch.float32))縮放 (scaling) 操作,用於防止在 head_dim 較大時,點積結果過大,導致 softmax 後的權重分布過於集中 (梯度消失問題)。
      • if mask is not None: ...: 應用 mask,將需要遮蔽的位置的注意力權重設置為負無窮,softmax 後這些位置的權重會趨近於 0,相當於在注意力計算中忽略這些位置的信息。
      • attention_weights = F.softmax(attention_weights, dim=-1): 對注意力分數在 Key 的維度 (dim=-1) 上做 softmax 正規化,得到注意力權重。 softmax 確保權重值為正數且總和為 1,可以理解為 Query 對不同 Key 的關注程度分布。
      • attention_output = torch.matmul(attention_weights, V): 將注意力權重與 Value 相乘 (加權求和),得到每個 head 的注意力輸出。 注意力權重決定了 Value 中哪些部分應該被更關注,加權求和操作則將 Value 中被關注的部分提取出來,作為注意力機制的輸出。
    • 頭部拼接 (Concatenate Heads) & 線性投影 (Output Projection):
      • concat_output = attention_output.transpose(1, 2).contiguous().view(batch_size, seq_len_q, self.embed_dim): 將多個 heads 的輸出從 (batch_size, num_heads, seq_len_q, head_dim) reshape 成 (batch_size, seq_len_q, embed_dim) 的形狀,也就是將多個 heads 的結果在最後一個維度上拼接起來。 contiguous() 是為了確保 tensor 在內存中是連續的,以滿足 view 操作的要求。
      • output = self.output_proj(concat_output): 將拼接後的輸出通過一個線性層 self.output_proj 投影到最終的輸出維度 embed_dim。 這個線性層可以融合多個 heads 學習到的不同角度的注意力信息。
    • return output, attention_weights: 返回注意力輸出 output 以及注意力權重 attention_weights (選擇性返回,attention_weights 可以用於可視化分析注意力機制是如何運作的)。

如何在 MA-Font 風格編碼器 (Style Encoder) 中整合 Multi-Head Attention Module:

  1. 確定風格編碼器的輸入: 首先需要確定風格編碼器的輸入是什麼。 在 MA-Font 中,風格編碼器的輸入應該是少量的目標風格字體樣本圖像。 這些圖像可能需要經過預處理,例如轉換為灰度圖像、調整大小、標準化等等。
  2. 使用卷積神經網路 (CNN) 提取風格樣本的特徵圖 (Feature Maps): 風格編碼器通常會使用 卷積神經網路 (CNN) 來提取輸入風格樣本圖像的特徵。 CNN 可以有效地捕捉圖像的局部特徵和層次化特徵表示。 例如,可以使用 ResNet、VGG 或其他 CNN 架構。 CNN 的輸出可以是多個層級的特徵圖。
  3. 將特徵圖轉換為適合 Multi-Head Attention 的輸入形狀: Multi-Head Attention Module 通常接受形狀為 (batch_size, seq_len, embed_dim) 的輸入。 如果 CNN 輸出的是特徵圖 (例如 (batch_size, channels, height, width) ),需要將特徵圖展平成序列。 一種常見的做法是將 height 和 width 維度展平,例如使用 reshape(batch_size, channels, height * width).transpose(1, 2),得到形狀為 (batch_size, height * width, channels) 的張量,這樣就可以將 channels 維度作為 embed_dimheight * width 作為 seq_len 輸入到 Multi-Head Attention Module。 具體的轉換方式需要根據 MA-Font 的網路結構和特徵圖的形狀來調整。
  4. 在風格編碼器中加入 Multi-Head Attention Module: 將上述實作的 MultiHeadAttention 模組添加到風格編碼器的網路結構中。 具體的位置需要根據 MA-Font 的設計思路來決定。 可能的整合方式包括:
    • 在 CNN 特徵提取之後,將 Multi-Head Attention 作為一個後處理模組: CNN 提取的特徵圖先展平成序列,然後輸入到 Multi-Head Attention Module 中,利用 Multi-Head Attention 來進一步提煉風格特徵。
    • 在 CNN 的某些層之間加入 Multi-Head Attention Module: 例如,在 CNN 的某幾個卷積層之後,加入 Multi-Head Attention Module,讓模型在提取特徵的過程中就融入注意力機制,更精確地捕捉風格信息。
    • 使用 Multi-Head Attention 來融合多個風格樣本的特徵: 如果 MA-Font 需要處理多個風格樣本,可以使用 Multi-Head Attention 來融合這些樣本的特徵,例如將不同風格樣本的特徵圖作為 Query, Key, Value 輸入到 Multi-Head Attention 中,利用注意力機制來學習不同風格樣本之間的關聯性,並提取出更全面的風格表示。
  5. 設計風格向量的輸出: Multi-Head Attention Module 的輸出仍然是一個形狀為 (batch_size, seq_len, embed_dim) 的張量。 風格編碼器通常需要輸出一個固定維度的風格向量 (Style Vector)。 因此,在 Multi-Head Attention Module 的輸出之後,可能還需要加入一些 池化層 (Pooling Layer) (例如 Global Average Pooling 或 Global Max Pooling) 或 線性層 (Linear Layer),將序列化的輸出匯聚成一個固定維度的風格向量。 這個風格向量最終會被傳遞到生成器 (Generator) 中,用於引導字體生成。

程式碼整合範例 (概念性):

以下是一個概念性的程式碼範例,展示如何將上述實作的 MultiHeadAttention 模組整合到一個簡化的風格編碼器中 (僅為演示概念,實際 MA-Font 的風格編碼器可能更複雜):

class StyleEncoderWithAttention(nn.Module):
    def __init__(self, embed_dim, num_heads):
        self.cnn_layers = nn.Sequential( # 簡化的 CNN 特徵提取層
            nn.Conv2d(1, 32, kernel_size=3, stride=2, padding=1), nn.ReLU(),
            nn.Conv2d(32, 64, kernel_size=3, stride=2, padding=1), nn.ReLU(),
            nn.Conv2d(64, embed_dim, kernel_size=3, stride=2, padding=1), nn.ReLU() # 輸出 channels = embed_dim
        self.attention_module = MultiHeadAttention(embed_dim=embed_dim, num_heads=num_heads)
        self.global_pool = nn.AdaptiveAvgPool2d((1, 1)) # Global Average Pooling

    def forward(self, style_images):

            style_images (Tensor): 風格樣本圖像,形狀 (batch_size, C, H, W)  (假設為灰度圖像 C=1)

            Tensor: 風格向量 (Style Vector),形狀 (batch_size, embed_dim)
        features = self.cnn_layers(style_images) # (batch_size, embed_dim, H', W') CNN 特徵提取
        batch_size, channels, height, width = features.size()
        features_flatten = features.view(batch_size, channels, height * width).transpose(1, 2) # (batch_size, H'*W', embed_dim) 展平成序列

        # 將展平的特徵圖作為 Query, Key, Value 輸入到 Multi-Head Attention
        attention_output, _ = self.attention_module(features_flatten, features_flatten, features_flatten) # Self-Attention
        pooled_output = self.global_pool(attention_output.transpose(1, 2).view(batch_size, channels, height, width)).flatten(1) # Global Average Pooling

        return pooled_output # (batch_size, embed_dim) 風格向量

# 示例使用
embed_dimension = 128
num_attention_heads = 8
style_encoder = StyleEncoderWithAttention(embed_dim=embed_dimension, num_heads=num_attention_heads)

# 假設輸入風格樣本圖像 shape 為 (batch_size, 1, 64, 64)
dummy_style_images = torch.randn(2, 1, 64, 64)
style_vector = style_encoder(dummy_style_images) # 得到風格向量,shape (2, 128)

print("Style Vector Shape:", style_vector.shape) # 預期輸出 Style Vector Shape: torch.Size([2, 128])


  • 超參數調整: Multi-Head Attention Module 中,embed_dim (embedding 維度) 和 num_heads (頭數量) 是重要的超參數,需要根據具體任務和數據集進行調整。 可以嘗試不同的 embed_dimnum_heads 組合,例如 num_heads 可以嘗試 4, 8, 16 等,embed_dim 可以根據網路規模和計算資源進行調整。
  • Query, Key, Value 的設計: 在 MA-Font 風格編碼器中,如何設計 Query, Key, Value 的來源是關鍵。 可以嘗試不同的設計,例如 Self-Attention (Q=K=V),或者 Query 來自待編碼的風格樣本,Key 和 Value 來自預訓練的知識庫,或者使用 Cross-Attention 等等。 需要根據 MA-Font 論文的思路,以及你的具體任務需求來設計。
  • Multi-Head Attention 的層數: 可以堆疊多層 Multi-Head Attention Module 來提升模型的複雜度和表達能力。 例如,可以將多個 MultiHeadAttention 模組串聯起來,形成更深層的注意力網路。
  • 與其他 Normalization Layer 的結合: Multi-Head Attention Module 通常可以與 Layer Normalization ( nn.LayerNorm ) 或其他 Normalization Layer 結合使用,以提升訓練穩定性。 例如,可以在 Multi-Head Attention 的輸入和輸出都加入 nn.LayerNorm
  • 消融實驗 (Ablation Study): 為了驗證 Multi-Head Attention Module 的有效性,可以進行消融實驗。 例如,比較加入 Multi-Head Attention Module 和不加入 Multi-Head Attention Module 的模型,在少樣本字體生成任務上的性能差異。 也可以嘗試不同數量的 heads,不同位置的 Multi-Head Attention Module,以及不同的 Query, Key, Value 設計,來分析哪種配置效果最好。
  • 參考 MA-Font 論文的具體架構: 最重要的是仔細研讀 MA-Font 論文原文,嘗試理解論文中提出的 Multi-Adaptation Method 的具體網路結構設計,以及風格編碼器是如何工作的。 論文中可能會提供更詳細的網路結構圖或文字描述,這些信息對於實作 Multi-Head Attention Module 以及整個 MA-Font 模型都非常重要。 上述程式碼範例僅為一個通用的 Multi-Head Attention Module 實作,具體應用到 MA-Font 中還需要根據論文的細節進行調整和修改。


實作 MA-Font 風格的 Multi-Head Attention Module 的關鍵在於 理解 Multi-Head Attention 的原理,並 根據 MA-Font 論文的精神和你的具體網路結構,將其有效地整合到風格編碼器 (Style Encoder) 中。 上述程式碼範例提供了一個通用的 Multi-Head Attention Module 實作和一個概念性的風格編碼器整合範例。 實際應用時,需要仔細參考 MA-Font 論文,進行更精細的設計和實驗驗證,才能獲得最佳的少樣本字體生成效果。

chatgpt 回答:

MA-FontMulti-Head Attention Module(多頭注意力模組)中,關鍵在於使用 自注意力機制(Self-Attention) 來捕捉局部和全局風格特徵,並將其應用於字體風格轉換。這類型的注意力機制類似於 Transformer 中的 Multi-Head Attention (MHA),但根據字體生成的需求進行調整。

📌 Multi-Head Attention 的關鍵步驟

1️⃣ 計算 Query(Q)、Key(K)、Value(V)

在 Transformer 中,MHA 的公式如下:Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{Q K^T}{\sqrt{d_k}} \right) VAttention(Q,K,V)=softmax(dk​​QKT​)V

  • Query (Q):代表輸入特徵,希望從風格圖像中學習的資訊。
  • Key (K):風格圖像的特徵,用於與 Query 進行相似度計算。
  • Value (V):從風格圖像提取的特徵,根據相似度加權後用於字體風格生成。

2️⃣ 設計 PyTorch Multi-Head Attention

以下是基於 PyTorch 的 Multi-Head Attention 實作,應用於 MA-Font 風格轉換:

pythonCopyEditimport torch
import torch.nn as nn

class MultiHeadAttention(nn.Module):
    def __init__(self, embed_dim, num_heads):
        super(MultiHeadAttention, self).__init__()
        assert embed_dim % num_heads == 0, "embed_dim 必須能被 num_heads 整除"
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.head_dim = embed_dim // num_heads  # 每個 head 的維度

        # 產生 Q, K, V 的線性層
        self.q_proj = nn.Linear(embed_dim, embed_dim)
        self.k_proj = nn.Linear(embed_dim, embed_dim)
        self.v_proj = nn.Linear(embed_dim, embed_dim)

        # 最終輸出的線性變換
        self.out_proj = nn.Linear(embed_dim, embed_dim)

        # Softmax 層
        self.softmax = nn.Softmax(dim=-1)

    def forward(self, content_features, style_features):
        content_features: (batch, seq_len, embed_dim)
        style_features: (batch, seq_len, embed_dim)
        batch_size = content_features.shape[0]

        # 計算 Q, K, V
        Q = self.q_proj(content_features)  # (batch, seq_len, embed_dim)
        K = self.k_proj(style_features)    # (batch, seq_len, embed_dim)
        V = self.v_proj(style_features)    # (batch, seq_len, embed_dim)

        # 拆分成多頭
        Q = Q.view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)  # (batch, num_heads, seq_len, head_dim)
        K = K.view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)
        V = V.view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)

        # 計算注意力分數
        attn_scores = torch.matmul(Q, K.transpose(-2, -1)) / (self.head_dim ** 0.5)  # (batch, num_heads, seq_len, seq_len)
        attn_weights = self.softmax(attn_scores)

        # 加權求和
        attn_output = torch.matmul(attn_weights, V)  # (batch, num_heads, seq_len, head_dim)

        # 合併多頭輸出
        attn_output = attn_output.transpose(1, 2).contiguous().view(batch_size, -1, self.embed_dim)  # (batch, seq_len, embed_dim)

        # 經過最後的線性層
        output = self.out_proj(attn_output)

        return output

📌 如何在 MA-Font 中應用 Multi-Head Attention?

在 MA-Font 中,這個模組的作用是:

  1. 輸入內容特徵(content_features) → 來自目標字體的特徵
  2. 輸入風格特徵(style_features) → 來自風格參考字體的特徵
  3. 學習風格轉換映射
    • 內容特徵作為 Query
    • 風格特徵作為 Key 和 Value
    • 讓內容特徵與風格特徵對齊,進行字體風格遷移

📌 其他優化技巧

  • LayerNorm: 加入 nn.LayerNorm(embed_dim) 提升穩定性。
  • Positional Encoding: 若使用 Transformer-style 設計,可加入位置編碼,保留空間資訊。
  • Residual Connection: 在輸出與輸入進行 x + output 以強化資訊傳遞。

📌 總結

Multi-Head Attention 在 MA-Font 中負責學習 風格特徵的局部與全局關係
使用 Query-K-V 結構,讓內容特徵對齊風格特徵,進行字體風格變換。

  • 計算 Query (內容特徵)、Key & Value (風格特徵)。
  • 使用多頭機制增強風格資訊的提取能力。
  • 將風格特徵映射到內容特徵,產生目標字體。

這樣的 Multi-Head Attention 設計,能讓少樣本字體生成更精準地匹配風格特徵,提升字體風格遷移的效果。


