注意力殘差（Attention Residuals）

2026-04-102026-04-10

老王來介紹新技術: 注意力残差是什么？ [白话读论文]
https://www.youtube.com/watch?v=pGYrWsNQ8A0

注意力殘差的定義

注意力殘差（Attention Residuals）是一種進階的設計，它不只是像傳統殘差那樣傳遞資料數值，而是將上一層的注意力權重（也就是關注哪裡的比例）直接傳遞給下一層。你可以把它想像成一種經驗傳承，後面的層級不需要重新學習從哪裡開始看，而是參考前一層的觀察結果，再做進一步的修正。

解決深度模型中的注意力崩潰

在非常深的模型中，傳統的殘差連接雖然解決了資料傳遞的問題，但注意力機制本身可能會出錯。隨著層數增加，每一層計算出來的注意力圖可能會變得越來越模糊或是一模一樣，這種現象稱為注意力崩潰。注意力殘差透過將上一層的注意力分數與當前層相加，確保了關注點的連續性。這就像是在閱讀長篇文章時，每一段都會回顧前一段的重點，而不是每讀一行就完全忘記剛才在看哪裡。

資訊流與關係流的雙重傳遞

在標準的 Transformer 結構中，殘差連接傳遞的是特徵資訊（也就是內容是什麼）。而注意力殘差則是在傳遞關係資訊（也就是誰跟誰有關聯）。這種設計讓模型在學習複雜邏輯時，能夠在不同的深度之間保持一致的理解邏輯。當每一層都能直接存取前一層的注意力分佈時，模型就更容易發現長距離的字詞關聯，而不會因為網路太深而導致邏輯斷層。

對模型訓練的實質幫助

引入注意力殘差後，模型對於初始化參數的依賴會降低。因為有了前一層的參考路徑，模型在訓練初期就不容易亂看，收斂的速度會變快。更重要的是，這讓開發者可以堆疊出比以前更深的模型，而不會遇到準確率不升反降的問題。這項技術目前被廣泛應用在追求極限性能的大型語言模型優化中。

注意力殘差與傳統殘差的主要區別在於，它是在關注度的層面上進行捷徑連接，而不僅僅是數值上的加減。這讓人工智慧在處理深層邏輯時，能保有一種持續性的注意力焦點。

殘差連接（Residual Connections） 本身是為了「解決」深層網路問題而設計的，而不是「造成」問題。但在 Transformer 架構中，自注意力機制（Self-Attention）與殘差連接的排列順序（即 Pre-LN 與 Post-LN），會決定模型是否能穩定訓練。

解決梯度爆炸與訓練不穩定

在原始的 Transformer 設計（Post-LN）中，殘差連接是在注意力運算與層歸一化（Layer Norm）之後才相加。這會導致越靠近輸出層的梯度量級越大，讓模型在訓練初期非常不穩定，必須使用極小的學習率或複雜的 Warm-up 策略。現在主流的改進方式是將 Layer Norm 放在殘差路徑的「內側」（Pre-LN），讓輸入資訊能有一條完全清空的捷徑通往深層，這解決了深層 Attention 難以收斂的問題。

緩解 Attention 帶來的低秩崩潰

自注意力機制本質上是一種加權平均，當網路非常深時，連續的加權平均會讓不同字詞的向量變得越來越像，這種現象稱為過度平滑（Over-smoothing）或低秩崩潰（Rank Collapse）。殘差連接將「原始輸入」強行保留並加回輸出中，確保了每個層級的特徵始終保有一定的多樣性與原始資訊，防止模型最後輸出的向量全都變成一樣。

確保資訊傳遞的直達性

注意力機制雖然強大，但它的計算非常複雜且具有高度非線性。殘差連接為模型提供了一條線性通道。當模型發現某些層的注意力運算對當前的任務沒有貢獻時，它可以透過訓練將該層的權重調小，讓資訊直接跳過該層。這讓模型在學習複雜關聯的同時，不會因為多餘的計算而損失原本正確的判斷。

優化深層特徵的組合

在處理長文本或複雜邏輯時，底層的字面資訊（如：這個字是什麼）與高層的語意資訊（如：這句話是什麼語氣）需要同時存在。殘差連接透過簡單的加法運算，將不同深度的特徵進行融合。這讓 Attention 不必在每一層都重新學習基礎資訊，而能專注於提取更高階的關聯性，解決了深層網路容易遺失底層細節的問題。

在深度學習架構中，殘差連接（Residual Connections）主要用來解決自注意力機制（Self-Attention）在層數堆疊時產生的退化問題，特別是在 Transformer 這類模型中扮演關鍵的穩定角色。

梯度消失與資訊退化

自注意力機制的運算包含矩陣乘法與 Softmax 歸一化。當模型深度增加時，梯度在反向傳播過程中經過多層非線性轉換與縮放，容易出現梯度消失（Gradient Vanishing）的現象。殘差連接透過將輸入直接加到輸出的捷徑（Shortcut），讓梯度可以更順暢地回傳到較淺層的網路，確保權重能有效更新。

恆等映射的保護

在多層注意力的運算中，模型有時會過度處理資訊，導致原始輸入的細節在層層傳遞中被抹除。殘差連接提供了一個恆等映射（Identity Mapping）的通道。如果某一層的注意力機制沒有學到有用的特徵，模型可以輕易地將殘差項趨近於零，讓原始資訊直接傳遞下去。這避免了深層網路的表現反而不如淺層網路的退化現象。

數值穩定性與收斂速度

注意力機制中的 Scaled Dot-Product 計算容易產生極端數值，這會影響訓練的穩定性。配合層歸一化（Layer Normalization），殘差連接能將每一層的輸出維持在較合理的數值範圍內。這不僅讓模型能夠訓練得更深，也能顯著加快損失函數的收斂速度，讓模型在較短的時間內達到更好的性能。

特徵重用

在處理複雜語意時，底層的字詞特徵（例如詞性、語法）與高層的抽象語意（例如情感、主題）同樣重要。殘差連接讓高層的輸出包含了底層的原始資訊，實現了特徵重用（Feature Reuse）。這種結構確保了模型在關注全局關聯性的同時，不會遺失輸入序列最基本的局部資訊。

自注意力機制的運作邏輯

自注意力（Self-Attention）的核心目的，是讓模型在處理一個序列（例如一段文字）時，能夠自動判斷序列中每個元素與其他元素之間的關聯程度。簡單來說，當模型讀到一個字時，它會去「看」句子裡的其他字，並決定哪些字對理解當前的字最有幫助。

運算的三個關鍵矩陣

為了實現這種相互觀察的機制，輸入的向量會透過三個不同的線性轉換，生成三組向量：查詢（Query）、鍵值（Key）以及數值（Value）。你可以把這個過程想像成在圖書館找書：

查詢（Query）：代表你現在想要找的東西，也就是當前的字。
鍵值（Key）：代表架上所有書的標籤，用來跟你的查詢做比對。
數值（Value）：代表書本真正的內容。

核心計算流程

首先會計算查詢與所有鍵值的相似度。通常是將兩個向量進行點積（Dot Product），得到的數值越高，代表這兩個字的關聯性越強。接著，這些分數會經過一個縮放處理與 Softmax 函數，將它們轉換成加總為 1 的權重機率。

最後，將這些權重與對應的數值（Value）相乘並加總。這樣得到的輸出向量，就不再只是單個字的資訊，而是融合了整個句子上下文後的表現。關聯性越高的字，其資訊在輸出中所佔的比重就越大。

為什麼自注意力這麼重要

傳統的循環神經網路（RNN）必須循序處理資訊，容易忘記前面的內容。自注意力機制則允許模型在一個步驟內同時觀察序列中的所有位置，這不僅解決了長距離依賴的問題，也讓模型可以平行運算，大幅提升處理效率。這正是 Transformer 模型與現代大型語言模型能夠強大的基礎。

Max的程式語言筆記