Skip to content

Diagram

1. Sơ đồ Tổng quan - Luồng Chức năng Chính

Sơ đồ này cho thấy cái nhìn toàn cảnh về cách dữ liệu di chuyển qua các thành phần.

Text Only
           +-------------+      z      +-------------+      ŷ      +--------------------+
Input (x)  |             |             |             |             |                    |
---------> | Dense Layer | --Logits--> |   Softmax   | --Probs.--> | Cross-Entropy Loss | ---> Loss (L)
           |             |             |             |             |                    |
           +-------------+             +-------------+             +---------^----------+
                                                                             |
                                                                             |
                                                                    y (True Labels)

Giải thích: * Dữ liệu x đi qua Dense Layer để tạo ra các điểm số thô Logits (z). * z đi qua Softmax để trở thành các xác suất Probs. (ŷ). * Cả ŷ và nhãn đúng y cùng được đưa vào hàm Cross-Entropy Loss để tính ra sai số cuối cùng Loss (L).


2. Sơ đồ Phụ thuộc Chi tiết - "Mở các Hộp đen"

Đây là phần quan trọng nhất để hiểu Quy tắc Chuỗi. Chúng ta sẽ xem xét từng mối quan hệ một.

Phần A: Sự phụ thuộc từ Logits (z) đến Predictions (ŷ)

Đây là mối quan hệ Nhiều-vào-Nhiều (Many-to-Many). Do có mẫu số chung trong công thức Softmax, một thay đổi ở bất kỳ z nào cũng sẽ ảnh hưởng đến tất cả các ŷ.

Text Only
    +------+                 +--------------------------+                 +-------+
    |  z₁  | --------------> |                          | --------------> |  ŷ₁   |
    +------+                 |                          |                 +-------+
                             |                          |
    +------+                 |   SOFTMAX INTERACTION    |                 +-------+
    |  z₂  | --------------> |  (Shared Denominator)    | --------------> |  ŷ₂   |
    +------+                 |                          |                 +-------+
                             |                          |
    +------+                 |                          |                 +-------+
    |  z₃  | --------------> |                          | --------------> |  ŷ₃   |
    +------+                 +--------------------------+                 +-------+

           LOGITS                            (Sự phụ thuộc chằng chịt)                   PREDICTIONS

Giải thích:

  • Tưởng tượng hộp "SOFTMAX INTERACTION" ở giữa là nơi tất cả các giá trị \(e^{z_i}\) được cộng lại để tạo thành mẫu số.
  • Vì tất cả các ŷ đều phải chia cho cùng một mẫu số này, chúng bị ràng buộc với nhau. Thay đổi z₁ sẽ thay đổi mẫu số, và do đó làm thay đổi cả ŷ₁, ŷ₂, và ŷ₃.
Phần B: Sự phụ thuộc từ Predictions (ŷ) đến Loss (L)

Đây là mối quan hệ Nhiều-vào-Một (Many-to-One). Tất cả các xác suất ŷ cùng được đưa vào một công thức tổng để tính ra một giá trị Loss duy nhất.

Text Only
    +-------+
    |  ŷ₁   | ----------------.
    +-------+                 |
                              v
    +-------+              +------+
    |  ŷ₂   | -----------> |      |
    +-------+              |  L   | ---> Loss cuối cùng
                              ^    |
    +-------+                 |    |
    |  ŷ₃   | ----------------'    |
    +-------+                      +------+

    PREDICTIONS                  (Sự hội tụ)

Giải thích:

  • Mỗi ŷ là một thành phần trong công thức \(L = - \sum y_j \log(\hat{y}_j)\). Do đó, tất cả chúng đều ảnh hưởng đến kết quả L.

3. Sơ đồ Tổng hợp - Con đường của Quy tắc Chuỗi

Bây giờ, hãy hình dung con đường mà một thay đổi ở \(z_1\) lan truyền đến L. Nó phải đi qua TẤT CẢ các ŷ_j.

Text Only
                                    .----------------> ŷ₁ ---.
                                   /                          \
                                  /                            \
    z₁  =========================> ------[SOFTMAX]-----> ŷ₂ ------> L
                                  \                            /
                                   \                          /
                                    '----------------> ŷ₃ ---'

Giải thích trực quan cho Quy tắc Chuỗi:

  • Câu hỏi: Nếu tôi "rung" nhẹ \(z_1\), thì L sẽ "rung" mạnh đến mức nào?

  • Phân tích con đường:

    1. Cú rung ở \(z_1\) lan tỏa và làm rung cả \(\hat{y}_1, \hat{y}_2, \hat{y}_3\).
    2. Sau đó, các cú rung ở \(\hat{y}_1, \hat{y}_2, \hat{y}_3\) cùng hợp lại và làm rung L.
  • Quy tắc Chuỗi: Tác động tổng cộng lên L chính là tổng hợp của tác động từ cả ba con đường này.

    • Tác động tổng = (Tác động qua ŷ₁) + (Tác động qua ŷ₂) + (Tác động qua ŷ₃)

Đây là lý do tại sao công thức đạo hàm \(\frac{\partial L}{\partial z_k}\) có dạng một tổng \(\sum_j\):

\[ \frac{\partial L}{\partial z_k} = \sum_j (\text{Tác động từ } \hat{y}_j \text{ lên } L) \cdot (\text{Tác động từ } z_k \text{ lên } \hat{y}_j) \]