Diagram
1. Sơ đồ Tổng quan - Luồng Chức năng Chính¶
Sơ đồ này cho thấy cái nhìn toàn cảnh về cách dữ liệu di chuyển qua các thành phần.
+-------------+ z +-------------+ ŷ +--------------------+
Input (x) | | | | | |
---------> | Dense Layer | --Logits--> | Softmax | --Probs.--> | Cross-Entropy Loss | ---> Loss (L)
| | | | | |
+-------------+ +-------------+ +---------^----------+
|
|
y (True Labels)
Giải thích:
* Dữ liệu x
đi qua Dense Layer để tạo ra các điểm số thô Logits (z).
* z
đi qua Softmax để trở thành các xác suất Probs. (ŷ).
* Cả ŷ
và nhãn đúng y
cùng được đưa vào hàm Cross-Entropy Loss để tính ra sai số cuối cùng Loss (L).
2. Sơ đồ Phụ thuộc Chi tiết - "Mở các Hộp đen"¶
Đây là phần quan trọng nhất để hiểu Quy tắc Chuỗi. Chúng ta sẽ xem xét từng mối quan hệ một.
Phần A: Sự phụ thuộc từ Logits (z) đến Predictions (ŷ)¶
Đây là mối quan hệ Nhiều-vào-Nhiều (Many-to-Many). Do có mẫu số chung trong công thức Softmax, một thay đổi ở bất kỳ z
nào cũng sẽ ảnh hưởng đến tất cả các ŷ
.
+------+ +--------------------------+ +-------+
| z₁ | --------------> | | --------------> | ŷ₁ |
+------+ | | +-------+
| |
+------+ | SOFTMAX INTERACTION | +-------+
| z₂ | --------------> | (Shared Denominator) | --------------> | ŷ₂ |
+------+ | | +-------+
| |
+------+ | | +-------+
| z₃ | --------------> | | --------------> | ŷ₃ |
+------+ +--------------------------+ +-------+
LOGITS (Sự phụ thuộc chằng chịt) PREDICTIONS
Giải thích:
- Tưởng tượng hộp "SOFTMAX INTERACTION" ở giữa là nơi tất cả các giá trị \(e^{z_i}\) được cộng lại để tạo thành mẫu số.
- Vì tất cả các
ŷ
đều phải chia cho cùng một mẫu số này, chúng bị ràng buộc với nhau. Thay đổiz₁
sẽ thay đổi mẫu số, và do đó làm thay đổi cảŷ₁
,ŷ₂
, vàŷ₃
.
Phần B: Sự phụ thuộc từ Predictions (ŷ) đến Loss (L)¶
Đây là mối quan hệ Nhiều-vào-Một (Many-to-One). Tất cả các xác suất ŷ
cùng được đưa vào một công thức tổng để tính ra một giá trị Loss duy nhất.
+-------+
| ŷ₁ | ----------------.
+-------+ |
v
+-------+ +------+
| ŷ₂ | -----------> | |
+-------+ | L | ---> Loss cuối cùng
^ |
+-------+ | |
| ŷ₃ | ----------------' |
+-------+ +------+
PREDICTIONS (Sự hội tụ)
Giải thích:
- Mỗi
ŷ
là một thành phần trong công thức \(L = - \sum y_j \log(\hat{y}_j)\). Do đó, tất cả chúng đều ảnh hưởng đến kết quảL
.
3. Sơ đồ Tổng hợp - Con đường của Quy tắc Chuỗi¶
Bây giờ, hãy hình dung con đường mà một thay đổi ở \(z_1\) lan truyền đến L
. Nó phải đi qua TẤT CẢ các ŷ_j
.
.----------------> ŷ₁ ---.
/ \
/ \
z₁ =========================> ------[SOFTMAX]-----> ŷ₂ ------> L
\ /
\ /
'----------------> ŷ₃ ---'
Giải thích trực quan cho Quy tắc Chuỗi:
-
Câu hỏi: Nếu tôi "rung" nhẹ \(z_1\), thì
L
sẽ "rung" mạnh đến mức nào? -
Phân tích con đường:
- Cú rung ở \(z_1\) lan tỏa và làm rung cả \(\hat{y}_1, \hat{y}_2, \hat{y}_3\).
- Sau đó, các cú rung ở \(\hat{y}_1, \hat{y}_2, \hat{y}_3\) cùng hợp lại và làm rung
L
.
-
Quy tắc Chuỗi: Tác động tổng cộng lên
L
chính là tổng hợp của tác động từ cả ba con đường này.Tác động tổng = (Tác động qua ŷ₁) + (Tác động qua ŷ₂) + (Tác động qua ŷ₃)
Đây là lý do tại sao công thức đạo hàm \(\frac{\partial L}{\partial z_k}\) có dạng một tổng \(\sum_j\):