0% found this document useful (0 votes)

22 views46 pages

Initializers (Advanced) - Update

The document discusses initialization techniques for neural networks. It provides examples of how ReLU and sigmoid activations can affect gradient vanishing and explosion when used with different data normalization techniques. It also introduces the Xavier and Kaiming He initialization methods to address these issues.

Uploaded by

sx9ttnpq9s

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

22 views46 pages

Initializers (Advanced) - Update

Uploaded by

sx9ttnpq9s

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 46

AI VIETNAM

All-in-One Course

Multi-layer Perception
Initialization (Advanced)

Quang-Vinh Dinh
Ph.D. in Computer Science

Year 2023
Outline
➢ Case Studies
➢ Gradient Vanishing
➢ Gradient Explosion
➢ Xavier Glorot Initialization
➢ Kaiming He Initialization
𝑋 ∈ 0, 255
Normalize(𝑚𝑒𝑎𝑛, std)
Image −𝑚𝑒𝑎𝑛
Image =
std

𝑧1
Normalization

28 Fully Fully
connect connect Output

...
784 Softmax

...

...
28
activation
flatten
𝑧10

1 1

784 Nodes 256 Nodes 10 Nodes

+ ReLU + ReLU Output layer 1
𝑋 ∈ −1, 1
Normalize(𝑚𝑒𝑎𝑛, std)
Image −𝑚𝑒𝑎𝑛
Image =
std

𝑧1
Normalization

28 Fully Fully
connect connect Output

...
784 Softmax

...

...
28
activation
flatten
𝑧10

1 1

784 Nodes 256 Nodes 10 Nodes

+ ReLU + ReLU Output layer 2
AI VIETNAM
All-in-One Course
Experimental Results

ReLU + [0, 255] ReLU + [-1, 1]

3
𝑋 ∈ 0, 255
Normalize(𝑚𝑒𝑎𝑛, std)
Image −𝑚𝑒𝑎𝑛
Image =
std

𝑧1
Normalization

28 Fully Fully
connect connect Output

...
784 Softmax

...

...
28
activation
flatten
𝑧10

1 1

784 Nodes 256 Nodes 10 Nodes

+ Sigmoid + Sigmoid Output layer 4
𝑋 ∈ −1, 1
Normalize(𝑚𝑒𝑎𝑛, std)
Image −𝑚𝑒𝑎𝑛
Image =
std

𝑧1
Normalization

28 Fully Fully
connect connect Output

...
784 Softmax

...

...
28
activation
flatten
𝑧10

1 1

784 Nodes 256 Nodes 10 Nodes

+ Sigmoid + Sigmoid Output layer 5
AI VIETNAM
All-in-One Course
Experimental Results

Sigmoid + [0, 255] Sigmoid + [-1, 1]

6
Outline
➢ Case Studies
➢ Gradient Vanishing
➢ Gradient Explosion
➢ Xavier Glorot Initialization
➢ Kaiming He Initialization
AI VIETNAM
All-in-One Course
Gradient Vanishing
Large weight initialization

𝑋 w1 w2
z1 s z2 𝑦ො0
b2 Cross
Softmax
Entropy
b1 w3
1 1 z3 𝑦ො1
b3
Layer 1 Layer 2

7
AI VIETNAM
All-in-One Course
Gradient Vanishing
Large weight initialization

𝐿′w1 = 9 ∗ 10−7
2.4 𝐿′w2 = −0.972

6.74 9.808
z1 s z3 𝑦ො0
0.0 Cross
Softmax
Entropy
0.0 13.3 𝑦ො1
1 1 z4
0.0
with 𝜂 = 0.01
Layer 1 Layer 2
𝜂𝐿′w1 = 9 ∗ 10−9

𝜂𝐿′b1 = 4 ∗ 10−9 𝐿′b1 = 4 ∗ 10−7

8
AI VIETNAM
All-in-One Course
Gradient Vanishing
𝑋

w1 w2 w3 w4
z1 s z2 s z3 s z4 s 1
w5 w6
b1 b2 b3 b4 Layer 5
1 1 1 1
b5 b6
Layer 1 Layer 2 Layer 3 Layer 4
z5 z6

s Softmax
Sigmoid function

Loss
MLP with 5 layers 𝑦ො0 𝑦ො1
Computation

Cross Entropy 𝑦
AI VIETNAM
All-in-One Course
Gradient Vanishing
2.4

0.919 −0.812 1.471 −0.776

z1 s z2 s z3 s z4 s 1
−0.309 1.133
0.0 0.0 0.0 0.0
1 1 1 1 Layer 5
0.0 0.0
Layer 1 Layer 2 Layer 3 Layer 4
z5 z6

s Softmax
Sigmoid function

Loss −0.118 0.433

MLP with 5 layers Computation

1.0066 0
AI VIETNAM
All-in-One Course
Gradient Vanishing
2.4 𝐿′ = −0.002 𝐿′w2 = −0.011 𝐿′w3 = −0.012 𝐿′w4 = 0.133
w1

0.919 −0.812 1.471 −0.776

z1 s z2 s z3 s z4 s 1
−0.309 1.133
0.0 0.0 0.0 0.0
1 1 1 1
0.0 0.0

𝐿′b1 = 0.0009 𝐿′b2 = −0.012 𝐿′b3 = −0.039 𝐿′b4 = 0.216 z5 z6

Derivative values are too small

Softmax
w1 = w1 − 𝜂𝐿′w1
= 0.919 − 0.01 ∗ (−0.0002) −0.118 0.433
MLP with 5 layers
= 0.919002
1.0066 0
b1 = b1 − 𝜂𝐿′b =9 ∗ 10−6
AI VIETNAM
All-in-One Course
Gradient Vanishing
𝑋

w1
z1 s
w2
z2 s
w3
z3 ..... s 1
w5 w6
b1 b2 b3 Layer 8
1 1 1
b5 b6
Layer 1 Layer 2 Layer 3
z5 z6

s Softmax
Sigmoid function

Loss
MLP with 8 layers 𝑦ො0 𝑦ො1
Computation

Cross Entropy 𝑦
AI VIETNAM
All-in-One Course
Gradient Vanishing
𝑋 𝐿′w = 7 ∗ 10−7
1

−0.358
z1 s
−1.683
z2 s
−0.1407
z3 ..... s 1

0.0 0.0 0.0

1 1 1 Layer 8

𝐿′b1 = 3 ∗ 10−7 z5 z6

𝜂𝐿′w1 = 7 ∗ 10−9
Softmax
𝜂𝐿′b1 =3 ∗ 10−9
Loss
MLP with 8 layers 𝑦ො0 𝑦ො1
Derivative values Computation
are super small
Cross Entropy 𝑦
AI VIETNAM
All-in-One Course
Gradient Explosion
Large weight initialization
and large learning rate

s PReLU function
𝐿′w1 = 99.2
2.4 𝐿′w2 = −54.6

2.68 −3.27
z1 p z3 𝑦ො0
0.0 Cross
Softmax
Entropy
0.0 1.58 𝑦ො1
1 1 z4
0.0
with 𝜂 = 10
Layer 1 Layer 2
𝜂𝐿′w1 = 99

𝜂𝐿′b1 = 48.6 𝐿′b1 = 4.86

14
Outline
➢ Case Studies
➢ Gradient Vanishing
➢ Gradient Explosion
➢ Xavier Glorot Initialization
➢ Kaiming He Initialization
AI VIETNAM
All-in-One Course
Mean
Data
1 2
𝑃𝑋 𝑋 = 2 = 𝑃𝑋 𝑋 = 4 =
𝑋 = {𝑋1 , … , 𝑋𝑁 } 6 6

1 1
Formula 𝑃𝑋 𝑋 = 8 = 𝑃𝑋 𝑋 = 1 =
6 6
𝑁

𝐸 𝑋 = ෍ 𝑋𝑖 𝑃𝑋 (𝑋𝑖 ) 1
𝑃𝑋 𝑋 = 5 =
𝑖=1 6

Given the data 1 1 1 2 1

𝐸 𝑋 =2× +8× +5× +4× +1×
𝑋 = {2, 8, 5, 4, 1, 4} 6 6 6 6 6
2 8 5 8 1
𝑁=6 = + + + + =4
6 6 6 6 6 15
AI VIETNAM
All-in-One Course
Mean
𝑁 𝑁
Data
𝐸 𝑋𝑌 = ෍ ෍ 𝑋𝑖 𝑌𝑗 𝑃(𝑋𝑖 , 𝑌𝑗 )
𝑋 = {𝑋1 , … , 𝑋𝑁 } 𝑖=1 𝑗=1

𝑁 𝑁
Formula = ෍ ෍ 𝑋𝑖 𝑌𝑗 𝑃(𝑋𝑖 )𝑃(𝑌𝑗 )
𝑁 𝑖=1 𝑗=1

𝐸 𝑋 = ෍ 𝑋𝑖 𝑃𝑋 (𝑋𝑖 ) 𝑁 𝑁
𝑖=1
= ෍ 𝑋𝑖 𝑃(𝑋𝑖 ) ෍ 𝑌𝑗 𝑃(𝑌𝑗 )
𝑖=1 𝑗=1

=𝐸 𝑋 𝐸 𝑌

16
AI VIETNAM
All-in-One Course
Variance
Formula Example: 𝑋 = {5, 3 6, 7, 4}
mean 1 1 1 1 1
𝑁
𝐸 𝑋 =5× +3× +6× +7× +4×
𝐸 𝑋 = ෍ 𝑋𝑖 𝑃𝑋 (𝑋𝑖 ) 5 5 5 5 5
𝑖=1
=5

variance 1
𝑣𝑎𝑟(𝑋) = [ 5 − 5 2 + 3−5 2 + 6 − 5 2+
2 5
𝑣𝑎𝑟(𝑋) = 𝐸 𝑋−𝐸 𝑋 2
7−5 + 4 − 5 2]
𝑁
2 1
= ෍ 𝑋𝑖 − 𝐸 𝑋 𝑃𝑋 (𝑋𝑖 ) = (0+4+1+4+1)=2
5
𝑖=1

Standard
𝜎= 𝑣𝑎𝑟(𝑋) 𝜎= 𝑣𝑎𝑟(𝑋) = 1.41
deviation

17
AI VIETNAM
All-in-One Course
Variance
𝑁
Formula 2
𝑣𝑎𝑟 𝑋 = ෍ 𝑋𝑖 − 𝐸 𝑋 𝑃𝑋 (𝑋𝑖 )
mean 𝑖=1
𝑁
𝑁
𝐸 𝑋 = ෍ 𝑋𝑖 𝑃𝑋 (𝑋𝑖 )
𝑖=1 = ෍ 𝑋𝑖2 − 2𝑋𝑖 𝐸 𝑋 + 𝐸 𝑋 2 𝑃𝑋 (𝑋𝑖 )
𝑖=1
𝑁 𝑁
variance
= ෍ 𝑋𝑖2 𝑃𝑋 (𝑋𝑖 ) − ෍ 2𝑋𝑖 𝐸 𝑋 𝑃𝑋 𝑋𝑖
2
𝑣𝑎𝑟(𝑋) = 𝐸 𝑋−𝐸 𝑋 𝑖=1 𝑖=1
𝑁
𝑁
2 + ෍ 𝐸 𝑋 2 𝑃𝑋 (𝑋𝑖 )
= ෍ 𝑋𝑖 − 𝐸 𝑋 𝑃𝑋 (𝑋𝑖 )
𝑖=1
𝑖=1
𝑁
Standard = 𝐸 𝑋 2 − 2𝐸 𝑋 ෍ 𝑋𝑖 𝑃𝑋 𝑋𝑖 +𝐸 𝑋 2
𝜎= 𝑣𝑎𝑟(𝑋)
deviation
𝑖=1
2
= 𝐸 𝑋2 − 𝐸 𝑋 18
AI VIETNAM
All-in-One Course
Variance
2 2
𝑣𝑎𝑟 𝑋 = 𝐸 𝑋 − 𝐸 𝑋

2 2 2
𝑣𝑎𝑟 𝑋𝑌 = 𝐸 𝑋 𝑌 − 𝐸 𝑋𝑌

2
=𝐸 𝑋2 𝐸 𝑌2 − 𝐸 𝑋 𝐸 𝑌

2 2 2
= 𝑣𝑎𝑟 𝑋 + 𝐸 𝑋 𝑣𝑎𝑟 𝑌 + 𝐸 𝑌 − 𝐸 𝑋 𝐸 𝑌

2 2
= 𝑣𝑎𝑟 𝑋 𝑣𝑎𝑟 𝑌 + 𝑣𝑎𝑟 𝑋 𝐸 𝑌 + 𝑣𝑎𝑟 𝑌 𝐸 𝑌

19
AI VIETNAM
All-in-One Course
Initialization Methods
Xavier Initialization

Uniform Distribution
𝑎+𝑏 1
𝑋~𝑈 𝑎, 𝑏 𝐸𝑋 = 𝑏−𝑎
2

1 2
𝑏−𝑎
𝑓 𝑥 = 𝑣𝑎𝑟 𝑋 =
𝑏−𝑎 12

20
AI VIETNAM
All-in-One Course
Initialization Methods
Uniform Distribution
𝑎+𝑏
𝑋~𝑈 𝑎, 𝑏 𝐸𝑋 =
2
1 𝑏−𝑎 2
𝑓 𝑥 = 𝑣𝑎𝑟 𝑋 = ∞ 𝑏
𝑏−𝑎 12
1
𝐸 𝑋 = න 𝑥𝑓 𝑥 𝑑𝑥 = න 𝑥 𝑑𝑥
−∞ 𝑎 𝑏−𝑎

𝑥2 𝑏
𝑏 2 − 𝑎2 𝑎+𝑏
= |𝑎 = =
1 2(𝑏 − 𝑎) 2(𝑏 − 𝑎) 2
𝑏−𝑎

21
AI VIETNAM
All-in-One Course
Initialization Methods
Uniform Distribution 2
∞
2
𝑣𝑎𝑟 𝑋 = 𝐸 𝑋−𝐸 𝑋 =න 𝑥−𝐸 𝑋 𝑓 𝑥 𝑑𝑥
𝑎+𝑏 −∞
𝑋~𝑈 𝑎, 𝑏 𝐸𝑋 = 2
2 𝑏
𝑎+𝑏 1
2 =න 𝑥− 𝑑𝑥
1 𝑏−𝑎 𝑎 2 𝑏−𝑎
𝑓 𝑥 = 𝑣𝑎𝑟 𝑋 =
𝑏−𝑎 12 1 𝑏 𝑏
𝑎+𝑏 𝑏
𝑎+𝑏
2
2
= න 𝑥 𝑑𝑥 − න 2𝑥 𝑑𝑥 + න 𝑑𝑥
𝑏−𝑎 𝑎 𝑎 2 𝑎 2
2
1 𝑥 3 𝑏 𝑥 2 (𝑎 + 𝑏) 𝑏 𝑎+𝑏
= | − |𝑎 + 𝑥|𝑏𝑎
𝑏−𝑎 3 𝑎 2 2
1
2
𝑏−𝑎 1 𝑏3 − 𝑎3 (𝑏2 − 𝑎2 )(𝑎 + 𝑏) 𝑎+𝑏
= − + (𝑏 − 𝑎)
𝑏−𝑎 3 2 2
𝑎2 + 𝑎𝑏 + 𝑏2 𝑎2 + 2𝑎𝑏 + 𝑏2 𝑎2 + 2𝑎𝑏 + 𝑏2
= − +
3 2 4
4 𝑎2 + 𝑎𝑏 + 𝑏2 − 3 𝑎2 + 2𝑎𝑏 + 𝑏2 𝑏−𝑎 2
= =
12 12
AI VIETNAM
All-in-One Course
Initialization Methods
Xavier Initialization

Gaussian Distribution

𝑋~𝑵 𝜇, 𝜎 2

1 1 𝑥−𝜇 2
−
𝑓 𝑥 = 𝑒 2 𝜎
𝜎 2𝜋

23
𝑒 𝑥 − 𝑒 −𝑥 2 2
Maclaurin series tanh 𝑥 = 𝑥
𝑒 + 𝑒 −𝑥
= 1 − 2𝑥 =
𝑒 + 1 𝑒 −2𝑥 + 1
−1
Tính giá trị xấp xỉ hàm f(x) cho những giá trị
𝑥 ≈0 tanh 0 = 0
∞
(𝑛)
𝑥𝑛
𝑓 𝑥 = ෍𝑓 0 tanh′ 0 = 1 − 𝑡𝑎𝑛ℎ2 0 = 1
𝑛!
𝑛=0

𝑓 ′′ 0 2 𝑓 (3) 0 3 ′
=𝑓 0 +𝑓 0 𝑥+ ′
𝑥 + 𝑥 +⋯ tanh′′ 0 = 1 − 𝑡𝑎𝑛ℎ2 0
2! 3!
= −2𝑡𝑎𝑛ℎ 0 tanh′ 0 = 0

′
tanh(3) 0 = −2𝑡𝑎𝑛ℎ 0 tanh′ 0

= −2 tanh′ 0 tanh′ 0 + tanh′′ 0 𝑡𝑎𝑛ℎ 0 = −2

′′ (3)
′
𝑓 0 2
𝑓 0 3
tanh 𝑥 = 𝑓 0 + 𝑓 0 𝑥 + 𝑥 + 𝑥 +⋯
2! 3!
𝑥3
=𝑥− +⋯
3!
tanh 𝑥 ≈ 𝑥
Maclaurin series 1
sigmoid 𝑥 =
Tính giá trị xấp xỉ hàm f(x) cho những giá trị 1 + 𝑒 −𝑥
𝑥 ≈0 1
∞ sigmoid 0 =
(𝑛)
𝑥𝑛 2
𝑓 𝑥 = ෍𝑓 0
𝑛! ′
1
𝑛=0 sigmoid 0 = sigmoid 0 1 − sigmoid 0 =
4
𝑓 ′′ 0 2 𝑓 (3) 0 3
′
=𝑓 0 +𝑓 0 𝑥+ 𝑥 + 𝑥 +⋯
2! 3! sigmoid′′ 0 = sigmoid 0 1 − sigmoid 0 ′

= sigmoid′ 0 − 2 sigmoid 0 sigmoid′ 0 = 0

′
𝑓 ′′ 0 2 𝑓 (3) 0 3
sigmoid 𝑥 = 𝑓 0 + 𝑓 0 𝑥 + 𝑥 + 𝑥 +⋯
2! 3!
1 𝑥
= + +⋯
2 4
1 𝑥
sigmoid 𝑥 ≈ +
2 4
AI VIETNAM
All-in-One Course
Initialization Methods
Xavier Initialization 𝑥0 𝑎𝑖 = activation(𝑧𝑖 ) 𝐸 𝑋 =0
𝑤0 𝐸 𝑊 =0
𝑤1 𝑏=0
𝐸 𝑋𝑌 = 𝐸 𝑋 𝐸 𝑌 𝑥1 𝑧𝑖 𝑎𝑖
𝑣𝑎𝑟 𝑋𝑌 = 𝑣𝑎𝑟 𝑋 𝑣𝑎𝑟 𝑌 +

…
2 𝑤𝑛
𝑣𝑎𝑟 𝑋 𝐸 𝑌 +
2 𝑥𝑛 𝑧𝑖 = (𝑥1 𝑤1 + ⋯ + 𝑥𝑛 𝑤𝑛 + 𝑏)
𝑣𝑎𝑟 𝑦 𝐸 𝑋
var(𝑧𝑖 ) = var(𝑥1 𝑤1 + ⋯ + 𝑥𝑛 𝑤𝑛 + 𝑏)
Uniform Distribution
= 𝑛var(𝑥𝑖 𝑤𝑖 ) = 𝑛var(𝑥𝑖 )var(𝑤𝑖 )
𝑋~𝑈 𝑎, 𝑏
1 activation = tanh 𝑎𝑖 = tanh 𝑧𝑖 ≈ 𝑧𝑖 var(𝑎𝑖 ) = var(𝑧𝑖 )
𝑓 𝑥 =
𝑏−𝑎 iid
𝑏−𝑎 2 var(X) ≈ var(𝐚) var(𝑥𝑖 ) ≈ var(𝑎𝑖 ) nvar(𝑤𝑖 ) ≈ 1
𝑣𝑎𝑟 𝑋 = 1
12 var(𝑤𝑖 ) ≈
𝑛
AI VIETNAM
All-in-One Course
Initialization Methods
Xavier Initialization activation = tanh

𝑥0 1
𝐸 𝑋𝑌 = 𝐸 𝑋 𝐸 𝑌 var(𝑤𝑖 ) ≈
𝑛
𝑣𝑎𝑟 𝑋𝑌 = 𝑣𝑎𝑟 𝑋 𝑣𝑎𝑟 𝑌 +
2 𝑤𝑖 ~𝑈 −𝑟, 𝑟
𝑣𝑎𝑟 𝑋 𝐸 𝑌 + 𝑥1 𝑧𝑖 𝑎𝑖
2 𝑟2
𝑣𝑎𝑟 𝑦 𝐸 𝑋 𝑣𝑎𝑟 𝑤𝑖 =

…
3
Uniform Distribution 𝑥𝑛

𝑋~𝑈 𝑎, 𝑏
1 3 3
𝑓 𝑥 =
𝑏−𝑎
𝑊𝑖 ~𝑈 − ,
𝑏−𝑎 2 𝑛 𝑛
𝑣𝑎𝑟 𝑋 =
12
27
AI VIETNAM
All-in-One Course
Initialization Methods
Xavier Initialization activation = tanh

𝑥0 1
𝐸 𝑋𝑌 = 𝐸 𝑋 𝐸 𝑌 var(𝑤𝑖 ) ≈
𝑛
𝑣𝑎𝑟 𝑋𝑌 = 𝑣𝑎𝑟 𝑋 𝑣𝑎𝑟 𝑌 +
2 𝑤𝑖 ~𝑁 0, 𝜎 2
𝑣𝑎𝑟 𝑋 𝐸 𝑌 + 𝑥1 𝑧𝑖 𝑎𝑖
2 1 1
𝑣𝑎𝑟 𝑦 𝐸 𝑋 𝜎 = 2 𝜎=

…
𝑛 𝑛
Gaussian Distribution 𝑥𝑛

𝑋~𝑁 0, 𝜎 2 1
𝑊𝑖 ~𝑁 0,
𝑛
28
AI VIETNAM
All-in-One Course
Initialization Methods
Xavier Initialization activation = tanh

Uniform Distribution Gaussian Distribution

3 3 1
𝑊𝑖𝑗 ~𝑈 − , 𝑊𝑖𝑗 ~𝑵 0,
𝑛 𝑛 𝑛

29
AI VIETNAM
All-in-One Course
Initialization Methods
Xavier Initialization 𝑥0 𝑎𝑖 = activation(𝑧𝑖 ) 𝐸 𝑋 =0
𝑤0 𝐸 𝑊 =0
𝑤1 𝑏=0
𝐸 𝑋𝑌 = 𝐸 𝑋 𝐸 𝑌 𝑥1 𝑧𝑖 𝑎𝑖
𝑣𝑎𝑟 𝑋𝑌 = 𝑣𝑎𝑟 𝑋 𝑣𝑎𝑟 𝑌 +

…
2 𝑤𝑛 𝑧𝑖 = (𝑥1 𝑤1 + ⋯ + 𝑥𝑛 𝑤𝑛 + 𝑏)
𝑣𝑎𝑟 𝑋 𝐸 𝑌 +
2 𝑥𝑛
𝑣𝑎𝑟 𝑦 𝐸 𝑋 var(𝑧𝑖 ) = var(𝑥1 𝑤1 + ⋯ + 𝑥𝑛 𝑤𝑛 + 𝑏)
= 𝑛var(𝑥𝑖 𝑤𝑖 ) = 𝑛var(𝑥𝑖 )var(𝑤𝑖 )
Uniform Distribution
1 𝑧𝑖
𝑋~𝑈 𝑎, 𝑏 activation = sigmoid 𝑎𝑖 = sigmoid 𝑧𝑖 ≈ +
2 4
1
𝑓 𝑥 = 16var(𝑎𝑖 ) = var(𝑧𝑖 )
𝑏−𝑎 iid
𝑏−𝑎 2 var(X) ≈ var(𝐚) var(𝑥𝑖 ) ≈ var(𝑎𝑖 ) nvar(𝑤𝑖 ) ≈ 16
𝑣𝑎𝑟 𝑋 = 16
12 var(𝑤𝑖 ) ≈
𝑛
AI VIETNAM
All-in-One Course
Initialization Methods
Xavier Initialization activation = sigmoid

𝑥0 16
𝐸 𝑋𝑌 = 𝐸 𝑋 𝐸 𝑌 var(𝑤𝑖 ) ≈
𝑛
𝑣𝑎𝑟 𝑋𝑌 = 𝑣𝑎𝑟 𝑋 𝑣𝑎𝑟 𝑌 +
2 𝑤𝑖 ~𝑈 −𝑟, 𝑟
𝑣𝑎𝑟 𝑋 𝐸 𝑌 + 𝑥1 𝑧𝑖 𝑎𝑖
2 𝑟2
𝑣𝑎𝑟 𝑦 𝐸 𝑋 𝑣𝑎𝑟 𝑤𝑖 =

…
3
Uniform Distribution 𝑥𝑛

𝑋~𝑈 𝑎, 𝑏
1
4 3 4 3
𝑓 𝑥 =
𝑏−𝑎
𝑊𝑖 ~𝑈 − ,
𝑏−𝑎 2
𝑛 𝑛
𝑣𝑎𝑟 𝑋 =
12
31
AI VIETNAM
All-in-One Course
Initialization Methods
Xavier Initialization activation = sigmoid

𝑥0 16
𝐸 𝑋𝑌 = 𝐸 𝑋 𝐸 𝑌 var(𝑤𝑖 ) ≈
𝑛
𝑣𝑎𝑟 𝑋𝑌 = 𝑣𝑎𝑟 𝑋 𝑣𝑎𝑟 𝑌 +
2 𝑤𝑖 ~𝑁 0, 𝜎 2
𝑣𝑎𝑟 𝑋 𝐸 𝑌 + 𝑥1 𝑧𝑖 𝑎𝑖
2 1
𝑣𝑎𝑟 𝑦 𝐸 𝑋 𝜎2 =

…
𝑛

Gaussian Distribution 𝑥𝑛

𝑋~𝑁 0, 𝜎 2 16
𝑊𝑖 ~𝑁 0,
𝑛
32
AI VIETNAM
All-in-One Course
Initialization Methods
Kaiming He Initialization 𝑥0 𝑎𝑖 = activation(𝑧𝑖 ) 𝐸 𝑋 =0
𝑤0 𝐸 𝑊 =0
𝑤1 𝑏=0
𝐸 𝑋𝑌 = 𝐸 𝑋 𝐸 𝑌 𝑥1 𝑧𝑖 𝑎𝑖
𝑣𝑎𝑟 𝑋𝑌 = 𝑣𝑎𝑟 𝑋 𝑣𝑎𝑟 𝑌 +

…
2 𝑤𝑛 𝑧𝑖 = (𝑥1 𝑤1 + ⋯ + 𝑥𝑛 𝑤𝑛 + 𝑏)
𝑣𝑎𝑟 𝑋 𝐸 𝑌 +
2 𝑥𝑛
𝑣𝑎𝑟 𝑦 𝐸 𝑋 var(𝑧𝑖 ) = var(𝑥1 𝑤1 + ⋯ + 𝑥𝑛 𝑤𝑛 + 𝑏)
= 𝑛var(𝑥𝑖 𝑤𝑖 ) = 𝑛var(𝑥𝑖 )var(𝑤𝑖 )
Uniform Distribution
𝑋~𝑈 𝑎, 𝑏 activation = relu 𝑎𝑖 = 𝑚𝑎𝑥 0, 𝑧𝑖
1
𝑓 𝑥 = 2var(𝑎𝑖 ) = var(𝑧𝑖 )
𝑏−𝑎 iid
𝑏−𝑎 2 var(X) ≈ var(𝐚) var(𝑥𝑖 ) ≈ var(𝑎𝑖 ) nvar(𝑤𝑖 ) ≈ 2
𝑣𝑎𝑟 𝑋 = 2
12 var(𝑤𝑖 ) ≈
𝑛
AI VIETNAM
All-in-One Course
Initialization Methods
He Initialization activation = he

𝑥0 2
𝐸 𝑋𝑌 = 𝐸 𝑋 𝐸 𝑌 var(𝑤𝑖 ) ≈
𝑛
𝑣𝑎𝑟 𝑋𝑌 = 𝑣𝑎𝑟 𝑋 𝑣𝑎𝑟 𝑌 +
2 𝑤𝑖 ~𝑈 −𝑟, 𝑟
𝑣𝑎𝑟 𝑋 𝐸 𝑌 + 𝑥1 𝑧𝑖 𝑎𝑖
2 𝑟2
𝑣𝑎𝑟 𝑦 𝐸 𝑋 𝑣𝑎𝑟 𝑤𝑖 =

…
3
Uniform Distribution 𝑥𝑛

𝑋~𝑈 𝑎, 𝑏
1
6 6
𝑓 𝑥 =
𝑏−𝑎
𝑊𝑖 ~𝑈 − ,
𝑏−𝑎 2
𝑛 𝑛
𝑣𝑎𝑟 𝑋 =
12
34
AI VIETNAM
All-in-One Course
Initialization Methods
He Initialization activation = he

𝑥0 2
𝐸 𝑋𝑌 = 𝐸 𝑋 𝐸 𝑌 var(𝑤𝑖 ) ≈
𝑛
𝑣𝑎𝑟 𝑋𝑌 = 𝑣𝑎𝑟 𝑋 𝑣𝑎𝑟 𝑌 +
2 𝑤𝑖 ~𝑁 0, 𝜎 2
𝑣𝑎𝑟 𝑋 𝐸 𝑌 + 𝑥1 𝑧𝑖 𝑎𝑖
2 1
𝑣𝑎𝑟 𝑦 𝐸 𝑋 𝜎2 =

…
𝑛

Gaussian Distribution 𝑥𝑛

𝑋~𝑁 0, 𝜎 2 2
𝑊𝑖 ~𝑁 0,
𝑛
35
AI VIETNAM
All-in-One Course
Summary
Recommendation

Data Preparation

[-1, 1] Data
or z-score Normalization
Optimizer
Adam
Selection
ReLU Activation Model (Network)
Batch norm Construction Loss function
Selection

Glorot uniform Parameter Metric Selection

or He normal Initialization
36
AI VIETNAM
All-in-One Course
Further Reading
Dying ReLU

https://towardsdatascience.com/the-dying-relu-problem-clearly-explained-42d0c54e0d24

Initialization

https://www.deeplearning.ai/ai-notes/initialization/index.html

Question-Answers in Machine Learning
No ratings yet
Question-Answers in Machine Learning
14 pages
Nonlinear Programming Concepts PDF
No ratings yet
Nonlinear Programming Concepts PDF
224 pages
Alice's Adventures in A Differentiable Wonderland
No ratings yet
Alice's Adventures in A Differentiable Wonderland
279 pages
Nonlinear Programming PDF
No ratings yet
Nonlinear Programming PDF
224 pages
Unit 1 - Control System - WWW - Rgpvnotes.in
No ratings yet
Unit 1 - Control System - WWW - Rgpvnotes.in
21 pages
PLC Latching Function
No ratings yet
PLC Latching Function
4 pages
Unit Ii: Interpolation and Approximation: XXXX XX Yyx FX y X XX X X X
No ratings yet
Unit Ii: Interpolation and Approximation: XXXX XX Yyx FX y X XX X X X
21 pages
Ppt-Unit 5 - 18mab302t-Graph Theory
No ratings yet
Ppt-Unit 5 - 18mab302t-Graph Theory
72 pages
CNS Book by Brainheaters
No ratings yet
CNS Book by Brainheaters
240 pages
Cryptography and Network Security: Fourth Edition by William Stallings Lecture Slides by Lawrie Brown/Mod. & S. Kondakci
No ratings yet
Cryptography and Network Security: Fourth Edition by William Stallings Lecture Slides by Lawrie Brown/Mod. & S. Kondakci
32 pages
04B. Bioinformatics-Lecture 4 (Alternative) - Blast
100% (1)
04B. Bioinformatics-Lecture 4 (Alternative) - Blast
38 pages
Ghichu
No ratings yet
Ghichu
2,936 pages
Attacking OpenSSL Implementation of ECDSA With A Few Signatures.
No ratings yet
Attacking OpenSSL Implementation of ECDSA With A Few Signatures.
11 pages
AI Technology 2025
No ratings yet
AI Technology 2025
4 pages
A Beginner's Guide To Understanding Convolutional Neural Networks Part 1 - Adit Deshpande - CS Under
100% (1)
A Beginner's Guide To Understanding Convolutional Neural Networks Part 1 - Adit Deshpande - CS Under
14 pages
List of AMOS Fit Indices
No ratings yet
List of AMOS Fit Indices
6 pages
Sat Class 0811
0% (1)
Sat Class 0811
2 pages
Weight Initialization Techniques Assignment Questions
No ratings yet
Weight Initialization Techniques Assignment Questions
8 pages
DNN Full Merged Compressed Compressed
No ratings yet
DNN Full Merged Compressed Compressed
863 pages
Operation Wood
No ratings yet
Operation Wood
369 pages
Signals and Systems: Laboratory Manual
No ratings yet
Signals and Systems: Laboratory Manual
6 pages
Machine Learning and Data Mining: Introduction to (Học máy và Khai phá dữ liệu)
No ratings yet
Machine Learning and Data Mining: Introduction to (Học máy và Khai phá dữ liệu)
26 pages
Machine Learning and Data Mining: Introduction to (Học máy và Khai phá dữ liệu)
No ratings yet
Machine Learning and Data Mining: Introduction to (Học máy và Khai phá dữ liệu)
49 pages
Ilovepdf Merged Unit 1 Compressed
No ratings yet
Ilovepdf Merged Unit 1 Compressed
223 pages
Slide AI-ML-DL
No ratings yet
Slide AI-ML-DL
124 pages
Unit 3
No ratings yet
Unit 3
110 pages
3 Non Linear Classifiers
No ratings yet
3 Non Linear Classifiers
74 pages
Ch2-Training, Optimization and Regularization of DNN-new
No ratings yet
Ch2-Training, Optimization and Regularization of DNN-new
114 pages
L4 Training Neural Networks en
No ratings yet
L4 Training Neural Networks en
48 pages
Curs5site PDF
No ratings yet
Curs5site PDF
47 pages
Timeseries Forecasting Project - Slides
No ratings yet
Timeseries Forecasting Project - Slides
88 pages
Business Intelligence and Decision Support Systems (9 Ed., Prentice Hall)
No ratings yet
Business Intelligence and Decision Support Systems (9 Ed., Prentice Hall)
41 pages
Introduction To Machine Learning
No ratings yet
Introduction To Machine Learning
116 pages
1AI.04b - Introduction To Machine Learning - Supervised Learning - DT PDF
No ratings yet
1AI.04b - Introduction To Machine Learning - Supervised Learning - DT PDF
65 pages
SW Project Managment Chapter 3
No ratings yet
SW Project Managment Chapter 3
33 pages
From Linear Regression To Logistic Regression - Update - 1
No ratings yet
From Linear Regression To Logistic Regression - Update - 1
71 pages
CS344: Introduction To Artificial Intelligence: Pushpak Bhattacharyya
No ratings yet
CS344: Introduction To Artificial Intelligence: Pushpak Bhattacharyya
32 pages
Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks
No ratings yet
Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks
89 pages
Logistic Regression - Update - 2
No ratings yet
Logistic Regression - Update - 2
60 pages
Skript Opt Mach
No ratings yet
Skript Opt Mach
49 pages
Deep MLP's
No ratings yet
Deep MLP's
44 pages
Lecture 5-6
No ratings yet
Lecture 5-6
45 pages
Ann2018 L5
No ratings yet
Ann2018 L5
23 pages
Chapter 4 - Optimization
No ratings yet
Chapter 4 - Optimization
44 pages
Training Neural
No ratings yet
Training Neural
16 pages
7 TrainingNN-2
No ratings yet
7 TrainingNN-2
84 pages
Mode Generalization
No ratings yet
Mode Generalization
46 pages
Extra Simple Linear Regression v2
No ratings yet
Extra Simple Linear Regression v2
73 pages
Evaluate Ai LLM
No ratings yet
Evaluate Ai LLM
17 pages
Extra Decision Tree
No ratings yet
Extra Decision Tree
54 pages
L9 Model Assessment
No ratings yet
L9 Model Assessment
26 pages
Pytorch - Update
No ratings yet
Pytorch - Update
49 pages
Ai Syllabus
No ratings yet
Ai Syllabus
74 pages
Spectral Normalization For GANs
No ratings yet
Spectral Normalization For GANs
26 pages
Chapter 3
No ratings yet
Chapter 3
17 pages
Nptel Lec
No ratings yet
Nptel Lec
22 pages
(Slide) TensorFlow
No ratings yet
(Slide) TensorFlow
63 pages
SS 2020 Solutions
No ratings yet
SS 2020 Solutions
22 pages
15-The Bias - Variance - Trade-Off-08-04-2024
No ratings yet
15-The Bias - Variance - Trade-Off-08-04-2024
23 pages
Lec 7
No ratings yet
Lec 7
21 pages
Course Material - Artificial Intelligence-Week3 - Update
No ratings yet
Course Material - Artificial Intelligence-Week3 - Update
51 pages
Asymptotic Behaviorsof Support Vector Machineswith Gaussian Kernel Keerthi 2003
No ratings yet
Asymptotic Behaviorsof Support Vector Machineswith Gaussian Kernel Keerthi 2003
23 pages
05 AIS302 ANN-Optimization
No ratings yet
05 AIS302 ANN-Optimization
44 pages
Lec 13
No ratings yet
Lec 13
16 pages
Initializing Neural Networks - Deeplearning - Ai
No ratings yet
Initializing Neural Networks - Deeplearning - Ai
15 pages
A Law of Data Separation in Deep Learning.17020
No ratings yet
A Law of Data Separation in Deep Learning.17020
14 pages
Syllabus MAI391 Sp24
No ratings yet
Syllabus MAI391 Sp24
16 pages
Chapter 02.background-Theory
No ratings yet
Chapter 02.background-Theory
20 pages
CT1 DL Ans
No ratings yet
CT1 DL Ans
13 pages
Bidirectional LSTM-CRF For Named Entity Recognition
No ratings yet
Bidirectional LSTM-CRF For Named Entity Recognition
10 pages
The Bartlett Versus The Rectangular Window
No ratings yet
The Bartlett Versus The Rectangular Window
11 pages
MA417 Lecture 30
No ratings yet
MA417 Lecture 30
12 pages
Practical-5 - 2CEIT606 - Artificial Intelligence
No ratings yet
Practical-5 - 2CEIT606 - Artificial Intelligence
14 pages
Upload Unit 2
No ratings yet
Upload Unit 2
19 pages
Weight Initialization in ANNs
No ratings yet
Weight Initialization in ANNs
13 pages
Laboratory 5: Discrete Fourier Transform: Instructor: MR Ammar Naseer EE UET New Campus
No ratings yet
Laboratory 5: Discrete Fourier Transform: Instructor: MR Ammar Naseer EE UET New Campus
9 pages
Data Science & ML Using Python
No ratings yet
Data Science & ML Using Python
5 pages
Day 2 - Loss & Activation Functions
No ratings yet
Day 2 - Loss & Activation Functions
8 pages
ML Unit3
No ratings yet
ML Unit3
24 pages
Python Course Outline
No ratings yet
Python Course Outline
7 pages
DL Practical 3 Loss Function
No ratings yet
DL Practical 3 Loss Function
6 pages
MCS 212
No ratings yet
MCS 212
6 pages
Website - Machine Learning
No ratings yet
Website - Machine Learning
6 pages
Akshar Tumu Software Developer Role Resume
No ratings yet
Akshar Tumu Software Developer Role Resume
2 pages
ML Concepts
No ratings yet
ML Concepts
3 pages
ANN - Lab 6
No ratings yet
ANN - Lab 6
1 page
Design and Characterization of Different Shapes of Micro Cantilever For Human Immunodeficiency Virus
No ratings yet
Design and Characterization of Different Shapes of Micro Cantilever For Human Immunodeficiency Virus
1 page