0% found this document useful (0 votes)

5 views13 pages

Lecture 8.4

Uploaded by

kapiljain1989

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views13 pages

Lecture 8.4

Uploaded by

kapiljain1989

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 13

INFO 557 FA24 002 -

Neural Networks
Instructor: Dr. Liang Zhang
TAs: Jiacheng Zhang, Ruoyao Wang
College of Information Science
University of Arizona
Quiz at Tophat (Join: 436056)
Use the web app or mobile app to answer:

With complete certainty, we know that initial parameters in a neural network

must:

A break symmetry between different units

B set bias parameters to constants

C be close to the origin

D be random orthogonal matrices

With your group, come to consensus on the correct answer, and discuss

what is right or wrong about each of the answers.

Quiz at Tophat (Join: 436056)
Use the web app or mobile app to answer:

With complete certainty, we know that initial parameters in a neural network

must:

A break symmetry between different units

B set bias parameters to constants

C be close to the origin

D be random orthogonal matrices

With your group, come to consensus on the correct answer, and discuss

what is right or wrong about each of the answers.

Parameter initialization is important
In neural network optimization, initial points determine:

● whether learning converges at all

● how quickly learning converges
● whether it converges to a point with high or low cost
● whether the point that it converges to has high or low generalization error
Initial parameters must break symmetry
If two units have the same initial parameters, they will get updated in the same
way.

Having two different units model exactly the same function is probably not useful

Most common solution: random parameter initialization

● biases typically not randomly initialized

● weights drawn from Gaussian or uniform distribution
Size of weights is important
Larger initial weights can result in:

+ better symmetry-breaking

+ less signal lost during forward/back-propagation

- exploding values during forward/back-propagation

- extreme sensitivity to small perturbations of the input

- extreme values where the activation function saturates

- parameters further from origin (i.e., less regularized)

Random initialization heuristics

For a layer with m inputs and n outputs:

common default

goal: same activation/gradient variance

W, _, _ = SVD(random matrix)

goal: all units are orthogonal

Random initialization heuristics
, where

goal: across-all-layer gradient magnitude ratio = 1

each unit has exactly k nonzero weights

goal: total magnitude small; individual weights large

Debugging initialization problems
Take a minibatch, then plot standard deviation of activations or gradients through
the layers of the network

Consider increasing weights of layer 3

Initializing biases
In most cases, initialize bi = 0

For output units, initialize to marginal statistics, e.g.,

● linear unit:

● softmax unit: b = softmax−1(c), where ci = P(y = i)

For ReLU, initialize bi = 0.1 to avoid saturation

For gate units, initialize bi = 1, i.e., open gate

Pre-training models
Weights can be initialized via training a simpler model

● Initialize a supervised model by training an unsupervised model on the same

inputs
● Initialize a supervised model by training another supervised model on a
related task
Group Activity
You plan to train a neural network to segment images into regions corresponding
to sky, trees, vehicles, etc. However, you have only a few thousand images
manually annotated for such segments.

ImageNet provides over 14 million images, tagged (but not segmented) for more
than 20 thousand word senses: 1633 images tagged with canine, 1380 images
tagged with motorcycle, etc. How might you use this data to pre-train your model?
How would you handle the architectural differences between the pre-training task
(predicting tags) and the real task (predicting segmentations)?
Solution: Pre-train with ImageNet & Fine-tune for
Segmentation
Step 1: Pre-train on ImageNet

● Leverage large-scale tagged data to pre-train a model for image classification.

● Learn general visual features (e.g., edges, textures, objects).

Step 2: Adapt Architecture

● Replace final fully connected layers (classification) with pixel-wise segmentation layers (fully
convolutional).
● Add upsampling or deconvolution layers to generate segmentation masks.
● Use encoder-decoder architectures like U-Net for better segmentation performance.

Step 3: Fine-tune the Model

● Freeze earlier layers (general feature extraction).

● Train new layers for segmentation using annotated images.
● Apply data augmentation (cropping, flipping, color jittering) to compensate for limited data.

DL UNIT II PART II (IMP) Optimization For Training Deep Model
No ratings yet
DL UNIT II PART II (IMP) Optimization For Training Deep Model
81 pages
Weights Initialization in Neural Networks
No ratings yet
Weights Initialization in Neural Networks
31 pages
Data Mining A Tutorial-Based Primer, Second Edition PDF
100% (1)
Data Mining A Tutorial-Based Primer, Second Edition PDF
530 pages
Deep Learning Computer Vision
No ratings yet
Deep Learning Computer Vision
302 pages
Ceng403 - Week 6b
No ratings yet
Ceng403 - Week 6b
51 pages
NNML
No ratings yet
NNML
113 pages
Understanding Recurrent Neural Networks (RNN) - NLP - by Praveen Raj - Medium
No ratings yet
Understanding Recurrent Neural Networks (RNN) - NLP - by Praveen Raj - Medium
25 pages
Computer Vision and Deep Learning 1708702317
No ratings yet
Computer Vision and Deep Learning 1708702317
93 pages
Highly-Accurate Machine Fault Diagnosis Using Deep Transfer Learning
100% (1)
Highly-Accurate Machine Fault Diagnosis Using Deep Transfer Learning
9 pages
Module 3.2 Time Series Forecasting LSTM Model
No ratings yet
Module 3.2 Time Series Forecasting LSTM Model
23 pages
Hiperparametre
No ratings yet
Hiperparametre
10 pages
Fixing Neural Network Course 2 1659759284
No ratings yet
Fixing Neural Network Course 2 1659759284
30 pages
ET 287 Unit3 MLP
No ratings yet
ET 287 Unit3 MLP
71 pages
Intro DL 04
No ratings yet
Intro DL 04
35 pages
Understanding Weight Initialization For Neural Networks - PyImageSearch
No ratings yet
Understanding Weight Initialization For Neural Networks - PyImageSearch
16 pages
Ai20 - 03 - NN
No ratings yet
Ai20 - 03 - NN
32 pages
9.b Handout-5-Weight Init
No ratings yet
9.b Handout-5-Weight Init
4 pages
Applied NLP
50% (2)
Applied NLP
8 pages
Answers All 2007
0% (1)
Answers All 2007
64 pages
Neural Networks in Healthcare Lecture 2 - 021808
No ratings yet
Neural Networks in Healthcare Lecture 2 - 021808
73 pages
Speed Control of DC Motor PDF
No ratings yet
Speed Control of DC Motor PDF
78 pages
Deep Learning Turorial PDF
No ratings yet
Deep Learning Turorial PDF
301 pages
Deep Learning
No ratings yet
Deep Learning
152 pages
SEM VI 14 Chemical Engineering
No ratings yet
SEM VI 14 Chemical Engineering
105 pages
Deep Learning UNIT-II Part1
No ratings yet
Deep Learning UNIT-II Part1
48 pages
Real Time Object Detection Using Deep Learning Andmachine Learning Project
No ratings yet
Real Time Object Detection Using Deep Learning Andmachine Learning Project
56 pages
UNIT-IV Improving Deep Neural Networks
No ratings yet
UNIT-IV Improving Deep Neural Networks
17 pages
Artificial Neural Networks
No ratings yet
Artificial Neural Networks
54 pages
Initializing Neural Networks - Deeplearning - Ai
No ratings yet
Initializing Neural Networks - Deeplearning - Ai
15 pages
ITNN Week3
No ratings yet
ITNN Week3
21 pages
CCS364-Soft Computing-Unit 5 - Applications - Lecture Notes
No ratings yet
CCS364-Soft Computing-Unit 5 - Applications - Lecture Notes
25 pages
Chap6 (Neural Network)
No ratings yet
Chap6 (Neural Network)
63 pages
Back Propagation in NN
No ratings yet
Back Propagation in NN
30 pages
Machine Learning
100% (5)
Machine Learning
56 pages
Final - DNN - Hands - On - Jupyter Notebook
0% (1)
Final - DNN - Hands - On - Jupyter Notebook
6 pages
Anupam
No ratings yet
Anupam
41 pages
Chapter 2 - Artificial Neural Networks (ANNs)
No ratings yet
Chapter 2 - Artificial Neural Networks (ANNs)
27 pages
CS490 Advanced Topics in Computing (Deep Learning)
No ratings yet
CS490 Advanced Topics in Computing (Deep Learning)
37 pages
Machine Learning Techniques For Classification of Diabetes and Cardiovascular Diseases
100% (1)
Machine Learning Techniques For Classification of Diabetes and Cardiovascular Diseases
4 pages
Unit 2
No ratings yet
Unit 2
18 pages
DL Unit 5 Notes 2
No ratings yet
DL Unit 5 Notes 2
23 pages
An Ultra Low-Power Memristive Neuromorphic Circuit For Internet of Things Smart Sensors
No ratings yet
An Ultra Low-Power Memristive Neuromorphic Circuit For Internet of Things Smart Sensors
12 pages
9.b Handout-4-Activation Functions
No ratings yet
9.b Handout-4-Activation Functions
4 pages
Unit 4
No ratings yet
Unit 4
13 pages
Probability Neuron Network
No ratings yet
Probability Neuron Network
84 pages
BE Syllabus 2022-23
No ratings yet
BE Syllabus 2022-23
14 pages
DL Activation Functions Question Bank
No ratings yet
DL Activation Functions Question Bank
27 pages
Deep Learning - Unit 1 Notes
No ratings yet
Deep Learning - Unit 1 Notes
27 pages
HW 5
No ratings yet
HW 5
10 pages
Lecture 06
No ratings yet
Lecture 06
22 pages
Datasaki USA1
No ratings yet
Datasaki USA1
40 pages
DL Mod2
No ratings yet
DL Mod2
45 pages
A Imprimer 4
No ratings yet
A Imprimer 4
4 pages
Solution 4 Ann Weka 2012
No ratings yet
Solution 4 Ann Weka 2012
8 pages
Bayesian Networks For Network Intrusion Detection - New
No ratings yet
Bayesian Networks For Network Intrusion Detection - New
22 pages
General Observation
No ratings yet
General Observation
93 pages
IoT - Lecture 11
No ratings yet
IoT - Lecture 11
58 pages
Lecture W15ab
No ratings yet
Lecture W15ab
44 pages
Unit 3
No ratings yet
Unit 3
110 pages
Optimization of Deep Networks
No ratings yet
Optimization of Deep Networks
84 pages
Deep Neural Network
No ratings yet
Deep Neural Network
60 pages
Lecture 5-6
No ratings yet
Lecture 5-6
45 pages
CNN Training Aspects Presentation
No ratings yet
CNN Training Aspects Presentation
26 pages
Introduction To Deep Learning - Deep Feed Forward Network
No ratings yet
Introduction To Deep Learning - Deep Feed Forward Network
24 pages
Datasaki USA P1
No ratings yet
Datasaki USA P1
21 pages
L10 Learning II Gradient Based Learning
No ratings yet
L10 Learning II Gradient Based Learning
72 pages
Neural Sheet 6
No ratings yet
Neural Sheet 6
3 pages
Artificial Neural Networks - DL
No ratings yet
Artificial Neural Networks - DL
55 pages
3 Short
No ratings yet
3 Short
10 pages
535C3C
No ratings yet
535C3C
3 pages
L4 Training Neural Networks en
No ratings yet
L4 Training Neural Networks en
48 pages
Artificial Neural NetworkIV
No ratings yet
Artificial Neural NetworkIV
6 pages
Initialization
No ratings yet
Initialization
16 pages
Session NN
No ratings yet
Session NN
32 pages
4 - DNN Tip
No ratings yet
4 - DNN Tip
52 pages
Deep Learning
No ratings yet
Deep Learning
19 pages
Practical Aspects of Deep Learning PI
No ratings yet
Practical Aspects of Deep Learning PI
46 pages
Designing Your Neural Networks - Towards Data Science
No ratings yet
Designing Your Neural Networks - Towards Data Science
15 pages
Pure Optimization
No ratings yet
Pure Optimization
23 pages
CS231n Convolutional Neural Networks For Visual Recognition 2
No ratings yet
CS231n Convolutional Neural Networks For Visual Recognition 2
12 pages
cs188 sp23 Note25
No ratings yet
cs188 sp23 Note25
8 pages
A Survey of Randomized Algorithms For Training Neural Networks
No ratings yet
A Survey of Randomized Algorithms For Training Neural Networks
10 pages
Building Your Deep Neural Network - Step by Step v8 PDF
No ratings yet
Building Your Deep Neural Network - Step by Step v8 PDF
44 pages
Datasaki Ui
No ratings yet
Datasaki Ui
6 pages
Op Tim Ization
No ratings yet
Op Tim Ization
22 pages
CS 224D: Deep Learning For NLP: Lecture Notes: Part III Spring 2015
No ratings yet
CS 224D: Deep Learning For NLP: Lecture Notes: Part III Spring 2015
14 pages
Machine Learning and Pattern Recognition Week 8 - Neural - Net - Fitting
No ratings yet
Machine Learning and Pattern Recognition Week 8 - Neural - Net - Fitting
3 pages
Unit 03 - Neural Networks - MD
No ratings yet
Unit 03 - Neural Networks - MD
24 pages
Introduction To Neural Network
No ratings yet
Introduction To Neural Network
20 pages
Kapil Jain Resume Formatted
No ratings yet
Kapil Jain Resume Formatted
3 pages
Kapil Jain Resume Optimized
No ratings yet
Kapil Jain Resume Optimized
3 pages
Kapil Jain Resume
No ratings yet
Kapil Jain Resume
3 pages
Information Sciences: Le Zhang, P.N. Suganthan
No ratings yet
Information Sciences: Le Zhang, P.N. Suganthan
3 pages
AI for Everyone: An Intermediate Guide to Artificial Intelligence
From Everand
AI for Everyone: An Intermediate Guide to Artificial Intelligence
Nova Clarke
No ratings yet
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
César Pérez López
No ratings yet
Pathways to Machine Learning and Soft Computing: 邁向機器學習與軟計算之路（國際英文版）
From Everand
Pathways to Machine Learning and Soft Computing: 邁向機器學習與軟計算之路（國際英文版）
Jyh-Horng Jeng
No ratings yet
Machine Learning Interview Questions
From Everand
Machine Learning Interview Questions
Tech Interviews
4.5/5 (2)
Artificial Intelligence Interview Questions
From Everand
Artificial Intelligence Interview Questions
Tech Interviews
5/5 (2)