0% found this document useful (0 votes)

53 views8 pages

14-Learning Emb

Standard dimensionality reduction methods like singular value decomposition (SVD) decompose a document-term matrix A of size m x n into three matrices: U of size m x r, S of size r x r, and V of size n x r. U and V contain the left and right singular vectors. S contains the singular values, representing the strength of each concept. Projecting A onto U and V produces low-dimensional embeddings of the documents and terms in an r-dimensional space, where similarities can be computed. For example, a document's embedding would be a vector of its dot products with each of the first r right singular vectors V.

Uploaded by

Imane Ch'atoui

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

53 views8 pages

14-Learning Emb

Uploaded by

Imane Ch'atoui

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

¡ Standard dimensionality Reduction methods

§ Singular value decompositions (SVD)

n r r n
´ S ´ VT r

m A = U

¡ A: Input data matrix: m x n matrix (e.g., m documents, n terms)

(r : rank of the matrix A – often r < min(m,n) )
¡ U: Left singular vectors: m x r matrix (m documents, r concepts)
¡ S: Singular values: r x r diagonal matrix (strength of each ‘concept’)
¡ V: Right singular vectors: n x r matrix (n terms, r concepts)

2/17/22 Jure Leskovec & Mina Ghashami, Stanford CS246: Mining Massive Datasets 11
¡ U, V: column orthonormal
§ UT U = I; VT V = I (I: identity matrix)
§ Columns are orthogonal unit vectors hence they
define an r-dimensional subspace
§ U defines an r-dim subspace in Rm
§ V defines an r-dim subspace in Rn

¡ Projecting A onto V and U produces embeddings:

§ Since A = U S VT then AV = U S are row embeddings
§ Since A = U S VT then UTA = S VT are col embeddings

2/17/22 Jure Leskovec & Mina Ghashami, Stanford CS246: Mining Massive Datasets 12
Ex: compute document & word embeddings
Step 1: given a corpus of documents convert it
to BOW vectors à get a term-document matrix
§ Use term frequencies (tf), or normalize using tf-idf
data science spark Stanford learning
document 1 10 15 3 0 10
document 2 0 9 2 8 2
document 3 1 2 20 0 4
document 4 14 11 1 32 2
document 5 5 1 7 12 5
document 6 6 3 5 1 1
document 7 2 3 5 2 7

2/17/22 Jure Leskovec & Mina Ghashami, Stanford CS246: Mining Massive Datasets 13
Step 2: apply SVD on the term-document matrix
and pick a value 𝑟 ≤ 𝑟𝑎𝑛𝑘(𝐴)
Here, we set r = 3.

10 15 3 0 10 -0.30 0.41 -0.79

0 9 2 8 2 -0.25 0.03 -0.12 S
1 2 20 0 4 -0.14 0.74 0.5 42.7 0 0
14 11 1 32 2 ~ -0.83 -0.40 0.12 x 0 23.8 0 x
5 1 7 12 5 -0.33 0.11 0.31 0 0 16.7
6 3 5 1 1 -0.13 0.20 -0.04
2 3 5 2 7 -0.14 0.27 -0.05
-0.41 -0.40 -0.20 -0.77 -0.20
A U 0.06 0.21 0.78 -0.45 0.37
VT -0.26 -0.63 0.55 0.40 -0.28
2/17/22 Jure Leskovec & Mina Ghashami, Stanford CS246: Mining Massive Datasets 14
Step 3: compute embedding of documents as
emb = [<doc, v1> , <doc, v2> , <doc, v3>]
doc

¡ <doc, v1> = <[10,15,3,0,10] , v1>= -12.7

2/17/22 Jure Leskovec & Mina Ghashami, Stanford CS246: Mining Massive Datasets 15
¡ Step 3: compute embedding of documents as
emb = [<doc, v1> , <doc, v2> , <doc, v3>]
doc

¡ <doc, v1> = <[10,15,3,0,10] , v1>= -12.7

¡ <doc, v2> = <[10,15,3,0,10] , v2> = 9.79

2/17/22 Jure Leskovec & Mina Ghashami, Stanford CS246: Mining Massive Datasets 16
¡ Step 3: compute embedding of documents as
emb = [<doc, v1> , <doc, v2> , <doc, v3>]
doc

¡ <doc, v1> = <[10,15,3,0,10] , v1>= -12.7

¡ <doc, v2> = <[10,15,3,0,10] , v2> = 9.79
¡ <doc, v3> = <[10,15,3,0,10] , v3>= -13.9

2/17/22 Jure Leskovec & Mina Ghashami, Stanford CS246: Mining Massive Datasets 17
¡ Step 3: compute embedding of documents as
emb = [<doc, v1> , <doc, v2> , <doc, v3>]
doc

¡ <doc, v1> = <[10,15,3,0,10] , v1>= -12.7

¡ <doc, v2> = <[10,15,3,0,10] , v2> = 9.79 emb1 = [-12.7, 9.79, -13.9]
¡ <doc, v3> = <[10,15,3,0,10] , v3>= -13.9

2/17/22 Jure Leskovec & Mina Ghashami, Stanford CS246: Mining Massive Datasets 18

Word Embeddings
No ratings yet
Word Embeddings
163 pages
Introduction To Digital Signal Processing
90% (10)
Introduction To Digital Signal Processing
487 pages
Dimensionality Reduction
No ratings yet
Dimensionality Reduction
37 pages
Real World Algorithms A Beginner's Guide Panos Louridas Z Library
100% (1)
Real World Algorithms A Beginner's Guide Panos Louridas Z Library
527 pages
Question Bank of Computer Vision
100% (5)
Question Bank of Computer Vision
2 pages
Data Mining: Dimensionality Reduction Pca - SVD
No ratings yet
Data Mining: Dimensionality Reduction Pca - SVD
33 pages
Unit 4 Functions and Equations Assessment C D 2023
100% (1)
Unit 4 Functions and Equations Assessment C D 2023
11 pages
Singular Value Decomposition Example PDF
No ratings yet
Singular Value Decomposition Example PDF
9 pages
Misionaries and Cannibals Report
No ratings yet
Misionaries and Cannibals Report
10 pages
LSA, pLSA, and LDA Acronyms, Oh My!
No ratings yet
LSA, pLSA, and LDA Acronyms, Oh My!
114 pages
A Recommender System: John Urbanic
No ratings yet
A Recommender System: John Urbanic
36 pages
17-Matrix Sketching
No ratings yet
17-Matrix Sketching
65 pages
Textdb
No ratings yet
Textdb
27 pages
Latent Semantic Indexing (LSI) : CSE 434/535 Information Retrieval Fall 2019
No ratings yet
Latent Semantic Indexing (LSI) : CSE 434/535 Information Retrieval Fall 2019
65 pages
Modern Big Data Algorithms
No ratings yet
Modern Big Data Algorithms
52 pages
Dimensionality Reduction: Pca, SVD, MDS, Ica, and Friends
No ratings yet
Dimensionality Reduction: Pca, SVD, MDS, Ica, and Friends
50 pages
Module7 PCA Clustering November 9-13-2023
No ratings yet
Module7 PCA Clustering November 9-13-2023
41 pages
Word Embedding Generation For Telugu Corpus
No ratings yet
Word Embedding Generation For Telugu Corpus
28 pages
06-Dim Red
No ratings yet
06-Dim Red
61 pages
L14 SVD
No ratings yet
L14 SVD
8 pages
Information Retrieval: Latent Semantic Indexing
No ratings yet
Information Retrieval: Latent Semantic Indexing
36 pages
Isye 6416: Computational Statistics Spring 2023: Prof. Yao Xie
No ratings yet
Isye 6416: Computational Statistics Spring 2023: Prof. Yao Xie
44 pages
Recommender Systems-Chapter 5
No ratings yet
Recommender Systems-Chapter 5
23 pages
Matrix-Vector Multiplication by MapReduce-V2
No ratings yet
Matrix-Vector Multiplication by MapReduce-V2
26 pages
A Usv: Singular Value Decomposition (SVD)
No ratings yet
A Usv: Singular Value Decomposition (SVD)
3 pages
Lec 02
No ratings yet
Lec 02
102 pages
Lecture 15
No ratings yet
Lecture 15
43 pages
Lecture 9 Unit2
No ratings yet
Lecture 9 Unit2
168 pages
Tut 7
No ratings yet
Tut 7
32 pages
Week 5 - Latent Semantic Indexing
No ratings yet
Week 5 - Latent Semantic Indexing
38 pages
Most Tensor Problems Are NP-Hard: ACM Reference Format
No ratings yet
Most Tensor Problems Are NP-Hard: ACM Reference Format
39 pages
Computational Tools DTU Presentation Week3
No ratings yet
Computational Tools DTU Presentation Week3
33 pages
Dijkstra's Algorithm
No ratings yet
Dijkstra's Algorithm
59 pages
Dimensionality Reduction
No ratings yet
Dimensionality Reduction
85 pages
Singular Value Decomposition
No ratings yet
Singular Value Decomposition
43 pages
On Adding and Subtracting Eigenspaces With Evd and SVD: Peter Hall David Marshall Ralph Martin
No ratings yet
On Adding and Subtracting Eigenspaces With Evd and SVD: Peter Hall David Marshall Ralph Martin
16 pages
Lec 3
No ratings yet
Lec 3
51 pages
Chapter 6
No ratings yet
Chapter 6
55 pages
Evmeth
No ratings yet
Evmeth
9 pages
Linear Algebra Project
No ratings yet
Linear Algebra Project
9 pages
Lecture 3 Introduction To Linear Algebra (Part 2)
No ratings yet
Lecture 3 Introduction To Linear Algebra (Part 2)
57 pages
Math Foundations of Gena I
No ratings yet
Math Foundations of Gena I
210 pages
Numerical Linear Algebra in Data Mining: Lars Eld en
No ratings yet
Numerical Linear Algebra in Data Mining: Lars Eld en
58 pages
E1039207009 21119 1218595455594
No ratings yet
E1039207009 21119 1218595455594
23 pages
Large-Scale Data Mining CS 395T: Unique Number: 49460
No ratings yet
Large-Scale Data Mining CS 395T: Unique Number: 49460
4 pages
Big Data - Lecture 06 - SVD
No ratings yet
Big Data - Lecture 06 - SVD
56 pages
Data Science - UNIT - 5
No ratings yet
Data Science - UNIT - 5
57 pages
Data Science L30 - ManifoldLearning
No ratings yet
Data Science L30 - ManifoldLearning
79 pages
WINSEM2024-25 CSE4006 ETH AP2024254000693 2024-12-14 Reference-Material-I
No ratings yet
WINSEM2024-25 CSE4006 ETH AP2024254000693 2024-12-14 Reference-Material-I
36 pages
BD - Lecture 3 - Decision Tree
No ratings yet
BD - Lecture 3 - Decision Tree
39 pages
Week 16 Lecture 01 02 SVD and CUR (Example)
No ratings yet
Week 16 Lecture 01 02 SVD and CUR (Example)
56 pages
Lecture10 CF Dimensionality Reduction V0
No ratings yet
Lecture10 CF Dimensionality Reduction V0
30 pages
PageRank With Eigen Decompositions
No ratings yet
PageRank With Eigen Decompositions
92 pages
Aula 10
No ratings yet
Aula 10
49 pages
Linear Algebra: Submitted by Ahmad Saeed Submitted To Sir Muzzam Ali BITM-F18-022
No ratings yet
Linear Algebra: Submitted by Ahmad Saeed Submitted To Sir Muzzam Ali BITM-F18-022
5 pages
Mathophilia
No ratings yet
Mathophilia
18 pages
Exercise 01 Math Refresher
No ratings yet
Exercise 01 Math Refresher
4 pages
SVD Other2
No ratings yet
SVD Other2
11 pages
Singular Value Decomposition Tutorial - Kirk Baker
No ratings yet
Singular Value Decomposition Tutorial - Kirk Baker
24 pages
Principal Component Analysis
No ratings yet
Principal Component Analysis
3 pages
Singular Value Decomposition: Reduced Density Matrix
No ratings yet
Singular Value Decomposition: Reduced Density Matrix
3 pages
Dimensionality Reduction DR
No ratings yet
Dimensionality Reduction DR
31 pages
Vasvi Khullar Mca - Iv (B) 06417704417
No ratings yet
Vasvi Khullar Mca - Iv (B) 06417704417
5 pages
Z-Transforms Solved Problems
100% (1)
Z-Transforms Solved Problems
5 pages
Numerov
No ratings yet
Numerov
5 pages
Earley Parsing PDF
No ratings yet
Earley Parsing PDF
27 pages
Be Mechanical Engineering Semester 5 2023 May Numerical and Statistical Methods Nasm Pattern 2019
No ratings yet
Be Mechanical Engineering Semester 5 2023 May Numerical and Statistical Methods Nasm Pattern 2019
3 pages
Maths Project - Square Root
100% (1)
Maths Project - Square Root
7 pages
Metamorphic Robots
No ratings yet
Metamorphic Robots
23 pages
Uts No 3
No ratings yet
Uts No 3
3 pages
Logic Formulation
No ratings yet
Logic Formulation
31 pages
Calculus 2 Pre Final Quiz 1 Attemp 2
No ratings yet
Calculus 2 Pre Final Quiz 1 Attemp 2
4 pages
Docs Gate User Guide
No ratings yet
Docs Gate User Guide
2 pages
Repetitive Control
No ratings yet
Repetitive Control
22 pages
Journal of Parallel and Distributed Computing
No ratings yet
Journal of Parallel and Distributed Computing
13 pages
12 Sorting
No ratings yet
12 Sorting
66 pages
DP Patterns
No ratings yet
DP Patterns
10 pages
Computer Networking
No ratings yet
Computer Networking
14 pages
MCQ Bcom-QT OF BUSINESS
No ratings yet
MCQ Bcom-QT OF BUSINESS
14 pages
5 SpanningTrees EN
No ratings yet
5 SpanningTrees EN
23 pages
DSP File
No ratings yet
DSP File
26 pages
2019 GHOJOGN Generalized Eigenvalue Tutorial
No ratings yet
2019 GHOJOGN Generalized Eigenvalue Tutorial
8 pages
Differential Equations MSC
No ratings yet
Differential Equations MSC
6 pages
MSCS - Algorithm Analysis Assignment 3
No ratings yet
MSCS - Algorithm Analysis Assignment 3
1 page
Managing Subsurface Data in the Oil and Gas Sector Seismic: Seismic
From Everand
Managing Subsurface Data in the Oil and Gas Sector Seismic: Seismic
Ahmad Bin Maidinsar
No ratings yet
Autodesk 3ds Max 2023: A Comprehensive Guide, 23rd Edition
From Everand
Autodesk 3ds Max 2023: A Comprehensive Guide, 23rd Edition
Prof. Sham Tickoo
No ratings yet
Professional Microsoft SQL Server 2014 Integration Services
From Everand
Professional Microsoft SQL Server 2014 Integration Services
Devin Knight
No ratings yet
Autodesk Fusion 360 Black Book (V 2.0.15293) - Part 2
From Everand
Autodesk Fusion 360 Black Book (V 2.0.15293) - Part 2
Gaurav Verma
No ratings yet
Tinkercad Black Book
From Everand
Tinkercad Black Book
Gaurav Verma
No ratings yet

14-Learning Emb

Uploaded by

14-Learning Emb

Uploaded by

¡ Standard dimensionality Reduction methods

§ Singular value decompositions (SVD)

¡ A: Input data matrix: m x n matrix (e.g., m documents, n terms)

¡ Projecting A onto V and U produces embeddings:

10 15 3 0 10 -0.30 0.41 -0.79

¡ <doc, v1> = <[10,15,3,0,10] , v1>= -12.7

¡ <doc, v1> = <[10,15,3,0,10] , v1>= -12.7

¡ <doc, v1> = <[10,15,3,0,10] , v1>= -12.7

¡ <doc, v1> = <[10,15,3,0,10] , v1>= -12.7

You might also like