0% found this document useful (0 votes)
15 views113 pages

Visualization101 - Print

The document provides an overview of data visualization, including its definition, importance, and methods. It outlines four main types of visualizations (comparison, distribution, relationship, and composition) and presents five rules for effective visual design. Additionally, it discusses pre-attentive attributes that aid in data interpretation and offers practical examples of various chart types.

Uploaded by

Khang Đỗ
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
15 views113 pages

Visualization101 - Print

The document provides an overview of data visualization, including its definition, importance, and methods. It outlines four main types of visualizations (comparison, distribution, relationship, and composition) and presents five rules for effective visual design. Additionally, it discusses pre-attentive attributes that aid in data interpretation and offers practical examples of various chart types.

Uploaded by

Khang Đỗ
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 113

Data Visualization 101

Color & Chart Types


Oct-2022

1
What Is Data Visualization?

Why Do We Visualize Data?

How Do We Visualize Data?


Table Of • Data Visualize Framework
Content • 4 Types Of Visualization
• 5 Rules Of Good Visualize + game
• 12 Pre-attentive Attributes

Common Chart Types

• Visual By Kind Of Data


• Common Charts

2
What Is Data Visualization?

3
“Trực quan hóa dữ liệu là biểu thông tin và dữ liệu
What Is Data dưới dạng đồ họa. Bằng cách sử dụng các yếu tố trực
quan như biểu đồ, đồ thị và bản đồ, các công cụ trực
Visualization? quan hóa dữ liệu giúp tiếp cận dữ liệu dễ dàng cho
việc tìm hiểu các xu hướng, các ngoại lệ và các hình
mẫu trong dữ liệu.”

❖ Một số ưu điểm của trực quan hóa dữ liệu bao


gồm:
❑ Trực quan hóa thông tin.
❑ Tương tác khám phá thông tin dễ dàng.
❑ Dễ nhận biết các hình mẫu và các mối quan hệ
của dữ liệu.

❖ Một số nhược điểm bao gồm:


❑ Có thể làm thông tin sai lệch hoặc không
chính xác.
❑ Trực quan dữ liệu không phải lúc nào cũng
cho thấy ngay nguyên nhân.

4
Why Do We Visualize Data?

5
Why Do We
Visualize Data?
Example of Data Visualise

❖Total Actual MTD vs Full Month AOP? Growth?

7
Example of Data Visualise

❖Top 5 Contribution Brands?

8
How Do We Visualize?

9
The Analytical Framework
Define
Business Hypothesis Data
Problem Formulation Requirements
❑ Formulation of Hypothesis:
Based on Expert Knowledge

Decision Data ❑ Data Collection & Processing:


Making Collection Usually, time consuming

❑ Advanced Analytics:
Also called Modeling & Algorithms

❑ Insights and Analysis:


Data
Insights and
Processing &
Hypothesis Validation
Analysis
Cleansing
❑ Decision Making:
Review insights and actions
Advanced Data Explore
Analytics & Visualize
Data Visualization Framework

3 4 5
Questions to Types of Rules of good
ask yourself vis ualizations visual design

11
3 Questions to Ask Yourself At The Start.

Who-Audience? What-Message? Is it worth?


Background and expectation • Data by itself does not tell • Visualizations are not a
of the audience a story. cure-all.
• Instructed vs Self-service • Craft your message track • Sometimes a table might
• Experts vs. Managerial before creating your work better
• Glance vs, Deep dive visualization.

12
What would you like to show?

Visualizations can be categorized according to their intent.

There are 4 main visualization types:


1.Comparison

2. Distribution

3. Relationship

4.Composition
13
3 Questions to Ask Yourself At The Start.
1. Who is my audience ?
Understand the background and expectations of the visualization audience.

Background Experts vs. Managerial


Expectations Quick glance vs. Deep-dive
Guidance Instructed vs. Self-discovery

14
Managerial Self-Service BI Dashboard Box Plot for Expert Audiences or Guided Review
3 Questions to Ask Yourself At The Start.
2. What is my message?
❖ Data by itself does not tell a story.

❖ What key ideas do you want your audience to take away?

❖ Craft your message track before creating your visualization.

No Story Telling, Just Information Good Visualization with Clear Story


15
3 Questions to Ask Yourself At The Start.
3. Is it worth creating a visualization?
❖ Does your visualization provide an insight that was not obtainable with the original representation of data?

❖ Visualizations are not a cure-all -sometimes a tablemight work better!

Tables Visualizations

Data as text Data as pictures

Data arranged in rows & columns Data displayed in relation to axes

Precise, individual values Message resides in the data shape

16
Data Visualization Framework

3 4 5
Questions to Types of Rules of good
ask yourself vis ualizations visual design

17
4 Visualization Types: Comparison

Intent is to compare either between items, over time or both.

What are examples of each?

Between items: # of users by Function, Sales for a SKU..

Over time: Monthly average office temperature, Quarterly brand sales..

Both: Weekly usage hours by application, Monthly sales by SKU..

18
5 Rules of Good Visual Design
1.No noise (Chartjunk).

2.Use colors wisely.

3.Avoid using 3Deffects.

4.No misleading scales.

5.Be careful with dual-axis charts. 19


4 Visualization Types: Comparison
Between items: Comparing GDP per capita by country.

What is thedifference?
Horizontal labels and bars for ease of reading.
Quantitative valuesare sorted in order. 20
4 Visualization Types: Comparison
Over time: Monthly # of users for FY 2015 / 2016

Time dimension on the horizontal axis helps indicate the flow of time (from left to right).
Height of Bars illustrate relative magnitude difference across months.
4 Visualization Types: Comparison
Both among items and over time: Monthly # of users for FY 15/16 by application.

A line chart connects the same item across time periods and helps illustrate trend.
Multiple lines helps to compare between different items at individual time periods.
4 Visualization Types: Distribution
Intent is to illustrate the spread of data, possibly across defined groups.

What are some examples?

Job applicant test scores, # of users across 24 hours, etc.

A histogram depicting the spread


of test scores by job applicants.
Is the test too easy or difficult?
4 Visualization Types: Relationship
Intent is to show the relationship between two or more variables.

What are some examples?

SKU sales vs. price, # of hours in office vs. salary, etc.

A scatter plot illustrates the


relationship between 2 variables.
Is this a positive or negative
relationship?
4 Visualization Types: Relationship
Scatter Plots are useful to see the relationships between variables.
4 Visualization Types: Composition

Intent is to see individual data segments as part of a whole.

Static Changing over time


E.g., User breakdown byapplication E.g., Monthly User breakdown by application

Pie Chart Stacked Bar Chart


Visualization Cheat Sheet

27
Data Visualization Framework

3 4 5
Questions to Types of Rules of good
ask yourself vis ualizations visual design

29
1. No noise (Chart Junk)
Chart Junk:
Visual content that adds no value and distracts from the data.
Examples: Shadows, color gradients, graphics, etc.

30
2. Use colors wisely
Intense colors only to draw attention.
Different colors to indicate differences in data.
Single, neutral background color (if needed at all).

31
3. Avoid using 3D effects
3D effects are a form of chart junk.

Deserves special mention because of its pervasiveness and how it gets in the way of communication.

32
4. No misleading scales

If your axes do not start at 0, it might mislead audience perception, especially for comparison
visualizations. Send the correct message!

Our April expenditure is


>2x our budget!!
What is Finance doing?! Oh...

33
5. Be careful with dual-axis charts
Dual-axis charts are only useful when comparing data with different units of measure.
Even then, 2 separate charts might be more effective.

What is this chart telling me??

34
How well do you know the 5 rules?
#1 What’s wrong with this visualization?
#3 What’s wrong with this visualization?
#3 cont’d Becoming one better …
#4 What’s wrong with this visualization?
#4 Becoming one better …
#5 What’s wrong? More from the Web…
#6 Improve What’s wrong … hands on
• The primary intention of this graph example is to display the average selling price of gizmos as
it changes monthly through the course of an entire year; the secondary intention is to relate
the average selling price to the range of prices during those same months.
• Given these objectives, examine the graph and list of all the issuesyou see.
#6 Improve What’s wrong … hands on
• The primary intention of this graph example is to display the average selling price of gizmos as
it changes monthly through the course of an entire year; the secondary intention is to relate
the average selling price to the range of prices during those same months.
• The proposed solution:
#7 Bars & Line are much easier to interpret than slices of pies
• It’s hard to compare data across pies :

• Trends are much easier to


• see on a line chart :
#10 No 2 people see colors the same way

• 10% of males and 1% of females suffer from color blindness


• Most common deficiency: green vs red
– what do we use most in scorecards ?

Trivia: this test is called a


Ishihara Plate.

• Beware of color distortion on various screens, projectors


Some Examples of Practice

46
Examples

1. Line Chart

2. Pie Chart

3. Bar chart

47
Examples

1. Pie Chart

2. Card

3. Table

48
Examples

1. Pie Chart

2. Column Chart

3. Column & Line chart

49
Examples
by Months

1. Pie Chart

2. Column Chart

3. Line chart

50
Examples
by Periods

1. Column Chart

2. Scatter Chart

3. Column & Line

chart

51
Examples
Percentage of Each Group Customer per Quarters

1. Pie Chart

2. Column Chart

3. Stacked Column Chart

52
Examples
Show the relationship between a mix of product categories, number of orders and profit margin.

1. Bubble Chart

2. Scatter Chart

3. Column & Line Chart

53
Examples
Show volume by Channel of Yesterday, WTD, MTD and compare MTD vs YAGO

1. Scatter Chart

2. Table

3. Bubble Chart

54
12 Pre-attentive Attribute

55
Let Try Visual 9 Numbers On This Table

9 1 8 2 3 2 0 6 1 7
7 7 6 7 6 9 2 0 9 9
3 1 8 4 9 6 0 1 5 4
8 7 1 0 7 3 4 5 7 6
6 7 0 2 2 5 5 8 8 3
1 8 7 3 7 4 9 9 3 1
8 7 8 5 5 9 3 8 3 5
2 9 3 6 6 4 2 3 8 9
0 8 9 5 5 7 6 6 3 4
7 1 0 2 6 7 8 4 0 1
56
Pre-attentive Attribute

❖Có những thứ bộ não của con người xử lý trong một vài mi li giây,
trước khi chú ý tới những thứ khác.

❖Hãy xem những ví dụ sau về việc visualize các chữ số 9 trong bảng
số 10x10.

57
9 1 8 2 3 2 0 6 1 7 9 1 8 2 3 2 0 6 1 7

7 7 6 7 6 9 2 0 9 9 7 7 6 7 6 9 2 0 9 9
3 1 8 4 9 6 0 1 5 4 3 1 8 4 9 6 0 1 5 4

8 7 1 0 7 3 4 5 7 6 8 7 1 0 7 3 4 5 7 6

6 7 0 2 2 5 5 8 8 3 6 7 0 2 2 5 5 8 8 3

1 8 7 3 7 4 9 9 3 1 1 8 7 3 7 4 9 9 3 1

8 7 8 5 5 9 3 8 3 5 8 7 8 5 5 9 3 8 3 5

2 9 3 6 6 4 2 3 8 9 2 9 3 6 6 4 2 3 8 9
0 8 9 5 5 7 6 6 3 4
Using Pre- 7 1 0 2 6 7 8 4 0 1
0

7
8

1
9
0
5

2
5

6
7

7
6

8
6

4
3

0
4

attentive 9 1 8 2 3 2 0 6 1 7 2 8 0 3 8 7 4 8 6 6
Techniques 7
3
7
1
6
8
7
4
6
9
9
6
2
0
0
1
9
5
9
4
1
2
5
3
5
8
0
9
4
4
8
7
1
6
6
7
8
6
5
7
8 7 1 0 7 3 4 5 7 6 9 5 3 7 9 3 5 7 4 6
6 7 0 2 2 5 5 8 8 3 8 1 2 0 6 0 4 7 9 6
1 8 7 3 7 4 9 9 3 1 3 0 3 6 3 1 4 6 9 8
8 7 8 5 5 9 3 8 3 5 2 5 0 7 0 2 3 6 0 0
2 9 3 6 6 4 2 3 8 9 9 8 6 3 5 7 5 2 5 3
0 8 9 5 5 7 6 6 3 4 3 6 8 5 1 9 1 3 1 0
7 1 0 2 6 7 8 4 0 1 8 4 4 5 6 5 7 6 6 0
58
Using Chart
With Color
Hue

59
Orientation Length Width Size

12 Pre- Shape Enclosure Color Hue Color Value

attentive
Attributes
Grouping Positioning Added Mark Shape Contrast

60
Thank You

61
Visualize By Kind Of Data
-6 Categorizes-

68
Numeric Viz

70
Categories Viz

71
Number &
Categories Viz

72
Maps Viz

73
Network Viz

74
Time Series Viz

75
Visualization – A World
Of Possibilities

Viz By Graph
Type

76
Distribution

77
Violinplot

Violinplots cho phép hình dung


sự phân bố của một biến số cho
một hoặc một số nhóm. Nó hơi
giống với boxplot, nhưng cho
phép hiểu sâu hơn về sự phân
phối.
Violins đặc biệt thích nghi khi
lượng dữ liệu lớn và việc hiển thị
các quan sát riêng lẻ là không
thể.

78
Density

Biểu đồ mật độ cho thấy sự phân


bố của số liệu. Nó chỉ nhận một
biến làm đầu vào và gần giống
với biểu đồ Histogram.

79
Histogram

Biểu đồ Histogram chỉ nhận đầu


vào là một biến. Số liệu được cắt
thành nhiều phần và số lượng
quan sát trên mỗi phần được
biểu thị bằng chiều cao của
thanh.

80
Boxplot

Biểu đồ Boxplot cung cấp một


bản tóm tắt về một hoặc một số
biến số.
Đường chia hộp thành 2 phần
thể hiện giá trị trung bình
(median) của dữ liệu.
Phần cuối của hộp hiển thị 25%
cận trên và dưới. Các đường cực
trị hiển thị giá trị cao nhất và
thấp nhất không bao gồm các giá
trị ngoại lệ.

81
Boxplot

Biểu đồ Boxplot cung cấp một


bản tóm tắt về một hoặc một số
biến số.
Đường chia hộp thành 2 phần
thể hiện giá trị trung bình
(median) của dữ liệu.
Phần cuối của hộp hiển thị 25%
cận trên và dưới. Các đường cực
trị hiển thị giá trị cao nhất và
thấp nhất không bao gồm các giá
trị ngoại lệ.

82
Correlation

83
Scatterplot

Biểu đồ scatterplot hiển thị mối


quan hệ giữa 2 biến số. Đối
với mỗi điểm dữ liệu, giá trị
của biến đầu tiên được biểu
diễn trên trục X, giá trị thứ hai
trên trục Y. Ngoài ra có thể kết
hợp với size để thể hiện thêm
một chiều thông tin nữa.

84
Heatmap

Biểu đồ heatmap là một biểu


diễn đồ họa của dữ liệu trong
đó các giá trị được chứa trong
ma trận các ô, ngoài ra độ lớn
được biểu diễn dưới dạng màu
sắc.
Nó thực sự hữu ích để hiển thị
một cái nhìn chung về dữ liệu ,
không phải để nhìn các điểm dữ
liệu cụ thể.

85
Correlogram

Biểu đồ tương quan


(Correlogram/Pairplot) hoặc ma
trận tương quan cho phép phân
tích mối quan hệ giữa từng cặp
biến số của tập dữ liệu. Mối quan
hệ giữa mỗi cặp biến được hình
dung thông qua biểu đồ
Histogram, Scatterplot.

86
Bubble

Biểu đồ bubble là biểu đồ phân


tán trong đó kích thước cảu
bubble là giá trị thứ ba được
thêm vào.

Bạn cần 3 biến số làm đầu vào:


một được biểu thị bằng trục X,
một bằng trục Y và một là kích
thước bubble.

87
Connected
Scatter

Biểu đồ connected scatter cho


thấy mối quan hệ giữa hai biến
được qua trục X và Y, giống như
biểu đồ scatter plot. Các dấu
chấm được nối với nhau bằng các
phân đoạn giống biểu đồ Line.

88
Density 2D

Biểu đồ mật độ 2D cho thấy sự


phân bố của các giá trị trong tập
dữ liệu. Biểu đồ thể hiện số
lượng quan sát trong một khu
vực cụ thể của không gian 2D và
biểu diễn nó bằng cách sử dụng
số lượng hình vuông, hình lục
giác, mật độ điểm hoặc màu sắc.

89
Ranking

90
Bar

Biểu đồ Bar (thanh) hiển thị mối


quan hệ giữa 2 biến. Mỗi đơn vị
được biểu diễn dưới dạng một
thanh. Kích thước của thanh thể
hiện giá trị độ lớn của nó.

91
Spider/Radar

Biểu đồ Spider/Radar là một loại


biểu đồ hai chiều được thiết kế
để vẽ một hoặc nhiều chuỗi giá
trị của nhiều biến trên mặt phẳng
chung. Mỗi biến có trục riêng của
nó, tất cả các trục đều gặp nhau
tại tâm của biểu đồ.

92
Wordcloud

Wordcloud (Tag cloud) hiển thị


danh sách các từ, tầm quan trọng
của mỗi từ được hiển thị với kích
thước hoặc màu phông chữ. Định
dạng này hữu ích để nhanh
chóng nhận ra các từ nổi bật
nhất.

93
Parallel

Biểu đồ Parallel cho phép thấy


mối liên kết của nhiều biến. Điểm
mạnh của nó là cho thấy mối liên
kết giữa các dạng dữ liệu có đơn
vị đo khác nhau.

94
Lollipop

Biểu đồ lollipop về cơ bản là một


biểu đồ thanh, trong đó thanh
được biến đổi thành một đường
thẳng và một đầu là hình tròn.
Tuy nhiên, nó hấp dẫn hơn và
truyền tải thông tin tốt hơn. Nó
đặc biệt hữu ích khi biểu đồ
thanh có cùng chiều cao: nó
tránh việc nhầm lẫn khi các thanh
nằm gần nhau và hiệu ứng Moiré.

95
Circular Barplot

Circular Barplot là một barplot


biến thể, với mỗi thanh được
hiển thị theo một vòng tròn thay
vì một đường thẳng. Nó thường
được dùng khi có quá nhiều
thanh. Tuy nhiên, nó có nhược
điểm là khá khó đọc.

96
Part of Whole

97
Treemap

Sơ đồ dạng cây hiển thị dữ liệu


phân cấp dưới dạng một tập các
hình chữ nhật lồng nhau. Diện
tích thể hiện độ lớn giá trị, có thể
thiết lập thêm thuộc tính khác
bằng màu sắc.

98
Venn Diagram

Biểu đồ Venn (còn được gọi là


biểu đồ sơ cấp, biểu đồ tập hợp
hoặc biểu đồ logic): là một biểu
đồ thể hiện mối quan hệ logic
giữa nhiều tập hợp khác nhau.

99
Doughnut

Biểu đồ Doughnut thể hiện giá trị


của tập hợp các giá trị, trong đó
tổng giá trị của các tập con sẽ là
100%.

100
Pie

Biểu đồ Pie cũng giống như biểu


đồ Doughnut. Nó cũng thể hiện
giá trị của tập hợp các giá trị,
trong đó tổng giá trị của các tập
con sẽ là 100%.

101
Dendrogram

Biểu đồ Dendrogram là một cấu


trúc mạng. Nó được tạo thành từ
một nút gốc và các nút được nối
với nhau bằng các nhánh.

102
Circular Packing

Biểu đồ Circular Packing là một


biến thể của biểu đồ Treemap.
Thay vì thể hiện các tập con bằng
các hình chữ nhật lồng nhau thì
nó thể hiện bằng hình tròn lồng
nhau.

103
Sunburst

Biểu đồ Sunburst hiển thị cấu


trúc phân cấp. Gốc của cấu trúc
được thể hiện từ tâm của vòng
tròn và mỗi cấp là một vòng bổ
sung theo chiều từ trong ra
ngoài. Mức cuối cùng (lá) nằm ở
phần ngoài cùng của vòng tròn.

104
Growth

105
Line

Biểu đồ Line biểu thị sự phát


triển của một hoặc nhiều biến số.
Các điểm dữ liệu được nối với
nhau bằng các đoạn thẳng. Các
điểm nối được sắp xếp thứ tự
theo một chiều nhất định,
thường thì theo giá trị trục x.
Lien thường được dùng để biểu
thị sự phát triển theo chiều thời
gian.

106
Area

Biểu đồ Area cũng giống biểu đồ


Line ngoại trừ khu vực giữa
đường thẳng và trục x được đánh
bóng. Nó cũng thường được
dùng thể hiện sự phát triển theo
thời gian của biến số.

107
Stack Area

Biểu đồ Stack Area được phát


triển dựa trên biểu đồ Area ngoại
trừ khu vực giữa đường thẳng và
trục x được tô màu để phân biệt
các biến số chồng lên nhau.

108
Stack Stream

Biểu đồ Stack stream là mở rộng


của biểu đồ stack area. Chỉ khác
nhau là các biến được nối với
nhau thành luồng và tô màu
chồng lên nhau để phân biệt.

109
Flow

110
Chord Diagram

Biểu đồ Chord Diagram thể hiện


phân bố giữa các biến số thông
qua các luồng được kết nối
quanh vòn tròn. Độ lớn của các
mảnh trong vòng trong và độ
rộng của các luồng thể hiện giá
trị contribution của chúng.

111
Network

Biểu đồ Network là một cấu trúc


mạng. Nó được tạo thành từ một
nút gốc các nút nối với nhau tạo
thành nhánh.

112
Sankey

Biểu đồ Sankey cũng giống biểu


đồ Chord Diagram thể hiện phân
bố giữa các biến số thông qua các
luồng được kết nối đứng đối lập.
Độ lớn của các mảnh các luồng
thể hiện giá trị contribution của
chúng.

113
Sankey

Biểu đồ Arc (vòng cung) là một


loại biểu đồ mạng đặc biệt. Nó
được thể hiện bằng các nút đặt
trên một đường thẳng. Các nút
được liên kết với nhau bằng các
đường thể hiện mối quan hệ giữa
các nút. Độ lớn của đường hoặc
nút thể hiện giá trị liên kết giữa
các nút.

114
Edge Bundling

Edge Bundling cho phép trực


quan hóa các mối quan hệ liền kề
nhau giữa các biến được tổ chức
trong một hệ thống phân cấp. Ý
tưởng là bó các cạnh kề lại với
nhau để giảm bớt sự lộn xộn
thường thấy trong các mạng
phức tạp.

115
Map

116
Map

Map hiển thị các khu vực địa lý,


các điểm được xác đinh bằng
Long & Lat (kinh độ & vĩ độ) địa
lý. Nó cho phép cái nhìn tổng
quát về phân bố dữ liệu trên một
khu vực địa lý.

117
Heat Map

Bản đồ Heat Map hiển thị các


khu vực địa lý hoặc các khu vực
được phân biệt bằng màu sắc thể
hiện bằng giá trị của biến. Nó cho
phép cái nhìn tổng quát về phân
bố dữ liệu trên một khu vực địa
lý. Đặc biệt hữu ích khi các giá trị
quá nhiều trên bản đồ.

118
Choropleth

Bản đồ Choropleth hiển thị các


khu vực địa lý được phân biệt
bằng màu sắc. Giá trị của biến
trong khu vực sẽ được thể hiện
qua quy ước màu sắc hoặc độ
đậm nhạt của màu.

119
Thank You

12
0
3 Questions to Ask Yourself At The Start.

Who-Audience? What-Message? Is it worth?


Background and expectation • Data by itself does not tell • Visualizations are not a
of the audience a story. cure-all.
• Instructed vs Self-service • Craft your message track • Sometimes a table might
• Experts vs. Managerial before creating your work better
• Glance vs, Deep dive visualization.

122

You might also like