0% menganggap dokumen ini bermanfaat (0 suara)
73 tayangan24 halaman

VISUALISASI

Diunggah oleh

A R I
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
73 tayangan24 halaman

VISUALISASI

Diunggah oleh

A R I
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 24

VISUALISASI

ASRUL ABDULLAH

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Visualisasi Variabel
• Memiliki peranan penting dalam bidang data mining, machine
learning dan data science.
• Visualisasi diperlukan karena kita perlu menyaring informasi kunci
yang ditemukan dalam sejumlah data menjadi bentuk yang bermakna
dan muda dicerna.
• Tool yang digunakan untuk melakukan visualisasi antara lain
Matplotlib dan Seaborn

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Contoh Visualisasi
• Pie Chart
• Bar Chart
• Line Graph
• Scatter Plot
• Heatmap

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Pie Chart
Pie Chart digunakan untuk menunjukkan seberapa banyak dari setiap jenis kategori
dalam dataset berbanding dengan keseluruhan.
#Pie Chart
import matplotlib.pyplot as plt

mata_kuliah = ('Data Mining', 'Jarkom', 'Web Dasar',


'Probabilitas', 'Mikrokontroller')
votes = (20, 11, 5, 15, 10)

plt.pie(
votes,
labels=mata_kuliah,
)
plt.show()

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Bar Chart
Bar Chart adalah merupakan tools visualisasi yang dapat digunakan untuk membandingkan data
kategorikal.
import matplotlib.pyplot as plt
import numpy as np

countries = ('Argentina', 'Bolivia', 'Brazil',


'Chile', 'Colombia', 'Ecuador',
'Falkland Islands', 'French Guiana',
'Guyana', 'Paraguay', 'Peru',
'Suriname', 'Uruguay', 'Venezuela')

populations = (45076704, 11626410, 212162757,


19109629, 50819826, 17579085,
3481, 287750, 785409, 7107305,
32880332, 585169, 3470475,
28258770)

x_coords = np.arange(len(countries))
plt.bar(x_coords, populations)
plt.show()
PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id
Line Graphs
Line Graph adalah bentuk visualisasi lainya selain diagram lingkaran dan diagram
batan. Meskipun diagram lingkaran dan diagram batang berguna untuk
menunjukkan bagaimana kelas data saling terkait, diagram garis lebih berguna
untuk menunjukkan bagaimana kemajuan data selama beberapa periode
import matplotlib.pyplot as plt

temperature_c = [2, 1, 0, 0, 1, 5, 8, 9, 8, 5, 3,
2, 2]
hour = [0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20,
22, 24]

plt.plot(
hour,
temperature_c
)
plt.show()

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Scatter Plot
Scatter plot berfungsi baik untuk data dengan dua komponen numerik. Scatter plot
dapat memberikan informasi yang berguna terutama mengenai pola atau pencilan.
import matplotlib.pyplot as plt

country = ['Bangladesh', 'Brazil', 'China',


'India', 'Indonesia', 'Japan',
'Mexico', 'Nigeria', 'Pakistan',
'Russia', 'United States']
gdp = [2421, 13418, 9475, 4353, 7378, 35477,
14276, 5087, 4133, 20255, 49267]
population = [148692131, 194946470, 1341335152,
1224614327, 239870937,
126535920, 113423047, 158423182,
173593383, 142958164, 310383948]

plt.scatter(population, gdp)
plt.show()
PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id
Heatmap
Heatmap adalah jenis visualisasi yang menggunakan kode warna untuk mewakili nilai / kepadatan relatif
data di seluruh permukaan. Seringkali ini adalah bagan tabel, tetapi tidak harus terbatas pada itu. Untuk
data tabular, terdapat label pada sumbu x dan y. Nilai di persimpangan label tersebut dipetakan ke warna.
Warna-warna ini kemudian dapat digunakan untuk memeriksa data secara visual guna menemukan
kelompok dengan nilai serupa dan mendeteksi tren dalam data.

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


import seaborn as sns

cities = ['Tokyo', 'Delhi', 'Shanghai', 'Sao Paulo', 'Mumbai', 'Mexico


City',
'Beijing', 'Osaka', 'Cairo', 'New York', 'Dhaka', 'Karachi']

months = ['J', 'F', 'M', 'A', 'M', 'J', 'J', 'A', 'S', 'O', 'N', 'D']

temperatures = [
[10, 10, 14, 19, 23, 26, 30, 31, 27, 22, 17, 12], # Tokyo
[20, 24, 30, 37, 40, 39, 35, 34, 34, 33, 28, 22], # Delhi
[ 8, 10, 14, 20, 24, 28, 32, 32, 27, 23, 17, 11], # Shanghai
[29, 29, 28, 27, 23, 23, 23, 25, 25, 26, 27, 28], # Sao Paulo
[31, 32, 33, 33, 34, 32, 30, 30, 31, 34, 34, 32], # Mumbai
[22, 24, 26, 27, 27, 26, 24, 25, 24, 24, 23, 23], # Mexico City
[ 2, 5, 12, 21, 27, 30, 31, 30, 26, 19, 10, 4], # Beijing
[ 9, 10, 14, 20, 25, 28, 32, 33, 29, 23, 18, 12], # Osaka
[19, 21, 24, 29, 33, 35, 35, 35, 34, 30, 25, 21], # Cairo
[ 4, 6, 11, 18, 22, 27, 29, 29, 25, 18, 13, 7], # New York
[25, 29, 32, 33, 33, 32, 32, 32, 32, 31, 29, 26], # Dhaka
[26, 28, 32, 35, 36, 35, 33, 32, 33, 35, 32, 28], # Karachi
]
sns.heatmap(temperatures, yticklabels=cities, xticklabels=months)
PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id
Visualisasi Statistik
• Histogram
• Correlation dan Causation

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Histogram
Histogram adalah salah satu visualisasi yang cukup penting dalam memahami distribusi pada data kita.
Pandas Histogram menyediakan method yang memudahkan kita untuk membuat histogram. Plot
histogram secara tradisional hanya membutuhkan satu dimensi data. Ini dimaksudkan untuk
menunjukkan jumlah nilai atau kumpulan nilai secara serial.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
path='https://s3-api.us-
geo.objectstorage.softlayer.net/cf-courses-
data/CognitiveClass/DA0101EN/automobileEDA.csv'
df = pd.read_csv(path)
df.head()

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Contoh
df.hist(column='price', bins=30);

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Correlation dan Causation
Korelasi merupakan suatu pengukuran sejauh mana nilai saling ketergantungan antar variabel. Causation
merupakan hubungan antara sebab dan akibat antara dua variable Penting untuk mengetahui perbedaan
antara keduanya dan bahwa korelasi tidak mendeskripsikan sebab-akibat.
Korelasi Pearson
Korelasi Pearson mengukur ketergantungan linier antara dua variabel X dan Y. Koefisien yang dihasilkan
adalah nilai antara -1 dan 1 inklusif, di mana:
• 1: Total korelasi linier positif.
• 0 : Tidak ada korelasi linier, kedua variabel kemungkinan besar tidak saling mempengaruhi.
• -1: Total korelasi linier negatif.

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Pearson Correlation adalah metode default dari fungsi "corr". Seperti sebelumnya kita dapat menghitung
Korelasi Pearson dari variabel 'int64' atau 'float64'. Terkadang kita ingin mengetahui signifikansi dari
estimasi korelasi, kita dapat menggunakan p-value.
P-Value:
Berapa nilai P ini? Nilai P adalah nilai probabilitas bahwa korelasi antara kedua variabel ini signifikan
secara statistik. Biasanya, kita memilih tingkat signifikansi 0,05, yang berarti bahwa kami yakin bahwa
95% korelasi antar variabel signifikan.
Dengan konvensi, ketika
•nilai p adalah $<$ 0,001: kami katakan ada bukti kuat bahwa korelasinya signifikan.
•nilai p adalah $<$ 0,05: terdapat bukti moderat bahwa korelasi tersebut signifikan.
•nilai p adalah $<$ 0,1: ada bukti lemah bahwa korelasinya signifikan.
•nilai p adalah $>$ 0,1: tidak ada bukti bahwa korelasi tersebut signifikan.

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Contoh
from scipy import stats
pearson_coef, p_value = stats.pearsonr(df['wheel-base'], df['price'])
print("The Pearson Correlation Coefficient is", pearson_coef, " with a P-value of
P =", p_value)

The Pearson Correlation Coefficient is 0.5846418222655081 with a P-value of P =


8.076488270732989e-20

Karena nilai p adalah $<$ 0,001, korelasi antara wheel-base dan harga signifikan secara statistik, meskipun
hubungan liniernya tidak terlalu kuat (0,588)
pearson_coef, p_value = stats.pearsonr(df['horsepower'], df['price'])
print("The Pearson Correlation Coefficient is", pearson_coef, " with a P-value of P =
", p_value)
The Pearson Correlation Coefficient is 0.809574567003656 with a P-value of P =
6.369057428259557e-48
Karena nilai p adalah < 0,001, korelasi antara horsepower dan harga signifikan secara statistik, dengan korelasi
linear positif yang cukup kuat(~0,805)

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Variabel Kategori Statistik
Variabel kategori statistic adalah variabel yang menggambarkan
'karakteristik' dari unit data, dan dipilih dari sekelompok kategori.
Variabel kategori dapat memiliki tipe "objek" atau "int64". Cara yang
baik untuk memvisualisasikan variabel kategori adalah dengan
menggunakan boxplot.
Boxplot menggambarkan variable variable statistic seperti quartil 1,
median / quartil 2, quartil 3, nilai maksimum, nilai minimum, dan
outlier

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Contoh
sns.boxplot(x="body-style", y="price", data=df)

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Visualisasi Deskriptif Statistika
Fungsi deskripsikan secara otomatis menghitung statistik dasar untuk semua variabel kontinu
Analisis yang bisa kita dapatkan dari deskriptif statistik adalah
• Jumlah variabel
• Rata-rata
• Standard deviasi
• Nilai minimal
• IQR (Interquartile Range: 25%, 50% and 75%)
• Nilai Maximal

df.describe()

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Pengaturan default "describe" melewatkan variabel tipe objek. Kita bisa menggunakan code ini
untuk menghitung jumlah type data objek

df.describe(include=['object'])

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Latihan
• Terdapat 5 latihan mandiri pada modul ini. Setiap latihan berisi dataset. Anda boleh menggunakan
Matplotlib atau Seaborn, buat visualisasi yang memungkinkan. Untuk setiap latihan, pilih salah satu
dari visualisasi berikut: * Pie Chart * Bar Chart * Line Chart * Scatter plot * Heatmatp. Anda hanya dapat
menggunakan setiap visualisasi satu kali. Gunakan penilaian Anda untuk memilih mana yang menurut
Anda terbaik untuk setiap pertanyaan. Tambahkan judul, label, kode warna, dan alat bantu visual
lainnya untuk membantu pengguna menafsirkan bagan.

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Problem 1 : Harga Emas
Kita memiliki daftar harga Emas yang dicatat setiap akhir minggu
(Minggu) di 2018 dan 2019. Buat visualisasi yang memungkinkan Anda
menjawab pertanyaan: Tahun apa, 2018 atau 2019, yang cenderung
memberikan penjualan kembali yang lebih baik bagi pemegang Emas?
prices = [14292.2, 12858.9, 11467.5, 9241.1, 8559.6, 11073.5, 9704.3, 11402.3,
9853.5, 8459.5, 8245.1, 7361.3, 7646.6, 7515.8, 6505.8, 6167.3,
9000.9, 6765.5, 6254.8, 7408.7, 8234.1, 7014.3, 6231.6, 6379.1,
6734.8, 7189.6, 6184.3, 6519.0, 6729.6, 6603.9, 6596.3, 6321.7,
6572.2, 6494.2, 6386.2, 6427.1, 5621.8, 3920.4, 4196.2, 3430.4,
3228.7, 3964.4, 3706.8, 3785.4, 3597.2, 3677.8, 3570.9, 3502.5,
3661.4, 3616.8, 4120.4, 3823.1, 3944.3, 4006.4, 4002.5, 4111.8,
5046.2, 5051.8, 5290.2, 5265.9, 5830.9, 7190.3, 7262.6, 8027.4,
8545.7, 7901.4, 8812.5, 10721.7, 11906.5, 11268.0, 11364.9, 10826.7,
9492.1, 10815.7, 11314.5, 10218.1, 10131.0, 9594.4, 10461.1, 10337.3,
8497.3, 7324.1, 7546.6, 7510.9, 7080.8, 7156.2, 7321.5, 7376.8]

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Penjelasan anda
Chart apa yang anda pilih untuk problem diatas dan mengapa anda memilih chart tersebut?
Jawaban anda.
Tahun berapa pemilik emas memiliki keuntungan yang lebih banyak?
Jawaban anda.

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Problem 2
Kita memiliki penggunaan CPU rata-rata per jam untuk komputer pekerja
selama seminggu. Setiap baris data mewakili satu hari dalam seminggu yang
dimulai dengan Senin. Setiap kolom data adalah satu jam dalam sehari
dimulai dengan 0 menjadi tengah malam.
Buat bagan yang menunjukkan penggunaan CPU selama seminggu. Anda
harus dapat menjawab pertanyaan-pertanyaan berikut menggunakan bagan:
• Jam berapa pekerja biasanya makan siang?
• Apakah pekerja tersebut bekerja pada akhir pekan?
• Pada hari apa pekerja mulai bekerja pada komputer mereka pada malam
hari?

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id


Student Solution
cpu_usage = [
[3, 2, 4, 2, 4, 1, 1, 4, 4, 12, 22, 23,
45, 9, 33, 56, 23, 40, 21, 6, 6, 2, 2, 3], # Monday
[1, 2, 3, 2, 3, 2, 3, 2, 7, 22, 45, 44,
33, 9, 23, 19, 33, 56, 12, 2, 3, 1, 2, 2], # Tuesday
[2, 3, 1, 2, 4, 4, 2, 2, 1, 2, 5, 31,
54, 7, 6, 34, 68, 34, 49, 6, 6, 2, 2, 3], # Wednesday
[2, 2, 3, 2, 4, 1, 2, 4, 1, 18, 24, 18,
41, 3, 44, 42, 12, 36, 41, 2, 2, 4, 2, 4], # Thursday
[4, 1, 2, 2, 3, 2, 5, 1, 2, 12, 33, 27,
43, 8, 38, 53, 29, 45, 39, 3, 1, 1, 3, 4], # Friday
[2, 3, 1, 2, 2, 5, 2, 8, 4, 2, 3,
1, 5, 1, 2, 3, 2, 6, 1, 2, 2, 1, 4, 3], # Saturday
[1, 2, 3, 1, 1, 3, 4, 2, 3, 1, 2,
2, 5, 3, 2, 1, 4, 2, 45, 26, 33, 2, 2, 1], # Sunday
]

PRODI TEKNIK INFORMATIKA www.unmuhpnk.ac.id

Anda mungkin juga menyukai