Data Understanding Aak Ui 2021-07-23 v2
Data Understanding Aak Ui 2021-07-23 v2
Tema Pelatihan
Pertemuan #06 : Data Understanding (non-visualisasi)
Unit Kompetensi
● Modul ini berisi penjelasan mengenai konsep dan teknik pengambilan dan
telaah data (data gathering and understanding). Teknik-teknik yang dibahas
dibatasi pada yang bersifat nonvisual menggunakan statistika. Teknik-teknik
visualisasi dijelaskan secara terpisah di modul 07.
● Setelah menyelesaikan modul ini, peserta diharapkan mampu:
○ melakukan pengambilan data untuk proses sains data dari sumber data terbuka,
baik secara manual maupun secara programatik menggunakan library Pandas;
○ melakukan telaah data dengan beberapa metode statistika
Outline
Data semi-terstruktur (semi-structured data): Data terstruktur yang tidak mengikuti model struktur
tabular yang seperti pada basis data relasional, namun tetap mengandung tags atau penanda lainnya
yang dapat memisahkan elemen-elemen semantik pada data serta mengatur hierarki antara butir-butir
datanya.
Tipe butir data (1)
Nominal/kategori Ordinal Interval Rasio
kal
Sifat himpunan Diskret, tidak Diskret, terurut Kontinu/numerik, terurut, Kontinu/numerik,
asal terurut perbedaan menunjukkan terurut, nilai
selisih menunjukkan rasio
terhadap kuantitas
satuan/unit di jenis
yang sama
Contoh Warna (merah, Nilai huruf mahasiswa Suhu dalam Celcius, Panjang jalan, suhu
hijau, biru) (A, B, C, D, E) tanggal dalam kalender dalam Kelvin
tertentu
Ukuran data Membership Membership, Membership, comparison, Membership,
menyatakan … comparison difference comparison,
difference, magnitude
Operasi =, ≠ =, ≠, <, > =, ≠, <, >, +, - =, ≠, <, >, +, -, ,
matematika
Tipe butir data (2)
Nominal/kateg Ordinal Interval Rasio
orikal
Representasi nilai tipikal Modus Modus, median Modus, median, Modus, median,
rerata aritmetis rerata aritmetis, rerata
geometris, rerata
harmonis
Representasi sebaran Grouping Grouping, rentang Grouping, rentang Grouping, rentang
(range), rentang (range), rentang (range), rentang
antarkuartil antarkuartil, varians, antarkuartil, varians,
simpangan baku simpangan baku,
koefisien variasi
Memiliki nol sejati yang Tidak Tidak Tidak Ya
menyatakan nilai mutlak
terbawah.
Contoh model data: Tabular
● Terdiri dari N buah rekord (record)
● Masing-masing rekord mengandung D buah atribut
● Rekord = baris, data point, instans, example,
transaksi, tupel, entitas, objek, vector fitur.
● Atribut = kolom, field, dimensi, fitur.
● Atribut yang sama untuk setiap rekord biasanya
diasumsikan memiliki tipe butir data yang sama.
● Struktur dapat bersifat ketat/strict (contoh: basis data
relasional) atau longgar/loose (contoh: Excel
spreadsheet).
● Tergantung keketatan strukturnya, bisa ada bahasa
kueri formal untuk mengakses butir-butir data di
dalamnya (contoh: SQL).
Contoh model data: Graf/Jejaring
requests.get
mengirim HTTP Get
request ke layanan
Daftar nama-nama
dataset ada pada
key 'result'
Mengambil data dari Portal Satu Bandung dengan API (3)
Selain mem-filter langsung pada daftar nama-nama dataset di slide sebelumnya, kita dapat melakukan
search dengan memanggil API http://data.bandung.go.id/api/3/action/package_search dengan parameter
'q' untuk frasa yang dicari. Contoh untuk mencari "sekolah dasar":
Di sini, kita filter nama dataset secara manual, misalnya yang mengandung "sekolah" dan "dasar"
Mengambil data dari Portal Satu Bandung dengan API (5)
● Merupakan salah satu ukuran pusat data (tendensi sentral) yang dapat dipakai untuk data
bertipe interval dan rasio.
● Sifat: total jarak setiap bilangan 𝑥𝑖 terhadap rerata aritmetik 𝑥ҧ adalah 0.
● Dapat dipakai sebagai bilangan yang mewakili keseluruhan kumpulan, sepanjang distribusi
datanya tidak bersifat skew (asimetris).
Konsep: Simpangan Baku
● Simpangan baku (standard deviation) adalah salah satu ukuran sebaran data.
● Dipakai untuk data bertipe interval dan rasio.
● Untuk kumpulan bilangan 𝑆 = 𝑥1 , … , 𝑥𝑁 dengan rerata aritmetik 𝜇𝑆 , simpangan baku 𝜎𝑆 dari
𝑆 adalah
𝑁
1 𝑥1 − 𝜇𝑆 2 + ⋯ + 𝑥𝑁 − 𝜇𝑆 2
𝜎𝑠 = 𝑥𝑖 − 𝜇𝑆 2 =
𝑁 𝑁
𝑖=1
● Kuartil pertama (𝑄1 ): nilai data sehingga 25% dari keseluruhan data bernilai
lebih kecil darinya.
● Kuartil kedua (𝑄2 ) atau median: nilai data sehingga separuh dari data yang
ada bernilai lebih kecil darinya.
○ Dapat dipakai sebagai ukuran pusat data (tendensi sentral) sebagai alternatif dari
rerata (khususnya jika distribusi data bersifat skewed).
● Kuartil ketiga (𝑄3 ): nilai data sehingga 75% dari keseluruhan data bernilai
lebih kecil darinya.
● Kuartil dapat dipakai untuk data bertipe ordinal, interval, dan rasio.
Deskripsi statistik data
Gunakan describe(include='all') jika ingin menampilkan juga statistik kolom yang
bertipe non-numerik, mencakup juga berapa banyak nilai unik dalam kolom (unique), nilai
modus (top), serta frekuensi modus (freq).
Konsep: Modus
● Modus (mode): nilai yang paling sering muncul pada sekumpulan data.
● Dipakai sebagai ukuran pusat data (tendensi sentral) untuk data bertipe nominal/kategoris.
○ Tidak dijamin unik dalam suatu distribusi data (bisa ada lebih dari satu modus dalam suatu
distribusi).
○ Merupakan nilai yang berpeluang paling tinggi didapatkan ketika data di-sample.
● Contoh:
○ Himpunan data {1,2,2,3,4,4,7,8} memiliki dua modus: 2 dan 4.
● Jika data mengikuti distribusi kontinu, misal
{0.935, …, 1.134,…, 2.643, …, 3.459, …, 3.995, ….}
maka secara statistik, tidak boleh diasumsikan akan ada dua data yang bernilai persis sama.
○ Definisi modus standar menjadi tidak bermakna.
○ Pendekatan 1: lakukan diskretisasi (dibahas di modul Data Preparation), sehingga didapat
data bertipe nominal, lalu dicari modusnya.
○ Pendekatan 2: gunakan teknik kernel density estimation (tidak dibahas di sini).
Fungsi statistik dalam Pandas
count Number of non-NA observations std Bessel-corrected sample
sum standard deviation
Sum of values
var Unbiased variance
mean Mean of values
sem Standard error of the mean
mad Mean absolute deviation
skew Sample skewness (3rd
median Arithmetic median of values
moment)
min Minimum
kurt Sample kurtosis (4th moment)
max Maximum
cumsum Cumulative sum
mode Mode
cumprod Cumulative product
abs Absolute Value
cummax Cumulative maximum
prod Product of values
cummin Cumulative minimum
quantile Sample quantile (value at %),
1st quartile = quantile(0.25)
Contoh fungsi statistik setiap kolom (yang applicable)
Contoh fungsi statistik setiap kolom (yang applicable)
Menentukan pencilan (secara kasar) berdasarkan statistik
● 3-sigma rule: Jika data kira-kira terdistribusi normal:
○ 𝑥𝑖 adalah pencilan jika 𝑥𝑖 < 𝜇𝑆 − 2𝜎𝑆 atau 𝑥𝑖 > 𝜇𝑠 + 2𝜎𝑆
→ peluang bahwa data berjarak ke rerata lebih jauh dari 2 kali simpangan baku adalah 4.55%.
○ 𝑥𝑖 adalah pencilan jika 𝑥𝑖 < 𝜇𝑆 − 3𝜎𝑆 atau 𝑥𝑖 > 𝜇𝑠 + 3𝜎𝑆
→ peluang bahwa data berjarak ke rerata lebih jauh dari 3 kali simpangan baku adalah 0.27%.
○ Kekurangan: (i) asumsi distribusi normal (belum tentu!), (ii) rerata dan simpangan baku
dipengaruhi nilai pencilan itu sendiri, dan (iii) tidak dapat mendeteksi pencilan jika jumlah data
sedikit (small sample size).
● Tukey's fences: memakai rentang antarkuartil (interquartile range) 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 .
○ 𝑥𝑖 adalah pencilan jika 𝑥𝑖 < 𝑄1 − 1.5(𝐼𝑄𝑅) atau 𝑥𝑖 > 𝑄3 + 1.5 𝐼𝑄𝑅 .
○ 𝑥𝑖 adalah pencilan ekstrim jika 𝑥𝑖 < 𝑄1 − 3(𝐼𝑄𝑅) atau 𝑥𝑖 > 𝑄3 + 3 𝐼𝑄𝑅 .
● Metode-metode lain (mungkin lebih baik): Visualisasi, Grubb's test, Dixon's Q test,
Algoritma Expectation Maximization, Jarak k-Nearest Neighbor, local outlier factor
berbasis density (variasi density-based clustering), dll.
Mencari pencilan dengan Tukey's fences (1)