Eps2 - Data Understanding
Eps2 - Data Understanding
Data Understanding
Pada modul ini dijelaskan mengenai contoh pemahaman data dengan berbagai
metode.
EPS
2
Diharapkan setelah mempelajari modul ini, mahasiswa mampu memahami
tujuan dari pemahaman data dan mengimplementasikan pada kasus yang
memerlukan ekplorasi data.
DAFTAR ISI
DAFTAR ISI................................................................................................................................................ i
DATA Understanding............................................................................................................................... 1
A. Load Data dan Library ................................................................................................................. 1
B. Dokumentasi Tipe Data ............................................................................................................... 2
C. Exploratory Data Analysis (EDA) ................................................................................................. 3
D. Kualitas Data (missing value) ...................................................................................................... 4
LATIHAN MAHASISWA ............................................................................................................................ 6
i
DATA UNDERSTANDING
Data understanding/ pemahaman data merupakan tahap yang dilaksanakan setelah tujuan dan
cakupan proyek data mining ditetapkan pada tahap pemahaman bisnis. Dalam tahap pemahaman
data ini dilakukan berbagai kegiatan yaitu
1. Pengumpulan data
Berdasarkan tujuan dilakukannya proyek data mining, maka ditentukan kebutuhan data. Data
yang dibutuhkan tersebut dikumpulkan dan dilakukan pendokumentasian mengenai sumber
dan jenis-jenis data maupun variable/atribut dari data tersebut.
2. Eksplorasi data
Eksplorasi data yang dilakukan dapat menggunakan metode statistik maupun visual. Metode
statistik yang dapat digunakan misalnya melihat total data, nilai rata-rata, nilai minimal
maupun maksimal, dan sebagainya. Disamping metode tersebut, dapat juga digunakan
metode visual yang menggunakan diagram sebagai representasi data. Diagram yang
digunakan sebaiknya disesuaikan dengan tujuan eksplorasi data, misalnya diagram batang
(bar chart) digunakan untuk membandingkan nilai, diagram garis (line/ trend chart) digunakan
untuk melihat kenaikan atau penurunan nilai dalam rentang waktu tertentu, maupun diagram
lingkaran (pie chart) yang digunakan untuk melihat proporsi data.
3. Verifikasi kualitas data.
Kualitas dari data perlu diketahui pada tahap ini. Hal ini dikarenakan kualitas data masukan
akan berdampak pada hasil akhir. Pada tahap ini dilakukan verifikasi mengenai kualitas data,
jika kualitas data perlu diperbaiki, maka perbaikannya dapat dilakukan pada tahap
selanjutnya. Salah satu yang mempengaruhi kualitas data adalah kelengkapan sehingga jika
terjadi data yang kosong (null) maka pada tahap selanjutnya dibuat perencanaan scenario
untuk mengatasi data kosong tersebut.
Pada modul ini hanya akan dibahas mengenai pengecekan tipe data, eksplorasi, dan verifikasi kualitas
data (missing value).
2. Load dataset ‘train.csv’. Path disesuaikan dengan lokasi penyimpanan file tersebut.
1
B. Dokumentasi Tipe Data
Pendokumentasian tipe data dari masing-masing variable/atribut penting dilakukan. Hal ini
dikarenakan operasi-operasi tertentu hanya dapat diterapkan terhadap tipe data tertentu saja.
Misalnya operasi matematika hanya dapat diterapkan pada variable/atribut yang bersifat numerik
misalnya integer atau float dan tidak dapat diterapkan pada tipe data string atau object.
Dari hasil tersebut diartikan bahwa total baris data adalah sebanyak 891 dan jumlah
variabel/atributnya adalah 12 atribut.
Jika diperhatikan, tipe data selain numerik (integer dan float) yaitu string dicantumkan sebagai object.
Hal ini dikarenakan data yang di-load dibaca menggunakan library pandas sehingga dikenali dalam
bentuk dataframe. Silahkan pelajari mengenai dataframe yang digunakan oleh library pandas.
2
C. Exploratory Data Analysis (EDA)
1. Pendekatan statistik sederhana
Tugas 1:
Terjemahkan hasil dari fungsi describe yang baru saja anda lakukan.
2. Pendekatan visual
• Distribusi data pada suatu variable/atribut
Dari diagram diatas, dapat diamati bahwa jumlah yang meninggal adalah 549, yang
selamat 342.
3
Panggil fungsi tersebut.
Tugas 2 :
Buat sebanyak mungkin diagram yang menggambarkan relasi berbagai macam kolom sesuai
interpretasi anda. Cantumkan screenshot script dan hasilnya, kemudian jelaskan makna dari
diagram tersebut.
2. Maka selanjutnya perlu dilakukan pembuatan scenario terhadap data kosong ini.
Penanganan data kosong dapat dilakukan dengan cara:
a. Menghapus atribut yang memiliki nilai null
b. Menghapus data baris yang memiliki nilai null
c. Mengisi dengan nilai baru dengan cara:
• Mengisi manual
4
• Mengisi dengan menggunakan metode imputation (mean, median, modus, dll)
Hal penting yang perlu diingat dalam penanganan missing value adalah seberapa penting data
kosong tersebut mempengaruhi hasil. Misalnya jika atribut umur (Age) mempengaruhi
selamat atau tidaknya seorang penumpang maka atribut umur sebaiknya tidak dihapus. Nilai
null-nya dapat ditangani dengan cara lainnya misalnya baris yang kosong yang dihapus atau
nilai yang kosong tersebut diisi.
Hal ini perlu merujuk pada deskripsi masing-masing varibel/atribut. Selain itu, juga perlu
dipertimbangkan keterkaitan/korelasi antara varibel/atribut dengan variabel tujuan
(misalnya: apakah atribut umur mempengaruhi selamat/tidaknya penumpang)
Tugas 3:
5
LATIHAN MAHASISWA
1. Silahkan ikuti dan praktekkan setiap tahapan yang dijelaskan pada modul.
2. Kerjakan soal yang tercantum pada tahapan tersebut.
Jawaban sebaiknya dilengkapi dengan screenshot script dan hasil dari running script tersebut
baru diikuti dengan penjelasan.
3. Hasil dari soal no 2 dituliskan dalam bentuk laporan mandiri dalam satu file PDF.
Format laporan:
Subyek file “ Modul2-DM-[KELAS]-[NPM] .PDF “