0% menganggap dokumen ini bermanfaat (0 suara)
572 tayangan8 halaman

Eps2 - Data Understanding

Modul ini membahas tahapan pemahaman data yang meliputi pengumpulan dan eksplorasi data untuk memahami karakteristik dan kualitas datanya. Metode eksplorasi data mencakup pendekatan statistik sederhana seperti rata-rata dan visualisasi distribusi data. Kualitas data dianalisis terutama untuk mendeteksi data kosong dan merencanakan penanganannya.

Diunggah oleh

Bagus Ma'rifat
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
572 tayangan8 halaman

Eps2 - Data Understanding

Modul ini membahas tahapan pemahaman data yang meliputi pengumpulan dan eksplorasi data untuk memahami karakteristik dan kualitas datanya. Metode eksplorasi data mencakup pendekatan statistik sederhana seperti rata-rata dan visualisasi distribusi data. Kualitas data dianalisis terutama untuk mendeteksi data kosong dan merencanakan penanganannya.

Diunggah oleh

Bagus Ma'rifat
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 8

MODUL DATA MINING

Data Understanding

Pada modul ini dijelaskan mengenai contoh pemahaman data dengan berbagai
metode.
EPS
2
Diharapkan setelah mempelajari modul ini, mahasiswa mampu memahami
tujuan dari pemahaman data dan mengimplementasikan pada kasus yang
memerlukan ekplorasi data.
DAFTAR ISI

DAFTAR ISI................................................................................................................................................ i
DATA Understanding............................................................................................................................... 1
A. Load Data dan Library ................................................................................................................. 1
B. Dokumentasi Tipe Data ............................................................................................................... 2
C. Exploratory Data Analysis (EDA) ................................................................................................. 3
D. Kualitas Data (missing value) ...................................................................................................... 4
LATIHAN MAHASISWA ............................................................................................................................ 6

i
DATA UNDERSTANDING

Data understanding/ pemahaman data merupakan tahap yang dilaksanakan setelah tujuan dan
cakupan proyek data mining ditetapkan pada tahap pemahaman bisnis. Dalam tahap pemahaman
data ini dilakukan berbagai kegiatan yaitu

1. Pengumpulan data
Berdasarkan tujuan dilakukannya proyek data mining, maka ditentukan kebutuhan data. Data
yang dibutuhkan tersebut dikumpulkan dan dilakukan pendokumentasian mengenai sumber
dan jenis-jenis data maupun variable/atribut dari data tersebut.
2. Eksplorasi data
Eksplorasi data yang dilakukan dapat menggunakan metode statistik maupun visual. Metode
statistik yang dapat digunakan misalnya melihat total data, nilai rata-rata, nilai minimal
maupun maksimal, dan sebagainya. Disamping metode tersebut, dapat juga digunakan
metode visual yang menggunakan diagram sebagai representasi data. Diagram yang
digunakan sebaiknya disesuaikan dengan tujuan eksplorasi data, misalnya diagram batang
(bar chart) digunakan untuk membandingkan nilai, diagram garis (line/ trend chart) digunakan
untuk melihat kenaikan atau penurunan nilai dalam rentang waktu tertentu, maupun diagram
lingkaran (pie chart) yang digunakan untuk melihat proporsi data.
3. Verifikasi kualitas data.
Kualitas dari data perlu diketahui pada tahap ini. Hal ini dikarenakan kualitas data masukan
akan berdampak pada hasil akhir. Pada tahap ini dilakukan verifikasi mengenai kualitas data,
jika kualitas data perlu diperbaiki, maka perbaikannya dapat dilakukan pada tahap
selanjutnya. Salah satu yang mempengaruhi kualitas data adalah kelengkapan sehingga jika
terjadi data yang kosong (null) maka pada tahap selanjutnya dibuat perencanaan scenario
untuk mengatasi data kosong tersebut.

Pada modul ini hanya akan dibahas mengenai pengecekan tipe data, eksplorasi, dan verifikasi kualitas
data (missing value).

A. Load Data dan Library


1. Import library yang diperlukan

2. Load dataset ‘train.csv’. Path disesuaikan dengan lokasi penyimpanan file tersebut.

Cek isi dataset.

1
B. Dokumentasi Tipe Data
Pendokumentasian tipe data dari masing-masing variable/atribut penting dilakukan. Hal ini
dikarenakan operasi-operasi tertentu hanya dapat diterapkan terhadap tipe data tertentu saja.
Misalnya operasi matematika hanya dapat diterapkan pada variable/atribut yang bersifat numerik
misalnya integer atau float dan tidak dapat diterapkan pada tipe data string atau object.

1. Cek jumlah data (baris data) dan jumlah variabel/atribut

Dari hasil tersebut diartikan bahwa total baris data adalah sebanyak 891 dan jumlah
variabel/atributnya adalah 12 atribut.

2. Cek tipe data pada seluruh variable/atribut

3. Cek tipe data pada salah satu variable/atribut

Jika diperhatikan, tipe data selain numerik (integer dan float) yaitu string dicantumkan sebagai object.
Hal ini dikarenakan data yang di-load dibaca menggunakan library pandas sehingga dikenali dalam
bentuk dataframe. Silahkan pelajari mengenai dataframe yang digunakan oleh library pandas.

2
C. Exploratory Data Analysis (EDA)
1. Pendekatan statistik sederhana

Tugas 1:
Terjemahkan hasil dari fungsi describe yang baru saja anda lakukan.

2. Pendekatan visual
• Distribusi data pada suatu variable/atribut

Dari diagram diatas, dapat diamati bahwa jumlah yang meninggal adalah 549, yang
selamat 342.

• Perbandingan antar variable/atribut


Buat fungsi untuk menghitung dan menampilkan diagramnya.

3
Panggil fungsi tersebut.

Tugas 2 :

Buat sebanyak mungkin diagram yang menggambarkan relasi berbagai macam kolom sesuai
interpretasi anda. Cantumkan screenshot script dan hasilnya, kemudian jelaskan makna dari
diagram tersebut.

D. Kualitas Data (missing value)


1. Data perlu dicek apakah terdapat data yang kosong atau tidak.

2. Maka selanjutnya perlu dilakukan pembuatan scenario terhadap data kosong ini.
Penanganan data kosong dapat dilakukan dengan cara:
a. Menghapus atribut yang memiliki nilai null
b. Menghapus data baris yang memiliki nilai null
c. Mengisi dengan nilai baru dengan cara:
• Mengisi manual

4
• Mengisi dengan menggunakan metode imputation (mean, median, modus, dll)

Hal penting yang perlu diingat dalam penanganan missing value adalah seberapa penting data
kosong tersebut mempengaruhi hasil. Misalnya jika atribut umur (Age) mempengaruhi
selamat atau tidaknya seorang penumpang maka atribut umur sebaiknya tidak dihapus. Nilai
null-nya dapat ditangani dengan cara lainnya misalnya baris yang kosong yang dihapus atau
nilai yang kosong tersebut diisi.

Hal ini perlu merujuk pada deskripsi masing-masing varibel/atribut. Selain itu, juga perlu
dipertimbangkan keterkaitan/korelasi antara varibel/atribut dengan variabel tujuan
(misalnya: apakah atribut umur mempengaruhi selamat/tidaknya penumpang)

Tugas 3:

• Jelaskan kelebihan dan kekurangan dari masing-masing metode penanganan missing


value yang telah dijelaskan diatas
• Buat scenario penanganan missing value terhadap data kosong yang telah ditemukan
tersebut.

5
LATIHAN MAHASISWA

1. Silahkan ikuti dan praktekkan setiap tahapan yang dijelaskan pada modul.
2. Kerjakan soal yang tercantum pada tahapan tersebut.
Jawaban sebaiknya dilengkapi dengan screenshot script dan hasil dari running script tersebut
baru diikuti dengan penjelasan.
3. Hasil dari soal no 2 dituliskan dalam bentuk laporan mandiri dalam satu file PDF.
Format laporan:
Subyek file “ Modul2-DM-[KELAS]-[NPM] .PDF “

Anda mungkin juga menyukai