03 +Tipe+Data+Visualization
03 +Tipe+Data+Visualization
• Data continuous : data hasil pengukuran, nilai lebih beragam pada suatu interval, ex :
temperature ruangan
• Data diskrit : data hasil perhitungan, hanya bisa mempunyai nilai tertentu pada suatu
interval, ex : jumlah customer
• Data binary : terdiri atas 2 kelompok, misal : ya atau tidak, loyal atau tidak loyal
• Data nominal : data yang tidak mempunyai tingkatan, misal : region, jenis tabungan,
jenis kendaraan, dll
• Data ordinal : data yang memiliki tingkatan, misal : tingkat Pendidikan, kepuasan
pelanggan, rating, dll
https://www.geeksforgeeks.org/
Python dapat mengenali data kategori dan data numerik. Secara deskriptif dapat diperlihatkan
• Numerik : count, mean, standard deviation, min, q1, q2, q3, max
Data Numerikal :
• Data continuous : Daily rate, monthly rate, monthly income
Data Kategorikal :
Dalam suatu dataset, ada beberapa kolom dan baris. Kolom ini merupakan atribut dalam
dataset. Sedangkan baris adalah nilai dari individu data dengan format mengikuti kolomnya.
Dalam dunia data science, kolom ini disebut juga feature.
Agar lebih memahami lagi tentang tipe data, mari kita lihat contoh dari data berikut
Berikut adalah contoh data dari sebuah perusahaan asuransi. Perusahaan asuransi ingin
menentukan kira-kira berapa premi yang harus dibayarkan oleh seorang customer dengan
melihat beberapa attribut :
1. Age (Umur) : semakin tua maka semakin banyak penyakit dan dapat meningkatkan
resiko kematian. Biasanya perusahaan akan meningkatkan nilai premi dari asuransinya.
2. Sex (Jenis kelamin) : Ada beberapa kecenderungan pemakaian asuransi yang berbeda
untuk jenis kelamin yang berbeda, seperti penggunaan untuk proses persalinan bagi
wanita. Selain itu karena laki-laki kebanyakan bekerja, maka resiko sakitnya juga
semakin tinggi.
3. bmi (body mass index) : semakin gemuk seseorang maka semakin rentan sakit
4. children : biasanya perusahaan sudah memasukkan anak untuk diikutsertakan dengan
orang tua. Sehingga biasanya premi yang dibayarkan juga berbeda.
5. smoker : perokok aktif biasanya lebih rentan terkena penyakit terutama kanker paru-
paru
6. region : masing-masing region mempunyai kondisi yang berbeda baik berupa harga
layanan rumah sakit, polusi, transportasi, dll
7. charge : nilai premi yang harus dibayarkan oleh customer tiap bulannya.
Dengan melihat dari definisi diatas, maka data tersebut dapat dikelompokkan menjadi.
Data Numerikal :
Data Kategorikal :