Getting To Know Your Data
Getting To Know Your Data
KELOMPOK
6
Alfina Richi ( 4211250008 )
1 Atribut Nominal
2 Atribut Biner
3 Atribut Ordinal
4 Atribut Numerik
sebagai n-Vision.
4. Mengukur Persamaan dan Ketidaksamaan Data
Dalam aplikasi data mining, seperti pengelompokan, analisis outlier, dan klasifikasi tetangga
terdekat, memerlukan cara untuk menilai sejauh mana objek-objek serupa atau berbeda dibandingkan satu
sama lain. Sebagai contoh, sebuah toko mungkin ingin mencari kelompok objek pelanggan, yang
menghasilkan kelompok pelanggan dengan karakteristik serupa (misalnya, pendapatan serupa, area tempat
tinggal, dan usia serupa). Informasi tersebut kemudian dapat digunakan untuk pemasaran. Kumpulan objek
data tersebut diatur sehingga objek-objek (data-data) dalam sebuah kelompok mirip satu sama lain dan
berbeda dengan objek-objek dalam kelompok lain. Bagian ini menyajikan ukuran kemiripan dan
perbedaan, yang disebut sebagai ukuran kedekatan. Kemiripan dan perbedaan berkaitan.
4.1 Data Matrix versus Dissimilarity Matrix
Dalam bagian ini, kami membicarakan objek yang dijelaskan oleh beberapa atribut. Oleh
karena itu, kami perlu melakukan perubahan dalam notasi. Misalkan kita memiliki n objek (seperti orang,
barang, atau kursus) yang dijelaskan oleh p atribut (juga disebut pengukuran atau fitur, seperti usia, tinggi,
berat, atau jenis kelamin). Objek-objek tersebut adalah x 1 = (x11, x12, ..., x1p), x2 = (x21, x22, ..., x2p), dan
seterusnya, di mana xij adalah nilai untuk objek x i pada atribut ke-j. Untuk singkatnya, selanjutnya kami
akan merujuk pada objek x i sebagai objek i. Objek-objek tersebut dapat berupa tupel dalam basis data
relasional, dan juga disebut sebagai sampel data atau vektor fitur .
4.2 Ukuran Kedekatan untuk Atribut Nominal
Sebuah atribut nominal dapat memiliki dua atau lebih keadaan. Sebagai contoh, warna peta
adalah atribut nominal yang mungkin memiliki, misalnya, lima keadaan: merah, kuning, hijau, merah
muda, dan biru. Biarkan jumlah keadaan dari atribut nominal tersebut adalah M. Keadaan-keadaan tersebut
dapat dilambangkan dengan huruf, simbol, atau kumpulan bilangan bulat, seperti 1, 2, ..., M. Perhatikan
bahwa bilangan bulat tersebut digunakan hanya untuk pengolahan data dan tidak mewakili urutan tertentu.
Kedekatan antara objek yang dijelaskan oleh atribut nominal dapat dihitung menggunakan skema
pengkodean alternatif. Atribut nominal dapat dikodekan menggunakan atribut biner asimetris dengan
membuat atribut biner baru untuk masing-masing dari M keadaan.
4.3 Ukuran Kedekatan untuk Atribut Biner
Ingatlah bahwa atribut biner hanya memiliki dua keadaan: 0 dan 1, di mana 0 berarti atribut
tidak ada, dan 1 berarti atribut ada. Diberikan atribut perokok yang menggambarkan seorang pasien,
misalnya, 1 menunjukkan bahwa pasien merokok, sedangkan 0 menunjukkan bahwa pasien tidak
merokok. Menganggap atribut biner sebagai atribut numerik dapat menyesatkan. Oleh karena itu,
metode khusus untuk data biner diperlukan untuk menghitung perbedaan. Ingatlah bahwa untuk atribut
biner simetris, setiap keadaan memiliki nilai yang sama. Perbedaan yang didasarkan pada atribut biner
simetris disebut sebagai perbedaan biner simetris. Untuk atribut biner asimetris, kedua keadaan tidak
memiliki kepentingan yang sama, seperti hasil positif (1) dan negatif (0) dari tes penyakit. Diberikan dua
atribut biner asimetris, kesepakatan dua angka 1 (kesesuaian positif) kemudian dianggap lebih signifikan
daripada kesepakatan dua angka 0 (kesesuaian negatif). Oleh karena itu, atribut biner semacam itu sering
dianggap "monary" (memiliki satu keadaan).
4.4 Perbedaan Data Numerik: Jarak Minkowski
Dalam bagian ini, kami menjelaskan ukuran jarak yang umum digunakan untuk menghitung
perbedaan objek yang dijelaskan oleh atribut numerik. Ukuran-ukuran ini termasuk jarak Euclidean,
Manhattan, dan Minkowski. Dalam beberapa kasus, data dinormalisasi sebelum perhitungan jarak
diterapkan. Ini melibatkan transformasi data agar berada dalam rentang yang lebih kecil atau umum,
seperti [−1,1] atau [0.0, 1.0]. Pertimbangkan atribut tinggi, misalnya, yang dapat diukur dalam meter
atau inci. Secara umum, mengekspresikan atribut dalam satuan yang lebih kecil akan menghasilkan
rentang yang lebih besar untuk atribut tersebut, dan oleh karena itu cenderung memberikan pengaruh
atau "bobot" yang lebih besar pada atribut tersebut.
4.5 Ukuran Kemiripan untuk Atribut Ordinal
Nilai-nilai dari atribut ordinal memiliki urutan atau peringkat yang berarti tentang mereka, namun
besaran antara nilai-nilai berurutan tersebut tidak diketahui. Sebagai contoh, urutan kecil, sedang, besar
untuk atribut ukuran. Atribut ordinal juga dapat diperoleh dari diskritisasi atribut numerik dengan
membagi rentang nilai ke dalam sejumlah kategori yang terbatas. Kategori-kategori ini dikelompokkan
menjadi peringkat. Artinya, rentang atribut numerik dapat dipetakan ke atribut ordinal f yang memiliki
Mf state.
4.6 Dissimilarity untuk Atribut Tipe Campuran
Bagian 4.2 hingga 4.5 membahas cara menghitung dissimilarity antara objek yang dijelaskan oleh atribut
dengan tipe yang sama, di mana tipe-tipe ini dapat berupa nominal, biner simetris, biner asimetris,
numerik, atau ordinal. Namun, dalam banyak basis data nyata, objek dijelaskan oleh campuran tipe
atribut. Secara umum, sebuah basis data dapat mengandung semua tipe atribut ini. "Jadi, bagaimana kita
bisa menghitung dissimilarity antara objek dengan tipe atribut campuran?" Salah satu pendekatan adalah
dengan mengelompokkan setiap jenis atribut bersama-sama, melakukan analisis data terpisah (misalnya,
pengelompokan) untuk setiap jenis. Ini mungkin memungkinkan jika analisis ini menghasilkan hasil
yang kompatibel.
4.7 Kemiripan Cosine
Sebuah dokumen dapat direpresentasikan oleh ribuan atribut, masing-masing mencatat frekuensi kata
tertentu (seperti kata kunci) atau frasa dalam dokumen tersebut. Dengan demikian, setiap dokumen
adalah objek yang direpresentasikan oleh apa yang disebut sebagai vektor frekuensi. Vektor frekuensi
istilah biasanya sangat panjang dan jarang (yaitu, mereka memiliki banyak nilai 0). Aplikasi yang
menggunakan struktur semacam ini termasuk pengambilan informasi, pengelompokan dokumen teks,
taksonomi biologis, dan pemetaan fitur gen. Pengukuran jarak tradisional yang telah kita pelajari dalam
bab ini tidak cocok untuk data numerik yang sangat jarang seperti ini.
Thanks