0% menganggap dokumen ini bermanfaat (0 suara)
109 tayangan36 halaman

Data Mining - 2 - Data

Dokumen tersebut membahas tentang definisi data dan tipe-tipe data yang terdapat dalam data mining. Terdapat penjelasan mengenai jenis dataset, atribut, jenis atribut berdasarkan nilai dan jumlah nilainya, serta karakteristik umum dataset seperti dimensi, kerapatan, dan resolusi. Juga dijelaskan beberapa tipe dataset seperti matriks, dokumen, transaksi, graf, dan terurut. Selanjutnya dibahas mengenai kualitas

Diunggah oleh

Ryo Bastian
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
109 tayangan36 halaman

Data Mining - 2 - Data

Dokumen tersebut membahas tentang definisi data dan tipe-tipe data yang terdapat dalam data mining. Terdapat penjelasan mengenai jenis dataset, atribut, jenis atribut berdasarkan nilai dan jumlah nilainya, serta karakteristik umum dataset seperti dimensi, kerapatan, dan resolusi. Juga dijelaskan beberapa tipe dataset seperti matriks, dokumen, transaksi, graf, dan terurut. Selanjutnya dibahas mengenai kualitas

Diunggah oleh

Ryo Bastian
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 36

Data Mining

Data

Novi Wulandari, SSi, M.Kom


[email protected]
+6287876492262
In this Chapter
 Definisi dan Tipe Data
 Kualitas Data
Data

Definisi dan Tipe Data


Definisi
 Himpunan data (data-set) merupakan kumpulan dari objek dan
atributnya
 Jenis dataset ada dua: Private dan Public
 PrivateDataset: data set dapat diambil dari organisasi yang kita
jadikan obyek penelitian
 Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc

 PublicDataset: data set dapat diambil dari repositori pubik yang


disepakati oleh para peneliti data mining
 UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)
 ACM KDD Cup (http://www.sigkdd.org/kddcup/)
 PredictionIO (http://docs.prediction.io/datacollection/sample/)

 Trend penelitian data mining saat ini adalah menguji metode yang
dikembangkan oleh peneliti dengan public dataset, sehingga
penelitian dapat bersifat: comparable, repeatable dan verifiable
atribut
 Atributmerupakan sifat/karakteristik dari
suatu objek
 Atribut
adalah faktor atau parameter yang
menyebabkan class /label/target terjadi
Dataset (Himpunan Data)
Attribute/Feature/Dimension
Class/Label/Target

Record/
Object/
Sample/
Tuple

Nominal

Numerik
6
Jenis Atribut
 Berdasarkan nilai yang diterima:
 Atribut kategorikal
 Atribut numerik

 Berdasarkan jumlah nilainya:


 Aribut diskrit
 Atribut kontinyu
Atribut Katagorikal
 Salah
satu tipe yang domainnya merupakan
sebuah himpunan symbol berhingga
 Contoh:
 Jenis kelamin = {L, P}
 status = {Menikah, belum menikah}
 Pendidikan = {SD, SMP, SMA, S1, lainnya}

 Atribut Katagorikal dibagi menjadi 2 tipe:


 Nominal (tidak dapat diurutkan, co: jenis kelamin)
 Ordinal (dapat diurutkan dengan beberapa cara, co:
Pendidikan)
Atribut numerik
 Domainya berupa bilangan riil atau integer
 Contoh:
 Umur
 Gaji

 Atribut numerik dibedakan menjadi 2 tipe:


 Interval
 Rasio
Atribut numerik: interval
 memperlihatkan jarak yang sama dari ciri atau sifat
objek yang diukur (tidak memberikan jumlah absolut).
 contoh: Misalnya tentang nilai ujian 6 orang mahasiswa,
yakni A, B, C, D, E dan F diukur dengan ukuran interval
pada skala prestasi dengan ukuran 1, 2, 3, 4, 5 dan 6,
maka dapat dikatakan bahwa beda prestasi antara
mahasiswa C dan A adalah 3 – 1 = 2. Beda prestasi
antara mahasiswa C dan F adalah 6 – 3 = 3. Akan tetapi
tidak bisa dikatakan bahwa prestasi mahasiswa E adalah
5 kali prestasi mahasiswa A ataupun prestasi mahasiswa
F adalah 3 kali lebih baik dari prestasi mahasiswa B
Atribut numerik: Rasio
 pengukuran yang ditujukan pada hasil
pengukuran yang bisa dibedakan, diurutkan,
memiliki jarak tertentu, dan bisa
dibandingkan.
 Contoh:Umur. Kita dapat menyatakan bahwa
orang berumur 20 tahun dua kali lebih tua dari
yang berusia 10 tahun.
Atribut diskrit
 Atributyang hanya menggunakan sebuah
himpunan nilai terhingga atau himpunan nilai
tak berhingga yang dapat dihitung.
 Contoh:
 zip codes
 jumlah
 himpunan kata dalam kumpulan dokumen.

 Sering dinyatakan sebagai variable bilangan


bulat (integer). Catatan: atribut biner
merupakan kasus khusus dari atribut diskrit.
Atribut kontinyu
 Atribut yang hanya menggunakan bilangan riil
sebagai nilai atribut.
 Contoh:
 Suhu
 ketinggian
 Berat

 Pada kenyataannya, nilai riil hanya dapat diukur


dan dinyatakan menggunakan sejumlah digit yang
berhingga. Atribut kontinyu secara khusus
dinyatakan sebagai variabel decimal (floating-
point).
Karakteristik umum data-set
 Dimensionality
 Sparsity
 Resolution
Dimensionality
 Dimensionality dari sebuah data-set adalah jumlah
atribut yang dimiliki oleh objek-objek dalam data-
set.
 Datadengan jumlah dimensi kecil punya
kecenderungan berbeda secara kualitatif
dibandingkan dengan data dimensi tinggi.
 Kesulitanyang berhubungan dengan data dimensi
tinggi sering disebut sebagai curse of
dimensionality.
 Untukitu pada tahap preprocessing perlu dilakukan
pengurangan dimensi (dimensionality reduction)
Sparsity
 Untuk beberapa data-set, misalkan data
dengan fitur asimetris, kebanyakan atribut dari
suatu objek mempunyai nilai 0; dan biasanya
kurang dari 1% mempunyai nilai tidak nol.
 Sparsity
mempunyai keuntungan dalam waktu
komputasi dan penyimpanan data.
Resolution
 Sifatdari data berbeda pada resolusi yang
berbeda.
 Pola dalam data bergantung pada level
resolusi.
 Jika resolusi terlalu baik (tidak ada
perbedaan/halus), pola mungkin tidak akan
keliatan; jika resolusi terlalu kasar, pola juga
akan hilang.
Tipe data-set
 Data matrix
 Data Dokumen
 Data Transaksi
 Data Graph
 Data Terurut
Data Matriks
 Jika set data berisi kumpulan data yang mempunyai
sejumlah atribut (fitur) numerik yang sama, set data tersebut
dapat dipandang sebagai vektor (data) dalam wilayah
multidimensi, dimana masing-masing dimensi menyatakan
satu atribut yang berbeda. Sekumpulan data matrik dapat
diinterpretasikan sebagai mantrik M x N, dimana M adalah
jumlah baris (satu baris menyatakan satu record/objek) dan
N adalah jumlah kolom (dimana satu kolom menyatakan
satu atribut/fitur).
 Contoh:
Data Dokumen
 Setiapdokumen merupakan satu vektor ‘term’.
Tiap term merupakan satu komponen (atribut) dari
vektor tersebut. Nilai dari setiap komponen
menyatakan berapa kali kemunculan term tersebut
dalam suatu dokumen
 Contoh
Data Transaksi
 Data keranjang belanja (data transaksi) adalah set data yang setiap
recordnya berisi sejumlah item dan jumlah item untuk sebuah
transaksi bisa berbeda dengan transaksi yang lain. Contohnya bisa
dilihat pada kasuskeranjang belanja di pasar atau supermarket,
dimana setiap pembeli melakukan pembelian barang yang jumlah
dan jenisnya bisa berbeda dengan pembeli yang lain
 Contoh
Data Graph
 Merupakan data dalam bentuk graph yang
terdiri dari simpul (node) dan rusuk (edge)
 Contoh:
HTML links, struktur molekul, peta
hewan mamalia
Data Terurut (Oredered Data)
 Data yang memperhatikan urutan nilainya
 Contoh: Genomic sequence data
Data

Kualitas Data
Kesalahan Pengukuran (Measurement Error)

 Kesalahan ini mengacu pada permasalahan


hasil dari proses pengukuran.
 Problem yang umum terjadi adalah nilai yang
dicatat berbeda dari nilai sebenarnya untuk
beberapa tingkat.
 Pada atribut kontinu, beda numerik darihasil
pengukuran dengan nilai sebenarnya disebut
dengan error
Macam Kesalahan pengukuran
 Noise:
Merupakan komponen random dari suatu error
pengukuran. Noise berkaitan dengan modifikasi dari nilai
asli.
 Contoh: distorsi atau penyimpangan dari suara orang saat berbicara di telepon
yang jaringannya buruk.
 Bias:
Suatu variasi pengukuran dari kuantitas yang sedang
diukur dengan pengurangan antara mean dan nilai kuantitas
yang diketahui
 Precision:Kedekatan dari pengukuran berulang (dari
kuantitas yang sama) satu dengan yang lainnya. Diukur
dengan standar deviasi.
 Accuracy: Kedekatan pengukuran terhadap nilai sebenarnya
dari kuantitas yang sedang diukur.
Contoh kasus
 Terdapat berat standar laboratorium suatu
benda adalah 1 gram dan kita akan
menghitung precisiondan biasdari skala benda
dari hasil pengukuran yang baru. Kita
melakukan pengukuran sebanyak lima kali
dan memperoleh {1.015, 0.990, 1.013, 1.001,
0.986}
Jawab
Kesalahan Pengumpulan (Collection Error)

 Mengacu pada kesalahan-kesalahan (error)


seperti hilangnya objek data atau nilai atribut,
atau lingkup objek data yang tidak tepat.
Macam Kesalahan pengukuran
 Outliers
 Missing values
 Duplicates Data
Outliers
 Merupakan objek data dengan sifat yang berbeda sekali
dari kebanyakan objek data dalam data-set.Misalkan,
terdapat data penelitian tentang tinggi anak siswa SMA
yakni 160cmsampai 180cm. Tetapi dalam data tersebut
terdapat anak yang mempunyai tinggi 140cm. Data anak
dengan tinggi 140cm tersebut yang disebut data outlier,
karena berbeda sangat jelas.
 Terdapat beberapa hal yang mempengaruhi munculnya
data outlier antara lain:
 Kesalahan dalam pemasukan data
 Kesalahan dalam pengambilan sample
 Memang ada data-data ekstrim yang tidak dapat dihindarkan keberadaannya
Missing Values
 Merupakan nilai dari suatu atribut yang tidak ditemukan.
 Alasan terjadinya missing value adalah:
 Informasi tidak diperoleh (misal, orang-orang menolak untuk memberikan
data umur dan berat bedan)
 Atribut yang mungkin tidak bisa diterapkan ke semua kasus (misal,
pendapatan tahunan tidak bisa diterapkan pada seseorang yang
pengangguran)
 Penanganan missing values adalah dengan:
 Mengurangi objek data
 Memperkirakan missing values
 Mengabaikan missing valuespada saat analisis
 Mengganti dengan semua nilai yang mungkin (tergantung probabilitasnya)
Duplicate data
 Set
data mungkin terdiri dari objek data yang
ganda (duplikat), atau hampir selalu terjadi
duplikasi antara satu dengan yang lainnya.
 Persoalan
utama ketika menggabungkan data dari
sumber-sumber yang bervariasi (heterogen).
 Contoh:orang yang sama dengan alamat email
yang lebih dari satu. Pembersihan data (data
cleaning) merupakan proses yang berkaitan
dengan permasalahan data yang duplikat
Latihan
 Klasifikasikan atribut berikut sebagai biner,
diskret, atau kontinyu. Serta sebagai kualitatif
(nominal/ordinal) atau kuantitatif (interval/ratio)
 Waktu dalam AM PM
 Kecerahan diukur dengan meter cahaya
 Kecerahan diukur dengan definisi orang
 Sudut diukur dalam derajat antara 0 sampai 360
 Medali perunggu, perak, dan emas dalam olimpiade

 Jelaskan data yang tersedia pada lingkungan kerja


saudara (non pekerja: data di lingkungan tempat
tinggal), kemudian klasifikasikan golongannya
 Klasifikasikanatribut berikut sebagai biner, diskret,
atau kontinyu. Serta sebagai kualitatif
(nominal/ordinal) atau kuantitatif (interval/ratio)
 Ketinggian diatas permukaan air laut
 Jumlah pasien dalam sebuah rumah sakit
 Nomor ISBN
 Jarak dari pusat kota
 Kepadatan benda dalam gram per centimeterkubik

 Jelaskan data yang tersedia pada lingkungan kerja


saudara (non pekerja: data di lingkungan tempat
tinggal), kemudian klasifikasikan golongannya

Anda mungkin juga menyukai