Metode Data Mining
Metode Data Mining
OLEH KELOMPOK 5:
DAFTAR ISI..............................................................................................................................ii
BAB 1 DATA MINING ............................................................................................................ 1
A. Data Mining ........................................................................................................................ 1
B. Metode Data Mining ........................................................................................................... 1
BAB 2 SET DATA .................................................................................................................... 4
A. Definisi Set Data ................................................................................................................. 4
B. Tipe Data ............................................................................................................................ 4
C. Karakteristik Set Data ......................................................................................................... 5
BAB 3 CONTOH KASUS ........................................................................................................ 7
A. Variable Dataset ................................................................................................................. 7
B. Statistic Dasar ..................................................................................................................... 7
C. Table ................................................................................................................................... 7
D. Graph ................................................................................................................................ 11
E. Source Table Dataset ........................................................................................................ 13
DAFTAR PUSTAKA .............................................................................................................. 14
ii
iii
BAB 1 DATA MINING
A. Data Mining
Data mining adalah kegiatan mengekstrak informasi atau pengetahuan (knowledge)
penting dari suatu set data berukuran besar dengan menggunakan teknik tertentu. Informasi
atau knowledge yang dihasilkan dar data mining ini bisa dipakai umtuk memperbaiki
pengambilan keputusan. Dinamakan data mining atau penambangan data karena proses
penemuan informasi dalam set data dilakukan seperti melakukan kegiatan penambangan.
Beberapa langkah pendahuluan sebelum kita memasukkan data yang sudah siap ke
dalam teknik data mining tertentu adalah :
Seleksi data
Pemilihan set data yang akandipakai dari database yang ada sesuai dengan tujuan yang di
inginkan.
Data Cleaning
Pembersihan data dari noise atau outlier atau data dengan missing value.
Transformasi Data
Melakukan transformasi tertentu agar set data siap di proses atau bisa menghasilkan
analisis yang lebih baik.
Data mining biasanya digunakan untk menganalisis data dalam jumlah yang besar.
Adapun istilah lain yang sering dikaitkan dengan penganalisisan data dalam jumlah yang
sangat besar adalah big data analytics.
Classification adalah metode yang paling umum pada data mining. Persoalan bisnis sperti
Churn Analysis, dan Risk Management biasanya melibatkan metode Classification.
1
Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap
keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh
untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi
dari input attribute.
Clustering
Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu
atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut input
diperlakukan sama.
Assosiation
Melakukan asosiasi antar objek dalam suatu set data, biasanya data transaksional.
Asosiasi dilakukan dengan menghitung berapa kali dalam suatu set data suatu transaksi yang
mengandung dua item atau lebih yang saling berhubungan. Sering disebut Market Basket
Analytics.
Regression
Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression,
dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai dari
input.
2
Bentuk yang lebih canggih dari regression sudah mendukung input berupa kategori, jadi
tidak hanya input berupa numerik. Teknik paling popular yang digunakan untuk regression
adalah linear regression dan logistic regression. Teknik lain yang didukung oleh SQL Server
Data mining adalah Regression Trees (bagian dari dari algoritma Microsoft Decission Trees)
dan Neural Network.
Forecasting
Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas. Sebagai
inputnya teknik Forecasting akan mengambil sederetan angka yang menunjukkan nilai yang
berjalan seiring waktu dan kemudian Teknik Forecasting ini akan menghubungkan nilai masa
depan dengan menggunakan bermacam-macam teknik machine-learning dan teknik statistik
yang berhubungan dengan musim, trend, dan noise pada data.
Sequence Analysis
Sequence Anlysis digunakan untuk mencari pola pada serangkaian kejadian yang disebut
dengan Sequence. Baik Sequence maupun time-series data mempunyai kemiripan, mereka
sama sama berisi tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah
time-series berisi data bertipe numerik, dan sebuah sequence series berisi bagian yang khas.
Deviation Analysis
Deviation Analysis digunakan untuk mencari kasus yang bertindak sangat berbeda dari
normalnya. Deviation analysis pengguaannya sangat luas, yang paling umum menggunakan
metode ini adalah pendeteksian penyalah gunaan Kartu kredit. Mengidentifikasi kasus yang
tidak normal diantara jutaan transaksi adalah pekerjaan yang sangat menantang. Penggunaan
yang lainnya misalnya, pendeteksian gangguan jaringan komputer, analisa kesalahan
produksi, dan lain-lain.
Tidak ada teknik standar dalam deviation analysis. Hanya saja biasanya para analis
menggunakan decision trees, clustering atau neural network untuk pekerjaan ini.
3
BAB 2 SET DATA
B. Tipe Data
Tipe atribut dapat dibedakan dari nilai beserta sifatnya. Ada empat sifat yang dimiliki
atribut secara umum, yaitu:
4
Atribut nominal dan ordinal merupakan tipe kategoris, nilainya kualitatif; dimana nilai
tersebut sebenarnya simbolik; tidak mungkin dilakukan operasi aritmatika. Sedangkan
interval dan rasio merupakan tipe numerik, nilainya kuantitatif; dimana nilaitersebut dapat
dilakukan operasi aritmatika; bisa direpresentasikan dengan nilai integer atau
kontinu.Sementara berdasarkan jumlah nilainya, atribut dapat dibedakan menjadi dua, yaitu:
Diskret
Sebuah atribut dapat bernilai diskret jika mempunyai nilai dalam himpunan jumlah yang
terbatas. Jenis ini bisa ditemukan pada atribut kategoris yang hanya mempunyai beberapa
variasi nilai (domain), seperti indek nilai yang hanya mempunyai Materi 3| Data Mining3lima
kemungkinan nilai (A, B, C, D, E). Contoh lainnya adalah jenis kelamin (pria, wanita),
benar/salah, ya/tidak, 0/1.
Kontinu
Sedangkan atribut yang bernilai kontinu akan mempunyai jangkauan nilai real. Seperti
variabel panjang, tinggi, berat dimana nilainya biasanya menggunakan representasi floating
point(desimal). Namun, meskipun menggunakan representasi real, ukuran presisi jumlah
angka di belakang koma tetap digunakan.
1. Dimensionalitas
Dimensionalitas dapat diartikan sebagai jumlah atribut yang dimiliki oleh objek-objek
dalam data set.
Data dengan jumlah dimensi yang sedikit (rendah) punya kecendrungan berbeda secara
kualitatif dengan data dalam kontek yang sama, tetapi dengan jumlah dimensi yang lebih
banyak (tinggi).
Kesulitan yang berhubungan dengan data dimensi tinggi sering disebut sebagai curse of
dimensionality.
Untuk itu pada tahap preprocessing(proses awal) perlu dilakukan pengurangan dimensi
(dimensionality reduction)
5
2. Sparsitas (sparsity)
Untuk set data dengan fitur asimetrik (jumlah fitur yang terisi nilai tidak sama antara satu
data dengan data yang lain), banyak atribut data mempunyai nilai 0 di dalmnya; dalam
banyak kasus, kurang dari 1% mempunyain nilai bukan 0.
Dalam praktiknya, tentu ini menguntungkan karena komputasi menjadi lebih ringan
(cepat) dan kapasitas penyimpanan juga lebih sedikit.
3. Resolusi (resolution)
Untuk data yang digambarkan dalam bentuk grafik yang memerlukan koordinat spasial,
karakteristik resolusi yang digunakan juga akan berpengaruh.
Pola dalam data bergantung pada level resolusi.
Jika resolusi terlalu baik (tidak ada perbedaan/halus), pola mungkin tidak akan kelihatan,
jika resolusi terlalu kasar atau sempit, pola juga akan hilang.
6
BAB 3 CONTOH KASUS
A. Variable Dataset
Pada Data set kami ada 6 Variable.
1. Apakah ASDOS itu adalah penutur asli Bahasa Inggris (biner) 1 = penutur asli bahasa Inggris,
2 = bukan penutur asli bahasa Inggris
2. Course instructor (kategorik, 25 kategori)
3. Course (kategorik, 26 kategori)
4. Summer or regular semester (biner) 1=Summer, 2=Regular
5. Class size (Numerik)
6. Class attribute (Kategorikal)
Number of Instances: 151
B. Statistic Dasar
class_size
Min. : 3.00
1st Qu.:19.00
Median :27.00
Mean :27.87
3rd Qu.:37.00
Max. :66.00
Untuk variable lainnya statistic dasar yang hanya di gunakan hanya modus, berkikut masing masing
modus setiap variable
C. Table
7
no 23 3 summer 20 high
no 9 5 reguler 19 high
no 10 3 reguler 27 high
yes 22 3 summer 58 high
no 15 3 summer 20 high
no 10 22 reguler 9 high
no 13 1 reguler 30 high
no 18 21 reguler 29 high
no 6 17 reguler 39 high
no 6 17 reguler 42 medium
no 6 17 reguler 43 medium
no 7 11 reguler 10 medium
no 22 3 reguler 46 medium
no 13 3 summer 10 medium
no 7 25 reguler 42 medium
no 25 7 reguler 27 medium
no 25 7 reguler 23 medium
no 2 9 reguler 31 medium
no 1 15 summer 22 medium
no 15 13 reguler 37 medium
no 7 11 reguler 13 medium
no 8 3 reguler 24 medium
no 14 15 reguler 38 medium
no 21 2 reguler 42 low
no 22 3 reguler 28 low
no 11 1 reguler 51 low
no 18 5 reguler 19 low
no 13 1 reguler 31 low
yes 13 3 summer 13 low
no 5 2 reguler 37 low
no 16 8 reguler 36 low
no 4 16 reguler 21 low
no 5 2 reguler 48 low
no 14 15 reguler 38 low
yes 23 3 summer 19 high
no 15 3 summer 17 high
yes 23 3 reguler 49 high
yes 5 2 reguler 33 high
no 7 11 reguler 55 high
no 23 3 summer 20 high
no 9 5 reguler 19 high
no 10 3 reguler 27 high
yes 22 3 reguler 58 high
no 15 3 summer 20 high
8
no 10 22 reguler 9 high
no 13 1 reguler 30 high
no 18 21 reguler 29 high
no 6 17 reguler 39 high
no 6 17 reguler 42 medium
no 6 17 reguler 43 medium
no 7 11 reguler 10 medium
no 22 3 reguler 46 medium
no 13 3 summer 10 medium
no 7 25 reguler 42 medium
no 25 7 reguler 27 medium
no 25 7 reguler 23 medium
no 2 9 reguler 31 medium
no 1 15 summer 22 medium
no 15 13 reguler 37 medium
no 7 11 reguler 13 medium
no 8 3 reguler 24 medium
no 14 15 reguler 38 medium
no 21 2 reguler 42 low
no 22 3 reguler 28 low
no 11 1 reguler 51 low
no 18 5 reguler 19 low
no 13 1 reguler 31 low
yes 13 3 summer 13 low
no 5 2 reguler 37 low
no 16 8 reguler 36 low
no 4 16 reguler 21 low
no 5 2 reguler 48 low
no 14 15 reguler 38 low
yes 23 3 summer 25 high
yes 13 3 summer 17 high
no 16 19 reguler 11 high
no 9 2 reguler 39 high
no 13 3 summer 11 high
no 18 21 reguler 19 high
yes 22 3 reguler 45 high
no 7 11 summer 20 high
no 23 3 summer 20 high
yes 23 3 summer 20 high
yes 23 3 reguler 38 high
no 14 22 reguler 17 high
yes 17 17 reguler 19 high
no 9 5 reguler 24 high
no 18 25 reguler 25 high
9
yes 17 17 reguler 31 high
no 1 15 reguler 31 high
no 1 8 reguler 18 medium
yes 11 16 reguler 22 medium
yes 22 13 reguler 27 medium
no 9 2 reguler 14 medium
no 13 1 reguler 20 medium
yes 6 17 reguler 35 medium
no 23 3 summer 20 medium
yes 23 3 summer 20 medium
no 6 17 reguler 37 medium
yes 22 3 reguler 15 medium
no 20 2 reguler 25 medium
no 23 3 reguler 10 medium
no 20 2 reguler 14 low
yes 23 3 reguler 38 low
no 13 1 reguler 29 low
no 10 3 reguler 19 low
no 7 11 reguler 30 low
yes 14 15 reguler 32 low
no 8 3 reguler 27 low
no 12 7 reguler 34 low
no 8 7 reguler 23 low
no 15 1 reguler 66 low
no 23 3 reguler 12 low
no 2 9 reguler 29 low
no 15 1 reguler 19 low
no 20 2 reguler 3 low
no 13 14 reguler 17 high
no 9 6 reguler 7 high
yes 10 3 reguler 21 high
no 14 15 reguler 36 high
yes 13 1 reguler 54 high
yes 8 3 reguler 29 high
no 20 2 reguler 45 high
no 22 1 reguler 11 medium
no 18 12 reguler 16 medium
no 20 15 reguler 18 medium
yes 17 18 reguler 44 medium
no 14 23 reguler 17 medium
no 24 26 reguler 21 medium
no 9 24 reguler 20 medium
no 12 8 reguler 24 medium
no 9 6 reguler 5 medium
10
no 22 1 reguler 42 medium
no 7 11 reguler 30 low
no 10 3 reguler 19 low
no 23 3 reguler 11 low
no 17 18 reguler 29 low
no 16 20 reguler 15 low
no 3 2 reguler 37 low
no 19 4 reguler 10 low
no 23 3 reguler 24 low
no 3 2 reguler 26 low
no 10 3 reguler 12 low
yes 18 7 reguler 48 low
no 22 1 reguler 51 low
no 2 10 reguler 27 low
D. Graph
Native English
Course Instruction
11
Course
Semester
Class Attribute
12
E. Source Table Dataset
13
DAFTAR PUSTAKA
Metode Data Mining. (2011, August). Retrieved September 2, 2019, from Ngampus yuuuk! :
http://fitrianijanius.blogspot.com/2011/08/metode-data-mining.html
Umam, B. S. (2018). Data Mining dan Big Data Analytics Edisi 2. Yogyakarta: Penebar Media Pustaka.
14