0% menganggap dokumen ini bermanfaat (0 suara)

67 tayangan4 halaman

Module 1 Assignment

Modul ini membahas teknik-teknik praproses data menggunakan bahasa pemrograman R untuk mempersiapkan data sebelum proses data mining. Terdapat enam tahapan utama praproses data yaitu pembersihan data, integrasi data, transformasi data, reduksi data, dan diskretisasi data dengan contoh kode R. Tujuan praktikum ini adalah mahasiswa dapat mengaplikasikan berbagai teknik praproses data menggunakan R.

Diunggah oleh

Wiranegara Muhammad

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

67 tayangan4 halaman

Module 1 Assignment

Diunggah oleh

Wiranegara Muhammad

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 4

Modul Praktikum Data Mining

PERTEMUAN 4
TEKNIK-TEKNIK PRAPROSES DATA MENGGUNAKAN R
TUJUAN PRAKTIKUM
Mahasiswa akan dapat menggunakan teknik-teknik dalam praproses data meliputi
pembersihan data, reduksi data, transformasi data dan diskretisasi data dengan bahasa
pemrograman R.

TEORI PENUNJANG
Pra-proses data dilakukan karena dimungkinkan dataset yang ada tidak lengkap,
mengandung noise atau outlier, data tidak konsisten, atau ada data yang berulang. Tujuan
penting dari pra-proses data adalah untuk meningkatkan kualitas data sehingga proses data
mining juga menghasilkan pengetahuan baru yang lebih baik. Tugas utama dalam pra-
proses data adalah pembersihan data, integrasi data, transformasi data, reduksi data, dan
diskretisasi data.
Seperti bahasa pemrograman umumnya, R memiliki nilai-nilai khusus yang
merepresentasikan pengecualian-pengecualian untuk tipe data normal lainnya. Nilai
tersebut yaitu:
 NA, yang berarti not available. NA menggantikan nilai missing value. Operasi dasar dari R
dapat memproses dataset yang berisikan nilai NA dan terkadang R juga dapat
mengembalikan nilai NA sebagai hasil dari suatu operasi walaupun input dari argument
tersebut tidak terdapat NA. Cobalah kode berikut untuk memahami arti nilai NA di R:

> NA + 1
> sum(c(NA, 1, 2))
> median(c(NA, 1, 2, 3), na.rm = TRUE)
> length(c(NA, 2, 3, 4))
> 3 == NA
> NA == NA
> TRUE | NA

 NULL, yang berarti nilai yang kosong dan memiliki panjang 0. Cobalah kode berikut
untuk memahami arti nilai NULL di R:
> length(c(1, 2, NULL, 4))
> sum(c(1, 2, NULL, 4))
> x <- NULL
> c(x, 2)

 Inf, yang berarti infinity dan hanya digunakan pada vektor dengan kelas numerik. Contoh
kasus yang menghasilkan nilai Inf adalah operasi pembagian dengan 0. Cobalah kode
berikut untuk memahami arti nilai Inf di R:
> pi/0
> 2 * Inf
> Inf - 1e+10

3
Praktikum ke-4
Modul Praktikum Data Mining

> Inf + Inf

> 3 < -Inf
>Inf == Inf

 NaN, yang berarti not a number. Biasanya hal ini menunjukkan hasil perhitungan yang
tidak diketahui. Contohnya pada operasi 0/0. Inf-Inf, Inf/Inf menghasilkan nilai NaN.
Cobalah kode berikut untuk memahami arti nilai NaN di R:
> NaN + 1
> exp(NaN)

1. Eksplorasi data
Dalam R terdapat beberapa cara untuk melakukan eksplorasi data, yaitu dengan
mengetahui tipe data dari setiap atribut dan mengetahui persebaran data setiap atribut.
> data<-airquality
> str(data)
> summary(data)

Untuk mengetahui jumlah data yang missing, dapat dilakukan dengan cara berikut:
 Install paket mice
 Gunakan fungsi md.pattern (dataset)
> library(mice)
> data<-airquality
> md.pattern(dataset)

Dari hasil program R tersebut kita dapat melihat distribusi dari nilai missing value
untuk setiap atribut.

2. Pembersihan data
 Dari kode sebelumnya kita akan mencoba mengisikan nilai missing value untuk
setiap atribut
> data<-airquality
> #mengisikan nilai mean untuk missing value di atribut
Solar.R
> data$Solar.R[is.na(data$Solar.R)] <- mean (data$Solar.R,
na.rm= TRUE)
> md.pattern(data)

4
Praktikum ke-4
Modul Praktikum Data Mining

 Untuk atribut dengan tipe data kategorikal dapat menggunakan fungsi modus, yaitu:
names(sort(-table(x))[1]

3. Transformasi data
 Membuat variabel baru bernama variabel bulan untuk dataset kode sebelumnya,
yaitu:
> data$bulan<-NULL
> data$bulan[data$Month == 5] <- “Mei”
> data$bulan[data$Month == 6] <- “Juni”
> data$bulan[data$Month == 7] <- “Juli”
> data$bulan[data$Month == 8] <- “Agustus”
> data$bulan[data$Month == 9] <- “September”

4. Reduksi data
 Menghapus variabel tertentu:
> data$bulan<-NULL

 Sampling data
o Memilih data berdasarkan kriteria tertentu dapat menggunakan fungsi
which(). Misal: ingin memilih data yang memiliki nilai atribut month lebih
besar dari 7 dan nilai atribut wind lebih besar dari 10.
> dataBaru<-data [which(data$Month>7 & data$Wind>=10),]

o Memilih data secara random

>dataRandom<-data[sample(1:nrow(data),50,replace=FALSE),]

5. Integrasi data
 Pada R, dataset biasanya dalam format data frame. Untuk menggabungkan data dari
lebih satu sumber, prasyarat yang harus dipenuhi adalah jumlah atribut dan tipe
atribut dari dataset yang akan digabungkan sama.
 Untuk menggabungkan dua dataset dapat menggunakan kode berikut:
> #menggabungkan dataset dibagian kolom, syarat: jumlah
baris harus sama
> total <- merge(data frameA,data frameB,by="ID")
> # menggabungkan 2 dataset secara baris, syarat: jumlah
kolom harus sama.
> # contoh penggabungan data dari tahap reduksi sampling
data
> dataGabung<- rbind(dataBaru, dataRandom)

6. Diskretitasi data
 Data binning dapat menggunakan fungsi cut.
> Contoh membagi atribut wind menjadi 3 kelompok
> data$Wind<-cut (data$Wind, 3, include.lowest = TRUE)

5
Praktikum ke-4
Modul Praktikum Data Mining

 Terdapat 2 pendekatan dalam melakukan diskretisasi, yaitu unsupervised dan

supervised.
 Diskretisasi tidak terbimbing (unsupervised) dapat dilakukan dengan paket
infotheo pada fungsi discretize.
> install.packages(“infotheo”)
> library(infotheo)
> #contoh melakukan diskretisasi pada atribut sepal dengan
membagi menjadi 3 kategori dengan metode equal width
> ew.Sepal <- discretize(data$Sepal.Length, "equalwidth", 3)

> #contoh melakukan diskretisasi pada atribut petal dengan

membagi menjadi 3 kategori dengan metode equal frequency
> ef.Petal <- discretize(data$Petal.Length, "equalfreq", 3)

 Diskretisasi terbimbing (supervised) dapat dilakukan dengan paket discretization,

> install.packages(“discretization”)
> library(discretization)

LAPORAN PENDAHULUAN
1. Apakah setiap akan melakukan tahapan data mining harus dilakukan praproses data?
2. Apakah semua teknik praproses data harus dilakukan ketika melakukan praproses data?
3. Bagaimana menetukan jenis praproses data yang tepat untuk menyiapkan suatu
dataset?

MATERI PRAKTIKUM
1 Praproses Data
2 Pembersihan Data
3 Integrasi Data
4 Transformasi Data
5 Reduksi Data
6 Diskretisasi Data

6
Praktikum ke-4

Anda mungkin juga menyukai

Teknik Penanganan Data Hilang
Belum ada peringkat
Teknik Penanganan Data Hilang
4 halaman
4 Data Preparation V2
Belum ada peringkat
4 Data Preparation V2
28 halaman
Modul-9-Transformasi Data-Template Bahan Ajar TA DTS 2021 - Final
Belum ada peringkat
Modul-9-Transformasi Data-Template Bahan Ajar TA DTS 2021 - Final
68 halaman
Basis Data
Belum ada peringkat
Basis Data
106 halaman
Materi 1
Belum ada peringkat
Materi 1
35 halaman
Pertemuan 3 - Preprocessing Data
Belum ada peringkat
Pertemuan 3 - Preprocessing Data
31 halaman
Data Mining
Belum ada peringkat
Data Mining
39 halaman
Data Understanding Aak Ui 2021-07-23 v2
Belum ada peringkat
Data Understanding Aak Ui 2021-07-23 v2
64 halaman
LiDIA Materi-6 Data-Preparasi Up
Belum ada peringkat
LiDIA Materi-6 Data-Preparasi Up
39 halaman
Karakteritis Dan Preprocessing Data DER
Belum ada peringkat
Karakteritis Dan Preprocessing Data DER
60 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Tutorial Lab 1
Belum ada peringkat
Tutorial Lab 1
22 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
29 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
62 halaman
Modul Data Mining
Belum ada peringkat
Modul Data Mining
75 halaman
Pendahuluan NA
100% (1)
Pendahuluan NA
19 halaman
4 - Dasar Penggunaan R
Belum ada peringkat
4 - Dasar Penggunaan R
37 halaman
Pertemuan 9 Data Preparation
Belum ada peringkat
Pertemuan 9 Data Preparation
65 halaman
Pert 3
Belum ada peringkat
Pert 3
32 halaman
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
Belum ada peringkat
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
32 halaman
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
Belum ada peringkat
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
6 halaman
Claudia Dianelsa Adventin - Prak 0
Belum ada peringkat
Claudia Dianelsa Adventin - Prak 0
7 halaman
Data Dan Eksplorasi Data Mining
Belum ada peringkat
Data Dan Eksplorasi Data Mining
32 halaman
Learning Progress Review Week 5 - Kelompok3
Belum ada peringkat
Learning Progress Review Week 5 - Kelompok3
31 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
37 halaman
Part 6 - Handling Missing Data
Belum ada peringkat
Part 6 - Handling Missing Data
29 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Pertemuan 2 Data Science
Belum ada peringkat
Pertemuan 2 Data Science
9 halaman
Modul 2 - Data Clening Dan Preprocessing
Belum ada peringkat
Modul 2 - Data Clening Dan Preprocessing
12 halaman
Tutorial R
Belum ada peringkat
Tutorial R
48 halaman
Kelompok 24 - Makalah Data Mining - Preprocessing Data
0% (1)
Kelompok 24 - Makalah Data Mining - Preprocessing Data
13 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Tugas 2 Pratikum Msim4310
100% (1)
Tugas 2 Pratikum Msim4310
4 halaman
Laporan Data Dan Preprocessing Kelompok 5
Belum ada peringkat
Laporan Data Dan Preprocessing Kelompok 5
22 halaman
PERTEMUAN 2 - Data Analytics Lifecycle Overview, Discovery, Dan Data Preparation
Belum ada peringkat
PERTEMUAN 2 - Data Analytics Lifecycle Overview, Discovery, Dan Data Preparation
13 halaman
pkc1 - Nurul Handayani - 214308019 - TKA 7A
Belum ada peringkat
pkc1 - Nurul Handayani - 214308019 - TKA 7A
16 halaman
Modul1 - Muhamad Aldo Fernanda - 064002000037
Belum ada peringkat
Modul1 - Muhamad Aldo Fernanda - 064002000037
20 halaman
Laporan Tugas Minggu 2
Belum ada peringkat
Laporan Tugas Minggu 2
17 halaman
Data Mining Memahami Data
Belum ada peringkat
Data Mining Memahami Data
38 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
Jawaban UAS Proses Bisnis - 051400
Belum ada peringkat
Jawaban UAS Proses Bisnis - 051400
5 halaman
T3 - Irvan Eksa Mahendra - 20210801371
Belum ada peringkat
T3 - Irvan Eksa Mahendra - 20210801371
4 halaman
Data Preparation in Data Science Using R
Belum ada peringkat
Data Preparation in Data Science Using R
13 halaman
Tugas Penjelasan Data Mining (Kelompok)
Belum ada peringkat
Tugas Penjelasan Data Mining (Kelompok)
8 halaman
Laporan Praktikum Bahasa R (Probstat)
Belum ada peringkat
Laporan Praktikum Bahasa R (Probstat)
12 halaman
Tugas 2 - Analisis Dan Visualisasi Data - Bagus Adhi Kusuma - 043730331
Belum ada peringkat
Tugas 2 - Analisis Dan Visualisasi Data - Bagus Adhi Kusuma - 043730331
4 halaman
Laporan Praktikum Data Mining - Maghfirani Amalia - 064002000015
Belum ada peringkat
Laporan Praktikum Data Mining - Maghfirani Amalia - 064002000015
13 halaman
Modul DM (A) (18082010010)
Belum ada peringkat
Modul DM (A) (18082010010)
11 halaman
Pengenalan R Dan Visualisasi Data
Belum ada peringkat
Pengenalan R Dan Visualisasi Data
7 halaman
Modul 2
Belum ada peringkat
Modul 2
6 halaman
Komstat5 - Mle Gamma Dan Transformasi Negatif
Belum ada peringkat
Komstat5 - Mle Gamma Dan Transformasi Negatif
11 halaman
Modul 1 Preprocessing
Belum ada peringkat
Modul 1 Preprocessing
6 halaman
BJT - Umum - tmk2 SATS4111 Komputer I
Belum ada peringkat
BJT - Umum - tmk2 SATS4111 Komputer I
4 halaman
Eps2 - Data Understanding
Belum ada peringkat
Eps2 - Data Understanding
8 halaman
Materi 1 Pengenalan Data Mining
Belum ada peringkat
Materi 1 Pengenalan Data Mining
5 halaman
Tugas 2 Analisis Dan Visualisasi Data
Belum ada peringkat
Tugas 2 Analisis Dan Visualisasi Data
2 halaman
Aaron Frank Mailopuw - UAS - Big Data Analytics
Belum ada peringkat
Aaron Frank Mailopuw - UAS - Big Data Analytics
4 halaman
Gede Thadeo Angga Kusuma - Tugas 3
Belum ada peringkat
Gede Thadeo Angga Kusuma - Tugas 3
8 halaman
Preprocessing Dalam Data Mining
Belum ada peringkat
Preprocessing Dalam Data Mining
6 halaman