Data Preprocessing PDF

Dokumen tersebut membahas tentang teknik-teknik pra-pemrosesan data (data preprocessing) yang digunakan dalam pembelajaran mesin, yaitu rescaling data, standardisasi data, normalisasi data, dan binarisasi data. Keempat teknik tersebut digunakan untuk mengubah skala dan distribusi data sehingga dapat diproses oleh algoritma pembelajaran mesin.

Diunggah oleh

ayuahadiningrum

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

87 tayangan12 halaman

Data Preprocessing PDF

Diunggah oleh

ayuahadiningrum

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 12

Data Preprocessing

v Data perlu di-Pre-processing

v Transformasi Data
v Rescale Data
v Standardisasi Data
v Normalisai Data
v Binarisasi Data (Membuatnya jadi biner)
v Ringkasan

1
Target
v Memahami tentang cara untuk melakukan :
1. Rescale data.
2. Standardisasi data.
3. Normalisasi data.
4. Binarisasi data.

2
Mengapa data perlu di-Pre-
processing
v Data hampir selalu perlu di-preprocess.
v Algoritma yang berbeda memiliki asumsi yang berbeda tentang
data dan karena itu membutuhkan transformasi data..
v Selanjutnya, jika semua aturan sudah diikuti dari persiapan
data, maka hasil lebih baik dari algoritma yang digunakan aka
didapatkan..
v Pada umumnya, cara ini dilakukan: dengan membuat berbagai
macam view dan transformasi dari data yang ada, kemudian
algoritma dijalankan satu persatu pada tiap view dari dataset.
v Ini akan membantu untuk menunjukkan transformasi mana yang
lebih baik untuk digunakan dan dapat meng-explose strktur dari
persoalan secara umum.
3
Transformasi data
v Akandipelajari 4 data pre-processing yang berbeda yang
digunakan untuk machine learning yang nantinya melalui
tahapan:
Load dataset dari URL
Split dataset ke dalam variable input dan output.
Apply transformasi pre-processing ke dalam variable
input.
Buat ringkasan data untuk menunjukkan perubahan

4
Pre-processing transform
v Pre-processing transform:
Rescale Data
Standardisasi Data
Normalisasi Data
Binarisasi Data (Menjadikan biner)

5
Rescale Data
v # Rescale data (diantara 0 dan 1)
v from pandas import read_csv
v from numpy import set_printoptions
v from sklearn.preprocessing import MinMaxScaler
v filename = 'pima-indians-diabetes.data.csv'
v names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
v dataframe = read_csv(filename, names=names)
v array = dataframe.values
v # separate array into input dan output components
v X = array[:,0:8]
v Y = array[:,8]
v scaler = MinMaxScaler(feature_range=(0, 1))
v rescaledX = scaler.fit_transform(X)
v # summarize transformed data
v set_printoptions(precision=3)
v print(rescaledX[0:5,:])

v Setelah proses rescaling, maka semua nilai data berada pada range
antara 0 dan 1.
6
Standardisasi Data
v Standardisasi adalah Teknik yang berguna untuk
mentransfer atribut ke dalam distribusi Gaussian, dimana
nilai mean =0 dan standart deviasi=1.
v Sangat sesuai untuk algoritma yang mengasumsikan
bahwa data sudah ada dalam distribusi normal dan dapat
bekerja dengan baik dengan data yang sudah di-rescaled.
Algoritma tersebut contohnya, linear regression, logistic
regression dan linear discriminate analysis.
v Standardisasidapat dilakukan menggunakan scikit-learn
StandardScaler class.
v Setelahdistandardisasi, nilai atribut data akan memiliki
mean =0 dan standart deviasi=1. 7
Standardisasi Data
v # Standardisasi data (0 mean, 1 stdev)
v from sklearn.preprocessing import StandardScaler
v from pandas import read_csv
v from numpy import set_printoptions
v filename = 'pima-indians-diabetes.data.csv'
v names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
v dataframe = read_csv(filename, names=names)
v array = dataframe.values
v # separate array into input dan output components
v X = array[:,0:8]
v Y = array[:,8]
v scaler = StandardScaler().fit(X)
v rescaledX = scaler.transform(X)
v # summarize transformed data
v set_printoptions(precision=3)
v print(rescaledX[0:5,:])

8
Normalisasi Data
v Normalisasidalam scikit-learn mengacu pada rescaling
tiap observasi (baris) untuk mendapatkan Panjang =1
(disebut dengan unit norm atau vector dengan Panjang 1
dalam aljabar linear)
v Metode preprocessing ini dapat digunakan untuk dataset
yang bersifat sparse (banyak kosongnya / nol-nya) dengan
atribut yang memiliki skala yang bervariasi pada saat
menggunakan algoritma yang membutuhkan nilai input
pemberat seperti neural networks dan algoritma yang perlu
ukuran jarak seperti k-Nearest Neighbors.
v Normalisasidata dapat dilakukan dengan scikit-learn
Normalizer class.
9
Normalisasi Data
v # Normalisasi data (Panjang = 1)
v from sklearn.preprocessing import Normalizer
v from pandas import read_csv
v from numpy import set_printoptions
v filename = 'pima-indians-diabetes.data.csv'
v names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
v dataframe = read_csv(filename, names=names)
v array = dataframe.values
v # separate array into input dan output components
v X = array[:,0:8]
v Y = array[:,8]
v scaler = Normalizer().fit(X)
v normalizedX = scaler.transform(X)
v # summarize transformed data
v set_printoptions(precision=3)
v print(normalizedX[0:5,:])

10
Binarisasi Data (Membuatnya jadi
biner)
v Kita dapat melakukan transformasi data menggunakan
binary threshold. Semua nilai diatas threshold akan
ditandai dengan 1 dan nilai dibawahnya ditandai sebagai 0.
Disebut juga dengan binarisasi data atau thresholding
data.
v Ini digunakan jika kita punya nilai probabilitas yang akan
kita ubah menjadi nilai crisp.
v Juga digunakan untuk feature engineering dimana anda
ingin menambahkan fitur baru yang mengindikasikan
sesuatu yang berguna.
v Atribut biner baru dapat dibuat dengan menggunakan
scikit-learn Binarizer class. 11
Binarisasi Data (Make Binary)
v # binarisasi
v from sklearn.preprocessing import Binarizer
v from pandas import read_csv
v from numpy import set_printoptions
v filename = 'pima-indians-diabetes.data.csv'
v names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
v dataframe = read_csv(filename, names=names)
v array = dataframe.values
v # separate array into input dan output components
v X = array[:,0:8]
v Y = array[:,8]
v binarizer = Binarizer(threshold=0.0).fit(X)
v binaryX = binarizer.transform(X)
v # summarize transformed data
v set_printoptions(precision=3)
v print(binaryX[0:5,:])

v Semua nilai yang sama atau lebih kecil dari 0 ditandai dengan 0
sedangkan yang lebih besar dari 0 ditandai dengan 1.
12

Anda mungkin juga menyukai

Machine Learning Workflow
Belum ada peringkat
Machine Learning Workflow
6 halaman
Data Mining 02
Belum ada peringkat
Data Mining 02
30 halaman
Modul 3 - Klasifikasi
Belum ada peringkat
Modul 3 - Klasifikasi
17 halaman
Jobsheet 7 - Data Pre-Processing
Belum ada peringkat
Jobsheet 7 - Data Pre-Processing
17 halaman
Webinar2 DataScienceforPredictiveModelling TessyBadriyah
Belum ada peringkat
Webinar2 DataScienceforPredictiveModelling TessyBadriyah
25 halaman
Syaira Yuniar - 2KA20 - 11123280 - 2-Tekrek-M8-KNN - DGX - Compressed
Belum ada peringkat
Syaira Yuniar - 2KA20 - 11123280 - 2-Tekrek-M8-KNN - DGX - Compressed
30 halaman
Modul Dscience Lanjut3
Belum ada peringkat
Modul Dscience Lanjut3
26 halaman
Feature Engineering
Belum ada peringkat
Feature Engineering
43 halaman
Machine Learning With Python For Beginner
Belum ada peringkat
Machine Learning With Python For Beginner
64 halaman
Learning Progress Review Week 9
Belum ada peringkat
Learning Progress Review Week 9
35 halaman
Kelompok Tomodachi
Belum ada peringkat
Kelompok Tomodachi
28 halaman
Fundamental Data Analyst: Minggu Ke - 8
Belum ada peringkat
Fundamental Data Analyst: Minggu Ke - 8
30 halaman
Modul Dscience Lanjut2
Belum ada peringkat
Modul Dscience Lanjut2
21 halaman
Jobsheet 7 - Data Pre-Processing
Belum ada peringkat
Jobsheet 7 - Data Pre-Processing
16 halaman
2118060-Coding Pre-Processing Dataset Brain Tumor
Belum ada peringkat
2118060-Coding Pre-Processing Dataset Brain Tumor
22 halaman
Module 2 - Data Preprocessing
Belum ada peringkat
Module 2 - Data Preprocessing
38 halaman
Oooo Salinan
Belum ada peringkat
Oooo Salinan
13 halaman
Della Velina - Laporan - ANN
Belum ada peringkat
Della Velina - Laporan - ANN
17 halaman
Modul 1 - Exploratory Data Analysis
Belum ada peringkat
Modul 1 - Exploratory Data Analysis
12 halaman
5 Implementasi Machine Learning Menggunakan Bahasa Python
Belum ada peringkat
5 Implementasi Machine Learning Menggunakan Bahasa Python
22 halaman
Data Cleansing For ML - Rakamin Trial Class
Belum ada peringkat
Data Cleansing For ML - Rakamin Trial Class
28 halaman
Modul 2 - Data Clening Dan Preprocessing
Belum ada peringkat
Modul 2 - Data Clening Dan Preprocessing
12 halaman
Modul 7
Belum ada peringkat
Modul 7
22 halaman
Pertemuan 2 Data Science
Belum ada peringkat
Pertemuan 2 Data Science
9 halaman
Data Preparation Dengan Normalization Dan Standardization
Belum ada peringkat
Data Preparation Dengan Normalization Dan Standardization
4 halaman
Article Review 9 Data Preprocessing
Belum ada peringkat
Article Review 9 Data Preprocessing
9 halaman
Tugas 3 Data Mining
Belum ada peringkat
Tugas 3 Data Mining
11 halaman
Data Wrangling
Belum ada peringkat
Data Wrangling
18 halaman
Fadly Septian Haryono 21538144022 H S1-TE'21 SVM Using Phyton
Belum ada peringkat
Fadly Septian Haryono 21538144022 H S1-TE'21 SVM Using Phyton
10 halaman
Disusun Guna Memenuhi Tugas Mata Kuliah Data Mining Dosen Pengampu: Ir. Bambang Siswoyo, M.Si., M.Kom
Belum ada peringkat
Disusun Guna Memenuhi Tugas Mata Kuliah Data Mining Dosen Pengampu: Ir. Bambang Siswoyo, M.Si., M.Kom
8 halaman
TUGAS BESAR 1 PDM - Farrel Syach Zahran - 41520010125
Belum ada peringkat
TUGAS BESAR 1 PDM - Farrel Syach Zahran - 41520010125
12 halaman
Anesya Mahera - 20221026 - Ai A
Belum ada peringkat
Anesya Mahera - 20221026 - Ai A
4 halaman
G - L200200122 - Adi Mas Setiawan - Modul8 Dan 9
Belum ada peringkat
G - L200200122 - Adi Mas Setiawan - Modul8 Dan 9
17 halaman
Fadly Septian Haryono 21538144022 H S1-TE'21 SVM Using Phyton
Belum ada peringkat
Fadly Septian Haryono 21538144022 H S1-TE'21 SVM Using Phyton
9 halaman
Uts Penambangan Data
Belum ada peringkat
Uts Penambangan Data
10 halaman
Kode KNN
Belum ada peringkat
Kode KNN
5 halaman
Uas Big Data
Belum ada peringkat
Uas Big Data
6 halaman
Laporan Praktikum Ke 6 Penambangan Dan Pengolahan Data Muhammad Fahmi Husaen 460934 SV 18015
Belum ada peringkat
Laporan Praktikum Ke 6 Penambangan Dan Pengolahan Data Muhammad Fahmi Husaen 460934 SV 18015
16 halaman
Project Big Data
Belum ada peringkat
Project Big Data
17 halaman
K Means
Belum ada peringkat
K Means
13 halaman
ML Mid Dama
Belum ada peringkat
ML Mid Dama
5 halaman
Diabetes Prediction
Belum ada peringkat
Diabetes Prediction
6 halaman
Firmania Dwi Utami - Pertemuan 3
Belum ada peringkat
Firmania Dwi Utami - Pertemuan 3
8 halaman
G1A020034 - Rahmita Dwi Kurnia - Tugas Datming
Belum ada peringkat
G1A020034 - Rahmita Dwi Kurnia - Tugas Datming
5 halaman
Tugas Mahasiswa Data Mining 1
Belum ada peringkat
Tugas Mahasiswa Data Mining 1
5 halaman
G - L200200249 - Carissa Aprilia Pranowo - Modul8 Dan 9
Belum ada peringkat
G - L200200249 - Carissa Aprilia Pranowo - Modul8 Dan 9
15 halaman
Muhammad Arif (22010049)
Belum ada peringkat
Muhammad Arif (22010049)
3 halaman
Task10 - Bagus Arimanu - Ipynb - Colaboratory
Belum ada peringkat
Task10 - Bagus Arimanu - Ipynb - Colaboratory
6 halaman
Fadhlur Rahman Aulia Abdullah - IT-45-02 - SISCER
Belum ada peringkat
Fadhlur Rahman Aulia Abdullah - IT-45-02 - SISCER
24 halaman
Pembelajaran Machine Learning
Belum ada peringkat
Pembelajaran Machine Learning
7 halaman
Apa Itu Pandas Dan Apa Fungsinya Dalam Data Science
Belum ada peringkat
Apa Itu Pandas Dan Apa Fungsinya Dalam Data Science
3 halaman
Jawaban Uas Data Warehouse Reldwick 111180034
Belum ada peringkat
Jawaban Uas Data Warehouse Reldwick 111180034
2 halaman
Hello World ML
Belum ada peringkat
Hello World ML
5 halaman
Praktikum Datmin 3
Belum ada peringkat
Praktikum Datmin 3
13 halaman
Rangkuman Coding Python
Belum ada peringkat
Rangkuman Coding Python
2 halaman
Modul 2
Belum ada peringkat
Modul 2
6 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman