Data Preparation Dengan Normalization Dan Standardization

Diunggah oleh

Akaruku Media

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

21 tayangan4 halaman

Data Preparation Dengan Normalization Dan Standardization

Diunggah oleh

Akaruku Media

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 4

Data Preparation dengan Normalization dan

Standardization
Selain konversi data kategorik menjadi numerik, ada beberapa teknik lain
dalam data preparation. Teknik yang akan dibahas antara lain
membuang outlier, normalization, dan standardization.

Outlier Removal

Dalam statistik, outlier adalah sebuah nilai yang jauh berbeda dari kumpulan nilai
lainnya dan dapat mengacaukan hasil dari sebuah analisis statistik. Outlier dapat
disebabkan oleh kesalahan dalam pengumpulan data atau nilai tersebut benar ada
dan memang unik dari kumpulan nilai lainnya.

Apa pun alasan kemunculannya, Anda perlu tahu cara mengidentifikasi dan
memproses outlier. Ini adalah bagian penting dalam persiapan data di dalam
machine learning. Salah satu cara termudah untuk mengecek apakah terdapat
outlier dalam data kita adalah dengan melakukan visualisasi.

Berikut adalah contoh visualisasi terhadap data yang memiliki outlier.

Dapat dilihat dengan jelas bahwa terdapat satu sampel yang jauh berbeda dengan
sampel-sampel lainnya. Setelah mengetahui bahwa di data kita terdapat outlier, kita
dapat mencari lalu menghapus sampel tersebut dari dataset.

Normalization
Normalization adalah salah satu teknik yang dipakai dalam data preparation. Tujuan
dari normalisasi adalah mengubah nilai-nilai dari sebuah fitur ke dalam skala yang
sama. Normalization memungkinkan kenaikan performa dan stabilitas dari sebuah
model machine learning.

Nama Gaji Umur

A 12.000.000 33
B 35.000.000 45
C 4.000.000 23
D 6.500.000 26
E 9.000.000 29
Contoh dari normalization adalah ketika kita memiliki dataset seperti di atas yang
memiliki fitur umur dengan skala 23 sampai 45 tahun dan fitur penghasilan dengan
skala 4.000.000 sampai 35.000.000. Di sini kita melihat bahwa fitur penghasilan
sekitar satu juta kali lebih besar dari fitur umur dan menunjukkan kedua fitur ini
berada pada skala yang sangat jauh berbeda.

Ketika membangun model seperti regresi linear, fitur penghasilan akan sangat
mempengaruhi prediksi dari model karena nilainya yang jauh lebih besar daripada
umur, walaupun tidak berarti fitur tersebut jauh lebih penting dari fitur umur.

Salah satu contoh dari normalization adalah min-max scaling di mana nilai-nilai
dipetakan ke dalam skala 0 sampai 1. SKLearn menyediakan library untuk
normalization

Pada Colab kita Import library MinMaxScaler dan masukkan data dari tabel
sebelumnya.

1. from sklearn.preprocessing import MinMaxScaler

2. data = [[12000000, 33], [35000000, 45], [4000000, 23], [6500000, 26],
[9000000, 29]]

Pada cell selanjutnya kita buat sebuah objek MinMaxScaler dan panggil fungsi fit()
dan mengisi argumen data seperti potongan kode di bawah. Fungsi fit() dari objek
MinMaxSclaer adalah fungsi untuk menghitung nilai minimum dan maksimum pada
tiap kolom.

1. scaler = MinMaxScaler()
2. scaler.fit(data)

Apabila dijalankan, maka hasilnya sebagai berikut.

Sampai pada fungsi fit() ini, komputer baru menghitung nilai minimum dan
maksimum pada tiap kolom dan belum melakukan operasi scaler pada data.
Terakhir kita panggil fungsi transform() yang akan mengaplikasikan scaler pada
data, sebagai berikut.

1. print(scaler.transform(data))
Hasil dari kode di atas seperti ditunjukkan pada gambar

berikut.

Setiap nilai dari kolom gaji dan umur telah dipetakan pada skala yang sama seperti
di bawah ini.

Nama Gaji Umur

A 0.25806452 0.45454545
B 1 1
C 0 0
D 0.08064516 0.13636364
E 0.16129032 0.27272727
Untuk informasi lebih detail tentang Min Max Scaler, silakan kunjungi tautan berikut.

Standardization

Standardization adalah proses konversi nilai-nilai dari suatu fitur sehingga nilai-nilai
tersebut memiliki skala yang sama. Z score adalah metode paling populer untuk
standardisasi di mana setiap nilai pada sebuah atribut numerik akan dikurangi
dengan rata-rata dan dibagi dengan standar deviasi dari seluruh nilai pada sebuah
kolom atribut.

Fungsi standardisasi itu serupa dengan normalization. Keduanya berfungsi

menyamakan skala nilai dari tiap atribut pada data. SKLearn menyediakan library
untuk mengaplikasikan standard scaler pada data.

Nama Gaji Umur

A 12.000.000 33
B 35.000.000 45
C 4.000.000 23
D 6.500.000 26
E 9.000.000 29
Pada colab di cell pertama kita akan mengimpor library preprocessing dari scikit
learn lalu membuat data dummy sesuai dengan tabel di atas.

1. from sklearn import preprocessing

2. data = [[12000000, 33], [35000000, 45], [4000000, 23], [6500000, 26],
[9000000, 29]]
Selanjutnya kita buat object scaler dan panggil fungsi fit dari scaler pada data.
Fungsi fit memiliki fungsi untuk menghitung rata-rata dan deviasi standar dari setiap
kolom atribut untuk kemudian dipakai pada fungsi transform.

1. scaler = preprocessing.StandardScaler().fit(data)

Terakhir, kita panggil fungsi transform untuk mengaplikasikan standard scaler pada
data. Untuk melihat hasil dari standard scaler kita tinggal memanggil objek scaler
yang telah kita buat sebelumnya. Kodenya sebagai berikut.

1. data = scaler.transform(data)
2. data

Hasil akhirnya apabila dijalankan seperti di bawah ini.

Untuk informasi lebih detail tentang standardization, silakan kunjungi tautan berikut.

Anda mungkin juga menyukai

Tugas 1 Data Mining - 041832066
100% (2)
Tugas 1 Data Mining - 041832066
4 halaman
Tugas 1-Pebriwindari Data Mining
50% (2)
Tugas 1-Pebriwindari Data Mining
5 halaman
Tutorial Rapidminer - 4
100% (1)
Tutorial Rapidminer - 4
18 halaman
Machine Learning Workflow
Belum ada peringkat
Machine Learning Workflow
6 halaman
Normalisasi Data PDF
100% (1)
Normalisasi Data PDF
8 halaman
Nama
Belum ada peringkat
Nama
5 halaman
Data Mining 02
Belum ada peringkat
Data Mining 02
30 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
39 halaman
Transformasi Data
Belum ada peringkat
Transformasi Data
50 halaman
Cara Mengatasi Data Berdistribusi Tidak Normal
Belum ada peringkat
Cara Mengatasi Data Berdistribusi Tidak Normal
7 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Laporan Praktikum Sistem Dan Teknologi Informasi "Normalisasi"
Belum ada peringkat
Laporan Praktikum Sistem Dan Teknologi Informasi "Normalisasi"
34 halaman
Pemodelan Persamaan Struktural Pada Data Yang Tidak Normal
Belum ada peringkat
Pemodelan Persamaan Struktural Pada Data Yang Tidak Normal
12 halaman
Karakteritis Dan Preprocessing Data DER
Belum ada peringkat
Karakteritis Dan Preprocessing Data DER
60 halaman
Tugas 1 - Data Mining
Belum ada peringkat
Tugas 1 - Data Mining
3 halaman
Jobsheet 7 - Data Pre-Processing
Belum ada peringkat
Jobsheet 7 - Data Pre-Processing
17 halaman
LPR - Week 8 - Pandas
Belum ada peringkat
LPR - Week 8 - Pandas
64 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
27 halaman
Data Preprocessing (Data Normalization) (Teori)
Belum ada peringkat
Data Preprocessing (Data Normalization) (Teori)
17 halaman
Normalisasi Data PDF
Belum ada peringkat
Normalisasi Data PDF
16 halaman
Module 2 - Data Preprocessing
Belum ada peringkat
Module 2 - Data Preprocessing
38 halaman
Learning Progress Review Week 9
Belum ada peringkat
Learning Progress Review Week 9
35 halaman
KDD (Knowledge Data Discovery) 1
Belum ada peringkat
KDD (Knowledge Data Discovery) 1
24 halaman
Tugas Sesi 1 Data Mining 2 Universitas Terbuka
Belum ada peringkat
Tugas Sesi 1 Data Mining 2 Universitas Terbuka
4 halaman
Pre-Processing Data Part 1
Belum ada peringkat
Pre-Processing Data Part 1
22 halaman
Jobsheet 7 - Data Pre-Processing
Belum ada peringkat
Jobsheet 7 - Data Pre-Processing
16 halaman
Slide Materi Data Preprocessing
Belum ada peringkat
Slide Materi Data Preprocessing
29 halaman
Makalah Kel 1 Sit
Belum ada peringkat
Makalah Kel 1 Sit
14 halaman
Data Cleansing For ML - Rakamin Trial Class
Belum ada peringkat
Data Cleansing For ML - Rakamin Trial Class
28 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Univariate Dan Uvn: Normalitas
Belum ada peringkat
Univariate Dan Uvn: Normalitas
22 halaman
Data Mining - 3 - Data Preprocessing
Belum ada peringkat
Data Mining - 3 - Data Preprocessing
40 halaman
Kelompok Tomodachi
Belum ada peringkat
Kelompok Tomodachi
28 halaman
Uji Normalitas Data
Belum ada peringkat
Uji Normalitas Data
22 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Fadhlur Rahman Aulia Abdullah - IT-45-02 - SISCER
Belum ada peringkat
Fadhlur Rahman Aulia Abdullah - IT-45-02 - SISCER
24 halaman
Tugas 10 Normalisasi Data
Belum ada peringkat
Tugas 10 Normalisasi Data
12 halaman
Laporan Tugas Minggu 2
Belum ada peringkat
Laporan Tugas Minggu 2
17 halaman
Python Learning
Belum ada peringkat
Python Learning
8 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Laporan Praktikum Ke 6 Penambangan Dan Pengolahan Data Muhammad Fahmi Husaen 460934 SV 18015
Belum ada peringkat
Laporan Praktikum Ke 6 Penambangan Dan Pengolahan Data Muhammad Fahmi Husaen 460934 SV 18015
16 halaman
ML Pert 6 Fitur Seleksi
Belum ada peringkat
ML Pert 6 Fitur Seleksi
6 halaman
Data Preprocessing PDF
Belum ada peringkat
Data Preprocessing PDF
12 halaman
Praktikum Datmin 3
Belum ada peringkat
Praktikum Datmin 3
13 halaman
Tugas 3 Data Mining - 210210501004 - Musda Rida Mulia - SC 1
Belum ada peringkat
Tugas 3 Data Mining - 210210501004 - Musda Rida Mulia - SC 1
12 halaman
Data Mining - 2020240051 - Si6b - Vabby Shaizul Aliyy Kartadinata
Belum ada peringkat
Data Mining - 2020240051 - Si6b - Vabby Shaizul Aliyy Kartadinata
13 halaman
Article Review 9 Data Preprocessing
Belum ada peringkat
Article Review 9 Data Preprocessing
9 halaman
Bab 3 Metode Penelitian
Belum ada peringkat
Bab 3 Metode Penelitian
8 halaman
Data Mining
Belum ada peringkat
Data Mining
4 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
Muhammad Arif (22010049)
Belum ada peringkat
Muhammad Arif (22010049)
3 halaman
Modul 2
Belum ada peringkat
Modul 2
6 halaman
Tugas Statistika Mohammad Wawan 201810370311018
Belum ada peringkat
Tugas Statistika Mohammad Wawan 201810370311018
7 halaman
Diskusi 2 Data Mining
Belum ada peringkat
Diskusi 2 Data Mining
2 halaman
Teknik ML (AI)
Belum ada peringkat
Teknik ML (AI)
3 halaman
Rangkuman Coding Python
Belum ada peringkat
Rangkuman Coding Python
2 halaman
Dio Prasetyo Data Mining
Belum ada peringkat
Dio Prasetyo Data Mining
3 halaman
Tugas 2 Analisis Dan Visualisasi Data
Belum ada peringkat
Tugas 2 Analisis Dan Visualisasi Data
2 halaman
Elemen Insert
Belum ada peringkat
Elemen Insert
4 halaman
Fungsi SUM, AVERAGE, Dan COUNT Dalam Spreadsheet
Belum ada peringkat
Fungsi SUM, AVERAGE, Dan COUNT Dalam Spreadsheet
16 halaman
Convolutional Neural Network
Belum ada peringkat
Convolutional Neural Network
7 halaman
TensorFlow
Belum ada peringkat
TensorFlow
4 halaman
Pengenalan Machine Learning
Belum ada peringkat
Pengenalan Machine Learning
6 halaman
Artificial Neural Network
Belum ada peringkat
Artificial Neural Network
8 halaman
Assignment 1
Belum ada peringkat
Assignment 1
2 halaman
Pengenalan Python
Belum ada peringkat
Pengenalan Python
2 halaman
Visualisasi Data Dalam Bisnis
Belum ada peringkat
Visualisasi Data Dalam Bisnis
4 halaman
Rangkuman Sub Modul Pendahuluan
Belum ada peringkat
Rangkuman Sub Modul Pendahuluan
3 halaman
Assignment 2 - B
Belum ada peringkat
Assignment 2 - B
2 halaman
Apa Itu Pivot Table
Belum ada peringkat
Apa Itu Pivot Table
11 halaman
Library Populer Pada Python Untuk ML Dan Data Science
Belum ada peringkat
Library Populer Pada Python Untuk ML Dan Data Science
4 halaman
Glosarium
Belum ada peringkat
Glosarium
3 halaman
Mengapa Python
Belum ada peringkat
Mengapa Python
1 halaman
Tips Pivot Table
Belum ada peringkat
Tips Pivot Table
5 halaman
Transkrip Visualisasi Data Menggunakan Diagram
Belum ada peringkat
Transkrip Visualisasi Data Menggunakan Diagram
5 halaman
Elemen Pivot Table
Belum ada peringkat
Elemen Pivot Table
3 halaman
Python Pada IDE Dan Notebook
Belum ada peringkat
Python Pada IDE Dan Notebook
3 halaman
Instalasi Python Pada Operating System
Belum ada peringkat
Instalasi Python Pada Operating System
3 halaman
Transkrip Pengantar Kelas
Belum ada peringkat
Transkrip Pengantar Kelas
2 halaman
Tools Dalam Visualisasi Data
Belum ada peringkat
Tools Dalam Visualisasi Data
2 halaman