0% menganggap dokumen ini bermanfaat (0 suara)

36 tayangan30 halaman

Data Mining 02

Dokumen ini membahas pentingnya data preprocessing dalam data mining, yang mencakup langkah-langkah seperti pembersihan data, transformasi data, pengurangan dimensi, integrasi data, dan pencocokan data. Proses ini penting untuk memastikan data yang digunakan dalam analisis akurat dan berkualitas. Contoh studi kasus dan tugas praktis juga disertakan untuk menerapkan teknik preprocessing pada dataset yang berisi informasi pelanggan e-commerce.

Diunggah oleh

mypicture021

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

36 tayangan30 halaman

Data Mining 02

Diunggah oleh

mypicture021

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 30

DATA MINING

PART-02

Data Preprocessing
dalam Data Mining
[email protected]
Pentingnya Data Preprocessing
• Data mining adalah proses penemuan pola atau informasi yang
berguna dari data yang besar dan kompleks. Sebelum melakukan
data mining, data harus dipersiapkan dengan baik agar hasil yang
diperoleh relevan dan berkualitas. Proses persiapan data ini disebut
Data Preprocessing.
• Data preprocessing adalah langkah pertama dalam data mining yang
bertujuan untuk mempersiapkan data mentah agar bisa digunakan
dalam proses penambangan data. Tanpa preprocessing, model yang
dibangun mungkin akan menghasilkan hasil yang tidak akurat,
bahkan bias. Berikut adalah beberapa alasan mengapa
preprocessing sangat penting:
1. Data seringkali tidak lengkap: Banyak data yang hilang atau tidak
lengkap.
2. Data seringkali mengandung kesalahan atau noise: Kesalahan
input data atau data yang tidak relevan dapat mengganggu
analisis.
3. Skala data yang berbeda: Beberapa algoritma membutuhkan data
dalam bentuk skala yang konsisten.
Tahapan dalam Data Preprocessing
a. Pembersihan Data (Data Cleaning)
• Pembersihan data adalah proses menangani data yang hilang, data
duplikat, dan data yang salah.
• Menghapus Data yang Tidak Relevan: Menghapus atribut yang tidak
memiliki pengaruh terhadap hasil analisis.
• Mengatasi Missing Values: Data yang hilang dapat diisi dengan nilai
rata-rata, median, modus, atau bahkan dihapus jika diperlukan.
• Menghapus Duplikasi: Jika terdapat data yang terduplikasi, maka data
tersebut perlu dihapus agar tidak mempengaruhi analisis.
b. Transformasi Data (Data Transformation)
• Transformasi data adalah proses mengubah format atau skala data agar
sesuai dengan kebutuhan algoritma yang akan digunakan.
• Normalisasi: Proses mengubah data ke dalam skala yang seragam,
misalnya mengubah data dengan rentang yang sangat berbeda menjadi
data dengan rentang yang sama (misalnya [0,1]).
• Diskritisasi: Mengubah data numerik menjadi data kategori (misalnya
usia bisa dibagi menjadi kategori: muda, dewasa, tua).
• Pengkodean Kategori: Mengubah data kategorikal menjadi format
numerik yang bisa digunakan dalam algoritma.
c. Pengurangan Dimensi (Dimensionality Reduction)
• Proses ini digunakan untuk mengurangi jumlah atribut atau fitur
dalam dataset tanpa mengorbankan kualitas informasi yang
signifikan.
• PCA (Principal Component Analysis): Teknik yang digunakan untuk
mengurangi dimensi data dengan mencari komponen utama yang
menjelaskan variabilitas dalam data.
• LDA (Linear Discriminant Analysis): Teknik pengurangan dimensi
yang digunakan untuk klasifikasi, dengan fokus pada pemisahan
antar kelas.
d. Penyusunan Data (Data Integration)
• Jika data berasal dari berbagai sumber, tahap ini bertujuan untuk
mengintegrasikan data tersebut menjadi satu set data yang utuh.
• Penggabungan Sumber Data: Menggabungkan data yang berbeda
menjadi satu set yang lebih besar dan lebih komprehensif.
e. Pencocokan Data (Data Matching)
• Data yang berasal dari sumber yang berbeda sering kali memiliki
atribut yang berbeda meskipun menyatakan informasi yang sama.
Pencocokan data bertujuan untuk mengidentifikasi entitas yang
serupa dalam dataset yang berbeda.
Teknik dan Algoritma dalam Data
Preprocessing
• Beberapa teknik yang sering digunakan dalam preprocessing
data antara lain:
• Imputasi Nilai Hilang: Menggunakan teknik statistik untuk
memperkirakan dan mengisi data yang hilang.
• Standardisasi: Mengubah data ke bentuk standar yang
digunakan untuk menghitung statistik (misalnya mengurangi
nilai rata-rata dan membaginya dengan deviasi standar).
• Clustering: Mengelompokkan data yang mirip untuk
mempermudah analisis dan visualisasi.
• Outlier Detection: Mendeteksi dan menangani data yang
berada di luar batas normal.
CONTOH STUDI KASUS
• Diketahui :
1. Dataset yang memiliki data yang hilang dan lakukan proses
imputation.
2. Lakukan normalisasi pada dataset yang memiliki atribut
numerik dengan rentang yang berbeda.
3. Terapkan teknik pengurangan dimensi (misalnya PCA) pada
dataset yang memiliki banyak fitur.
• Penyelesaiannya :
Dapat mengikuti beberapa langkah data preprocessing yang
melibatkan imputation untuk mengatasi data yang hilang,
normalisasi untuk atribut numerik dengan rentang berbeda, dan
pengurangan dimensi (misalnya PCA) untuk dataset dengan
banyak fitur.
• Langkah 1: Ambil Dataset dengan Data yang Hilang dan
Lakukan Proses Imputation
• Misalkan kita memiliki dataset berupa data pelanggan dengan
atribut seperti Usia, Pendapatan, Lokasi, dan Status
Pekerjaan. Dataset ini mengandung nilai yang hilang (missing
values) pada beberapa atribut.
• Contoh dataset:
• Proses Imputation:
• Imputation adalah proses mengisi nilai yang hilang dengan
nilai estimasi berdasarkan data yang ada. Beberapa metode
imputation yang umum adalah:
• Imputasi dengan Mean/Median/Mode:
• Untuk atribut numerik seperti Usia dan Pendapatan, kita bisa
mengisi nilai yang hilang dengan rata-rata (mean) atau median.
• Untuk atribut kategorikal seperti Status Pekerjaan, kita bisa
mengisi nilai yang hilang dengan modus (nilai yang paling sering
muncul).
• Langkah-langkah Imputation:
• Untuk kolom Usia, kita akan mengisi nilai yang hilang dengan
rata-rata Usia.
• Untuk kolom Pendapatan, kita akan mengisi nilai yang hilang
dengan rata-rata Pendapatan.
• Untuk kolom Status Pekerjaan, kita akan mengisi nilai yang
hilang dengan modus (nilai paling sering muncul).
• Langkah 2: Lakukan Normalisasi pada Dataset yang Memiliki Atribut
Numerik dengan Rentang yang Berbeda
• Setelah melakukan imputation, kita memiliki beberapa atribut numerik yang
memiliki rentang yang berbeda, seperti Usia (misalnya antara 20 sampai 50) dan
Pendapatan (misalnya antara 3000 sampai 10000). Agar kedua atribut ini dapat
dibandingkan secara adil, kita perlu melakukan normalisasi.
• Metode Normalisasi yang Digunakan:
• Kita akan menggunakan Min-Max Scaling untuk menormalkan data numerik.
Normalisasi ini mengubah rentang data menjadi antara 0 dan 1, dengan rumus
sebagai berikut:

• Di mana:
• XnormX_{\text{norm}}Xnorm adalah nilai yang sudah dinormalisasi.
• XXX adalah nilai asli (misalnya, Usia atau Pendapatan).
• XminX_{\text{min}}Xmin adalah nilai minimum dari data.
• XmaxX_{\text{max}}Xmax adalah nilai maksimum dari data.
Langkah-langkah Normalisasi:
• Untuk kolom Usia, kita akan mengubah rentang nilai menjadi [0, 1].
• Untuk kolom Pendapatan, kita akan mengubah rentang nilai menjadi
[0, 1].

• Langkah 1: Normalisasi Kolom Usia

• Data Asli Kolom Usia:

• Usia Minimum (XminX_{\text{min}}Xmin): 25

• Usia Maksimum (XmaxX_{\text{max}}Xmax): 35
• Perhitungan Normalisasi Usia:
• Menggunakan rumus Min-Max, kita akan menghitung nilai
normalisasi untuk setiap baris.
• Hasil Normalisasi Kolom Usia:
• Langkah 2: Normalisasi Kolom Pendapatan
• Perhitungan Normalisasi Pendapatan:
• Menggunakan rumus Min-Max, kita akan menghitung nilai
normalisasi untuk setiap baris.
• Tabel Hasil Normalisasi Lengkap:
Langkah-langkah Implementasi PCA:
• Misalnya kita memiliki data setelah normalisasi seperti ini:

Langkah 1: Matriks Data

Langkah 2: Hitung Matriks Kovarians
• Langkah 3: Terapkan Teknik Pengurangan Dimensi (Misalnya PCA)
pada Dataset yang Memiliki Banyak Fitur
• Jika dataset kita memiliki banyak fitur, pengurangan dimensi bisa
diterapkan untuk mengurangi kompleksitas dan meningkatkan
efisiensi model. Salah satu teknik yang populer adalah Principal
Component Analysis (PCA). PCA adalah teknik untuk mengurangi
dimensi dataset dengan memilih komponen utama yang
menjelaskan sebagian besar variabilitas dalam data.

Langkah-langkah PCA:
• Menstandarkan Data: Sebelum menerapkan PCA, kita harus
menstandarkan data terlebih dahulu (mean = 0, standar deviasi = 1),
jika data memiliki variabel dengan skala yang berbeda.
• Menghitung Matriks Kovarians: PCA mengandalkan matriks
kovarians untuk melihat hubungan antar fitur.
• Menentukan Eigenvector dan Eigenvalue: PCA mencari eigenvector
(komponen utama) dan eigenvalue (magnitude pentingnya
komponen).
• Memilih Komponen Utama: Komponen utama yang dipilih adalah
yang memiliki eigenvalue terbesar, yang menjelaskan sebagian besar
varians dalam data.
• Langkah 3: Hitung Eigenvector dan Eigenvalue

• Langkah 4: Pilih Komponen Utama

Setelah kita mendapatkan eigenvalue dan eigenvector, kita akan
memilih komponen utama yang memiliki eigenvalue terbesar.
Komponen utama dengan eigenvalue terbesar akan menjadi dimensi
baru yang menjelaskan sebagian besar variansi dalam data.
Biasanya, kita memilih jumlah komponen yang cukup untuk
menjelaskan persentase tertentu dari variansi (misalnya 95%).
• Hasil Setelah PCA:
• Setelah mengurangi dimensi dengan PCA, kita mungkin
memiliki data dengan satu kolom Komponen Utama yang
menggantikan dua fitur awal:
Implementasi pada Phyton
• import numpy as np
• from sklearn.decomposition import PCA
• from sklearn.preprocessing import StandardScaler

• # Data yang telah dinormalisasi

• data = np.array([
• [0.0, 0.0],
• [0.45, 0.5],
• [0.5, 0.3125],
• [0.3, 1.0],
• [1.0, 0.25]
• ])

• # Standarisasi data (jika diperlukan)

• scaler = StandardScaler()
• data_scaled = scaler.fit_transform(data)

• # Terapkan PCA
• pca = PCA(n_components=1) # Mengurangi ke 1 komponen utama
• principal_components = pca.fit_transform(data_scaled)

• # Menampilkan hasil
• print("Komponen Utama:")
• print(principal_components)

• # Menampilkan variansi yang dijelaskan oleh komponen utama

• print("Variansi yang Dijelaskan:")
• print(pca.explained_variance_ratio_)
• Penjelasan Kode:
• Data Input: Data yang telah dinormalisasi (Usia dan Pendapatan) dimasukkan
dalam bentuk array NumPy.
• Standarisasi: Walaupun data kita sudah dinormalisasi, kita tetap menggunakan
StandardScaler untuk memastikan data memiliki distribusi yang standar (dengan
rata-rata 0 dan deviasi standar 1). Biasanya ini dilakukan untuk dataset yang lebih
besar atau jika data tidak sepenuhnya dinormalisasi.
• PCA: Kita kemudian menerapkan PCA dengan n_components=1 untuk
mengurangi data menjadi satu komponen utama yang menjelaskan sebagian
besar variansi dalam data.
• Output:
• Komponen Utama: Ini adalah hasil transformasi data ke dalam ruang
komponen utama.
• Variansi yang Dijelaskan: Menunjukkan berapa banyak variansi data yang
dijelaskan oleh komponen utama yang dipilih.
• Komponen Utama:
• Hasil transformasi dari data yang telah dinormalisasi ke dalam ruang komponen
utama. Setiap baris mewakili nilai dari komponen utama untuk setiap data point.
• Sebagai contoh, nilai [-1.16900688] untuk ID 1 menunjukkan seberapa besar
data tersebut terproyeksi ke komponen utama pertama.
• Variansi yang Dijelaskan:
• 0.9517299 berarti bahwa komponen utama pertama yang dihasilkan oleh PCA
menjelaskan sekitar 95.17% dari variansi data. Ini berarti komponen pertama
menangkap sebagian besar informasi dari data, sehingga mengurangi dimensi
data ke 1 komponen utama ini sudah cukup untuk mewakili data dengan sangat
baik.
KESIMPULAN
• Dalam studi kasus ini, kita telah melakukan tiga langkah
utama dalam data preprocessing:
1. Imputation: Mengisi nilai yang hilang dengan metode yang
sesuai (mean/median/modus) untuk memastikan data
lengkap.
2. Normalisasi: Menggunakan Min-Max Scaling untuk
menormalkan data numerik dengan rentang yang berbeda,
agar model dapat bekerja dengan data dalam skala yang
seragam.
3. Pengurangan Dimensi (PCA): Mengurangi jumlah fitur yang
digunakan dengan memilih komponen utama yang
menjelaskan sebagian besar variabilitas dalam data, untuk
menyederhanakan model dan mempercepat pelatihan.
• Dengan langkah-langkah ini, dataset kita siap untuk analisis
lebih lanjut atau untuk digunakan dalam model machine
learning yang lebih efisien.
TUGAS-02
• Selesaiakan Project Kerja berikut :

Sebuah perusahaan e-commerce ingin melakukan analisis terhadap pola

pembelian produk oleh pelanggan di platform mereka. Untuk itu, mereka
mengumpulkan data pelanggan yang mencakup informasi demografis dan
transaksi pembelian. Data yang dikumpulkan, meskipun sangat berguna,
memiliki beberapa masalah yang perlu diselesaikan sebelum dapat
digunakan untuk membuat prediksi atau model analitik yang lebih akurat.

Data yang diberikan mengandung kolom seperti:

• ID Pelanggan (unique identifier)
• Usia (numeric)
• Pendapatan (numeric)
• Jenis Kelamin (kategori: Laki-laki, Perempuan)
• Status Pernikahan (kategori: Menikah, Belum Menikah)
• Jumlah Pembelian (numeric)
• Produk Terakhir Dibeli (kategori: Elektronik, Pakaian, Kecantikan, dll.)
• Tanggal Pembelian Terakhir (datetime)
• Metode Pembayaran (kategori: Kartu Kredit, Transfer Bank, E-Wallet)
Tugas yang Harus Dikerjakan:
1. Pengecekan dan Penanganan Data yang Hilang:
• Identifikasi kolom mana saja yang memiliki nilai yang hilang dan
tentukan cara untuk menangani data hilang tersebut (apakah
dengan menghapus baris, mengganti dengan nilai rata-rata, atau
metode imputasi lainnya).
2. Pengecekan dan Perbaikan Tipe Data:
• Cek tipe data pada setiap kolom, terutama kolom "Tanggal Pembelian
Terakhir". Ubah tipe data menjadi datetime jika diperlukan.
3. Normalisasi atau Standarisasi Data:
• Kolom "Usia" dan "Pendapatan" memiliki skala yang berbeda. Terapkan
normalisasi (misalnya Min-Max scaling) atau standarisasi (Z-score scaling)
untuk memastikan model tidak terbiasa pada satu skala.
4. Encode Data Kategorikal:
• Ubah kolom yang berisi data kategorikal seperti "Jenis Kelamin", "Status
Pernikahan", "Produk Terakhir Dibeli", dan "Metode Pembayaran"
menjadi format numerik agar dapat digunakan dalam model machine
learning. Anda bisa menggunakan teknik one-hot encoding atau label
encoding.
4. Pengecekan Outliers pada Kolom Numerik:
• Cek kolom numerik seperti "Jumlah Pembelian" untuk mendeteksi
outliers (nilai yang sangat berbeda dari yang lain) dan tentukan apakah
outliers tersebut perlu dihapus atau diubah.
5. Visualisasi Data Setelah Preprocessing:
• Setelah melakukan preprocessing, visualisasikan distribusi data numerik
seperti usia, pendapatan, dan jumlah pembelian.
• Tampilkan diagram batang atau pie chart untuk menunjukkan distribusi
data kategorikal setelah dilakukan encoding.
6. Tulis Laporan Analisis:
• Jelaskan langkah-langkah yang Anda lakukan selama
proses preprocessing, termasuk metode yang digunakan
untuk menangani nilai yang hilang, normalisasi data, dan
encoding kategorikal.
• Sebutkan apakah ada tantangan yang dihadapi dalam
proses preprocessing dan bagaimana cara Anda
mengatasinya.
• Berikan rekomendasi langkah-langkah selanjutnya yang
dapat dilakukan dengan data yang telah diproses,
misalnya pembuatan model prediksi pembelian produk.
7. Dikumpulkan, Pada pertemuan berikutnya di Rabu
tanggal 5 Maret 2025, ditulis tangan dikertas double folio.
Dengan keterangan Nama, Nim, MK, Kelas dan TUGAS-02.
SELESAI

TERIMA KASIH

Anda mungkin juga menyukai

Tugas 1-Pebriwindari Data Mining
50% (2)
Tugas 1-Pebriwindari Data Mining
5 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
27 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Laporan Tugas Akhir Data Science Boe (Amir Mahmud)
Belum ada peringkat
Laporan Tugas Akhir Data Science Boe (Amir Mahmud)
21 halaman
Data Preprocessing Business Intelligence
Belum ada peringkat
Data Preprocessing Business Intelligence
7 halaman
Karakteritis Dan Preprocessing Data DER
Belum ada peringkat
Karakteritis Dan Preprocessing Data DER
60 halaman
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
Belum ada peringkat
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
6 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
41 halaman
Kelompok 24 - Makalah Data Mining - Preprocessing Data
0% (1)
Kelompok 24 - Makalah Data Mining - Preprocessing Data
13 halaman
Tugas 1 - Data Mining
Belum ada peringkat
Tugas 1 - Data Mining
3 halaman
Tugas 1
Belum ada peringkat
Tugas 1
4 halaman
03 Pengenalan Pola 2
Belum ada peringkat
03 Pengenalan Pola 2
27 halaman
P-4 Data Mining
Belum ada peringkat
P-4 Data Mining
57 halaman
Data Mining - 3 - Data Preprocessing
Belum ada peringkat
Data Mining - 3 - Data Preprocessing
40 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
27 halaman
Pre-Processing Data Part 1
Belum ada peringkat
Pre-Processing Data Part 1
22 halaman
Slide Materi Data Preprocessing
Belum ada peringkat
Slide Materi Data Preprocessing
29 halaman
3 Teori - Preprocessing Data II
Belum ada peringkat
3 Teori - Preprocessing Data II
25 halaman
KDD (Knowledge Data Discovery) 1
Belum ada peringkat
KDD (Knowledge Data Discovery) 1
24 halaman
DTM TP1
100% (1)
DTM TP1
6 halaman
Materi 3 Pre Processing Data
Belum ada peringkat
Materi 3 Pre Processing Data
20 halaman
Pertemuan Ke 4 Data Processing
Belum ada peringkat
Pertemuan Ke 4 Data Processing
19 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
Dasar Pengenalan Pola
Belum ada peringkat
Dasar Pengenalan Pola
27 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Business Intelligent
Belum ada peringkat
Business Intelligent
15 halaman
Data Mining A - Laporan Tugas 2
Belum ada peringkat
Data Mining A - Laporan Tugas 2
14 halaman
Data Mining - 2020240051 - Si6b - Vabby Shaizul Aliyy Kartadinata
Belum ada peringkat
Data Mining - 2020240051 - Si6b - Vabby Shaizul Aliyy Kartadinata
13 halaman
Tugas 3 Data Mining - 210210501004 - Musda Rida Mulia - SC 1
Belum ada peringkat
Tugas 3 Data Mining - 210210501004 - Musda Rida Mulia - SC 1
12 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
3 halaman
Data Mining M.ridho New 2
Belum ada peringkat
Data Mining M.ridho New 2
9 halaman
Article Review 9 Data Preprocessing
Belum ada peringkat
Article Review 9 Data Preprocessing
9 halaman
Intrepertasi UAS Statistika Lanjut
Belum ada peringkat
Intrepertasi UAS Statistika Lanjut
9 halaman
Praktikum Datmin 3
Belum ada peringkat
Praktikum Datmin 3
13 halaman
Langkah Umum Principal Component Analysis (PCA)
Belum ada peringkat
Langkah Umum Principal Component Analysis (PCA)
15 halaman
Ringkasan UTS Data Mining
Belum ada peringkat
Ringkasan UTS Data Mining
23 halaman
Kelompok 4 - LKP5
Belum ada peringkat
Kelompok 4 - LKP5
14 halaman
Soal Tugas Pemrograman Visual
Belum ada peringkat
Soal Tugas Pemrograman Visual
7 halaman
Ufa Aurora Guciano - TUGAS 1
Belum ada peringkat
Ufa Aurora Guciano - TUGAS 1
10 halaman
JAWABAN
Belum ada peringkat
JAWABAN
5 halaman
Tugas Sesi 1 Data Mining 2 Universitas Terbuka
Belum ada peringkat
Tugas Sesi 1 Data Mining 2 Universitas Terbuka
4 halaman
Data Preparation Dengan Normalization Dan Standardization
Belum ada peringkat
Data Preparation Dengan Normalization Dan Standardization
4 halaman
Tugas Penjelasan Data Mining (Kelompok)
Belum ada peringkat
Tugas Penjelasan Data Mining (Kelompok)
8 halaman
Anesya Mahera - 20221026 - Ai A
Belum ada peringkat
Anesya Mahera - 20221026 - Ai A
4 halaman
Modul 2
Belum ada peringkat
Modul 2
6 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
11 halaman
Maya Melany Jurnal
Belum ada peringkat
Maya Melany Jurnal
6 halaman
Tugas Mahasiswa Data Mining 1
Belum ada peringkat
Tugas Mahasiswa Data Mining 1
5 halaman
Materi 1 Pengenalan Data Mining
Belum ada peringkat
Materi 1 Pengenalan Data Mining
5 halaman
ETSDatmin
Belum ada peringkat
ETSDatmin
4 halaman
Dio Prasetyo Data Mining
Belum ada peringkat
Dio Prasetyo Data Mining
3 halaman
Artikel Kelompok Cool
Belum ada peringkat
Artikel Kelompok Cool
2 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
Preprocessing Dalam Data Mining
Belum ada peringkat
Preprocessing Dalam Data Mining
6 halaman
Gede Thadeo Angga Kusuma - Tugas 3
Belum ada peringkat
Gede Thadeo Angga Kusuma - Tugas 3
8 halaman
Tugas 1. Data Mining
Belum ada peringkat
Tugas 1. Data Mining
5 halaman
Pemrograman Berorientasi Objek dengan Visual C#
Dari Everand
Pemrograman Berorientasi Objek dengan Visual C#
Risal
3.5/5 (6)

Data Mining 02

Diunggah oleh

Data Mining 02

Diunggah oleh

DATA MINING

• Langkah 1: Normalisasi Kolom Usia

• Usia Minimum (XminX_{\text{min}}Xmin​): 25

Langkah 1: Matriks Data

• Langkah 4: Pilih Komponen Utama

• # Data yang telah dinormalisasi

• # Standarisasi data (jika diperlukan)

• # Menampilkan variansi yang dijelaskan oleh komponen utama

Sebuah perusahaan e-commerce ingin melakukan analisis terhadap pola

Data yang diberikan mengandung kolom seperti:

Anda mungkin juga menyukai

• Usia Minimum (XminX_{\text{min}}Xmin): 25