0% menganggap dokumen ini bermanfaat (0 suara)

32 tayangan5 halaman

Tugas Mahasiswa Data Mining 1

Tugas ini mengharuskan mahasiswa untuk melakukan eksplorasi dan preprocessing data dari sumber terpercaya seperti Kaggle. Mahasiswa harus menangani masalah kualitas data seperti duplikasi, missing values, dan noise, serta menggunakan software pilihan untuk analisis. Laporan akhir harus mencakup deskripsi dataset, hasil eksplorasi, dan teknik preprocessing yang digunakan.

Diunggah oleh

Nay Chan

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

32 tayangan5 halaman

Tugas Mahasiswa Data Mining 1

Diunggah oleh

Nay Chan

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 5

Tugas Mahasiswa: Preprocessing Data dari Kaggle atau Website Penyedia Data

Judul Tugas:
"Eksplorasi dan Preprocessing Data dari Kaggle atau Sumber Lain"

Batas Waktu: Sabtu, 15 Maret 2025

Individu
Software Pilihan: Python (Google Colab/Jupyter Notebook), R, SPSS, atau
MATLAB

Deskripsi Tugas

Dalam dunia Data Mining, preprocessing data adalah langkah kritis sebelum analisis lebih
lanjut dilakukan. Tugas ini mengharuskan mahasiswa untuk:

1. Mencari dataset dari sumber terpercaya seperti Kaggle, UCI Machine Learning
Repository, Data.gov, atau website lain.
2. Melakukan eksplorasi awal terhadap data untuk memahami struktur dan karakteristik
dataset.
3. Menyelesaikan masalah kualitas data seperti duplikasi data, missing values (data
hilang), dan noise.
4. Menggunakan salah satu program yang dipilih (Python, R, SPSS, atau MATLAB)
untuk preprocessing data.
5. Membuat laporan hasil analisis dan kode program yang digunakan.

Langkah-Langkah Pengerjaan
1️. Mencari Dataset dari Sumber Resmi
Tugas: Temukan 1 dataset dari salah satu sumber berikut:

o Kaggle
o UCI Machine Learning Repository
o Data.gov
o Google Dataset Search
o Atau sumber data terpercaya lainnya.

Kriteria dataset yang dipilih:

✔ Minimal memiliki 500 baris data.
✔ Memiliki setidaknya 5 kolom fitur (variabel).
✔ Mengandung beberapa masalah data, seperti duplikasi, missing values, atau noise.

Contoh dataset yang bisa dipilih:

• Data harga rumah.

• Data pelanggan e-commerce.
• Data prediksi penyakit.
• Data kepuasan pelanggan.
2️. Eksplorasi Data Awal (Data Understanding)
Tugas:
• Memahami struktur dataset dengan:
o Menampilkan 5-10 baris pertama data.
o Melihat jumlah kolom dan baris dalam dataset.
o Memeriksa tipe data di setiap kolom (numerik/kategorik).
o Menghitung statistik dasar (mean, median, modus, standar deviasi).
Contoh perintah jika menggunakan Python (Pandas):
python
CopyEdit
import pandas as pd

# Membaca dataset
df = pd.read_csv("nama_file.csv")

# Menampilkan 5 baris pertama

print(df.head())

# Menampilkan informasi dataset

print(df.info())

# Statistik deskriptif
print(df.describe())

Hasil yang diharapkan:

✔ Tabel yang menunjukkan karakteristik awal dataset.
✔ Statistik deskriptif dari dataset.
✔ Kesimpulan awal mengenai data yang ditemukan.

3️. Menangani Duplikasi Data

Tugas:
• Identifikasi apakah ada data duplikat.
• Jika ada, tentukan apakah harus dihapus atau disesuaikan.
• Berikan alasan mengapa data duplikat perlu ditangani.
Contoh perintah dalam Python (Pandas):
python
CopyEdit
# Mengecek jumlah data duplikat
print(df.duplicated().sum())

# Menghapus data duplikat

df_cleaned = df.drop_duplicates()

# Mengecek kembali apakah masih ada duplikasi

print(df_cleaned.duplicated().sum())
Hasil yang diharapkan:
✔ Jumlah data duplikat sebelum dan sesudah pembersihan.
✔ Keputusan yang dibuat terkait duplikasi data.

4️. Menangani Missing Values (Data Hilang)

Tugas:
• Identifikasi jumlah missing values pada setiap kolom.
• Gunakan salah satu metode berikut untuk menangani data yang hilang:
o Menghapus baris atau kolom yang mengandung banyak missing values.
o Mengisi nilai yang hilang dengan mean/median/mode (untuk numerik).
o Menggunakan teknik interpolasi atau KNN Imputation.
Contoh perintah dalam Python (Pandas):
python
CopyEdit
# Mengecek missing values
print(df.isnull().sum())

# Mengisi missing values dengan mean

df_filled = df.fillna(df.mean())

# Mengecek kembali apakah masih ada missing values

print(df_filled.isnull().sum())

Hasil yang diharapkan:

✔ Jumlah missing values sebelum dan sesudah diperbaiki.
✔ Justifikasi pemilihan metode yang digunakan.

5️. Menangani Noise dalam Data

Tugas:
• Identifikasi adanya noise dalam data, seperti:
o Kesalahan input (e.g., usia = 500 tahun).
o Data yang memiliki skala yang tidak konsisten.
• Gunakan metode preprocessing seperti:
o Normalisasi (Min-Max Scaling, Z-score).
o Menghapus atau mengganti data yang tidak masuk akal.
Contoh perintah dalam Python (Pandas dan Sklearn):
python
CopyEdit
from sklearn.preprocessing import MinMaxScaler

# Normalisasi data numerik dengan Min-Max Scaling

scaler = MinMaxScaler()
df[['kolom_numerik']] = scaler.fit_transform(df[['kolom_numerik']])

# Menampilkan hasil normalisasi

print(df.head())
Hasil yang diharapkan:
✔ Identifikasi noise dalam dataset.
✔ Hasil perbaikan data dengan justifikasi metode yang digunakan.

6️. Pelaporan Hasil Preprocessing

Tugas:
• Buat laporan dalam bentuk dokumen (PDF/Word) atau presentasi (PowerPoint).
• Jelaskan proses preprocessing yang telah dilakukan, termasuk:
✔ Sumber dataset dan alasan memilih dataset tersebut.
✔ Eksplorasi awal dataset.
✔ Masalah yang ditemukan dalam data (duplikasi, missing values, noise).
✔ Solusi dan teknik preprocessing yang digunakan.
✔ Hasil akhir setelah preprocessing.

Format Laporan Tugas

Bagian 1: Pendahuluan

• Deskripsi dataset yang digunakan.

• Tujuan preprocessing data.

Bagian 2: Eksplorasi Data

• Statistik deskriptif dataset sebelum preprocessing.

• Visualisasi awal data (jika ada).

Bagian 3: Preprocessing Data

• Penanganan duplikasi.
• Penanganan missing values.
• Penanganan noise.
• Normalisasi atau transformasi data.

Bagian 4: Kesimpulan dan Saran

• Ringkasan hasil preprocessing.

• Rekomendasi jika dataset ini digunakan untuk analisis lebih lanjut.
Kriteria Penilaian (Rubrik Evaluasi)
Aspek Penilaian Bobot (%)
Pemilihan dataset yang sesuai 20%
Eksplorasi data dan identifikasi masalah 20%
Teknik preprocessing yang digunakan 30%
Laporan akhir yang jelas dan sistematis 20%
Kode program yang bersih dan berjalan dengan baik 10%

Kesimpulan
• Mahasiswa akan memahami bagaimana mencari, mengeksplorasi, dan membersihkan
data sebelum analisis lebih lanjut.
• Proyek ini juga akan memberikan pengalaman praktis dalam menggunakan alat
seperti Python, R, SPSS, atau MATLAB untuk Data Mining.

Anda mungkin juga menyukai

Modul Data Mining
Belum ada peringkat
Modul Data Mining
75 halaman
Kelompok 24 - Makalah Data Mining - Preprocessing Data
0% (1)
Kelompok 24 - Makalah Data Mining - Preprocessing Data
13 halaman
Data Preprocessing Business Intelligence
Belum ada peringkat
Data Preprocessing Business Intelligence
7 halaman
Laporan Praktikum Data Mining - Maghfirani Amalia - 064002000015
Belum ada peringkat
Laporan Praktikum Data Mining - Maghfirani Amalia - 064002000015
13 halaman
Eps2 - Data Understanding
Belum ada peringkat
Eps2 - Data Understanding
8 halaman
Modul DM (A) (18082010010)
Belum ada peringkat
Modul DM (A) (18082010010)
11 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
Gede Thadeo Angga Kusuma - Tugas 3
Belum ada peringkat
Gede Thadeo Angga Kusuma - Tugas 3
8 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
3 halaman
Tugas Penjelasan Data Mining (Kelompok)
Belum ada peringkat
Tugas Penjelasan Data Mining (Kelompok)
8 halaman
Pertemuan 3 - Preprocessing Data
Belum ada peringkat
Pertemuan 3 - Preprocessing Data
31 halaman
KU1072 1 DeskripsiProyek2 PY
Belum ada peringkat
KU1072 1 DeskripsiProyek2 PY
3 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
29 halaman
Kelompok 4 - LKP5
Belum ada peringkat
Kelompok 4 - LKP5
14 halaman
Laporan Praktikum Ke 6 Penambangan Dan Pengolahan Data Muhammad Fahmi Husaen 460934 SV 18015
Belum ada peringkat
Laporan Praktikum Ke 6 Penambangan Dan Pengolahan Data Muhammad Fahmi Husaen 460934 SV 18015
16 halaman
Laporan Tugas Minggu 2
Belum ada peringkat
Laporan Tugas Minggu 2
17 halaman
Modul 1 Import Data
Belum ada peringkat
Modul 1 Import Data
4 halaman
Modul 2
Belum ada peringkat
Modul 2
6 halaman
Tubes Andat
Belum ada peringkat
Tubes Andat
26 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
37 halaman
Data Cleansing For ML - Rakamin Trial Class
Belum ada peringkat
Data Cleansing For ML - Rakamin Trial Class
28 halaman
Homework Digifest
Belum ada peringkat
Homework Digifest
17 halaman
Module 2 - Data Preprocessing
Belum ada peringkat
Module 2 - Data Preprocessing
38 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Andata 2020 05
Belum ada peringkat
Andata 2020 05
159 halaman
Laporan8 Ayung Alqadri LatihanDataCleaning
Belum ada peringkat
Laporan8 Ayung Alqadri LatihanDataCleaning
16 halaman
Laporan Data Dan Preprocessing Kelompok 5
Belum ada peringkat
Laporan Data Dan Preprocessing Kelompok 5
22 halaman
Disusun Guna Memenuhi Tugas Mata Kuliah Data Mining Dosen Pengampu: Ir. Bambang Siswoyo, M.Si., M.Kom
Belum ada peringkat
Disusun Guna Memenuhi Tugas Mata Kuliah Data Mining Dosen Pengampu: Ir. Bambang Siswoyo, M.Si., M.Kom
8 halaman
Pertemuan 5 - Business Understanding Dan Data Preparation
100% (1)
Pertemuan 5 - Business Understanding Dan Data Preparation
13 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Pratikum 1
Belum ada peringkat
Pratikum 1
3 halaman
Data Mining A - Laporan Tugas 2
Belum ada peringkat
Data Mining A - Laporan Tugas 2
14 halaman
Tugas 2 Analisis Dan Visualisasi Data
Belum ada peringkat
Tugas 2 Analisis Dan Visualisasi Data
2 halaman
Kelompok Tomodachi
Belum ada peringkat
Kelompok Tomodachi
28 halaman
Pertemuan 4 - Eksplorasi Data
Belum ada peringkat
Pertemuan 4 - Eksplorasi Data
19 halaman
Data Wrangling
Belum ada peringkat
Data Wrangling
18 halaman
Laporan "Data Quality With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
Belum ada peringkat
Laporan "Data Quality With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
11 halaman
6 - 7705 - MIK620KJ101 - 042018 - PDF
Belum ada peringkat
6 - 7705 - MIK620KJ101 - 042018 - PDF
15 halaman
Laporan "Fundamental Data Analysis With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
Belum ada peringkat
Laporan "Fundamental Data Analysis With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
9 halaman
LAPORAN
Belum ada peringkat
LAPORAN
11 halaman
Laporan Tugas Besar 2 Kel-3
Belum ada peringkat
Laporan Tugas Besar 2 Kel-3
14 halaman
Data Mining-G1F020024 - Bagus Mirzana
Belum ada peringkat
Data Mining-G1F020024 - Bagus Mirzana
11 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
41 halaman
Uas Big Data
Belum ada peringkat
Uas Big Data
6 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
31 halaman
G1F021020 - Alvin Indrawan - Laporan Tugas 2 CEI
Belum ada peringkat
G1F021020 - Alvin Indrawan - Laporan Tugas 2 CEI
13 halaman
pkc1 - Nurul Handayani - 214308019 - TKA 7A
Belum ada peringkat
pkc1 - Nurul Handayani - 214308019 - TKA 7A
16 halaman
Kontrak Belajar BIKTI 2024 MAT-1
Belum ada peringkat
Kontrak Belajar BIKTI 2024 MAT-1
7 halaman
Resuman Gaya Penulisan Sitasi
Belum ada peringkat
Resuman Gaya Penulisan Sitasi
15 halaman
Anesya Mahera - 20221026 - Ai A
Belum ada peringkat
Anesya Mahera - 20221026 - Ai A
4 halaman
Article Review 9 Data Preprocessing
Belum ada peringkat
Article Review 9 Data Preprocessing
9 halaman
Latihan Menulis Paragraf 2024
Belum ada peringkat
Latihan Menulis Paragraf 2024
3 halaman
Pengumuman Dan Kisi-Kisi KUIS
Belum ada peringkat
Pengumuman Dan Kisi-Kisi KUIS
2 halaman
Ta - Akhmad Teguh Arifin
Belum ada peringkat
Ta - Akhmad Teguh Arifin
89 halaman
PERTEMUAN VI Preprocessing Data
Belum ada peringkat
PERTEMUAN VI Preprocessing Data
45 halaman
Modul 2 - Data Clening Dan Preprocessing
Belum ada peringkat
Modul 2 - Data Clening Dan Preprocessing
12 halaman
KDD (Knowledge Data Discovery) 1
Belum ada peringkat
KDD (Knowledge Data Discovery) 1
24 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
Data Mining 02
Belum ada peringkat
Data Mining 02
30 halaman
Minggu Ke 5 Algoritma Data Science: Business Understanding Dan Data Preparation Menggunakan Python
Belum ada peringkat
Minggu Ke 5 Algoritma Data Science: Business Understanding Dan Data Preparation Menggunakan Python
13 halaman
Pertemuan 2 Data Science
Belum ada peringkat
Pertemuan 2 Data Science
9 halaman
Basis Data
Belum ada peringkat
Basis Data
106 halaman
Data Mining Pertemuan 3
Belum ada peringkat
Data Mining Pertemuan 3
27 halaman
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Dari Everand
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Risal
4/5 (16)