0% menganggap dokumen ini bermanfaat (0 suara)
32 tayangan5 halaman

Tugas Mahasiswa Data Mining 1

Tugas ini mengharuskan mahasiswa untuk melakukan eksplorasi dan preprocessing data dari sumber terpercaya seperti Kaggle. Mahasiswa harus menangani masalah kualitas data seperti duplikasi, missing values, dan noise, serta menggunakan software pilihan untuk analisis. Laporan akhir harus mencakup deskripsi dataset, hasil eksplorasi, dan teknik preprocessing yang digunakan.

Diunggah oleh

Nay Chan
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
32 tayangan5 halaman

Tugas Mahasiswa Data Mining 1

Tugas ini mengharuskan mahasiswa untuk melakukan eksplorasi dan preprocessing data dari sumber terpercaya seperti Kaggle. Mahasiswa harus menangani masalah kualitas data seperti duplikasi, missing values, dan noise, serta menggunakan software pilihan untuk analisis. Laporan akhir harus mencakup deskripsi dataset, hasil eksplorasi, dan teknik preprocessing yang digunakan.

Diunggah oleh

Nay Chan
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 5

Tugas Mahasiswa: Preprocessing Data dari Kaggle atau Website Penyedia Data

Judul Tugas:
"Eksplorasi dan Preprocessing Data dari Kaggle atau Sumber Lain"

Batas Waktu: Sabtu, 15 Maret 2025


Individu
Software Pilihan: Python (Google Colab/Jupyter Notebook), R, SPSS, atau
MATLAB

Deskripsi Tugas

Dalam dunia Data Mining, preprocessing data adalah langkah kritis sebelum analisis lebih
lanjut dilakukan. Tugas ini mengharuskan mahasiswa untuk:

1. Mencari dataset dari sumber terpercaya seperti Kaggle, UCI Machine Learning
Repository, Data.gov, atau website lain.
2. Melakukan eksplorasi awal terhadap data untuk memahami struktur dan karakteristik
dataset.
3. Menyelesaikan masalah kualitas data seperti duplikasi data, missing values (data
hilang), dan noise.
4. Menggunakan salah satu program yang dipilih (Python, R, SPSS, atau MATLAB)
untuk preprocessing data.
5. Membuat laporan hasil analisis dan kode program yang digunakan.

Langkah-Langkah Pengerjaan
1️. Mencari Dataset dari Sumber Resmi
Tugas: Temukan 1 dataset dari salah satu sumber berikut:

o Kaggle
o UCI Machine Learning Repository
o Data.gov
o Google Dataset Search
o Atau sumber data terpercaya lainnya.

Kriteria dataset yang dipilih:


✔ Minimal memiliki 500 baris data.
✔ Memiliki setidaknya 5 kolom fitur (variabel).
✔ Mengandung beberapa masalah data, seperti duplikasi, missing values, atau noise.

Contoh dataset yang bisa dipilih:

• Data harga rumah.


• Data pelanggan e-commerce.
• Data prediksi penyakit.
• Data kepuasan pelanggan.
2️. Eksplorasi Data Awal (Data Understanding)
Tugas:
• Memahami struktur dataset dengan:
o Menampilkan 5-10 baris pertama data.
o Melihat jumlah kolom dan baris dalam dataset.
o Memeriksa tipe data di setiap kolom (numerik/kategorik).
o Menghitung statistik dasar (mean, median, modus, standar deviasi).
Contoh perintah jika menggunakan Python (Pandas):
python
CopyEdit
import pandas as pd

# Membaca dataset
df = pd.read_csv("nama_file.csv")

# Menampilkan 5 baris pertama


print(df.head())

# Menampilkan informasi dataset


print(df.info())

# Statistik deskriptif
print(df.describe())

Hasil yang diharapkan:


✔ Tabel yang menunjukkan karakteristik awal dataset.
✔ Statistik deskriptif dari dataset.
✔ Kesimpulan awal mengenai data yang ditemukan.

3️. Menangani Duplikasi Data


Tugas:
• Identifikasi apakah ada data duplikat.
• Jika ada, tentukan apakah harus dihapus atau disesuaikan.
• Berikan alasan mengapa data duplikat perlu ditangani.
Contoh perintah dalam Python (Pandas):
python
CopyEdit
# Mengecek jumlah data duplikat
print(df.duplicated().sum())

# Menghapus data duplikat


df_cleaned = df.drop_duplicates()

# Mengecek kembali apakah masih ada duplikasi


print(df_cleaned.duplicated().sum())
Hasil yang diharapkan:
✔ Jumlah data duplikat sebelum dan sesudah pembersihan.
✔ Keputusan yang dibuat terkait duplikasi data.

4️. Menangani Missing Values (Data Hilang)


Tugas:
• Identifikasi jumlah missing values pada setiap kolom.
• Gunakan salah satu metode berikut untuk menangani data yang hilang:
o Menghapus baris atau kolom yang mengandung banyak missing values.
o Mengisi nilai yang hilang dengan mean/median/mode (untuk numerik).
o Menggunakan teknik interpolasi atau KNN Imputation.
Contoh perintah dalam Python (Pandas):
python
CopyEdit
# Mengecek missing values
print(df.isnull().sum())

# Mengisi missing values dengan mean


df_filled = df.fillna(df.mean())

# Mengecek kembali apakah masih ada missing values


print(df_filled.isnull().sum())

Hasil yang diharapkan:


✔ Jumlah missing values sebelum dan sesudah diperbaiki.
✔ Justifikasi pemilihan metode yang digunakan.

5️. Menangani Noise dalam Data


Tugas:
• Identifikasi adanya noise dalam data, seperti:
o Kesalahan input (e.g., usia = 500 tahun).
o Data yang memiliki skala yang tidak konsisten.
• Gunakan metode preprocessing seperti:
o Normalisasi (Min-Max Scaling, Z-score).
o Menghapus atau mengganti data yang tidak masuk akal.
Contoh perintah dalam Python (Pandas dan Sklearn):
python
CopyEdit
from sklearn.preprocessing import MinMaxScaler

# Normalisasi data numerik dengan Min-Max Scaling


scaler = MinMaxScaler()
df[['kolom_numerik']] = scaler.fit_transform(df[['kolom_numerik']])

# Menampilkan hasil normalisasi


print(df.head())
Hasil yang diharapkan:
✔ Identifikasi noise dalam dataset.
✔ Hasil perbaikan data dengan justifikasi metode yang digunakan.

6️. Pelaporan Hasil Preprocessing


Tugas:
• Buat laporan dalam bentuk dokumen (PDF/Word) atau presentasi (PowerPoint).
• Jelaskan proses preprocessing yang telah dilakukan, termasuk:
✔ Sumber dataset dan alasan memilih dataset tersebut.
✔ Eksplorasi awal dataset.
✔ Masalah yang ditemukan dalam data (duplikasi, missing values, noise).
✔ Solusi dan teknik preprocessing yang digunakan.
✔ Hasil akhir setelah preprocessing.

Format Laporan Tugas

Bagian 1: Pendahuluan

• Deskripsi dataset yang digunakan.


• Tujuan preprocessing data.

Bagian 2: Eksplorasi Data

• Statistik deskriptif dataset sebelum preprocessing.


• Visualisasi awal data (jika ada).

Bagian 3: Preprocessing Data

• Penanganan duplikasi.
• Penanganan missing values.
• Penanganan noise.
• Normalisasi atau transformasi data.

Bagian 4: Kesimpulan dan Saran

• Ringkasan hasil preprocessing.


• Rekomendasi jika dataset ini digunakan untuk analisis lebih lanjut.
Kriteria Penilaian (Rubrik Evaluasi)
Aspek Penilaian Bobot (%)
Pemilihan dataset yang sesuai 20%
Eksplorasi data dan identifikasi masalah 20%
Teknik preprocessing yang digunakan 30%
Laporan akhir yang jelas dan sistematis 20%
Kode program yang bersih dan berjalan dengan baik 10%

Kesimpulan
• Mahasiswa akan memahami bagaimana mencari, mengeksplorasi, dan membersihkan
data sebelum analisis lebih lanjut.
• Proyek ini juga akan memberikan pengalaman praktis dalam menggunakan alat
seperti Python, R, SPSS, atau MATLAB untuk Data Mining.

Anda mungkin juga menyukai