Uk 4. Validasi Data-Up
Uk 4. Validasi Data-Up
Data Analyst
J.62DMI00.006.1
Validasi Data
Data Analyst
Validasi data
• Tipe data
• Batasan
• Terstruktur
• Konsistensi
• validasi kode
24/09/2024 2
Data Analyst
Melakukan Pengecekan
Kelengkapan Data
24/09/2024 3
Data Analyst
Kebutuhan :
• penilaian kualitas data
• penilaian tingkat kecukupan data
24/09/2024 4
Data Analyst
24/09/2024 5
Data Analyst
Kategori Outlier :
Outlier Global (Global Outliers)
Outlier Kontekstual (Contextual Outliers)
Outlier Kolektif (Global Collective)
24/09/2024 7
Data Analyst
24/09/2024 8
Data Analyst
24/09/2024 10
Data Analyst
Membuat Rekomendasi
Kelengkapan Data
24/09/2024 11
Data Analyst
24/09/2024 13
Data Analyst
24/09/2024 14
Data Analyst
24/09/2024 15
Data Analyst
print(fordGB.isnull().sum())
print(f"jumlah kolom : {fordGB.shape[1]}")
print(f"jumlah Baris : {fordGB.shape[0]}")
24/09/2024 17
Data Analyst
• Kolom duration_sec memiliki data maksimum 84.548, jauh lebih tinggi dari rata-rata
yang hanya bernilai 704.
• plt.figure(figsize = (15,15))
• plt.boxplot(fordgobike_copy["duration_sec"])
• Disini didapati banyak data outlier. Data outlier dapat dicari dengan menggunakan
persamaan (1), (2) dan (3) yang dapat dihitung dengan mengetahui nilai kuartil ke-3 (Q3)
dan kuartil ke-1 (Q1) dari data.
IQR = Q3 − Q1 (1)
3
𝑂𝑢𝑡𝑙𝑖𝑒𝑟 ≥ Q3 + x IQR (2)
2
3
𝑂𝑢𝑡𝑙𝑖𝑒𝑟 ≤ Q1 − 2
x IQR (3)
• Jika dilihat dari boxplot, data outlier ditemukan lebih tinggi dari nilai Q3, sehingga outlier
akan dicari dan dibuang menggunakan persamaan (1) dan (2).
• # persamaan 1
• Q1 = fordgobike_copy["duration_sec"].quantile(0.25)
• Q3 = fordgobike _copy["duration_sec"].quantile(0.75)
• IQR = Q3 - Q1
• # persamaan 2
• outlierQ3 = Q3 + 1.5 * IQR
•
• # membuang data outlier
• fordgobike _copy = fordgobike
_copy[(fordgobike_copy["duration_sec"] < outlierQ3)]
• fordgobike _copy["duration_sec"].describe()
• Setelah membuang data outlier kolom duration_sec diperiksa lagi menggunakan fungsi
describe dan ditemukan nilai maksimum berkurang menjadi 1487. dilakukan pengecekan
dimensi untuk mengetahui jumlah data yang tersisa.
• print(f"jumlah kolom data copy : {fordgobike_copy.shape[1]}")
• print(f"jumlah Baris data copy : {fordgobike
_copy.shape[0]}")
• Kolom member_birth_year memiliki data terkecil tahun 1878, berarti member memiliki
usia lebih dari 100 tahun, hal ini cukup janggal sehingga ada kemungkinan adanya
kesalahan dalam penginputan data.
• plt.figure(figsize = (15,15))
• plt.boxplot(fordgobike_copy["member_birth_year"])
• Terdapat beberapa dat outlier yang berada dibawah nilai Q1, sehingga data ourlier akan
dicari dan dibuang menggunakan persamaan (1) dan (3).
• # persamaan 1
• Q1 = fordgobike_copy["member_birth_year"].quantile(0.25)
• Q3 = fordgobike _copy["member_birth_year"].quantile(0.75)
• IQR = Q3 - Q1
•
• # persamaan 3
• outlierQ1 = Q1 - 1.5 * IQR
•
• # membuang data outlier
• fordgobike _copy = fordgobike
_copy[(fordGB_copy["member_birth_year"] > outlierQ1)]
• fordgobike _copy["member_birth_year"].describe()
• Sebelum menghilangkan data duplikat, hal pertama yang perlu dilakukan adalah
menentukan kolom-kolom dimana duplikasi data dapat terjadi. Untuk mendapatkan
gambaran dari duplikasi data , dapat menggunakan fungsi describe.
• fordgobike_copy.describe(include="all")
• Disini dapat memberikan beberapa kesimpulan seperti jumlah stasiun yang berpartisipasi dalam
Ford Go Bike Trip. Ada terdapat 329 data unique stasiun awal dan stasiun akhir, namun ini
kurang relevan dengan data duplikat.
•
• Data duplikat kemungkinan bukan terjadi karena kesalahan input namun karena input ganda.
Hal ini dapat di deteksi dengan menggunakan fungsi duplicated.
• fordgobike_copy.duplicated()
• ditemukan beberapa data duplikat, sehingga data duplikat perlu dihapus. Penghapusan data
duplikat dapat dilakukan dengan menggunakan fungsi drop_duplicates.
•
• fordgobike _copy = fordgobike _copy.drop_duplicates()
• print(f"jumlah kolom data copy : {fordgobike _copy.shape[1]}")
• print(f"jumlah Baris data copy : {fordgobike _copy.shape[0]}")
•
• tidak ditemukan korelasi murni antar kolom. Korelasi yang dicari adalah korelasi positif
yang mendekati 1 dan korelasi negatif yang mendekati -1.
•
• Disini korelasi yang mencolok hanya pada korelasi antar latitude dan longitude pada
stasiun awal dan akhir, yang memang memiliki nilai relatif sama.