0% menganggap dokumen ini bermanfaat (0 suara)
19 tayangan29 halaman

Uk 4. Validasi Data-Up

Dokumen ini membahas proses validasi data yang mencakup pemeriksaan integritas, akurasi, dan struktur data sebelum digunakan dalam operasi bisnis. Proses ini meliputi pengecekan kelengkapan data, penilaian kualitas data, serta identifikasi dan penanganan outlier. Selain itu, terdapat contoh kasus analisis data pada sistem Ford GoBike yang menunjukkan langkah-langkah dalam menangani data yang hilang dan outlier.

Diunggah oleh

afriandajkm1
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
19 tayangan29 halaman

Uk 4. Validasi Data-Up

Dokumen ini membahas proses validasi data yang mencakup pemeriksaan integritas, akurasi, dan struktur data sebelum digunakan dalam operasi bisnis. Proses ini meliputi pengecekan kelengkapan data, penilaian kualitas data, serta identifikasi dan penanganan outlier. Selain itu, terdapat contoh kasus analisis data pada sistem Ford GoBike yang menunjukkan langkah-langkah dalam menangani data yang hilang dan outlier.

Diunggah oleh

afriandajkm1
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 29

Data Analyst

Data Analyst

J.62DMI00.006.1
Validasi Data
Data Analyst

Validasi data

merupakan proses memeriksa integritas, akurasi, dan


struktur data sebelum digunakan untuk operasi bisnis

• Tipe data
• Batasan
• Terstruktur
• Konsistensi
• validasi kode

24/09/2024 2
Data Analyst

Melakukan Pengecekan
Kelengkapan Data

24/09/2024 3
Data Analyst

Pengecekan Kelengkapan data

Data yang dihasilkan


dari tahap telaah data
pengecekan
kelengkapan data

Kebutuhan :
• penilaian kualitas data
• penilaian tingkat kecukupan data

24/09/2024 4
Data Analyst

Penilaian Kualitas Data

Pemeriksaan penilaian kualitas data :


• kolom atau features yang tidak sesuai tipe datanya
• apakah terdapat data yang ganda/duplicate atau missing
• data yang anomali atau outlier

24/09/2024 5
Data Analyst

Pengecekan Kelengkapan data

Memeriksa kolom atau features yang tidak sesuai tipe datanya


• identifikasi setiap kolom dalama database yang akan digunakan
• Periksalah setiap kolom apakah sesuai tipe datanya

Memeriksa suatu kolom terdapat data duplicate atau ganda


• pemeriksaan langsung setiap baris atau kolomnya
• Penggunaan kode untuk mencari data duplicate

Memeriksa Outlier atau bisa juga dikenal dengan anomali


• Cari data atau observasi yang menyimpang secara ekstrim dari rata-rata
sekumpulan data yang ada
24/09/2024 6
Data Analyst

Pengecekan Kelengkapan data

Kategori Outlier :
Outlier Global (Global Outliers)
Outlier Kontekstual (Contextual Outliers)
Outlier Kolektif (Global Collective)

24/09/2024 7
Data Analyst

Pengecekan Kelengkapan data

Outlier Global (Global Outliers)


Pada kumpulan data atau kelompok data tertentu, suatu objek dikatakan
Outlier Global jika objek tersebut menyimpang/terasingkan/terpisah secara
signifikan dari kumpulan data atau kelompok data lainnya.

Anomali global: Lonjakan jumlah pentalan beranda terlihat


karena nilai anomali jelas berada di luar rentang global normal.

24/09/2024 8
Data Analyst

Pengecekan Kelengkapan data

Outlier Kontekstual (Contextual Outliers)


Pada kumpulan data atau kelompok data tertentu, suatu objek dikatakan
Outlier kontekstual jika objek tersebut menyimpang/terasingkan/terpisah
secara signifikan dari data lain dalam satu konteks yang sama atau konteks
objek tertentu.

Anomali kontekstual: Aplikasi mogok terjadi sepanjang waktu dan


memiliki pola musiman (semakin banyak pengguna = semakin banyak
kerusakan). Namun, jumlah aplikasi yang mogok dalam anomali ini tidak
berada di luar kisaran normal global, namun tidak normal dibandingkan
24/09/2024 dengan pola musiman. 9
Data Analyst

Pengecekan Kelengkapan data

Outlier Kolektif (Global Collective)


Subkumpulan titik data dalam kumpulan
data dianggap anomali jika nilai kumpulan
tersebut menyimpang secara signifikan
dari keseluruhan kumpulan data, namun
nilai masing-masing titik data tidak
anomali baik secara kontekstual maupun
global.

Anomali kolektif: Anomali penurunan jumlah pembelian yang


berhasil untuk tiga kategori produk berbeda ditemukan terkait
satu sama lain dan digabungkan menjadi satu anomali tunggal.

24/09/2024 10
Data Analyst

Membuat Rekomendasi
Kelengkapan Data

24/09/2024 11
Data Analyst

Rekomendasi Kelengkapan Data

Rekomendasi kelengkapan data terdiri


• rekomendasi hasil penilaian kualitas data
• hasil penilaian tingkat kecukupan data

Rekomendasi hasil penilaian kualitas data dilakukan merupakan


usulan terkait
• Kebenaran
• Kelengkapan
• kekonsistenan data
24/09/2024 12
Data Analyst

Contoh Kasus – Buat


Validasi

24/09/2024 13
Data Analyst

Peran Analisis Data dalam Bisnis


Ford BoBike
Persaingan moda transportasi online sepertinya
nggak hanya berhenti pada taksi dan
ojek online aja, Urbaners. Baru-baru ini di
Amerika Serikat banyak
bermunculan startup yang bergerak di
bidang bike sharing. Singkatnya, bisnis ini
berupa penyewaan sepeda pintar yang juga
termasuk penyewaan skuter listrik dan sepeda
listrik.Latar Belakang Netflix:
Ford merupakan sebuah produsen mobil asal
Amerika Serikat. Padahal sejak tahun 2013
silam, perusahaan ini mempunyai sistem Ford
GoBike yang sampai saat ini telah memiliki
lebih dari 2.500 sepeda di 260 stasiun di East
Bay dan San Jose, San Fransisco, Amerika
Serikat. Pendanaannya bahkan mencapai angka
$11 juta di awal Ford GoBike beroperasi.

24/09/2024 14
Data Analyst

Peran Analisis Data dalam Bisnis


Ford GoBike
# cek apakah ada missing value (data kosong)
• fordgobike.isnull()
• fordgobike _copy.isnull().sum()
• sns.heatmap(fordgobike.isnull())
# buat kopian data agar data asli tidak berubah
• fordgobike _copy = fordgobike.copy()
• fordgobike _copy.head(10)

24/09/2024 15
Data Analyst

# buang record yang missing value terlalu parah


• fordgobike _copy = fordgobike _copy .dropna(how="any", subset=['start_station_id'])
• fordgobike _copy = fordgobike _copy .dropna(how="any", subset=["start_station_name"])
• fordgobike _copy = fordgobike _copy .dropna how="any", subset=["end_station_id"])
• fordgobike _copy = fordgobike _copy .dropna(how="any", subset=["end_station_name"])
• fordgobike _copy = fordgobike _copy .dropna(how="any", subset=["member_birth_year"])
• fordgobike _copy = fordgobike _copy .dropna(how="any", subset=["member_gender"])

print(fordGB.isnull().sum())
print(f"jumlah kolom : {fordGB.shape[1]}")
print(f"jumlah Baris : {fordGB.shape[0]}")

24/09/2024 Data Analyst 16


Data Analyst

Peran Analisis Data dalam Bisnis


Ford GoBike
# cek kembali apakah masih ada missing value
• fordgobike_copy.isnull()
• fordgobike_copy.isnull().sum()

# tampilkan perbaikan data missing value dengan pemetaan


• sns.heatmap(fordgobike_copy.isnull())

24/09/2024 17
Data Analyst

# cek outlier (anomali data)


• Sebelum mencari outlier, hal pertama yang perlu dilakukan adalah menentukan
kolom-kolom yang perlu dicari data outlier :
1. duration_sec
2. start_station_latitude
3. start_station_longitude
4. end_station_latitude
5. end_station_longitude
6. member_birth_year
• untuk mendapatkan gambaran nilai data maksimum, minimum, dan median, bisa
didapatkan dengan menggunakan fungsi describe.
Forgobike_copy.describe(include="all")

24/09/2024 Data Analyst 18


Data Analyst

kemungkinan yang memiliki data outlier hanya kolom duration_sec dan


member_birth year. Cara untuk memastikan bahwa kolom duration_sec
memiliki outlier adalah dengan menggunakan boxplot.

24/09/2024 Data Analyst 19


Data Analyst

• Kolom duration_sec memiliki data maksimum 84.548, jauh lebih tinggi dari rata-rata
yang hanya bernilai 704.
• plt.figure(figsize = (15,15))
• plt.boxplot(fordgobike_copy["duration_sec"])

24/09/2024 Data Analyst 20


Data Analyst

• Disini didapati banyak data outlier. Data outlier dapat dicari dengan menggunakan
persamaan (1), (2) dan (3) yang dapat dihitung dengan mengetahui nilai kuartil ke-3 (Q3)
dan kuartil ke-1 (Q1) dari data.

IQR = Q3 − Q1 (1)
3
𝑂𝑢𝑡𝑙𝑖𝑒𝑟 ≥ Q3 + x IQR (2)
2
3
𝑂𝑢𝑡𝑙𝑖𝑒𝑟 ≤ Q1 − 2
x IQR (3)

• Jika dilihat dari boxplot, data outlier ditemukan lebih tinggi dari nilai Q3, sehingga outlier
akan dicari dan dibuang menggunakan persamaan (1) dan (2).

24/09/2024 Data Analyst 21


Data Analyst

• # persamaan 1
• Q1 = fordgobike_copy["duration_sec"].quantile(0.25)
• Q3 = fordgobike _copy["duration_sec"].quantile(0.75)
• IQR = Q3 - Q1
• # persamaan 2
• outlierQ3 = Q3 + 1.5 * IQR

• # membuang data outlier
• fordgobike _copy = fordgobike
_copy[(fordgobike_copy["duration_sec"] < outlierQ3)]
• fordgobike _copy["duration_sec"].describe()

24/09/2024 Data Analyst 22


Data Analyst

• Setelah membuang data outlier kolom duration_sec diperiksa lagi menggunakan fungsi
describe dan ditemukan nilai maksimum berkurang menjadi 1487. dilakukan pengecekan
dimensi untuk mengetahui jumlah data yang tersisa.
• print(f"jumlah kolom data copy : {fordgobike_copy.shape[1]}")
• print(f"jumlah Baris data copy : {fordgobike
_copy.shape[0]}")

24/09/2024 Data Analyst 23


Data Analyst

• Kolom member_birth_year memiliki data terkecil tahun 1878, berarti member memiliki
usia lebih dari 100 tahun, hal ini cukup janggal sehingga ada kemungkinan adanya
kesalahan dalam penginputan data.
• plt.figure(figsize = (15,15))
• plt.boxplot(fordgobike_copy["member_birth_year"])

24/09/2024 Data Analyst 24


Data Analyst

• Terdapat beberapa dat outlier yang berada dibawah nilai Q1, sehingga data ourlier akan
dicari dan dibuang menggunakan persamaan (1) dan (3).
• # persamaan 1
• Q1 = fordgobike_copy["member_birth_year"].quantile(0.25)
• Q3 = fordgobike _copy["member_birth_year"].quantile(0.75)
• IQR = Q3 - Q1

• # persamaan 3
• outlierQ1 = Q1 - 1.5 * IQR

• # membuang data outlier
• fordgobike _copy = fordgobike
_copy[(fordGB_copy["member_birth_year"] > outlierQ1)]
• fordgobike _copy["member_birth_year"].describe()

24/09/2024 Data Analyst 25


Data Analyst

• Setelah membuang data outlier, kolom member_birth_year fiperiksa lagi menggunakan


fungsi describe dan ditemukan nilai minimum bertambah menjadi 1963. Dilakukan
pengecekan dimensi untuk mengetahui jumlah data yang tersisa.
• print(f"jumlah kolom data copy : {fordgobike_copy.shape[1]}")
• print(f"jumlah Baris data copy : {fordgobike
_copy.shape[0]}")

24/09/2024 Data Analyst 26


Data Analyst

• Sebelum menghilangkan data duplikat, hal pertama yang perlu dilakukan adalah
menentukan kolom-kolom dimana duplikasi data dapat terjadi. Untuk mendapatkan
gambaran dari duplikasi data , dapat menggunakan fungsi describe.
• fordgobike_copy.describe(include="all")

24/09/2024 Data Analyst 27


Data Analyst

• Disini dapat memberikan beberapa kesimpulan seperti jumlah stasiun yang berpartisipasi dalam
Ford Go Bike Trip. Ada terdapat 329 data unique stasiun awal dan stasiun akhir, namun ini
kurang relevan dengan data duplikat.

• Data duplikat kemungkinan bukan terjadi karena kesalahan input namun karena input ganda.
Hal ini dapat di deteksi dengan menggunakan fungsi duplicated.
• fordgobike_copy.duplicated()

• ditemukan beberapa data duplikat, sehingga data duplikat perlu dihapus. Penghapusan data
duplikat dapat dilakukan dengan menggunakan fungsi drop_duplicates.

• fordgobike _copy = fordgobike _copy.drop_duplicates()
• print(f"jumlah kolom data copy : {fordgobike _copy.shape[1]}")
• print(f"jumlah Baris data copy : {fordgobike _copy.shape[0]}")

24/09/2024 Data Analyst 28


Data Analyst

• tidak ditemukan korelasi murni antar kolom. Korelasi yang dicari adalah korelasi positif
yang mendekati 1 dan korelasi negatif yang mendekati -1.

• Disini korelasi yang mencolok hanya pada korelasi antar latitude dan longitude pada
stasiun awal dan akhir, yang memang memiliki nilai relatif sama.

24/09/2024 Data Analyst 29

Anda mungkin juga menyukai