DA Statistic Intro
DA Statistic Intro
Statistic
smk.dev
smk.dev
Apa itu Statistic?
Statistika adalah ilmu yang mempelajari cara mengumpulkan, menganalisis,
menginterpretasikan, dan menyajikan data yang diperoleh dari pengamatan.
Statistika ini adalah ilmu yang sering digunakan dalam berbagai bidang lain, seperti penelitian
ilmiah, bisnis, dan pemerintahan. Penelitian di bidang statistika tidak hanya membantu
menjawab pertanyaan-pertanyaan di berbagai bidang, tetapi juga mendorong pengembangan
metode dan teori statistika yang baru.
Para ahli statistika menggunakan berbagai alat matematika dan komputasi untuk
mengembangkan metode dan mempelajari teori yang mendasari metode tersebut.
Singkatnya, statistika adalah ilmu yang membantu kita memahami dan menggunakan data
secara efektif.
smk.dev
smk.dev
Statistic/Data Analysis Process
Business Problem Definition Inventory & Data Collection Data Cleaning & Data Data analysis
Processing
smk.dev
smk.dev
Apa itu Qualitative dan Quantitative Data?
Quantitative
Kumpulan data numerik kuantitatif sering kali dapat ditampilkan dalam grafik yang mudah
dipahami. Grafik ini dapat membantu Anda menemukan korelasi yang sebelumnya tidak Anda
sadari, memberikan statistik untuk membuat generalisasi yang lebih luas, dan membantu Anda
menentukan di mana mengalokasikan sumber daya tim Anda. Data kuantitatif biasanya
dikumpulkan melalui alat analitik, eksperimen, polling/survei, pengamatan terkontrol, dan metode
lainnya.
Qualitative
Data kualitatif secara umum merujuk pada deskripsi yang diungkapkan dalam bentuk kata-kata, bukan angka.
Data ini dapat dikumpulkan melalui metodologi seperti wawancara terstruktur atau tidak terstruktur, observasi
pengguna, atau survei dengan jawaban tertulis. Secara umum, data kualitatif berfokus untuk menjawab
pertanyaan "mengapa" dan "bagaimana" - hal yang tidak dapat dilakukan oleh data kuantitatif.
Tergantung pada tahap perusahaan SaaS Anda atau proses pengembangan fitur, data kualitatif justru
smk.dev
mungkin menjadi jenis data yang paling tepat untuk digunakan. Ini karena data kualitatif dapat memberi
Anda wawasan berharga yang mungkin tidak dimiliki oleh data kuantitatif.
smk.dev
Data Dalam Statistik
Sebagai calon data analyst, memahami tipe data adalah langkah awal yang
krusial. Tipe data menentukan metode analisis dan visualisasi yang tepat,
sehingga hasil yang diperoleh akurat dan bermanfaat.
smk.dev
Perbedaan Qualitative dan Quantitative
smk.dev
smk.dev
Data Dalam Statistik
2. Data Kuantitatif: Mengukur Dunia dengan Angka
Data kuantitatif, bagaikan peta yang menunjukkan nilai numerik yang
presisi. Jenis data ini terbagi menjadi dua:
a. Data Interval: Selisih Bermakna, Titik Nol Relatif
● Bayangkan suhu (Celsius) atau skor tes (0-100). Data interval memiliki
selisih yang bermakna, namun titik nolnya bersifat relatif.
b. Data Rasio: Skala Absolut, Perbandingan Tepat
● Data rasio, seperti usia, tinggi badan, atau pendapatan, memiliki skala
absolut dengan titik nol yang nyata. Perbandingan antar nilai data rasio
pun menjadi valid.
smk.dev
smk.dev
Ukuran Tendensi Sentral : Mean
Mean adalah salah satu ukuran tendensi sentral yang paling umum
digunakan untuk menggambarkan data.
Contoh:
Misalkan kita memiliki data penjualan produk selama 5 hari:
10, 12, 15, 8, 14
Mean = (10 + 12 + 15 + 8 + 14) / 5 = 12
smk.dev
smk.dev
Mean
Contoh implementasi python untuk menghitung mean dalam data
analyst :
smk.dev
smk.dev
Kesimpulan Mean
Mean sangat sensitif terhadap outlier atau nilai ekstrim. Outlier adalah nilai yang jauh
lebih tinggi atau lebih rendah dibandingkan dengan nilai lain dalam dataset.
Keberadaan outlier dapat menarik mean ke arahnya, sehingga tidak lagi mewakili data
secara akurat.
Contoh:
Misalkan dataset penjualan produk di atas diubah dengan menambahkan outlier:
10, 12, 15, 8, 14, 100
Mean = (10 + 12 + 15 + 8 + 14 + 100) / 6 = 28.33
Dapat dilihat bahwa mean menjadi jauh lebih tinggi karena terpengaruh oleh outlier
100.
smk.dev
smk.dev
Kesimpulan Mean
Mean adalah tool yang bermanfaat untuk memahami data,
namun penting untuk memahami kekurangannya dan
mempertimbangkan alternatif seperti median dan modus
dalam situasi tertentu.
smk.dev
smk.dev
Ukuran Tendensi Sentral : Median
Median merupakan salah satu statistik penting yang digunakan untuk
mengukur kecenderungan sentral dalam kumpulan data. Berbeda
dengan mean (rata-rata), median tidak terpengaruh oleh nilai ekstrim
(outlier) dan lebih mudah dipahami dibandingkan dengan median.
Median adalah nilai tengah dalam kumpulan data yang telah diurutkan.
Jika jumlah data ganjil, median adalah nilai yang tepat berada di
tengah. Jika jumlah data genap, median adalah rata-rata dari dua nilai
tengah.
smk.dev
smk.dev
Median
Contoh implementasi python untuk menghitung median dalam data analyst :
smk.dev
smk.dev
Kesimpulan Median
Median adalah alat yang penting bagi data analyst
untuk memahami data mereka dengan lebih baik.
Ketika mean dapat terdistorsi oleh outlier atau distribusi
data yang tidak simetris, median memberikan
gambaran yang lebih stabil dan akurat tentang tren
sentral data.
smk.dev
smk.dev
Ukuran Tendensi Sentral : Modus
Modus ibarat magnet yang menarik data yang paling umum. Bayangkan kamu
menganalisis data penjualan produk. Modus menunjukkan produk mana yang paling
diminati, membantu kamu memahami preferensi pelanggan dan mengoptimalkan
strategi penjualan.
Modus tak hanya tentang angka. Dalam data kategorikal, seperti jenis kelamin atau warna
favorit, modus menunjukkan kategori yang paling dominan. Hal ini membantu kamu
memahami demografi target pasar atau tren konsumen.
Modus bukan satu-satunya senjata. Modus bekerja sama dengan mean (rata-rata) dan
median untuk memberikan gambaran yang lebih lengkap tentang data. Mean
menunjukkan nilai tengah, sedangkan median menunjukkan nilai pemisah. Ketiganya
membantu kamu memahami distribusi data dan membuat kesimpulan yang lebih akurat.
smk.dev
smk.dev
Modus
Contoh implementasi python untuk menghitung modus dalam data analyst :
smk.dev
smk.dev
Kesimpulan Modus
Modus mudah dihitung. Kamu bisa menghitungnya secara manual atau
menggunakan software statistik. Berikut beberapa langkah mudahnya:
1. Kumpulkan data: Catat data yang ingin kamu analisis, seperti usia
pelanggan, jenis produk yang dibeli, atau warna favorit.
2. Hitung frekuensi: Hitung berapa kali setiap nilai muncul dalam data.
3. Temukan nilai dengan frekuensi tertinggi: Nilai inilah modusnya.
smk.dev
Ukuran Persebaran : Rentang
Rentang data adalah langkah awal untuk menguak
misteri di balik kumpulan data. Rentang bagaikan
penggaris yang menunjukkan jarak antara nilai
terendah dan tertinggi, memberikan gambaran kasar
tentang seberapa luas data tersebar.
smk.dev
smk.dev
Rentang
Rentang ibarat jendela yang membuka wawasan:
● Memahami jangkauan data: Rentang menunjukkan nilai
minimum dan maksimum, membantu kamu memahami
batas-batas data dan kemungkinan outlier.
● Membandingkan kumpulan data: Rentang memungkinkan kamu
membandingkan cakupan data dari berbagai sumber, membantu
kamu melihat perbedaan dan kesamaan.
● Mendeteksi anomali: Rentang yang sangat besar dapat
menandakan adanya outlier, nilai ekstrim yang dapat
mempengaruhi analisis data.
smk.dev
smk.dev
Rentang
Contoh implementasi python untuk menghitung rentang dalam data analyst :
smk.dev
smk.dev
Kesimpulan Rentang
Namun, rentang memiliki keterbatasan:
● Sensitif terhadap outlier: Outlier dapat menarik nilai maksimum atau minimum
secara signifikan, sehingga distorting gambaran persebaran data.
● Tidak memberikan informasi tentang distribusi: Rentang tidak menunjukkan
bagaimana data terkonsentrasi di antara nilai minimum dan maksimum.
Untuk analisis yang lebih mendalam, pertimbangkan:
● Variansi: Mengukur seberapa jauh data tersebar dari rata-rata.
● Standar deviasi: Akar kuadrat dari variansi, memberikan informasi yang lebih
mudah dipahami tentang persebaran data.
Memilih alat yang tepat:
● Rentang: Cocok untuk gambaran kasar dan mendeteksi outlier.
● Variansi dan standar deviasi: Cocok untuk analisis yang lebih mendalam tentang
smk.dev
persebaran data.
smk.dev
Ukuran Persebaran : Variansi
Variansi adalah ukuran persebaran yang menggambarkan
seberapa jauh setiap nilai dalam kumpulan data dari mean.
Variansi dihitung dengan menjumlahkan kuadrat selisih antara
setiap nilai dan mean, kemudian dibagi dengan jumlah data
minus satu. Variansi lebih robust terhadap outlier dibandingkan
dengan rentang dan memberikan gambaran yang lebih baik
tentang bagaimana data tersebar.
smk.dev
smk.dev
Variansi
Variansi bagaikan peta yang menunjukkan:
● Seberapa "berantakan" data: Variansi tinggi menunjukkan data
tersebar luas, sedangkan variansi rendah menunjukkan data
terkonsentrasi di sekitar mean.
● Keandalan mean: Variansi kecil menunjukkan mean lebih stabil dan
mewakili data dengan baik, sedangkan variansi besar menunjukkan
mean mungkin tidak mewakili data secara akurat.
● Potensi outlier: Variansi yang sangat tinggi dapat menandakan
adanya outlier, nilai ekstrim yang dapat mempengaruhi analisis data.
smk.dev
smk.dev
Variansi
smk.dev
smk.dev
Variansi
Contoh implementasi python untuk menghitung variansi dalam data
analyst :
smk.dev
smk.dev
Kesimpulan Variansi
Gunakan variansi jika kamu ingin mengetahui seberapa jauh setiap nilai dalam
kumpulan data dari mean. Variansi lebih robust terhadap outlier dibandingkan dengan
rentang dan memberikan gambaran yang lebih baik tentang bagaimana data tersebar.
Keunggulan Variansi:
● Lebih robust terhadap outlier: Variansi tidak terlalu sensitif terhadap outlier
dibandingkan dengan rentang.
● Memberikan gambaran persebaran: Variansi menunjukkan bagaimana data
terkonsentrasi di sekitar mean.
Kekurangan Variansi:
● Satuan: Variansi memiliki satuan yang sama dengan kuadrat dari satuan data,
sehingga interpretasinya tidak selalu intuitif.
● Akar kuadrat: Untuk mendapatkan interpretasi yang lebih mudah dipahami, variansi
perlu diubah menjadi akar kuadratnya, yaitu standar deviasi.
smk.dev
smk.dev
Ukuran Persebaran : Standar Deviasi
Standar deviasi ibarat teropong yang memungkinkan kamu melihat "jarak" setiap
nilai data dari nilai rata-rata, membantu kamu memahami keragaman dan
konsentrasi data dalam satuan yang mudah dipahami.
smk.dev
Standar Deviasi
smk.dev
smk.dev
Standar Deviasi
Contoh implementasi python untuk menghitung standar deviasi dalam
data analyst :
smk.dev
smk.dev
Kesimpulan Standar Deviasi
Gunakan standar deviasi jika kamu ingin mengetahui seberapa jauh setiap
nilai dalam kumpulan data dari mean dalam satuan yang sama dengan data
asli.
smk.dev
Ukuran Bentuk : Skewness dan
Kurtosis
Distribusi data adalah kunci untuk membuka rahasia di balik kumpulan
data. Bentuk distribusi data bagaikan peta yang menunjukkan
bagaimana data tersebar, membantu kamu memahami pola, tren, dan
anomali dalam data.
Dua pilar utama dalam memahami bentuk distribusi data adalah:
● Skewness: Menggambarkan simetri atau kemiringan distribusi data.
● Kurtosis: Menggambarkan puncak distribusi data, apakah tajam,
runcing, atau datar.
smk.dev
smk.dev
Skewness dan Kurtosis
Skewness:
● Distribusi simetris: Data terbagi sama rata di kedua sisi mean. Skewness = 0.
● Distribusi miring ke kanan (positif): Mayoritas data terletak di kiri mean.
Skewness > 0.
● Distribusi miring ke kiri (negatif): Mayoritas data terletak di kanan mean.
Skewness < 0.
Kurtosis:
● Distribusi normal: Puncak distribusi data berbentuk lonceng. Kurtosis = 0.
● Distribusi leptokurtik: Puncak distribusi data lebih tajam daripada distribusi
normal. Kurtosis > 0.
● Distribusi platikurtik: Puncak distribusi data lebih datar daripada distribusi
normal. Kurtosis < 0.
smk.dev
smk.dev
Skewness dan Kurtosis
Contoh Skewness dan Kurtosis :
● Tinggi badan: Distribusi tinggi badan biasanya simetris (skewness = 0)
dengan kurtosis normal (kurtosis = 0).
● Pendapatan: Distribusi pendapatan biasanya miring ke kanan (skewness >
0) dengan kurtosis leptokurtic (kurtosis > 0).
● Nilai ujian: Distribusi nilai ujian dapat miring ke kiri (skewness < 0) dengan
kurtosis platykurtic (kurtosis < 0) jika banyak siswa mendapatkan nilai
tinggi.
smk.dev
smk.dev
Skewness dan Kurtosis
Contoh implementasi python untuk menghitung Skewness dalam data
analyst :
smk.dev
smk.dev
Skewness dan Kurtosis
Contoh implementasi python untuk menghitung kurtosis dalam data
analyst :
smk.dev
smk.dev
Kesimpulan Skewness dan
Kurtosis
Periksa kurtosis jika kamu ingin mengetahui sejauh mana distribusi data runcing
atau memiliki nilai ekstrim. Kurtosis yang tinggi menunjukkan distribusi yang lebih
runcing dengan ekor yang lebih tebal, sementara kurtosis yang rendah
menunjukkan distribusi yang lebih datar dengan ekor yang lebih tipis.
Pertimbangkan kurtosis ketika menganalisis risiko dalam data, seperti dalam
contoh durasi pinjaman, karena kurtosis yang tinggi menunjukkan adanya nilai
ekstrim yang mungkin mempengaruhi risiko.
● Gunakan visualisasi data seperti histogram dan boxplot untuk melihat bentuk
distribusi data.
● Hitung skewness dan kurtosis untuk mendapatkan nilai numerik yang
menggambarkan bentuk distribusi data.
● Gunakan skewness dan kurtosis untuk:
○ Membandingkan distribusi data dari berbagai sumber.
○ Mendeteksi outlier.
○ Memilih model statistik yang tepat untuk analisis data.
smk.dev
smk.dev