Datpus TM 7-14 - Compressed

Download as pdf or txt
Download as pdf or txt
You are on page 1of 271

Mengakses Sumber Data Statistik

Resmi dan Menjelaskan Metode


Pemerolehan Data pada Survei Skala
Besar

MK Data dan Pustaka 2021


Terdapat Sumber Big Data Sekunder
• The Indonesian Family Life Surveys (IFLS) √
• Demographic Health Surveys (DHS/ SDKI) √
• Big Data BPJS √
• Sistem Informasi Kependudukan dan Keluarga (SIDUGA) √
• Data Bank Dunia
• Data WHO
• Data BPS
• Data IHME
• Survei Sosial Ekonomi Nasional (Susenas)
• Riset Kesehatan Dasar (Riskesdas)
• Riset Fasilitas Kesehatan (Rifaskes)
• Satu Data Indonesia
• Statistik Portal Data Terbuka Jakarta
Website untuk mengakses IFLS
(Indonesian Family Life Surveys)
https://www.rand.org/well-being/social-and-behavioral-polic
y/data/FLS/IFLS/access.html
The Indonesia Family Life
Survey (IFLS)
• The Indonesian Family Life Survey (IFLS) is an
on-going longitudinal survey in Indonesia.
• The sample is representative of about 83% of
the Indonesian population and contains over
30,000 individuals living in 13 of the 27
provinces in the country.
• IFLS (IFLS1 – IFLS5) was conducted in
1993/94 – 2014/15 by RAND in collaboration
with Lembaga Demografi, University of
Indonesia, UCLA, Population and Policy
Studies (CPPS) of the University of Gadjah
Mada
13 Provinces di Indonesia
Variabel IFLS
Terdapat 2 packed kuesioner dalam IFLS:
1. Kuesioner Rumah Tangga (Buku IIIB), yang diobservasi
semua anggota RT yang berusia >15 tahun. Indikator yang
diobservasi antara lain: kebiasaan merokok, kondisi status
kesehatan, kondisi kesehatan kronis, kesehatan psikologis,
kepribadian, kapasitas kognitif, morbiditas akut, kebiasaan
tidur, early health, history kesehatan masa kana-kanak,
asuransi kesehatan, sejarah rawat jalan/ rawat inap,
kebiasaan makan, kondisi anggota RT lainnya, ekspektasi
diri/ keluarga
1. Kuesioner Pengukuran Kesehatan Individu (Buku US),
indikator yang diobservasi antara lain: pemeriksaan sampel
darah, pengukuran kesehatan (tekanan darah,
antropometri, kekuatan fisik tubuh)
Contoh Kuesioner IFLS (Buku IIIB)
Contoh Kuesioner IFLS (Buku IIIB)
Contoh Kuesioner (Buku US)
The DHS Program
Demographic and
Health surveys
A Project Funded by
The United States Agency for
International Development and
Implemented by ICF

9/2/2021 FOOTER GOES HERE 10


What is The DHS Program?
A project that provides, at the global level, assistance to
developing countries in the areas of Collection and use of data to
monitor and evaluate population, health, and nutrition programs

ICF International
9/2/2021 FOOTER GOES HERE 11
© ICF International
History
Before the DHS:
1950-60s: Surveys on fertility
and family planning
in the US
1960-70s: KAP (Knowledge,
Attitudes and
Practice) Surveys on
family planning
1972-84: World Fertility
Survey
1977-85: Contraceptive
Prevalence Survey

9/2/2021 12
© ICF International
History
The DHS started in 1984:
• DHS-I (DHS-1, 1984−1989)
• DHS-II (DHS-2, 1989−1993)
• DHS-III (DHS-3, 1992−1997)
• MEASURE DHS+
(DHS-4, 1997−2003)
• MEASURE DHS
(DHS-5, 2003−2008)
• MEASURE DHS Phase III
(DHS-6, 2008−2014)
• The DHS Program
(DHS-7, 2013−2018)

9/2/2021 13
To date, DHS has implemented more than 300
surveys in over 90 countries.

9/2/2021 FOOTER GOES HERE 14


Surveys in The DHS Program
Demographic and Health Survey (DHS): National survey that
includes fertility, mortality, family planning, maternal and
child health, nutrition, HIV/AIDS, and other health indicators.
(Di Indonesia dikenal Survei Demografi Kesehatan Indonesia/
SDKI)

Malaria Indicator Survey (MIS): Indicators include mosquito


net ownership and use, Intermittent preventive treatment in
pregnancy (IPTp), prevalence and treatment of fever in
children; can include testing for malaria and/or anemia;
shorter than full DHS to allow for more frequent monitoring.

Service Provision Assessment (SPA) Survey: Survey of health


facilities, providers, and clients; indicators include service
infrastructure, service availability at facilities and providers’
practices toward clients.
9/2/2021 FOOTER GOES HERE 15
© ICF International
Types of DHS
Questionnaires
Standard DHS surveys
generally include a:
• Household
questionnaire
• Woman’s
questionnaire
• Man’s questionnaire
• Biomarker
questionnaire

9/2/2021 16
© ICF International
Biomarkers
As of 2014, more than 10 million
biomarker tests have been
completed as part of The DHS
Program.
Most common biomarkers:
• Anemia
• Anthropometry
(height/weight)
• HIV prevalence
• Malaria prevalence

9/2/2021
17
Other Biomarkers
Chronic conditions Nutrition
• Blood pressure • Iodine (salt and urine
test)
• Diabetes
• Lipids • Iron

STIs • Lead
• Vitamin A
• Chlamydia
• Hepatitis B Antibodies/immunity

• Hepatitis C • Measles
• Tetanus
• Herpes
• Syphilis Water testing
• Arsenic, chlorine, E.coli

9/2/2021 18
How is Sampling Done?
STAGE 1 STAGE 2

Stratify the
sampling
1a. Select
frame by
clusters from
geographic
each strata
area

1b. List
2. Select
households in
households to be
selected
interviewed
clusters
The Problem of Over- and Under-Sampling

Gambela Oromiya

6% of sample 0.4% of population 15% of 36% of population


EDHS sample Population sample Population
distribution EDHS sample distribution
Website untuk mengakses DHS
(Demographic and Health Surveys)
https://dhsprogram.com/
Terdapat beberapa tahun surveys
Jenis Pengelompokan Kuesioner
Contoh beberapa pertanyaan
pada kuesioner
Kuesioner dibagi menjadi beberapa subyek yang diobervasi (seperti
pada slide sebelumnya)
1. Kuesioner Household, indikator yang diobservasi: identifikasi
anggota RT, sanitasi lingkungan RT, sosial ekonomi RT
2. Kuesioner untuk Wanita, indikator yang diobservasi: riwayat
kelahiran, kontrasepsi, kehamilan/ ANC/PNC (saat hamil dan
setelah hamil), imunisasi anak, kesehatan dan gizi anak,
perkawinan dan kegiatan seksual, preferensi fertilitas, HIV/AIDS,
pengetahuan tentang kesehatan reproduksi, peran ekonomi dan
sosial, perilaku merokok, perilaku minum minuman keras,
perilaku seksual
3. Kuesioner untuk Pria, indilator yang diobersvasi: kesiagaan
sebagai Ayah (seberapa jauh mengetahui riwayat kelahiran
anaknya, riwayat kontrasepsi, perkawinan dan aktifitas seksual,
preferensi fertilitas, pekerjaan dan peran gender, issue
kesehatan lainnya
Contoh Kuesioner Wanita
Contoh Kuesioner Pria
Big Data BPJS
• Data sampel BPJS Kesehatan adalah bentuk
sederhana yang mewakili keseluruhan data
kepesertaan dan pelayanan kesehatan yang sudah
disesuaikan untuk mempermudah proses analisis
data.
• Sampai dengan akhir tahun 2018, jumlah peserta
JKN mencapai 200.259.147 jiwa atau 75,8% dari
total populasi penduduk Indonesia tahun 2018 dan
seluruh peserta tersebut terdaftar pada 22.024
Fasilitas Kesehatan Tingkat Pertama (FKTP) yang
tersebar di seluruh Indonesia
Pengambilan Sampel
• Sampel representatif untuk tingkat nasional,
propinsi & kabupaten untuk indikator akses
pelayanan dan penyakit yang sering
• Jumlah peserta yang mengakses pelayanan
kesehatan lebih sedikit dibandingkan jumlah
peserta yang belum pernah mengakses pelayanan
kesehatan melalui JKN. Dilakukan over sampling
pada populasi pengguna pelayanan kesehatan agar
diperoleh jumlah sampel yang memadai
Pengambilan Sampel
• Kerangka sampel adalah semua keluarga yang terdaftar
sebagai peserta JKN pada 31 Desember 2016:
73.441.160 keluarga yang terdaftar pada 22.024 FKTP.
• Strata sampel dibentuk dari kategori keluarga & FKTP.
• Kategori keluaga:
• Kategori 1: keluarga yang semua anggotanya tidak pernah
mendapat pelayanan kesehatan.
• Kategori 2: keluarga yang memiliki peserta yang pernah
mendapat
pelayanan kesehatan di FKTP.
• Kategori 3: keluarga yang memiliki peserta yang pernah
mendapat
pelayanan kesehatan di FKTP dan FKRTL.
• Sehingga total: 22.024 x 3 = 66.072 strata
Pengambilan Sampel
• Pada tiap stratum dipilih minimal 10 keluarga
secara acak sederhana
• Jika jumlah keluarga pada stratum kurang dari 10,
semua keluraga
dipilih sebagai sampel
• Proses ini menghasilkan sampel keluarga sebanyak
586.969 keluarga.
• Dari keluarga terpilih, seluruh anggota keluarga
dipilih sebagai sampel,
sehingga total sampel: 1.697.452 individu peserta
JKN.
Pengambilan Sampel
• Bobot diperlukan untuk menyamakan probabilitas
peserta JKN terpilih
sebagai sampel
• Probabilitas tidak sama akibat adanya over sample peserta
JKN yang pernah menggunakan pelayanan kesehatan (FKTP
& FKRTL).
• Pehitungan bobot dilakukan dua tahap:
• Tahap 1: Bobot dasar keluarga, untuk menyamakan
probabilitas
keluarga peserta JKN terpilih sebagai sampel.
Bobot = 1/probabilitas terpilih
• Tahap 2: Bobot dasar individu peserta JKN. Bobot individu
dihitung dg cara membagi bobot keluarga dengan jumlah
anggota keluarga
Struktur Data Sampel 2017-2018
Bentuk Data
Bentuk (format) data untuk masing-masing file
sebagai berikut:
Nama file Bentuk ID unik ID penggabungan
Kepesertaan Wide PSTV01 PSTV01
FKTP Long FKP02 PSTV01 dengan
Kepesertaan
FKTP Non Kapitasi Long PNK02 PSTV01 dengan
Kepesertaan
FKRTL Long FKL02 PSTV01 dengan
Kepesertaan
FKRTL Diagnosis Long FKL02 FKL02 dengan
Sekunder FKRTL
Bentuk File yang diperoleh
Combine Data di Stata
Database BKKBN
Sistem Informasi Kependudukan dan Keluarga (SIDUGA)
• Laporan Rutin (DALAP)
http://aplikasi.bkkbn.go.id/sr/DALLAP/Laporan/ViewLapora
nDALLAP.aspx
• Laporan Khusus (PELKON)
http://aplikasi.bkkbn.go.id/sr/Klinik/Laporan/ViewLaporanP
ELKON.aspx
• Centralized Information System BKKBN
https://cis.bkkbn.go.id/
• Survei Kinerja dan Akuntabilitas Program KKBPK (SKAP)
Keluarga
• Survei Kinerja dan Akuntabilitas Program KKBPK (SKAP)
Remaja
Data Bank Dunia
Data WHO
Data BPS
Data IHME
Data Iklim: BMKG
Analisis Data Sekunder
• Data harus dicombine, dicleaning, dicoding,
ditransformasi menyesuaikan tujuan penelitian
• Memperhatikan Teknik sampling yang digunakan
Lembaga yang melakukan survey, jika diperlukan
pembobotan, maka harus diperhatikan untuk
meminimalkan keakuratan hasil analisis
• Data sekunder mempunyai kelemahan peneliti
tidak dapat mengendalikan semua konsep/
konstruk yang diteliti. Karena terbatas hanya data
yang tersedia saja
Data dan Pustaka
Sesi 9. Mengorganisasi data teks
Tujuan sesi mengorganisasi data
teks
1. Mengorganisasi data verba dalam
bentuk transkrip/verbatim
2. Penggunaan Wordcloud
Data kualitatif
● Semua data yang bentuknya non-angka atau
data yang tidak dikuantifikasikan (diangka-kan)
● Data kualitatif dapat dihasilkan dari semua tipe
metode penelitian
● Qualitative data refers to all non-numeric data
or data that have not been quantified and can
be a product of all research strategies
(Saunders et al., 2009)
Sumber Data kualitatif
● Data dari hasil penelitian sebelumnya
● Data observasi peneliti
● Data wawancara peneliti
● Data catatan lapangan/visual peneliti selama
pengambilan data
Langkah analisis dan penyajian data penelitian kualitatif dalam
pendekatan studi kasus

1. Mengorganisasikan data yaitu menciptakan dan mengorganisasikan file untuk data.


2. Membaca dan membuat memo (memoing) yaitu membaca seluruh teks, membuat
catatan pinggir dan membentuk kode awal.
3. Mendeskripsikan kasus dan konteksnya.
4. Mengklarifikasikan data menjadi kode dan tema dengan menggunakan agregasi
kategorikal untuk membentuk tema dan pola.
5. Menafsirkan data dengan menggunakan penafsiran langsung dan mengembangkan
generalisasi naturalistik tentang “pelajaran” yang dapat diambil.
6. Menyajikan dan memvisualisasikan data yaitu menyajikan gambaran mendalam
tentang kasus (atau beberapa kasus) menggunakan narasi, tabel, dan gambar
Langkah mengorganisasi data dan informasi

1. Transkripsi → membuat uraian rinci


2. Reduksi data → merangkum, memilih hal-hal pokok, memfokuskan
pada hal-hal yang penting, serta dicari tema dan polanya.
3. Koding data → mengelompokkan data dan memberi kode berdasarkan
kesamaan data
Mengelola data dari proses
wawancara
● Proses wawancara umumnya direkam dalam
bentuk rekaman suara/audio
● Peneliti sebaiknya segera melakukan proses
transkripsi dari hasil rekaman wawancara
menjadi verbatim
● Proses transkripsi pada dasarnya merupakan
proses menuliskan apa yang didengarkan dari
data rekaman
Bentuk transkripsi
Transkrip data wawancara lebih lanjut akan
dikoding
Hasil transkripsi rekaman wawancara kemudian
dilakukan proses pembacaan awal dalam tahap
persiapan analisis yang berguna untuk
mendapatkan wawasan atau gagasan awal
tentang tema penelitian pada rangkaian data
yang diperoleh.
Transkrip data wawancara lebih
lanjut akan dikoding
Pembacaan awal yang dilakukan peneliti juga
berfungsi untuk mengidentifikasikan bagian-bagian
penting wacana yang dianggap penting sebagai
bahan analisis. Pengidentifikasian bagian-bagian
penting wacana ini disebut sebagai
koding/pengkodean (coding).
Proses koding ini bertujuan mendapatkan (to
squeeze) bagian-bagian wacana yang kemudian lebih
mudah diatur (manageable chunks) untuk keperluan
analisis sesuai dengan pertanyaan penelitian.
Proses koding
● Membaca verbatim (jika diperlukan dilakukan berulang) untuk
mendapatkan pemahaman dan konteks dari verbatim secara
keseluruhan
● Menemukan frasa-frasa yang dianggap relevan dan penting untuk
analisis
● Melakukan kategorisasi kata kunci atau tema dari verbatim
● Peneliti dapat menulis semua ide koding atau kategorisasi yang
muncul saat membaca transkrip
● Peneliti membangun pemahaman yang lebih utuh dari satu
verbatim.
Contoh bentuk hasil koding
Nomor baris Pernyataan Koding Tema
………… ………… ………… …………
Word Cloud/ Text Cloud/ Tag Cloud

Salah satu metode untuk


menampilkan data teks secara
visual. Visualisasi grafik word
cloud ini populer dalam text
mining karena mudah dipahami.
Dengan menggunakan word
cloud, gambaran frekuensi
kata-kata dapat ditampilkan
dalam bentuk yang menarik
namun tetap informatif.
Mengapa menggunakan word cloud?
● Menyajikan informasi dalam bentuk visualisasi merupakan best practice
yang membuat informasi mudah dicerna orang awam.
● Anda dapat menyajikan word cloud untuk memvisualisasikan konten dari
sebuah teks sehingga pembaca mendapatkan informasi cepat mengenai
konten dari teks tersebut.
● Word cloud dapat digunakan untuk memvisualisasikan teks-teks penting,
misalnya pidato, hasil wawancara, jawaban dari pertanyaan terbuka
(open-ended question) dari sebuah survei, conference paper, atau
dokumen/arsip sejarah.
● Untuk membuat word cloud sederhana, anda dapat menggunakan word
cloud generator, seperti Wordclouds atau TagCrowd.
● Untuk pembuatan word cloud yang lebih presisi (yang menggunakan
language corpora atau corpus Bahasa Indonesia), anda dapat belajar bahasa
pemrograman sederhana (e.g. R atau Python).
Tutorial menggunakan word cloud generator
Terima Kasih
DATA DAN PUSTAKA (SIP107)

Pertemuan 12: Gaya Bahasa yang Digunakan dalam Menginterpretasi


Data dan Melaporkannya
Topik
1. Prinsip-prinsip dasar melaporkan interpretasi atas hasil analisis data melalui
bahasa tulis
2. Menarasikan uncertainty dengan hedging language
3. Menarasikan rentang kepercayaan (confidence interval)
Data telah dianalisis, lalu?
• Setelah data dianalisis, maka temuan-temuan penting dari proses analisis data
tersebut harus dikomunikasikan ke publik. Ada tiga jenis audiens, yaitu:
• Komunitas akademik yang latar belakangnya serumpun dengan anda.
• Informed lay public, yaitu orang awam terdidik. Meskipun awam, audiens ini
memiliki kapasitas mencerna informasi yang kompleks tetapi terbatas pada
keahlian/spesialisasi tertentu. Misalnya, komunitas akademik di luar disiplin
ilmu anda atau orang awam kebanyakan tetapi memiliki minat sains yang tinggi.
• General lay public, yaitu orang awam yang tidak memiliki latar belakang dalam
bidang sains.
• Cara mengkomunikasikan temuan dari analisis data sangat bergantung pada
karakteristik audiens yang anda tuju.
Komunitas akademik serumpun
• Dalam mengkomunikasikan temuan penelitian kepada sejawat dengan latar
belakang keilmuan yang sama (secara tertulis), maka anda perlu memperhatikan
norma-norma/kelaziman yang berlaku di komunitas akademik anda.
• Norma-norma ini secara umum mencakup bagaimana cara menata letak tulisan,
aturan pengutipan dan penulisan daftar pustaka, cara mempresentasikan analisis
data dan mendiskusikannya, dsb.
• Misalnya,
• Bidang Medis menggunakan gaya American Medical Association (AMA)
• Bidang Sosiologi mengikuti gaya American Sociological Association (ASA)
• Bidang Teknik menggunakan Institute of Electrical and Electronics Engineers
(IEEE)
• Bidang Psikologi menggunakan gaya American Psychological Association (APA)
Komunitas akademik serumpun
• Ketika berkomunikasi dengan sejawat serumpun, maka anda diperkenankan
(dan mungkin, diharuskan) untuk menggunakan istilah-istilah teknis, yang
lazim dan dipahami secara khusus oleh sejawat anda.
• Dalam konteks ini, menggunakan jargon atau istilah-istilah teknis akan
menambah akurasi dari informasi yang anda ingin komunikasikan.
• Sebisa mungkin, pelajari dan ikuti dengan baik norma/kelaziman tersebut
agar sejawat anda dapat secara aktif memberikan masukan pada
gagasan/temuan penelitian anda.
Untuk Publik Awam (general public)
• Berkomunikasi dengan publik awam umumnya membutuhkan usaha yang
lebih besar daripada dengan sejawat serumpun.
• Ketika berkomunikasi dengan publik awam, maka anda harus
menyeimbangkan antara ketepatan (presisi) dan keterbacaan (kemudahan
informasi tersebut dipahami awam).
• Ilmuwan pada umumnya sangat berhati-hati untuk menjelaskan hasil analisis
datanya karena mereka menghindari untuk membuat kesimpulan
(ekstrapolasi) yang berlebihan dari data yang dianalisis.
Untuk Publik Awam (general public)
• Bagian yang tersulit dari hal ini adalah menarasikan ketidakpastian.
Contohnya, ketika seorang ilmuwan mencoba untuk menjelaskan hubungan

antara dua variabel; ketika mereka melebih-lebihkan hubungan tersebut, maka
kemungkinan publik (dan sejawat) kurang mempercayai/mencurigai klaim
tersebut.
• Namun apabila ilmuwan tersebut mengecilkan atau menyederhanakan hubungan
tersebut, maka mungkin ilmuwan tersebut melewatkan suatu temuan yang
penting.
• Ingat! Statistik sejatinya bicara mengenai probabilitas sehingga anda
sebaiknya menghindari diksi yang menyiratkan realitas yang rigid/pasti.
• Untuk mengatasi hal ini, maka ilmuwan menggunakan teknik yang disebut dengan
hedging language.
Hedging language
• Hedging language adalah gaya bahasa yang biasa digunakan ilmuwan untuk
mengekspresikan kehati-hatian ketika mendiskusikan ketidakpastian dalam
menginterpretasi data.
• Ilmuwan terkadang tidak terlalu yakin untuk membuat klaim yang kuat
berdasarkan data yang ia miliki, sehingga interpretasi mereka atas data
biasanya dideskripsikan dengan tone berhati-hati.
Contohnya...
Pada grafik di sebelah kanan terlihat bahwa kucing
rata-rata tidur lebih lama daripada anjing. Namun, pada
kelompok sampel kucing, ada satu kucing yang tidur
jauh lebih lama daripada kucing-kucing lainnya dan
mempengaruhi rerata kelompok kucing. Oleh karena itu,
sangat mungkin sebenarnya hanya ada sedikit perbedaan
rerata durasi tidur antara kucing dan anjing, namun
perbedaan ini akan terlihat lebih jelas apabila pengambilan
data diulang menggunakan jumlah sampel yang lebih
besar.
Contohnya..
Grafik di sebelah kanan menunjukkan hubungan antara
panjang lengan dengan tungkai pada remaja. Dari grafik
tersebut, terlihat ada hubungan yang sangat kuat antara
panjang lengan dan tungkai pada remaja, dimana semua
partisipan posisinya mendekati garis diagonal yang
menggambarkan hubungan antara kedua variabel tersebut.
Tidak tampak adanya partisipan yang memiliki nilai ekstrim
(outlier). Informasi ini mungkin berguna bagi desainer baju
terusan (one-piece) yang dapat mendesain baju dengan
proporsi lengan dan tungkai yang presisi dan akan selalu pas
digunakan untuk remaja.
Sumber:
BBC News, 23 Februari 2021
Koran Tempo, 22 Februari 2021
Mari kita lihat datanya...
• Ringkasan eksekutif (bukan hasil analisis lengkapnya) dapat diakses di sini.
• Gambaran singkat surveinya..
• Survei melibatkan 1200 partisipan yang diambil secara acak dari participant
pool milik lembaga survei tersebut, lalu partisipan yang terpilih menjadi sampel,
dihubungi via telepon untuk wawancara.
• Dari 1200 partisipan tersebut, kurang dari 10 persennya (sekitar 120 orang)
berusia antara 22-25 tahun.
• Dasar dari klaim tersebut adalah pada kelompok usia 22-25 tahun tersebut,
hanya 45.1 persen yang bersedia divaksinasi, paling rendah di antara kelompok
usia lainnya. Sisanya, (yaitu 55 persen atau 54 partisipan) tidak bersedia
divaksinasi.
Persoalannya...
• Membandingkan proporsi orang yang bersedia/tidak bersedia divaksin
sifatnya relative to the group, tidak tepat apabila dibandingkan dengan
kelompok usia lainnya karena jumlah partisipannya bervariasi di tiap
kelompok.
• Peneliti menyimpulkan partisipan Gen Z banyak yang menolak vaksinasi
tetapi dasarnya hanya proporsi di kelompok usia 22-25 tahun, tanpa
melibatkan partisipan yang berusia 21 tahun ke bawah.
• Ketika dilakukan analisis korelasi antara usia (dengan seluruh partisipan dari
semua kelompok usia dilibatkan) dengan kesediaan partisipan divaksinasi,
hubungan tersebut ternyata sangat lemah.
Kesimpulannya..
• Kasus ini merupakan contoh konkrit dari Simpson’s Paradox, yaitu korelasi
nampaknya terdeteksi pada satu-dua kelompok, namun korelasi ini tidak
nampak ketika seluruh kelompok digabungkan.
• Artinya, ketika peneliti menyimpulkan ada hubungan antarvariabel hanya
dari analisis subsampel bukanlah keputusan yang tepat dan merupakan
praktik penyalahgunaan statistik, yang sayangnya, cukup sering terjadi.
• Moral of the story, selalu cek kesesuaian antara klaim dengan data. Kalau
klaim cenderung too good to be true, mungkin hal tersebut adalah indikasi
bahwa anda perlu mengecek data dengan lebih teliti dan hati-hati.
Rentang kepercayaan
• Ketika melaporkan hasil statistik, anda sangat disarankan untuk selalu
menyertakan rentang kepercayaan (confidence interval) bersama dengan
point of estimatenya.
• Rentang kepercayaan memberikan gambaran yang lebih realistis mengenai
data dan ketidakpastian yang menyertainya.
• Melaporkan rentang kepercayaan adalah keharusan di beberapa komunitas
akademik (misalnya, American Psychological Association), meskipun
menerjemahkan rentang kepercayaan dalam bahasa sehari-hari yang
dimengerti awam bukan pekerjaan mudah.
Bagaimana melaporkan CI?
• Mari kita gunakan contoh sebelumnya, yaitu survei mengenai vaksinasi yang
dilakukan oleh suatu lembaga survei/konsultan politik,
• Peneliti sekadar melaporkan point of estimate (bahwa hanya 45.1 persen
partisipan berusia 22-25 tahun) yang bersedia divaksinasi.
• Dalam laporan, disebutkan sampling error (atau kadang-kadang disebut sebagai
margin of error) adalah 2.9 persen.
• Bagaimana cara yang tepat melaporkannya?
Mari kita perbaiki...
“Setelah melakukan survei pada 1200 responden yang diambil secara acak, kami
menemukan bahwa partisipan yang berusia 22-25 tahun, yang bersedia divaksinasi
kurang dari separuhnya. Dari sekitar 120 partisipan yang berusia 22-25 tahun, hanya
45.1 persen yang bersedia divaksinasi, sedangkan sisanya tidak bersedia. Namun apabila
pengambilan data diulang dalam jangka panjang, maka ada peluang sebesar 95 persen,
persentase partisipan 22-25 tahun yang bersedia divaksinasi yang sebenarnya adalah
antara 42.2 - 48.0 persen.

Tetapi, setelah peneliti mencoba memastikan ada tidaknya keterkaitan antara usia dengan
kesediaan divaksinasi, peneliti tidak menemukan hubungan yang kuat. Artinya,
meskipun nampaknya kesediaan divaksinasi pada partisipan berusia 22-25 cukup
mengkhawatirkan, namun hal ini tidak bermakna apa-apa.”
TERIMA KASIH
Confidence Interval

Tim Pengajar MK Data dan Pustaka


Pokok Bahasan
1. Standard error
2. Sampling error
3. Menghitung confidence interval (Mean dan SD)
4. Menginterpretasi confidence interval
Ilustrasi
Standard
Error
Bahan diskusi
Menurut anda, kenapa
nilai rata-rata sampel
yang diambil dari
populasi ada
kemungkinan akan
berbeda dengan
rata-rata populasinya?
Perhatikan gambar
disamping.

Referensi:
Field, A. (2016). An Adventure in Statistics:
Page : 270. The Reality Enigma. London:
SAGE Publications.
Ilustrasi Standard Error
Hasil menghitung rata-rata sampel yang diambil dari
populasi sebesa =45, padahal rata-rata populasi 𝝁 = 50.
Terdapat selisih 5.

Hasil menghitung rata-rata sampel yang diambil dari


populasi sebesar =60, padahal rata-rata populasi 𝝁 =
50. Terdapat selisih 10.

Variasi yang terjadi pada distribusi sampling ini yang


disebut sebagai Standard Error (SE)

Semakin kecil SE, maka estimasi rata-rata sampel


terhadap rata-rata populasi menjadi semakin baik
Estimasi
Confidence interval merupakan proses
melakukan estimasi. Estimasi adalah proses
memperkirakan nilai parameter (pada populasi)
dengan mengunakan nilai statistik (pada sampel)

Ada 2 jenis estimasi :


Estimasi titik (point estimate)
Estimasi interval (interval estimate)
Estimasi titik dan interval

Poin Estimasi Batas atas


Batas bawah
selang selang
kepercayaan kepercayaan

Lebar selang kepercayaan


(estimasi interval)
Estimator Yang Valid
1. Unbiased : apabila nilai estimator sama
dengan nilai yang diestimasi
2. Efisien : apabila estimator memiliki varians
yang kecil
3. Konsisten :
a. Jika ukuran sampel semakin bertambah maka
estimator akan mendekati parameternya
b. Jika ukuran sampel bertambah tak berhingga
maka distribusi sampling estimator akan mengecil
Estimasi Titik
Memperkirakan nilai parameter
dengan menggunakan satu nilai
statistik tertentu

Contoh :
- µ diestimasi dengan
- σ2 diestimasi dengan s2
- P diestimasi dengan p
Estimasi Interval
Memperkirakan nilai parameter dengan
menggunakan 2 (dua) nilai atau dalam
interval tertentu atau disebut juga
Confidence Interval

Jenis Estimasi :
1). Estimasi untuk rata-rata
2). Estimasi untuk varians
3). Estimasi untuk proporsi
Definisi Confidence Interval
Perkiraan/ estimasi rentang nilai parameter
populasi sebenarnya. Disebut juga selang
kepercayaan

Tingkat kepercayaan (level of confidence)


dalam confidence interval merupakan peluang
bahwa selang kepercayaan yang terbentuk
benar-benar memuat parameter populasi jika
proses estimasinya dilakukan secara
berulang-ulang.
Ilustrasi dalam
Memaknai Confidence
Interval (CI 95%)

Dilakukan 100 kali


sampling pada
populasi yang sama.
Dan pada pada
setiap sampel
dihitung estimasi
intervalnya.
Jika terdapat 5
estimasi interval
tidak presisi, maka
kondisi ini yang
disebut Confidence
Interval 95% atau
dengan level of
confidence 𝝰=5%
Referensi:
Field, A. (2016). An Adventure in Statistics: Page : 280.
The Reality Enigma. London: SAGE Publications.
Confidence Interval 95%
Selang Kepercayaan 95% artinya kita
percaya bahwa 95% sample yang kita ambil
akan memuat nilai parameter aslinya.

Selang Kepercayaan 99% artinya kita


percaya bahwa 99% sample yang kita ambil
akan memuat nilai parameter aslinya.
Formula Umum Estimasi
Interval

Point Estimasi ± (Nilai Kritis) (Standar Eror)

Standard error (SE) adalah standar deviasi dari distribusi


sampling suatu statistik. Standard error merujuk kepada
perkiraan standar deviasi dari sampel tertentu yang
digunakan untuk menghitung suatu nilai estimator.
Nilai Kritis adalah nilai batas penerimaan kesalahan yang
diharapkan, bergantung dari distribusi sampel. Nilai ini
dihasilkan dari table kritis pada distribusi tersebut.
Estimasi Rata-rata
Jika standar deviasi (σ) diketahui

dimana :
= rata-rata dari sampel
Z = tabel Normal Standart
N = banyaknya data
Menentukan Nilai Kritis, Z
(Distribusi Normal Standar)

Selang Kepercayaan 95% (Nilai kritis → Z = ±1.96)


Tabel Z (Nilai Kritis Z)
Pada umumnya menggunakan level
kepercayaan 90%, 95%, 99%
Level (1 - α) Nilai Z kritis
Kepercayaan
80% 0.80 1.28
90% 0.90 1.645
95% 0.95 1.96
98% 0.98 2.33
99% 0.99 2.58
99.9% 0.999 3.27

Nilai kritis Z (Tabel Normal Standard)


Contoh Kasus
Rata-rata nilai Statistika sampel random 36 mahasiswa
adalah 2,6. Jika diketahui nilai standar deviasi populasi
0,3 maka hitunglah selang kepercayaan 95% untuk
rata-rata nilai statistika semua mahasiswa?

Kita percaya
bahwa 95%nilai
akan berada pada
interval antara 2,5
sampai dengan 2,7
Estimasi Rata-rata
Jika standar deviasi (σ) tidak diketahui
Karena standar deviasi di populasi tidak diketahui, maka digunakan
nilai standar deviasi dari sampel (s), yaitu :

Maka rata-rata di populasi diestimasi dengan :


Tabel t (Nilai Kritis t)

Nilai kritis t dengan jumlah n=6 pada tingkat


kepercayaan 𝝰=5% ⇒ Nilai t(5 ; 𝝰=5%) = 2,571
Tabel t-student untuk Nilai kritis t
Beda contoh ini dengan sebelumnya
adalah nilai parameter 𝞂 populasi tidak
diketahui. Sehingga estimasi interval

Contoh Kasus menggunakan nilai kritis t

Ingin diketahui berat badan bayi yang lahir di Klinik


Bersalin “Anak Impian”. Dilakukan pengambilan sampel
terhadap bayi-bayi yang dilahirkan di klinik tersebut.
Dengan menggunakan teknik sampling yang benar,
diperoleh 15 bayi sebagai sampel penelitian, dan berat
lahirnya ( dalam kg ) adalah sebagai berikut :

Hitunglah selang kepercayaan 90% untuk rata-rata berat


badan semua bayi yang lahir di Klinik Bersalin tersebut?
Penyelesaian

Artinya: Kita percaya bahwa 90% nilai akan berada


pada interval antara 2,74 sampai dengan 3,023
Estimasi Varians
Nilai σ2 akan diestimasi dengan rumus :

Dimana :
n = banyaknya data
s = standar deviasi data
= tabel chi-square dengan derajat bebas (n –1) dan
α tertentu
Nilai kritis dengan jumlah n=6 pada tingkat
kepercayaan 𝝰=5% ⇒ Nilai kritis = 12,833
dan = 0,831

Tabel Chi Square (Nilai Kritis Chi-Square)


Contoh Kasus
Dengan menggunakan data yang sama yaitu data
tentang berat badan 15 bayi yang dilahirkan di Klinik
Bersalin “Anak Impian” maka hitunglah estimasi interval
untuk s2 dengan CI 90%
Estimasi Proporsi
Estimasi interval untuk nilai p :

Dimana :
p = proporsi di sampel
n = besar sampel
Z = tabel normal standar
Contoh Kasus
Pada suatu sampel random 500 keluarga yang memiliki
pesawat televisi di Kota A, ditemukan 340 keluarga telah
mengubah televisi analognya menjadi televisi digital.
Hitunglah selang kepercayaan 95% untuk proporsi
sesungguhnya dari keluarga yang telah memiliki televisi
digital di Kota tersebut.
Menentukan Ukuran Sampel
Menentukan ukuran sampel
berdasarkan selang kepercayaan
rata-rata

Sampling error
(margin of error)
Menentukan Ukuran Sampel

Sampling error
(margin of error)

Sampling Error : kesalahan yang ditimbulkan karena


kita hanya mengamati sebagian saja (contoh), tidak
semuanya (populasi).
Example: Sample Size
for Mean
What sample size is needed to be 90%
confident of being correct within ± 5? A
pilot study suggested that the standard
deviation is 45.
Latihan
Contoh kasus pada slide 17. Jika ingin
percaya 95% bahwa estimasi untuk 𝝁
akan terjadi kesalahan sebesar kurang
dari 0,05. Maka berapa jumlah sampel
yang harus diambil?
See you next week
Korelasi Antara 2 Variabel
Tim Dosen Data dan Pustaka
Pokok Bahasan
1. Kekuatan dan arah korelasi
2. Mengestimasi korelasi data kategori
3. Mengestimasi korelasi data kontinum
4. Perbedaan antara korelasi dengan hubungan sebab-akibat (causal
inference)
Definisi Korelasi
Hubungan antara 2 variabel X dan Y

X hubungan
Y Dalam simbol notasi standar:
X disebut sebagai variabel independent
Y disebut sebagai variabel dependent
X pengaruh Y

Ukuran yang digunakan untuk mengetahui derajat hubungan


disebut koefisien korelasi
Pola Hubungan

Korelasi positif Korelasi negatif

Tidak berkorelasi Korelasi tidak linier


Ukuran Korelasi/ Koefisien Korelasi

Korelasi tinggi Korelasi tinggi

Korelasi rendah

-1 0 1
Interpretasi nilai koefisien korelasi

Berlaku juga untuk nilai minus


Uji Korelasi
Koefisien Korelasi Pearson Product Moment
Syarat :
1. Data berskala minimal interval (data kontinyu)
2. Data berdistribusi normal

Rumus :
Makna Koefisien Korelasi Pearson
Tanda (-) dan (+) hanya menunjukkan arah hubungan

(+) Jika nilai variabel X naik maka nilai pada variabel Y juga akan naik,
Atau Jika nilai variabel X turun maka nilai pada variabel Y juga akan
turun

(-) Jika nilai variabel X naik maka nilai pada variabel Y akan turun, Atau
Jika nilai variabel X turun maka nilai pada variabel Y akan naik
Hitung berapa koefisien
korelasi Pearson pada data
tabel di samping ini

Interpretasikan makna hasil


koefisien korelasi tersebut
Korelasi Parsial

Ukuran hubungan linier antara variabel secara parsial (dengan


mengganggap variabel lain tetap) misalnya :
Korelasi antara Y dan X2, dengan X1 dibuat tetap dilambangkan
dengan ryx2.x1

Jika korelasi sederhana melibatkan satu variabel dependent dan satu


variabel independent, maka korelasi parsial melibatkan lebih dari
satu variabel independent dan satu variabel dependent.
Koefisien Korelasi Parsial

dimana :
ryx2 = korelasi antara y dan x2
ryx1 = korelasi antara y dan x1
rx1x2 = korelasi antara x1 dan x2
Korelasi Berganda
Hubungan yang terjadi antara
variabel depedent dengan lebih
dari 1 variabel independent.

Misalnya: korelasi antara Y


dengan X1 dan X2
dimana :
ryx2 = korelasi antara y dan x2
ryx1 = korelasi antara y dan x1
rx1x2 = korelasi antara x1 dan x2
Bahan Diskusi
Apa perbedaan korelasi parsial dengan korelasi ganda?
Korelasi Spearman

Korelasi spearman digunakan untuk menganalisis hubungan pada


variabel dengan skala data minimal ordinal.

Bisa juga merupakan uji alternatif dari uji korelasi Pearson. Data
dengan skala kontinyu juga dapat dihitung menggunakan formula
Korelasi Spearman.
Koefisien Korelasi Spearman

dimana :
Contoh soal : Makanan Juri I Juri II

Terdapat 2 orang juri yang


1 9 6
diminta untuk menilai dalam 2 6 7
lomba memasak makanan. 3 5 6
Jumlah makanan yang 4 7 8
dilombakan 10. Hasil penilaian 5 4 5
juri dalam bentuk score tercantum 6 3 4
pada tabel. 7 2 2
8 8 9
Hitunglah koefisien korelasi Spearman 9 7 8
pada kasus tersebut! 10 6 6
Makanan Juri I (Xi) Juri II (Yi) Rangking Rangking Di di2
(Xi) (Yi)
1 9 8 10 8 -2 4
2 6 7 5.5 6 0.5 0.25
3 5 6 4 4.5 0.5 0.25
4 7 8 7.5 8 0.5 0.25
5 4 5 3 3 0 0
6 3 4 2 2 0 0
7 2 2 1 1 0 0
8 8 9 9 10 1 1
9 7 8 7.5 8 0.5 0.25
10 6 6 5.5 4.5 -1 1
Jumlah 0 7

= 1 – 0,04 = 0,96
Coefficient Contingency C
Coefficient contingency untuk mengukur keeratan hubungan
antara 2 variabel dengan skala data nominal. Data nominal
diubah dalam bentuk tabel kontingensi.

Coeficient contingency bernilai antara 0 - 1. Dimana semakin


koefisien menuju nilai 1 semakin kuat hubungan antara kedua
variabel.
Rumus Coeficient Contingency C

dimana : = Chi-square yang dihitung dari tabel kontingensi


N = jumlah data
Cara Menghitung Nilai

Contoh penghitungan nilai chi-square ada di link berikut


Korelasi vs Hubungan Causalitas (sebab akibat)
Apakah sama antara korelasi dengan hubungan sebab akibat.
Korelasi antara musim hujan dengan jumlah kecelakaan lalu lintas.
Artinya setiap hujan deras maka kecelakaan lalu lintas juga akan terjadi. Pada
waktu yang sama terdapat 2 variabel yang muncul secara bersamaan. Namun
apakah kemudian hujan deras merupakan mempunyai hubungan kausalitas
dengan kecelakaan lalu lintas.

Silakan didiskusikan.
correlation does not imply causation
Requirement for causal relationship
Necessary Condition:
1. Empirical association (korelasi)
2. Appropriate time order: sebab (faktor independen) ada sebelum dampak ada (faktor
dependen)
3. Nonspuriousness: bukan terjadi karena variabel lain

Important Condition:
1. Mechanism
2. Context
Contoh:
● Media violence would increase aggression only among individuals who were
already predisposed to aggression
● children reacted more aggressively after observing men committing violent acts
than after observing women committing these same acts.
http://www.sagepub.com/sites/default/files/upm-binaries/14289_BachmanChapter5.pdf
Spurious relationship
https://tylervigen.com/spurious-correlations
Distribusi Data, Tendensi Sentral, dan Dispersi
(Variabilitas)
Topik
+ Menghitung tendensi sentral
+ Membedakan jenis-jenis distribusi data
+ Melakukan uji normalitas data
+ Menginterpretasi hasil uji normalitas data
+ Menginterpretasi boxplot dan violin plot

2
Menghitung Tendensi Sentral
(Mean, Median, Modus)

Nilai pusat dari sekumpulan data Beberapa ukuran pemusatan/ ukuran sentral
yaitu :
Fungsi mencari tendensi sentral:
1. Rata-rata hitung (mean)
Mencari nilai yang mewakili sekumpulan data
2. Rata-rata terboboti
3. Median
4. Modus
5. Rata-rata ukur
6. Rata-rata harmonis

3
Rata-Rata Hitung
4 7 3 5 6 9 8 6 3 2 5 6 9
Maka rata-rata hitungnya adalah :

Atau jika dirumuskan menjadi : (rumus untuk data


individu)
Rata-Rata Hitung Untuk Data Berkelompok

Nilai Ujian Nilai Jumlah


Tengah Mahasiswa
20,00 – 29,99 24,995 4
30,00 – 39,99 34,995 9
40,00 – 49,99 44,995 25
50,00 – 59,99 54,995 48
60,00 – 69,99 64,995 20
70,00 – 79,99 74,995 5
Jumlah 111

Dimana : mi = nilai tengah


fi = frekuensi
Rata-Rata Hitung Untuk Data Berkelompok

Nilai Ujian mi fi mifi

20,00 – 29,99 24,995 4 99,98


30,00 – 39,99 34,995 9 314,995
40,00 – 49,99 44,995 25 1124,875
50,00 – 59,99 54,995 48 2639,76
60,00 – 69,99 64,995 20 1299,9
70,00 – 79,99 74,995 5 374,975
Jumlah 111 5854,445
Median

Median disebut juga nilai tengah

4 7 3 5 6 9 8 6 3 2 5 6 9

Maka mediannya adalah :

2 3 3 4 5 5 6 6 6 7 8 9 9

Median
Median Untuk Data Individu
Jika jumlah data ganjil ( n ganjil )
n = 2k – 1
misal : jumlah data n = 111
n = 2k – 1
111 = 2k – 1
k = 56 (median terdapat pada data ke-56 atau X56)
Jika jumlah data genap ( n genap )
n = 2k – 1
misal : jumlah data n = 112
n = 2k – 1
112 = 2k – 1
k = 56,5 (median terdapat pada data ke- = (X56 + X57)/2 )
Median Untuk Data Berkelompok
Nilai Ujian Nilai Jumlah
Tengah Mahasiswa
20,00 – 29,99 24,995 4
30,00 – 39,99 34,995 9
40,00 – 49,99 44,995 25
50,00 – 59,99 54,995 48
60,00 – 69,99 64,995 20
70,00 – 79,99 74,995 5
Jumlah 111

B = tepi bawah kelas dimana kelas median berada


F = frekuensi kumulatif sebelum dimana kelas median berada
Fm = frekuensi kumulatif dimana kelas median berada
i = interval kelas
Median Untuk Data Berkelompok
Nilai Ujian f F kum Tepi kelas
20,00 – 29,99 4 4 19,995
30,00 – 39,99 9 13 29,995
40,00 – 49,99 25 38 39,995
50,00 – 59,99 48 86 49,995 n/2 = 55,5
60,00 – 69,99 20 106 59,995
70,00 – 79,99 5 111 69,995
Jumlah 111
Modus

Modus adalah nilai yang paling sering muncul

4 7 3 5 6 9 8 6 3 2 5 6 9

Maka modusnya adalah :

2 3 3 4 5 5 6 6 6 7 8 9 9
Modus
Modus Untuk Data Berkelompok
Nilai Ujian Nilai Jumlah
Tengah Mahasiswa
20,00 – 29,99 24,995 4
30,00 – 39,99 34,995 9
40,00 – 49,99 44,995 25
50,00 – 59,99 54,995 48
60,00 – 69,99 64,995 20
70,00 – 79,99 74,995 5
Jumlah 111

B = tepi bawah kelas modus berada


f0 = frekuensi kelas modus
f-1 = frekuensi sebelum kelas modus
f+1 = frekuensi sesudah kelas modus
i = interval kelas
Modus Untuk Data Berkelompok

Nilai Ujian f Tepi kelas


20,00 – 29,99 4 19,995
30,00 – 39,99 9 29,995
40,00 – 49,99 25 39,995
50,00 – 59,99 48 49,995 Kelas modus
60,00 – 69,99 20 59,995
70,00 – 79,99 5 69,995
Jumlah 111
Hubungan Rata-rata hitung, Median dan Modus
• Jika distribusi simetris

Mean = median = modus


+ Jika distribusi tidak simetris menceng ke kanan

Modus
Median
Mean
+ Jika distribusi menceng ke Kiri

Mean
Median

Modus
Variabilitas/Dispersi Data
(Range, IQR, Varians, Standar Deviasi)
RANGE
adalah perbedaan antara entri maksimum dan minimum pada
kumpulan data

Range = Nilai Terbesar – Nilai Terkecil

Nilai terbesar : nilai data paling besar


Nilai terkecil : nilai data paling kecil

17
Kelemahan & Kelebihan Range
Kelebihan range yaitu :
1. Perhitungannya sederhana
2. Perhitungan dapat dilakukan secara cepat
3. Sudah dapat menggambarkan ketersebaran data observasi

Kelemahan range yaitu :


1. Hasil pengukurannya kasar
2. Perhitungan hanya berdasarkan pada dua titik ekstrim dalam
distribusi sehingga informasi tentang pola ketersebaran nilai-
nilai observasi tidak didapatkan.
Inter Quartile Range (IQR)
• Merefleksikan variabilitas di tengah 50% pengamatan dalam suatu
kumpulan data (middle fifty)

• Inter quartile range (IQR)/Jarak interkuartil dari suatu kelompok


data adalah perbedaan antara kuartil pertama dan ketiga
• IQR = Q3 – Q1
• Kisaran yang besar dari IQR menunjukkan variabilitas yang besar
antara di tengah 50% pengamatan yang relevan dan sebaliknya
Example: Finding the inter quartile range
The test scores of 15 employees enrolled in a CPR
training course are listed. Find the inter quartile
range (IQR) and what can you conclude from the
result?
13, 9, 18, 15, 14, 21, 7, 10, 11, 20, 5, 18, 37, 16, 17

Sebagai bahan untuk latihan mandiri


Varians
Ukuran penyebaran dengan melibatkan deviasi kuadrat rata-rata
disebut dengan varians
Rumus penghitungan varians untuk data individu adalah :

Cara I. Dengan Rumus Umum


dimana : σ2 = varians (ragam)
= data ke-i

= rata-rata
Cara II. Dengan Rumus Perhitungan Singkat
Rumus penghitungan varians untuk data berkelompok adalah :

Cara I. Dengan Rumus Umum

Cara II. Dengan Rumus Perhitungan Singkat

Cara III. Dengan Cara Coding

dimana : ui = coding ke-i


i = interval kelas
Deviasi Standar
Deviasi standar merupakan akar dari varians. Deviasi standar
dihasilkan melalui proses standarisasi unit-unit pengukuran pada
varians. Deviasi standar adalah ukuran penyimpangan dari nilai rata-
rata

Rata-rata =
Bahan Diskusi

Budi adalah mahasiswa semester III yang sedang mengambil Mata


Kuliah Statistika dan Biologi Dasar. Pada ujian mata kuliah
Statistika, Budi mendapatkan nilai 80. Rata-rata nilai ujian mata
kuliah Statistika di kelasnya sebesar 92 dengan deviasi standar
sebesar 5. Sedangkan untuk mata kuliah Biologi Dasar
mendapatkan nilai 65. Rata-rata nilai ujian mata kuliah Biologi Dasar
di kelasnya sebesar 60 dengan deviasi standar sebesar 40. Menurut
anda, prestasi Budi lebih baik di mata kuliah Statistika atau Biologi
Dasar?
Bahan Diskusi

Intervensi yang dilakukan untuk sekelompok balita gizi buruk


dilakukan di 2 posyandu (Posyandu A dan B) dengan memberikan
makanan tambahan dengan gizi terukur. Setelah intervensi
dilakukan selama 6 bulan dilakukan pengukuran peningkatan berat
badan balita yang mendapatkan intervensi. Rata-rata kenaikan BB
balita di Posyandu A 1,5 kg dengan deviasi standar 0,5 kg.
Sedangkan rata-rata kenaikan BB balita di Posyandu B 2 kg dengan
deviasi standar 1,5 kg. Bagaimana pendapat anda tentang
keberhasilan intervensi pada kedua Posyandu ini?
Distribusi normal, Dist Normal Standar (Gaussian)
Menghitung Nilai Critical Z, Skewed distribution

● Data yang berdistribusi normal adalah data yang pola distribusinya berbentuk
lonceng dan simetris, artinya pola data tersebut tidak menceng ke kiri ataupun ke
kanan
● Distribusi normal dapat disebut juga sebagai distribusi Gauss.
● Distribusi normal sangat penting untuk dipelajari terutama dalam melakukan analisis data
statistika. Dengan data yang diambil secara acak dan berdistribusi normal akan
memudahkan dalam melakukan analisis dan meramalkan serta mengambil kesimpulan
untuk cakupan yang lebih luas

27
Bagaimana data dikatakan memiliki
distribusi normal?

Apabila skewness menunjukkan simetri Ciri-ciri kurva normal :


maka dikatakan data membentuk
distribusi normal, apabila kemiringan ● Bentuk kurva normal
distribusi data agak condong ke kanan ● Menyerupai lonceng (genta/bel).
ditunjukkan dengan nilai skewness yang ● Merupakan suatu poligon yang dilicinkan
negatif, selanjutnya apabila kemiringan yang mana ordinat (sumbu tegak) merupakan
distribusi data condong ke kiri yang frekuensi dan absisnya (sumbu alas) memuat
ditunjukkan bahwa nilai skewness positif nilai variabel.
● Simetris.
● Luas daerah merupakan nilai rata-rata
(mean).
● Luas daerah sebelah kiri dan kanan
mendekati 50%.
● Memiliki satu modus (disebut juga unimodal)
28
Distribusi normal dipengaruhi oleh dua Berdasarkan kurva distribusi normal di
parameter, yaitu mean dan standar deviasi. atas, distribusi normal memiliki rata-
rata (mean) sama dengan 0 dan
Mean menentukan lokasi pusat statistik dan simpangan baku sama dengan 1.
standar deviasi menentukan lebar dari kurva
normal.
29
Distribusi Normal dan Distribusi
Normal Standard
Distribusi Normal Distribusi Normal Standard

Mempunyai rumus fungsi distribusi normal Mempunyai fungsi distribusi normal standard

dengan rata-rata = dengan rata-rata = 0


dan standar deviasi = dan standar deviasi = 1
30
suatu nilai dari data
rata-rata dari data
standar deviasi dari data

Formula diatas adalah untuk mentransformasi kurva normal menjadi Z-score


normal standard (menstandarisasi nilai X menjadi Z)
Contoh Transformasi Nilai X ke Z-score
Sekelompok data Berat Badan siswa mengikuti distribusi normal dengan rata-rata
55 dan standar deviasi 5. Maka nilai Z-score untuk Berat Badan 60 adalah

Fungsi distribusi normal standar ini adalah menstandarisasi nilai pada


distribusi normal. Data X pada distribusi normal dapat dalam bentuk
satuan apapun (kg, km, mmHg, liter, dll).Namun nilai tersebut dapat
distandarisasi pada fungsi distribusi normal standar untuk
memudahkan menghitung luasan dibawah kurva (wilayah yang diarsir
dibawah kurva) sebagai bentuk menghitung peluang sebuah kejadian
dengan menggunakan Tabel Normal Standard. Misalnya Peluang
Siswa yang Berat Badannya kurang dari 60 kg.
OGIVE
A Cumulative Frequency Graph (Ogive)
• Merupakan grafik garis yang menampilkan frekuensi kumulatif
setiap kelas pada batas kelas atas (upper class boundary)
• Batas atas ditandai pada sumbu horizontal dan frekuensi
kumulatif ditandai pada sumbu vertikal
Constructing an ogive

• Buatlah tabel frekuensi yang mencakup


frekuensi kumulatif
• Tentukan skala horizontal dan vertikal.
• Skala horizontal : batas kelas atas
• Skala vertical : mengukur frekuensi kumulatif
• Plot point yang mewakili batas kelas atas
dan frekuensi kumulatifnya yang sesuai
• Hubungkan point/titik dari kiri ke kanan
• Grafik harus dimulai pada batas bawah
yang pertama (frekuensi kumulatif adalah
nol) dan harus berakhir pada batas atas kelas
terakhir (frekuensi kumulatif sama dengan
ukuran sampel)
Distribusi Unimodal/Bimodal
BENTUK DISTRIBUSI DATA DAN POLA PADA DATA
1. Distribusi frekuensi disebut simetris jika garis vertikal dapat ditarik di tengah
grafik suatu distribusi dan hasilnya membagi separuh di sisi kiri dan
separuh di sisi kanan (approximately mirror images)
2. Distribusi frekuensi disebut seragam (uniform / rectangular) jika semua nilai
data atau kelas-kelas dalam suatu distribusi memiliki nilai / frekuensi yang
sama. Distribusi uniform ini juga simetris.
3. Distribusi frekuensi disebut menceng (skewed) jika ekor dari salah satu
grafik menjulur lebih panjang dari sisi lainnya. Distribusi ini dapat berupa
skewed left (menceng kiri) and skewed right (menceng kanan). Menceng
kiri : jika ekor menjulur lebih panjang ke kiri, Menceng kanan : jika ekor
menjulur lebih panjang ke kanan.
DISTRIBUSI FREKUENSI SIMETRIS

• Membagi setengah dari pusat data


• Memiliki sedikit atau beberapa puncak
• 1 puncak = uni modal
• 2 puncak = bimodal
• Puncak tunggal di tengah = lonceng
• Simetris pusat : pusat distribusi data
terletak di median dari suatu distribusi
• Simetris menyebar : mengacu variabilitas
data (pengamatan punya jangkauan
lebar : penyebaran lebih besar, jika
pengamatan bergerombol : penyebaran
lebih kecil)
Simetris - Pusat
Simetris Menyebar (penyebaran kecil) Simetris Menyebar (penyebaran lebar)
DISTRIBUSI FREKUENSI UNIFORM
• Observasi dalam suatu data
menyebar secara sama di
berbagai distribusi.
• Tidak mempunyai puncak

Seragam (uniform)
GRAFIK DISTRIBUSI YANG
TIDAK BIASA/TIDAK UMUM

• Gaps: merujuk pada


area distribusi dimana
Gaps
tidak ada pengamatan
• Pencilan/Outliers :
distribusi ditandai nilai-
nilai ekstrim yang
berbeda jauh dari
pengamatan lainnya
Pencilan/Outliers
Uji Normalitas Distribusi Data
(K-S, Shapiro-Wilk, Skewness, dan Kurtosis)
UJI NORMALITAS (KOLMOGOROV-SMIRNOV/ K.S.)

Uji Kolmogorov-Smirnov menganalisis perbedaan antara


fungsi distribusi empiris sampel dan fungsi distribusi
kumulatif dari distribusi referensi. Uji ini juga dapat
menganalisis perbedaan fungsi distribusi empiris dari dua
kelompok sampel.
UJI NORMALITAS (SHAPIRO-WILK)
Uji Shapiro Wilk pada awalnya sensitif untuk ukuran sampel kurang dari 50 (uji ini
baik untuk mendeteksi normalitas pada sampel kecil) dan kemudian berkembang
juga sensitif untuk jumlah sampel besar. Uji ini mendeteksi normalitas bentuk
kurva berdasarkan skewness (kemiringan) atau kurtosis (keruncingan), atau
keduanya.

Manakah yang lebih powerfull antara Uji Kolmogorov Smirnov dan Uji Shapiro-
Wilk. Pada umumnya jumlah sampel juga akan menentukan tingkat sensitifitas uji
normalitas. Silakan referensi berikut sebagai bahan kajian.
Referensi 1
Referensi 2
Ukuran Skewness dan Kurtosis
• Tingkat kemencengan kurva dari nilai tengahnya (skewness)
• Tingkat runcingnya sebuah kurva (Kurtosis) : parameter yang
menunjukkan sebuah kurva berdistribusi normal/tidak:
– Leptokurtik
– Mesokurtik
– Platikurtik
• Merupakan salah satu parameter untuk menentukan
kenormalan sebuah kurva (distribusi peluang)
Skewed distribution
Merupakan salah satu parameter untuk
menentukan kenormalan sebuah
kurva(distribusi peluang)

• Beberapa distribusi memiliki banyak Skewed Left


pengamatan di salah satu sisi grafik daripada
yang lain
• Distribusi dengan sebagian besar pengamatan di
sebelah kiri (nilai yang lebih rendah)
• Distribusi dengan sebagian pengamatan di
sebelah kanan (nilai yang lebih tinggi)
• Nilai mean mengikuti ke arah nilai yang lebih
rendah atau nilai yang lebih tinggi
Boxplot & Violin plot

PRESENTATION TITLE 50
A box-and-whisker plot (Box Plot)
● A box and whisker plot : alat analisis data eksplorasi yang menyoroti fitur
penting kumpulan data.
● Suatu metode yang digunakan untuk mendeteksi adanya outliers pada suatu
data.

Untuk membuat grafik box and whisker plot: harus mengetahui nilai nilai berikut

1. Nilai minimum

2. Q1
ringkasan lima angka dari kumpulan data
3. Median

4. Q3

5. Nilai Maksimum
Panduan membuat a Box-and-Whisker Plot
1. Temukan ringkasan 5 angka dari kumpulan data

2. Gambar skala horisontal yang mencakup rentang data

3. Plot lima angka (pada poin 1) di atas skala horizontal

1. Gambar kotak di atas skala horizontal dari Q1 ke Q3 dan gambarlah garis


vertikal di kotak pada Q2

2. Gambar Whiskers dari kotak ke entri minimum dan maksimum


Example: Finding a Box-and-Whisker Plot
The test scores of 15 employees enrolled in a CPR training
course are listed. Draw a box-and Whisker Plot
13, 9, 18, 15, 14, 21, 7, 10, 11, 20, 5, 18, 37, 16, 17
Solusi
• Urutkan data : 5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37

• Temukan ringkasan 5 angka


– Minimum = 5,
– Q1 = 10,
– Q2 = 15,
– Q3 = 18,
– Maximum = 37
Violin plot
● Tujuan dari violin plot yaitu untuk memudahkan pengguna menganalisis distribusi data yang
kontinyu untuk setiap kategori atau membuat perbandingan distribusi antara beberapa
kelompok.
● semakin cembung grafik data violin plot yang divisualisasikan maka, kepadatan data
peluangnya semakin besar.
● Sebaliknya, semakin pipih grafik data violin plot yang divisualisasikan maka, kepadatan data
peluangnya semakin kecil.

Contoh:
● Distribusi total pembayaran dalam
seminggu dengan memisahkannya sesuai
jenis kelamin.
● Pada violin plot nilai kuartil dan whisker
nya dimasukkan kedalam violin plot itu
sendiri. Sehingga, pada violin plot tidak
dapat diketahui outliers pada data
yang digunakan.
THANK YOU. SEE YOU NEXT WEEK!
DATA DAN PUSTAKA (SIP107)

Pertemuan 4: Membaca, Menyusun, dan Menginterpretasi Data yang


Disajikan dalam Tabel
Topik
• Pengantar
• Tidy data dan Pivoting (panjang [long] vs lebar [wide])
• Membuat tabel distribusi frekuensi
• Membuat tabel kontijensi (cross tabulation)
• Menghitung probabilitas, persentase kolom dan baris, proporsi, rasio, dan
rate dari tabel kontijensi
• Visualisasi dan tata letak tabel
Pengantar
• Tabel prinsipnya adalah sekumpulan data yang disusun dalam baris (row)
dan kolom (column).
• Baris merupakan record yang dapat berisi informasi mengenai unit analisis
(case), mulai dari usia, gender, hasil pengukuran, atau yang lainnya.
• Baris dalam tabel biasanya bersifat granular, artinya mewakili informasi yang
paling rendah levelnya dan paling detail.
• Kolom merupakan representasi dari variabel.
• Pastikan tiap variabel terdiferensiasi dengan variabel lainnya.
• e.g. Tabel yang baik memiliki kolom “penjualan” dan “keuntungan” secara
terpisah, bukan menyatukannya dalam kolom “uang” karena “penjualan” dan
“keuntungan” adalah dua variabel yang berbeda.
Apa perbedaannya?
Hari Jeruk Apel Buah Naga

Tabel Hasil Panen A


Senin 10 12 15

Selasa 15 14 16

Rabu 15 11 19
dengan
Bulan Jeruk Apel Buah Naga

Januari 453 637 234 Tabel Hasil Panen B


Februari 456 674 245

Maret 543 654 236


Unit Analisis
• Tabel A dan Tabel B merupakan dua tabel dengan unit analisis yang berbeda.
• Tabel A adalah hasil panen per hari, sedangkan Tabel B adalah hasil panen per
bulan.
• Namun variabelnya (kolom) sama, yaitu jumlah buah jeruk, apel, dan buah
naga yang dipanen dalam satuan waktu.
• Beberapa tips!
• Berikan nomor unik (unique identifier) pada setiap baris (case) agar setiap
baris mewakili unit analisis yang benar-benar unik. (e.g. kalau hanya ada nama
hari, bagaimana membedakan jumlah panen pada hari Selasa minggu ini dengan
minggu depan?)
• Urutkan data dalam tabel dengan aturan tertentu yang cocok dengan
konteks data. Misalnya, diurutkan secara alfabetis, berdasarkan kategori
tertentu, atau dari data yang terkecil ke terendah.
Mana yang Lebih Tepat?
ID Hari Jeruk Apel Buah Jumlah
Naga

001 Senin 10 12 15 37 Diurutkan


002 Selasa 15 14 20 49 berdasarkan ID
003 Rabu 15 11 19 45

ID Hari Jeruk Apel Buah Jumlah


Naga

001 Senin 10 12 15 37
Diurutkan
003 Rabu 15 11 19 45
berdasarkan jumlah
002 Selasa 15 14 20 49
Prinsip tidy data (Wickham, 2014)
Dalam menyimpan data dalam bentuk tabel (set data/dataset), gunakan prinsip tidy
1. Satu kolom memuat satu variabel
2. Satu baris mewakili satu unit analisis (case)
3. Satu tabel mewakili satu observational unit

Dengan tidy data, maka..


1. Mudah membuat visualisasinya
2. Memudahkan eksplorasi data
3. Mudah “dibersihkan”
4. Tidak berantakan apabila dilakukan koreksi/penyesuaian
Contoh-contoh tabel/set data yang sesuai/melanggar prinsip tidy [klik disini].
Long vs wide
1. Long form (vertikal) → tiap variabel mendapat kolom sendiri, paling
sesuai dengan prinsip tidy. Pada banyak kesempatan, lebih disarankan untuk
digunakan karena memudahkan data untuk diproses lebih lanjut. Sebagian
perangkat lunak statistik (e.g. SPSS, jamovi, JASP, STATA, dsb. memproses
data dalam bentuk long form, bukan wide.
2. Wide form (horizontal) → tiap baris berisi data hasil observasi satu unit
analisis (case) dan biasanya mengandung pengukuran berulang. Model wide
form sangat sesuai apabila peneliti ingin melihat tren (berdasarkan
periode/waktu tertentu) sehingga sering digunakan untuk mengolah data dari
studi time series atau longitudinal.
Contoh long form
Nama Kucing Waktu Pemberian Jumlah Makanan (gr)
Makanan

Lorenz Senin 100

Lorenz Selasa 120

Sale Senin 123

Sale Selasa 125

Wolfgang Senin 132

Wolfgang Selasa 130


Contoh wide form
Nama Kucing Senin Selasa

Lorenz 100 gr 120 gr

Sale 123 gr 125 gr

Wolfgang 132 gr 130 gr


Cara Penyusunan Tabel
Penyajian tabel ini bergantung dengan jenis informasi yang diinginkan. Terdapat banyak
cara penyusunan tabel antara lain :
1. Penyusunan secara alfabetis
2. Penyusunan secara geografis
3. Penyusunan menurut besaran angka-angkanya
4. Penyusunan secara historis
5. Penyusunan atas dasar kelas-kelas yang lazim
6. Penyusunan secara progresif
7. Tabel distribusi frekuensi
8. Tabulasi silang
Perhatikan!
1. Teknik penyusunan tabel
Pemilihan teknik penyusunan harus disesuaikan dengan informasi yang diinginkan dalam
pembuatan tabel.

2. Judul tabel
Judul tabel harus jelas menggambarkan karakteristik data dalam tabel.

3. Judul kepala tabel


Judul kepala tabel disesuaikan dengan uraian di bawahnya.

4. Sumber data
Sumber data harus jelas dan lengkap diletakkan di bawah tabel.
Perhatikan!
5. Persentase
Jika angka persentase dibutuhkan harus dihitung dengan perincian yang jelas.

6. Jumlah
Jika angka jumlah dalam tabel merupakan sesuatu yang penting harus ditonjolkan.

7. Unit pengukuran
Unit pengukuran data harus dicantumkan, e.g. tahun, Kg, Km, dsb.

8. Keterangan
Hal-hal lain yang perlu dicantumkan sebagai bentuk penjelasan. Pada umumnya berbentuk
catatan kaki (footnote) di bawah tabel.
Penyusunan Secara Alfabetis
Jumlah kecelakaan akibat kerja di 9 negara tahun 2005
Negara Jumlah Jika data jumlah kecelakaan akibat
kerja tersebut meliputi seluruh negara-
Amerika Serikat 2160
negara di dunia, maka teknik
Australia 2280
Belanda 780
penyusunan secara alfabetis ini
Cina 940 memudahkan pembaca untuk mencari
India 2760 data yang diinginkan
Inggris 960
Jepang 2150 Contoh lain tabel alfabetis
Kanada 1960
Spanyol 410 https://febpwt.webhosting.rug.nl/Dmn/
Jumlah Total 14400 AggregateXs/PivotShow#

Sumber : data hipotetik


Penyusunan Secara Geografis

https://www.sjkdt.org/viewimage.asp?img=SaudiJKidneyDisTranspl_2020_31_1_10_279928_t5.jpg
Penyusunan menurut besaran angkanya

https://www.pewresearch.org/fact-tank/2019/06/17/worlds-population-is-projected-to-nearly-stop-growing-by-the-end-of-the-century/
Penyusunan secara historis

https://www.semanticscholar.org/paper/A-comparative-study-on-application-of-time-series-Jha-
Sinha/1d2e15c7db73604cf3c0159735bf24222bb60d15/figure/0
Penyusunan atas dasar kelas lazim
Penyusunan secara progresif

https://ec.europa.eu/eurostat/statistics-explained/index.php?title=File:World_population_(mid-year)_(million).png
Tabel distribusi frekuensi
Tabel distribusi frekuensi adalah tabel yang memuat data frekuensi tadi tiap
variabel sehingga setiap case dalam tabel memuat frekuensi (atau kejadian -
occurrence) dari nilai tertentu.

Tabel distribusi frekuensi dapat memudahkan peneliti untuk memvisualisasikan


data yang tersaji dalam tabel menjadi, misalnya, line graph, bar chart, histogram,
dan lain-lain.

Berikut adalah contoh cara membuat tabel distribusi frekuensi.


Tabel Kontijensi
• Tabel distribusi frekuensi cocok digunakan untuk menyajikan data dari satu
variabel (univariat).
• Namun seringkali peneliti berkutat dengan data lebih dari satu variabel
(multivariat).
• Dalam kasus dua variabel (bivariat), maka tabel kontijensi adalah teknik
terbaik dalam menyajikan, bahkan untuk memproses data dalam kasus tertentu.
• Tabel kontijensi merupakan tabel (dalam format matriks) yang menyajikan
distribusi frekuensi dari dua variabel.
• Tabel kontijensi dapat membantu peneliti untuk mengestimasi kemungkinan
adanya keterkaitan antara dua variabel dan interaksi antara (kedua) variabel
tersebut.
• Peneliti juga dapat menghitung probabilitas kondisional.
Informasi dalam tabel kontijensi
Umumnya, tabel kontijensi berisi:
1. Kolom dan baris mewakili variabel yang berbeda. Misalnya, variabel
“menyukai/tidak menyukai K-Pop” sebagai kolom dan “gender” sebagai
baris.
a. Oleh karena itu, jenis variabel yang dapat disajikan dalam tabel kontijensi
adalah variabel nominal (kategorikal -- ingat materi minggu lalu tentang jenis
variabel!)
2. Jumlah kolom dan baris mengikuti jumlah kategori di tiap variabel.
Misalnya, variabel “gender” (untuk diletakkan sebagai baris) memiliki dua
kategori (laki-laki dan perempuan), sehingga akan ada dua baris.
Informasi dalam tabel kontijensi
4. Berisi nets atau netts, yang artinya subtotal pada bagian baris dan kolom.
5. Memuat informasi (seluruhnya atau sebagian); persentase, persentase kolom,
dan persentase baris.
6. Jumlah sampel (n)

Berikut ini adalah contoh tabel kontijensi dengan persentase baris dan kolom.
Menghitung berbagai bentuk probabilitas
Tabel kontijensi memungkinkan peneliti untuk menghitung berbagai bentuk
probabilitas, misalnya:
1. Rasio
a. Rasio adalah besaran relatif atau perbandingan dari dua nilai.
b. Dapat dihitung dengan membagi satu variabel skala interval atau rasio dengan
variabel lainnya, namun pembilang dan penyebut tidak harus berhubungan.
c. Oleh karena itu, kita dapat membandingkan rasio laki-laki dengan perempuan
dan rasio laki-laki dengan penggemar K-Pop.
d. Contoh rasio → “Rasio antara remaja putri yang menyukai K-Pop dengan yang
tidak adalah 5 : 1”
Menghitung berbagai bentuk probabilitas
2. Proporsi
a. Proporsi adalah perbandingan sebagian dengan keseluruhan.
b. Proporsi adalah jenis rasio di mana pembilang termasuk dalam penyebut.
c. Proporsi dapat dinyatakan sebagai desimal, pecahan, atau persentase.
d. Contoh proporsi → “35% penduduk Indonesia berusia 18-30 tahun mengalami
buta aksara fungsional.”
Menghitung berbagai bentuk probabilitas
3. Rate
a. Rate merupakan salah satu bentuk pengukuran frekuensi yang menggambarkan
suatu kejadian di suatu populasi dalam satu periode waktu tertentu.
b. Dalam Ilmu Epidemiologi, rate merupakan ukuran yang sangat informatif
karena rate memberikan informasi berapa banyak orang yang menderita
penyakit pada satu kelompok demografi (subpopulasi) tertentu.
c. Oleh karena itu, rate sering digunakan untuk menggambarkan tingkat risiko
(dalam menderita penyakit).
d. Contoh rate → “perempuan lebih berisiko menjadi korban begal karena pada
tahun 2020 saja, ada sekitar 300 perempuan korban begal per 1000 perempuan
di Indonesia.”
Berikut ini adalah contoh penghitungan dan interpretasi dari proporsi, rasio, dan
rate.
Korelasi dan tabel kontijensi
Tabel kontijensi juga dapat memungkinkan peneliti mengukur korelasi antara
dua variabel (nominal) dengan berbagai teknik, misalnya:
1. Odds ratio (OR)
2. Phi coefficient
3. Cramer’s V
4. Koefisien lambda
5. Tetrachoric dan polychoric correlation

Namun kelimanya tidak dicakup dalam mata kuliah ini.


Latihan Mandiri
1. Silakan kerjakan tugas yang ada di spreadsheet ini secara mandiri, diluar jam
perkuliahan, sebagai latihan mandiri.
2. Tugas tidak perlu dikumpulkan ke dosen pengampu.
3. Tugas tidak dinilai oleh dosen pengampu.
Visualisasi dan tata letak tabel
Berikut ini adalah beberapa tips mengatur tata letak tabel:
1. Perhatikan gaya penulisan ilmiah yang diikuti
a. Misalnya, tata letak tabel yang mengikuti gaya American Psychological
Association (APA) mungkin berbeda dengan American Medical Association
(AMA).
2. Kapan saatnya menggunakan garis vertikal sebagai batas antar kolom?
a. Umumnya, tabel disajikan dengan garis horizontal yang tegas (tanpa garis
vertikal). Itupun hanya untuk baris pertama sebagai pemisah antara nilai dengan
label kolom.
b. Anda hanya disarankan untuk menggunakan model spreadsheet (yaitu tabel
dengan garis vertikal dan horizontal yang tegas) ketika menyajikan tabel dengan
informasi yang padat.
Visualisasi dan tata letak tabel
3. Gunakan petunjuk visual
a. Anda dapat menggunakan warna latar (shading) yang berbeda untuk masing-
masing baris (atau sel) agar memudahkan pembaca untuk memeriksa tabel.
4. Gunakan tabular numeral ketika menyajikan informasi berupa angka agar
informasi lebih mudah dibaca
a. Gunakan font seperti Courier, Courier New, Lucida Console, Monaco, dst.
JENIS DATA DAN VISUALISASINYA
Materi Pertemuan ke-3
1. Skala data
2. Visualisasi data berdasarkan skala data
3. Interpretasi hasil visualisasi data
3
Skala Data
Nominal Ordinal Interval Rasio

Dapat Ö Ö Ö Ö
diklasifikasikan

Dapat diurutkan Ö Ö Ö

Dapat dihitung Ö Ö
selisihnya

Mempunyai titik Ö
nol mutlak

4
Nominal & Ordinal
(KATEGORIK)
• Data nominal & ordinal : mempunyai
kategori variabel.

• Contoh I :
– Jenis Kelamin -------- variabel
* Pria & Wanita ------ kategori data

5
• Contoh II :
– Kadar Kolesterol -------------variabel
• Rendah -------
• Normal -------- kategori data
• Tinggi --------

• Pertanyaan :
1. Apakah Anda melihat perbedaan contoh I & II ?
2. Contoh mana yang mempunyai skala nominal & mana
yang skala ordinal ?
3. Apa yang membedakan skala nominal & skala ordinal ?
4. Diskusikan ! Buat contoh-contoh yang lain !
6
• Berdasarkan kategori itulah dapat
dibedakan data nominal & variabel
ordinal;

• Data nominal : mempunyai kategori yang


“sederajat” (pria & wanita), data ini sifatnya
hanya bisa diklasifikasikan berdasarkan namanya saja

• Data ordinal : mempunyai kategori yang


“tidak sederajat” atau “kategori yang
bertingkat” 7
Penyajian Data
• Dalam penelitian, data yang dikumpulkan untuk
keperluan analisis harus disajikan sedemikian rupa
sehingga mudah dipelajari dan diambil informasi yang
diperlukan.
• Tujuan : memberikan gambaran yang baik dan
menyeluruh dari objek yang diteliti.
• Penyajian data menjadi penting karena peneliti harus
bisa memilih cara penyajian data yang tepat agar data
yang dimiliki lebih dapat dipahami oleh pembacanya.
Visualisasi Data
• Bentuk data nominal dan ordinal
dapat divisualisasikan menggunakan
beberapa cara:
1. Bar graph
2.Pie chart
3.Line graph

9
Bar Graph
• Bar graph atau grafik batang
merupakan grafik untuk menampilkan
data kategorik. Bar chart digunakan
jika kita ingin membandingkan data
antar kategori dan melihat frekuensi
atau besaran dari kategori/variabel
tersebut. Bar chart dapat disajikan
dalam bentuk vertikal maupun
horizontal. 11
Pie Chart
• Pie chart atau diagram lingkaran merupakan
grafik yang paling sederhana dan paling sering
digunakan dalam memvisualisikan komposisi dari
data kita. Pie chart dapat digunakan untuk data
nominal dan ordinal (data kategorik). Diagram
lingkaran mewakili angka dalam persentase, dan
jumlah total semua segmen harus sama dengan
100%. Yang perlu diperhatikan dalam pembuatan
pie chart adalah jangan memasukkan terlalu
banyak kategori agar dapat terlihat perbedaan
antar komposisinya.
12
Line Chart
• Line chart atau grafik garis merupakan chart
yang pada umumnya digunakan untuk
mengilustrasikan trend atau menggambarkan
hubungan dalam bagaimana data berubah dalam
periode waktu tertentu. Kita dapat melihat pola
dan fluktuasi dalam data, membandingkan
variabel, dan membuat proyeksi dari data kita.
Tipe data yang dapat digunakan dalam line chart
umumnya adalah kontinum, namun line chart juga
dapat digunakan untuk data diskrit (misalnya
jumlah data per kategori variable dalam beberapa
periode waktu) 13
Grafik yang menyesatkan →
jangan ditiru

Terlihat seperti terjadi


peningkatan yang luar
biasa.
Tetapi perhatikan sumbu
y tidak dimulai dari 0

Misleading Graphs: Real Life Examples - Statistics How To


Grafik yang menyesatkan →
jangan ditiru

Terlihat seperti ada


perbedaan 3 kali lipat
antara demokrat dengan
republikan dan
independen
Tetapi perhatikan sumbu
y tidak dimulai dari 0

Misleading Graphs: Real Life Examples - Statistics How To


Grafik yang menyesatkan →
jangan ditiru
Letak tidak
sesuai skala
pada sumbu

Nilai 8.6% tidak diletakkan sesuai skala pada sumbu Y sehingga


terlihat tidak terjadi penurunan
Misleading Graphs: Real Life Examples - Statistics How To
Grafik yang menyesatkan → jangan ditiru
Grafik 3 dimensi membuat
Pie chart tidak berjumlah 100% artritis terlihat lebih banyak
daripada high blood pressure

How to Mislead with Graphs. By Gwenyth Brockman | by CHI KT Platform | KnowledgeNudge | Medium
RATIO & INTERVAL
• Data interval & ratio : tidak berupa kategori
• Data interval adalah, data yang didapatkan
dengan cara pengukuran. Dimana jarak antara
dua titik di dalam skala sudah diketahui.
• Ukuran rasio atau data rasio yaitu ukuran yang
memberikan keterangan mengenai nilai absolut
dari objek yang diukur.

18
• Contoh III :
– Suhu
– Kecerdasan (IQ)

• Contoh IV :
– Berat,
– tinggi,
– jarak,
– waktu,
– volume
19
• Pertanyaan :
1. Apakah anda melihat perbedaan contoh
III & IV ?
2. Contah mana yang merupakan data
interval & contoh mana yang data ratio ?
3. Apa yang membedakan data interval &
data ratio ?
4. Diskusikan ! Buat contoh-contoh yang lain
!

20
• Anda dapat membedakan kedua variabel tsb
berdasarkan “nilai nolnya”;
• Apabila data pengukuran mempunyai nilai nol
alami/mutlak, maka disebutnya sebagai data
ratio (misalnya berat & tinggi badan, jarak);
• Apabila data tidak mempunyai nilai nol
alami/mutlak, disebut data Interval (misalnya
suhu, IQ)

21
Skala data apa saja yang ada dalam contoh diatas?
Reference : Andi Field. 2016. An Adventure in Statistics. SAGE. London
Visualisasi Data
• Histogram, grafik ini
ditampilkan dalam
bentuk beberapa bar
atau batang yang
mewakili rentang-
rentang data. Tinggi
setiap bar menunjukkan
seberapa banyak data
ada di rentang tersebut.

24
Beda Histogram dengan bar chart

Diskusikan : Mana yang merupakan bar chart, mana yang


histogram? Kenapa?
Beda histogram dengan bar chart
• Histogram untuk variabel numerik, bar chart untuk
variabel kategorik
• Bentuk histogram lebih padat dan rapat.
Tahapan Menyusun Histogram
1. Menyusun distribusi frekuensi. Langkah menyusun
distribusi frekuensi
a. Menentukan jumlah kelas
b. Memasukkan angka-angka dalam kelas yang
sesuai kemudian menghitung frekuensinya
c. Membuat tabel distribusi frekuensi
2. Menyusun histogram berdasarkan distribusi
frekuensi

27
Cara Penentuan jumlah kelas

1. Jumlah kelas hendaknya jangan terlalu kecil dan


terlalu besar
2. Besar interval dalam tiap kelas hendaknya sama
serta dalam bilangan yang praktis
3. Penentuan batas kelas sebaiknya diusahakan
tidak ada satupun data yang tidak dapat
dimasukkan ke dalam kelas-kelas dan tidak
terdapat keragu-raguan dalam memasukkan data
kedalam kelas-kelas 28
Penentuan Jumlah Kelas
Penentuan jumlah kelas menurut Sturgess (1926)
k = 1 + 3,322 log n
Dimana :
k = jumlah kelas
n = jumlah data
Rumus besar interval kelas :
Jarak = nilai terbesar – nilai terkecil

29
Penentuan batas kelas
1. Penentuan jarak untuk menentukan jumlah kelas dan
interval kelas sebaiknya dilakukan atas dasar perbedaan
angka terendah yang telah mengalami pembulatan ke
bawah dan angka tertinggi yang telah mengalami
pembulatan ke atas
2. Pengulangan penggunaan batas kelas atas bagi batas
kelas bawah berikutnya dihindari
3. Batas kelas sebaiknya menggunakan bilangan bulat
Contoh penggunaan aturan Sturgess.
Diketahui data-data sebagai berikut:
42 62 59 46 53 60 65 72 51 53 61 63 69 64 65 67 72 91 52 59
69 72 88 65 65 75 67 78 81 47 79 55 62 32 71 67 62 54 66 69
•N = 40 data
•Data terkecil = 32, data terbesar = 91
•Range = 91 - 32 = 59
•Banyak kelas k = 1 + 3,322 log 40 = 6,3. Dibulatkan k = 6 kelas
•Panjang interval kelas = ⁵⁹/₆ = 9,8 dibulatkan menjadi 10
•Batas bawah kelas pertama = 32, batas atas kelas pertama = 41
Rumus Sturgess tidak sesuai jika digunakan dalam data yang
jumlahnya terlalu sedikit atau terlalu banyak

Penentuan jumlah kelas,


interval kelas dan batas
kelas sangat tergantung
dengan peneliti
Tabel Distribusi Frekuensi
Nilai Ujian Jumlah
Mahasiswa
20,00 – 29,99 IIII 4
30,00 – 39,99 IIII IIII 9
40,00 – 49,99 IIII IIII IIII II 17
50,00 – 59,99 IIII IIII IIII IIII IIII IIII 30
60,00 – 69,99 IIII IIII 10
70,00 – 79,99 IIII 5

Jumlah 75
Histogram Frekuensi
Visualisasi Data :
Scatterplot
• Scatterplot adalah salah satu tipe grafik yang
menampilkan titik-titik dalam koordinat Cartesian
untuk menunjukkan hubungan antar dua dataset.
• Misalnya, pada suatu kecamatan dikumpulkan data
berat badan dan usia sejumlah balita. Data ini
digambarkan di scatterplot berikut. Sumbu X
menunjukkan umur balita, dan sumbu Y
menunjukkan berat badan. Terlihat ada banyak
balita yang berusia 10 bulan ternyata memiliki
berat badan antara 7 hingga 10 kg 35
Contoh Scatter Plot

36
Visualisasi Data :
Stem and Leaf Plot
• Stem-leaf plot merupakan alat untuk menyajikan data kuantitatif
dalam format grafis, mirip dengan histogram, yaitu
untuk membantu dalam memvisualisasikan bentuk distribusi data
yang sering digunakan dalam analisis eksplorasi.
• Stem-and-leaf plot memberikan informasi lebih banyak tentang
nilai yang sebenarnya dibanding histogram. Seperti dalam
histogram, panjang setiap batang sesuai dengan jumlah kejadian
yang jatuh ke dalam interval tertentu. Pada Histogram. kita hanya
bisa melihat nilai frekuensi dari data namun kita tidak tahu berapa
nilai angka sebenarnya. Berbeda dengan histogram, pada SLP selain
kita bisa mengetahui nilai frekuensinya, kita pun bisa tau berapa
nilai data sebenarnya. Hal ini dilakukan dengan membagi nilai-nilai
yang diamati menjadi dua komponen, stem dan leaf.
38
• Stem-and-leaf plot menggambarkan/menyajikan data
dengan cara memisahkan setiap nilai menjadi dua bagian:
bagian batang (stem) yaitu digit angka paling kiri dan diikuti
dengan angka berikutnya, yaitu daun (leaf), digit angka
paling kanan.
• Tujuan utama Stem-and-leaf plot:
- Apakah pola pengamatan simetris?
- Penyebaran atau variasi dari data pengamatan.
• Apakah terdapat pencilan (outlier, nilai-nilai yang berada
jauh dari yang lainnya).
• Titik pemusatan data.
• Ada Lokasi yang merupakan gap (kesenjangan dalam data)

39
Stem and Leaf Plots

40
Keterangan Stem and Leaf Plot

Diagram Keterangan
Dahan Daun
4 9 Memuat data 49
5 578 Memuat data 55,57,58
6 12347 Memuat data 61,61,63,64,67
7 2333558 Memuat data 72,73,73,73,73,75,75,78
8 355 Memuat data 83,85,85
9 1 Memuat data 91

41
21 30 34 41 43 46 50 57 61
23 31 35 41 44 47 52 58 67
23 32 35 42 45 48 52 59 70
25 33 35 42 45 48 55 59 77
26 33 38 43 46 50 57 60 78

Contoh stem and leaf plot dengan 2 baris stem yang digunakan.
Banyaknya stem bergantung dengan jumlah data. Peneliti yang
memutuskan berapa banyak stem yang digunakan. 42
Diskusi
Apa berbedaan visualisasi data dengan skala data
kategorikal (nominal & ordinal) dan skala data kuantitatif
(internal & ratio)?

43
Jenis Data & Fungsinya
JENIS DATA FUNGSI
Nominal Untuk identifikasi,
klasifikasi & kategorisasi.
Ordinal Penjenjangan kualitatif.
Interval Dapat dihitung jaraknya.
Ratio Memiliki angka nol mutlak

44
SOME ASPECTS OF SCALES OF MEASUREMENT
Nominal Ordinal Interval Ratio
Mathematical Identity Identity Identity Identity
properties Magnitude Magnitude Magnitude
Equal interval Equal interval
True zero point
Mathematical None Rank order Add Add
operations Subtract Subtract
Multiply
Divide
Type of data Nominal Ordered Score Score
Typical statistics Chi-square Sign test t-test t-test
used Mann-Whitney Anova Anova
U-test
Examples Diagnostic Socioeconomi IQ test scores Weight
categories c class Personality & Length
Brand name Rank attitude scales Reaction time 45
TERIMA KASIH

You might also like