100% menganggap dokumen ini bermanfaat (1 suara)
383 tayangan185 halaman

BKPM Workshop Visualisasi Data

Instalasi dan penggunaan tools 1 membahas tentang instalasi Python dan penggunaannya untuk berbagai keperluan seperti pengembangan website, IoT, analisis data, machine learning, dan pengembangan game.
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
100% menganggap dokumen ini bermanfaat (1 suara)
383 tayangan185 halaman

BKPM Workshop Visualisasi Data

Instalasi dan penggunaan tools 1 membahas tentang instalasi Python dan penggunaannya untuk berbagai keperluan seperti pengembangan website, IoT, analisis data, machine learning, dan pengembangan game.
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 185

BKPM

(BUKU KERJA PRAKTIK MAHASISWA)

WORKSHOP VISUALISASI DATA

SEMESTER

OLEH :
Hermawan Arief Putranto, ST, MT.
Mukhamad Angga Gumilang, S. Pd., M. Eng.
Dia Bitari Mei Yuana, S.ST., M.Tr.Kom.

PROGRAM STUDI MANAJEMEN INFORMATIKA


JURUSAN TEKNOLOGI INFORMASI

POLITEKNIK NEGERI JEMBER


TAHUN 2021
KEMENTERIAN PENDIDIKAN DAN KEBUDAYAAN
POLITEKNIK NEGERI JEMBER

LEMBAR PENGESAHAN

WORKSHOP VISUALISASI DATA

Mengetahui,
Koordinator Program Studi, Koordinator,

Ika Widiastuti, S.ST, MT Hermawan Arief Putranto, ST, MT


NIP.19780819 200501 2 001 19830109 201803 1 001

Menyetujui,
Ketua Jurusan,

Hendra Yufit Riskiawan, S.Kom., M.Cs


NIP. 19830203 200604 1 003

1
KATA PENGANTAR

Puji Syukur kehadirat Tuhan Yang Maha Esa karena atas limpahan rahmat-
Nya sehingga kami dapat menyelesaikan Buku Kerja Praktim Mahasiswa (BKPM)
Workshop Visualisasi Data. Materi Workshop terdiri dari Instalasi dan penggunaan
tools, python dasar, library numpy, library pandas, library scikit learn, library
seaborn, data preparaton, statistic discriptif, Pie Chart, Bar Chart, Line Graphs,
Scatter Plot, Heatmap, Hystogram, Correlation, Grouping, ANOVA, serta
penerapan dari visualisasi data. BKPM ini disusun berdasarkan metode Student
Center Learning yaitu menempatkan mahasiswa sebagai pusat kegiatan belajar.
BKPM ini terdiri dari Pokok Bahasan, Acara Praktikum, Tempat, Alokasi Waktu,
Capaian Pembelajaran Mata Kuliah (CPMK), Indikator, Dasar Teori, Alat dan
Bahan, Prosedur Kerja, Hasil dan Pembahasan, Kesimpulan, Rubrik Penilaian.
Kami menyadari masih banyak kekurangan dalam penyusunan BKPM ini.
Oleh karena itu, kami sangat mengharapkan kritik dan saran demi perbaikan dan
kesempurnaan modul ini. Kami mengucapkan terima kasih kepada berbagai pihak
yang telah membantu proses penyelesain BKPM ini. Semoga BKPM ini dapat
bermanfaat bagi kita semua.

Jember, 1 Juli 2020

Tim Penulis

2
DAFTAR ISI

LEMBAR PENGESAHAN 1
KATA PENGANTAR 2
DAFTAR ISI 3
Acara 1 Installasi dan Penggunaan Tools 1 1
Acara 2 Installasi dan Penggunaan Tools 2 7
Acara 3 Python Dasar 1 16
Acara 4 Python Dasar 2 22
Acara 5 Library 1 Numpy 29
Acara 6 Library 2 Pandas 34
Acara 7 Library 3 Matplotlib 46
Acara 8 Library 4 Seaborn 47
Acara 9 Data Preparation 1 48
Acara 10 Data Preparation 2 49
Acara 11 Statistik Deskriptif 1 50
Acara 12 Statistik Deskriptif 2 51
Acara 13 Statistik Deskriptif 3 52
Acara 14 Statistik Deskriptif 4 53
Acara 15 Pie Chart 54
Acara 16 Bar Chart 55
Acara 17 Line Graphs 56
Acara 18 Scatter Plot + Heatmap 57
Acara 19 Hystogram 58
Acara 20 Correlation 59
Acara 21 Grouping 60
Acara 22 ANOVA 61
Acara 23 Project 1 62
Acara 24 Project 2 65
Acara 25 Project 3 68
Acara 26 Project 4 72
Acara 27 Project 5 74
Acara 28 Project 6 76

3
Minggu ke - Pertemuan Ke-1 (4JP) Pertemuan-2 (4JP)

1 Instalasi dan penggunaan Tools 1 Instalasi dan penggunaan Tools 2

2 Python Dasar 1 Python Dasar 2

3 Library 1 Numpy Library 2 Pandas

4 Library 3 Matplotlib Library 4 Seaborn

5 Data Preparation Data Preparation

6 Statistik Deskriptif 1 Statistik Deskriptif 2

7 Statistik Deskriptif 3 Statistik Deskriptif 4

8 UTS

9 Pie Chart Bar Chart

10 Line Graphs Scatter Plot + Heatmap

11 Histogram Correlation

12 Grouping ANOVA

13 Project / Studi Kasus 1 Project / Studi Kasus 2

14 Project / Studi Kasus 3 Project / Studi Kasus 4

15 Project / Studi Kasus 5 Project / Studi Kasus 6

16 UAS

4
Acara 1
Pokok Bahasan : Instalasi dan Penggunaan Tools 1
Acara Praktikum/Praktek: Minggu 1/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu melakukan installasi python
• Mahasiswa mampu memahami dan mengimplementasi penggunaan tools
(Python)

b. Indikator
• Ketepatan dalam melakukan installasi python
• Ketepatan dalam memahami dan mengimplementasi penggunaan tools
(Python)

c. Dasar Teori
Python adalah bahasa pemrograman tingkat tinggi yang ditafsirkan,
berorientasi objek, dengan semantik dinamis. Tingkat tinggi yang dibangun dalam
struktur data, dikombinasikan dengan pengetikan dinamis dan pengikatan dinamis,
membuatnya sangat menarik untuk Pengembangan Aplikasi Cepat, serta untuk
digunakan sebagai bahasa scripting atau lem untuk menghubungkan komponen
yang ada bersama- sama. Sintaksis Python yang sederhana dan mudah dipelajari
menekankan keterbacaan dan karenanya mengurangi biaya pemeliharaan program.
Python mendukung modul dan paket, yang mendorong modularitas program dan
penggunaan kembali kode (kode reuse). Interpreter Python dan pustaka standar
yang luas tersedia dalam bentuk sumber atau biner tanpa biaya untuk semua
platform utama, dan dapat didistribusikan secara bebas.
Keunggulan Python yang bersifat interpretatif juga banyak digunakan untuk
prototyping, scripting dalam pengelolaan infrastruktur, hingga pembuatan website
berskala besar. Selain itu juga terdapat keunggulan lain diantaranya adalah:
● Bahasa Python menjadi keharusan untuk Anda yang ingin mempelajari dasar-
dasar scripting dan pengolahan data atau machine learning.
● Bahasa Python digunakan secara luas, masuk dalam 3 besar bahasa
pemrograman yang digunakan dalam beberapa tahun belakangan.
● Pustaka (Library) yang luas, memungkinkan Anda mengembangkan ke
bidang-bidang lainnya. Beberapa library atau framework terpopuler data
science dan machine learning menggunakan Python antara lain: Scikit-Learn,
TensorFlow, PyTorch.
1
● Bahasa Python memiliki kurva pembelajaran (learning-curve) yang sangat
landai, cocok untuk dipelajari sebagai bahasa pemrograman pertama -
dengan kemudahan pembacaan dan kemudahan mempelajari sintaksisnya.
Berikut adalah beberapa kegunaan Python sehingga penting untuk dipelajari!
1. Pengembangan website
Dalam membangun bisnis, adanya website tentu menjadi unsur penting di
dalamnya. Selain sebagai pemberi informasi kepada calon konsumen, website juga
menunjukkan kredibilitas perusahaan. Tak jarang, berbagai website untuk bisnis pun
diberikan berbagai macam fitur agar pengunjung dapat lebih memahami bisnis yang
dijalankan. Untuk mengembangkan suatu website agar lebih intuitif dan menarik,
menggunakan Python akan mempermudah prosesnya.
2. Pengembangan IoT
Hal lain yang menunjukan pentingnya Python adalah pengembangan internet
of things (IoT). Internet of things adalah sebuah sistem di mana berbagai benda atau
peralatan dapat berkomunikasi satu sama lain dengan piranti internet. Untuk
mengembangkan hal tersebut, Python digunakan karena berbagai kemudahan dan
fleksibilitasnya.
3. Penambangan data
Hal lain yang termasuk dalam kegunaan Python adalah pengaturan dan
pembersihan data. Python dianggap sebagai salah satu bahasa pemrograman terbaik
untuk mengerjakannya. Selain itu, pembelajaran mesin dengan Python
menyederhanakan analisis data dengan menggunakan algoritma.
4. Pengembangan machine learning
Masih berkaitan dengan penambangan data, dalam menjalankan machine
learning akan dibutuhkan beragam data untuk diinput. Beragam data yang masuk
kemudian diolah untuk menjadi suatu tindakan yang dilakukan oleh mesin tersebut.
Dalam prosesnya, untuk mempermudah proses ini bahasa pemrograman Python-lah
yang digunakan.
5. Pengembangan game
Ternyata, Python juga berguna untuk mengembangkan game yang kamu
mainkan. Dalam Python, terdapat program yang bernama GUI. Antarmuka pengguna
grafis (graphical user interface/GUI) memungkinkan orang untuk berinteraksi
dengan komputer menggunakan elemen visual seperti ikon atau gambar alih-alih
perintah berbasis teks. Inilah yang membuat game yang kamu mainkan menjadi
lebih atraktif dan menantang.
6. Python untuk fintech
Pentingnya Python tergambar juga dalam pengembangan fintech. Dengan
menggunakan Python, aplikasi dan berbagai fitur yang ada di fintech akan lebih

2
aman. Selain itu, karena fintech memerlukan pengoperasian yang cepat, Python-lah
yang digunakan seiring dengan kemampuannya untuk mendukung hal itu.

d. Alat dan Bahan


1. Kertas Folio
2. Spidol Hitam
3. Kertas A0
4. Papan tulis portable tripod
e. Prosedur Kerja
➔ Buka CMD Sebelum menginstal python.
➔ Python yang akan diinstal dalam panduan ini adalah python versi 3. Unduh di situs
resmi python (python.org).

➔ Buka File python-3.msi


➔ Setelah download selesai, kita akan mendapatkan file python- 3.4.2.msi. File
python-3.4.2.msi adalah file instalator python. File ini akan melakukan instalasi ke
sistem windows Klik ganda untuk meng-eksekusinya.

3
➔ Pilih Pengguna
➔ Pada tahapan ini kita akan diminta untuk memilih siapa saja yang boleh memakai
python Pilih saja ‘Install for all users’ agar bisa dipakai untuk semua user di
komputernya

➔ Lokasi Instalasi
➔ Tentukan lokasi python akan diinstal. Biarkan saja di C:\python34\, kemudian klik
next.
➔ Kostumisasi

4
➔ Pada tahapan ini, kita akan menentukan fitur-fitur yang akan diinstal.
➔ Jangan lupa untuk mengaktifkan ‘Add python.exe to path’ agar perintahpython
dikenali pada CMD (Command Prompt).

➔ Klik finish untuk menyelesaikan.

Testing
➔ Pertama, kita coba dulu membuka Python Shell. Silahkan buka Start Menu
kemudian cari Python Shell.

➔ Kemudian kita coba Python dari CMD, ketik perintah python untuk masuk ke
Python Shell dari CMD.

5
f. Hasil dan Pembahasan
Membuat laporan dari hasil installasi tools python pada laptop/pc masing-masing
dan berikan penjelasan dengan ketentuan format laporan sebagai berikut :
• Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V,
logo polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/

g. Kesimpulan
Penjelasan dari installasi dan penggunaan tools Python

h. Rubrik Penilaian

No. Indikator Skor

Ketepatan waktu dan ketepatan dalam menjelaskan dari tugas 4


1 1 2 3
ditunjang dengan bukti referensi

2 Ketepatan waktu dan ketepatan dalam menjelaskan dari tugas 1 2 3 4

3 Ketepatan waktu akan tetapi kurang tepat dalam menjelaskan tugas 1 2 3 4

Keterlambatan pengumpulan tugas dan ketidaktepatan dalam 1


4 2 3 4
menjelaskan tugas

Jumlah Skor

6
Acara 2
Pokok Bahasan : Installasi dan Penggunaan Tools (Jupyter Notebook)
Acara Praktikum/Praktek: Minggu 1/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu melakukan installasi penggunaan tools yaitu Jupyter
Notebook
• Mahasiswa mampu memahami dan mengimplementasi penggunaan tools
(Jupyter Notebook)

b. Indikator
• Ketepatan dalam melakukan installasi Jupyter Notebook
• Ketepatan dalam memahami dan mengimplementasi penggunaan tools
(Jupyter Notebook)

c. Dasar Teori
Jupyter (https://jupyter.org/) adalah organisasi non-profit untuk
mengembangkan software interaktif dalam berbagai bahasa pemrograman.
Notebook adalah satu software buatan Jupyter, adalah aplikasi web open-source
yang memungkinkan Anda membuat dan berbagi dokumen interaktif yang berisi
kode live, persamaan, visualisasi, dan teks naratif yang kaya.
Mungkin penjelasan di atas kurang jelas. Sebagai gambaran. dulu, biasanya
kita membagikan kode dan dokumen secara terpisah. Kode-kode kita satukan dalam
sebuah library/aplikasi/proyek (Visual Studio, Eclipse, dsb), dan dokumen kita buat
dengan penyunting kata. Dalam dokumen bisa tampilkan cuplikan kode, tampilan
hasil, dan visualisasi lainnya dari program kita. Jupyter Notebook menyatukan semua
ini, baik itu teks/narasi, kode hidup, persamaan, tampilan hasil, gambar statis, dan
visualisasi grafis, dalam satu file interaktif. Dan, kelebihan lainnya, notebook dapat
dijalankan ulang oleh siapapun yang membukanya, untuk me-reproduksi eksekusi
kode di dalamnya.
Contohnya adalah dokumen ini sendiri. Dokumen ini aslinya adalah sebuah
Jupyter Notebook. Mungkin Anda membacanya di blog IndoML, karena notebook ini
telah dikonversi menjadi blog WordPress dengan menggunakan utilitas nb2wp. Anda
bisa melihat file aslinya di GitHub, dan akan tampak keluaran yang sama.
Keistimewaan dari dokumen ini adalah kemampuannya membawa kode hidup (live
code). Seperti di bawah ini.

7
Kode di atas bukan sekedar cuplikan tulisan kode di dokumentasi, tapi adalah kode
hidup. Kalau Anda melihat tulisan ini di blog IndoML atau di GitHub, memang yang
Anda lihat adalah tampilan statis dari eksekusi terakhir ketika notebook ini disimpan.
Ibaratnya Anda sedang melihat sebuah dokumen. Tampilannya tidak akan berubah.
Tapi kalau Anda menjalankan file notebook ini di instalasi Jupyter Anda, maka Anda
bisa menjalankan kode di atas dan nanti akan keluar tampilan waktu yang berbeda
tentunya!
Jenis keluaran kode yang didukung juga tidak sebatas teks sederhana seperti
di atas. Bisa juga grafik seperti ini:

Bisa juga menampilkan tabel/DataFrame pandas misalnya seperti ini:

8
d. Alat dan Bahan
1) Kertas Folio
2) Spidol Hitam
3) Kertas A0
4) Papan tulis portable tripod

e. Prosedur Kerja
Petunjuk Instalasi Jupyter Notebook
Ada beberapa cara untuk menginstall Jupyter, tapi menurut saya yang paling praktis
adalah menggunakan pip. Cukup jalankan perintah ini di Terminal (Mac/Linux) atau
Command Prompt (Windows):

Alternatifnya, kalau Anda mengalami kesulitan menginstall dengan cara di atas,


mungkin bisa dicoba cara ini:

Menjalankan Jupyter Notebook


Untuk menjalankan Jupyter Notebook, jalankan perintah di bawah ini di Terminal
(Mac/Linux) atau Command Prompt (Windows) dari direktori yang menaungi semua
direktori proyek-proyek Anda (misalnya Anda mempunyai dua proyek yaitu di
C:\project\project1 dan C:\project\project2, maka jalankan dari direktori C:\project
agar Anda bisa mengakses kedua proyek tersebut dari Jupyter).

9
Setelah beberapa saat, jupyter akan membuka laman http://localhost:8888/ yang
merupakan laman depan dari instalasi Jupyter notebook Anda (disebut laman
Notebook Dashboard).

Notebook Dashboard
Laman ini menampilkan semua direktori dan file yang ada di direktori di mana
Jupyter dijalankan. Di tempat saya tampilannya seperti ini:

Membuat Notebook Baru


Klik tombol New, lalu pilih Python 3 seperti pada gambar di bawah ini:

● Judul
Yang pertama harus Anda sunting adalah judul. Masukkan judul dengan
mengklik tulisan Untitled di atas. Harap diperhatikan bahwa judul ini akan
menjadi nama file notebooknya juga.
● Sel dan Jenis Sel
Setelah itu, bagian penting yang Anda harus ketahui adalah sel (Inggris: cell)
(lihat gambar di atas). Sel adalah tempat Anda menuliskan karya Anda, baik
berupa narasi ataupun kode. Nantinya notebook akan berisi banyak sel. Saat
ini notebook hanya mempunyai satu sel. Jenis sel Anda pilih dengan memilih
pada dropdown jenis sel seperti yang ditunjukkan pada gambar. Pada
awalnya, jenis sel adalah kode.

10
Untuk sel pertama, sebaiknya kita isi dengan narasi awal tentang karya kita,
misalnya judul, pendahuluan, dsb. Ikuti petunjuk berikut.

Menulis Narasi dengan Markdown


Untuk menulis narasi, gantilah jenis sel menjadi Markdown dari pilihan
dropdown jenis cell di atas. Lalu tulislah judul dan narasi awal untuk karya Anda,
misalnya seperti ini:

Ketika kita menyunting sel seperti ini, maka sel disebut sedang dalam mode edit.
Perhatikan garis kotak hijau yang mengelilingi sel. Pada mode ini, untuk sel
Markdown kode sumber Markdownnya akan ditampilkan. Untuk menampilkan hasil
tulisan Markdown kita itu, sel harus dijalankan.
Menjalankan Sel
Untuk melihat tampilan sebuah sel, maka sel itu harus kita jalankan, dengan
salah satu cara berikut (kalau selnya masih belum mendapatkan fokus, maka kliklah
sekali agar dia fokus):

Menjalankan sel mempunyai makna yang berbeda tergantung jenis selnya.


Untuk jenis sel Markdown, maka ini akan merubah kode Markdown itu menjadi
tampilan yang diharapkan (dirender). Untuk jenis sel kode, maka kodenya akan
dijalankan oleh kernel, perubahan state akan disimpan oleh kernel, dan hasilnya
ditampilkan di notebook.
Sebagai tambahan informasi, ada cara untuk menjalankan semua sel yang
bisa Anda lihat di menu Cell:
● Run All
● Run All Above
● Run All Below

11
Menjalankan Sel Markdown
Mari kita eksekusi sel Markdown kita di atas, dan hasilnya akan seperti ini:

Setelah sel dieksekusi, maka sel disebut ada dalam mode command. Perhatikan garis
kotak biru yang mengelilingi sel.
Menyunting Kembali
Ketika sel dalam mode command, untuk menyunting kembali di mode edit
Anda bisa mengklik ganda sel itu atau mengklik sekali untuk menjadikan sel itu fokus
lalu menekan Enter. Selanjutnya mari kita membuat sel baru bertipe kode.
Tambahkan sel baru dengan memilih menu Insert –> Insert Cell Below, atau dengan
menekan tombol + dari toolbar. Secara default, jenis sel baru adalah kode jadi kita
tidak perlu merubah jenisnya.
Menulis dan Menjalankan Kode
Mari kita sunting sel kode seperti di bawah ini:

Perhatikan juga bahwa untuk jenis sel kode, ada braket kotak di sebelah kiri sel,
bertuliskan “In [ ]:“. Braket kotak ini nanti akan diisi angka urutan eksekusi setelah
selnya dieksekusi. Mari kita jalankan. Hasilnya akan seperti ini:

12
Menyimpan Notebook
Untuk menyimpan notebook, Anda bisa melakukan salah satu di bawah ini:
● tekan kunci Ctrl+S (atau Cmd+S di Mac)
● pilih dari menu File –> Save and Checkpoint
● tekan tombol disket dari toolbar
Menutup Notebook
Untuk menutup notebook, pilih dari menu File –> Close and Halt. Kadang-
kadang window/tab browser tidak tertutup setelah Anda melakukan itu. Anda bisa
menutup tab/window browser secara manual.
Membuka Kembali Notebook
Anda bisa membuka notebook dari Notebook Dashboard dengan mengklik
notebooknya:

13
f. Hasil dan Pembahasan
Tulis dan perhatikan output dari beberapa syntax berikut.

14
g. Kesimpulan
Penjelasan terkait Jupyter Notebook

h. Rubrik Penilaian

No Indikator Skor*

Ketepatan waktu dan ketepatan dalam menjelaskan dari tugas 4


1 1 2 3
ditunjang dengan bukti referensi

2 Ketepatan waktu dan ketepatan dalam menjelaskan dari tugas 1 2 3 4

3 Ketepatan waktu akan tetapi kurang tepat dalam menjelaskan tugas 1 2 3 4

Keterlambatan pengumpulan tugas dan ketidaktepatan dalam 1


4 2 3 4
menjelaskan tugas

Jumlah skor

15
Acara 3
Pokok Bahasan : Python Dasar 1 – Variabel dan tipe data
Acara Praktikum/Praktek: Minggu 2/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami dan menjelaskan variable dan tipe data

b. Indikator
• Ketepatan dalam memahami dan menjelaskan variabel dan tipe data

c. Dasar Teori
Python adalah bahasa pemrograman tingkat tinggi open source yang
dikembangkan oleh Guido van Rossum pada akhir 1980-an dan saat ini dikelola oleh
Python Software Foundation. Itu berasal dari bahasa ABC yang ia bantu ciptakan
sejak awal dalam kariernya. Python adalah bahasa yang kuat yang dapat Anda
gunakan untuk membuat game, menulis GUI, dan mengembangkan aplikasi web.
Ini adalah bahasa tingkat tinggi. Membaca dan menulis kode dengan Python
sama seperti membaca dan menulis pernyataan bahasa Inggris reguler. Karena
mereka tidak ditulis dalam bahasa yang dapat dibaca mesin, program Python perlu
diproses sebelum mesin dapat menjalankannya. Python adalah bahasa yang
ditafsirkan. Ini berarti bahwa setiap kali suatu program dijalankan, interpreter-nya
berjalan melalui kode dan menerjemahkannya ke dalam kode byte yang dapat dibaca
mesin. Python adalah bahasa berorientasi objek yang memungkinkan pengguna
untuk mengelola dan mengontrol struktur data atau objek untuk membuat dan
menjalankan program. Segala sesuatu di Python sebenarnya adalah kelas satu.
Semua objek, tipe data, fungsi, metode, dan kelas mengambil posisi yang sama
dalam Python.
Bahasa pemrograman diciptakan untuk memenuhi kebutuhan programmer
dan pengguna akan alat yang efektif untuk mengembangkan aplikasi yang
berdampak pada kehidupan, gaya hidup, ekonomi, dan masyarakat. Mereka
membantu membuat hidup lebih baik dengan meningkatkan produktivitas,
meningkatkan komunikasi, dan meningkatkan efisiensi. Bahasa mati dan menjadi
usang ketika mereka gagal memenuhi harapan dan digantikan dan digantikan oleh
bahasa yang lebih kuat. Python adalah bahasa pemrograman yang telah teruji oleh
waktu dan tetap relevan di berbagai industri dan bisnis dan di antara programmer,
dan pengguna individu. Ini adalah bahasa yang hidup, berkembang, dan sangat

16
berguna yang sangat direkomendasikan sebagai bahasa pemrograman pertama bagi
mereka yang ingin menyelam ke dalam dan mengalami pemrograman.

Kata kunci Python


Kata kunci Python adalah kata-kata yang dicadangkan dalam Python yang
tidak boleh digunakan sebagai variabel, konstan, nama fungsi, atau pengidentifikasi
dalam kode Anda. Perhatikan kata kunci ini jika Anda tidak ingin mengalami
kesalahan ketika Anda menjalankan program Anda:

Identifier di Python
Pengidentifikasi Python adalah nama yang diberikan ke fungsi, kelas, variabel,
modul, atau objek lain yang akan Anda gunakan dalam program Python Anda. Entitas
apa pun yang akan Anda gunakan dengan Python harus dinamai atau diidentifikasi
dengan tepat karena mereka akan menjadi bagian dari program Anda. Berikut adalah
konvensi penamaan Python yang harus Anda perhatikan:
● Identifier dapat berupa kombinasi huruf besar, huruf kecil, garis bawah, dan
digit (0-9). Oleh karena itu, berikut ini adalah pengidentifikasi yang valid:
myClass, my_variable, var_1, dan print_hello_world.
● Karakter khusus seperti%, @, dan $ tidak diperbolehkan dalam
pengidentifikasi.
● Identifier tidak boleh dimulai dengan angka. Oleh karena itu, 2variable tidak
valid, tetapi variabel2 dapat diterima.
● Python adalah bahasa yang case-sensitive dan perilaku ini meluas ke
pengidentifikasi. Dengan demikian, Buruh dan tenaga kerja adalah dua
pengidentifikasi yang berbeda dalam Python.
● Anda tidak dapat menggunakan kata kunci Python sebagai pengidentifikasi.

17
● Pengidentifikasi kelas dimulai dengan huruf besar, tetapi sisa pengidentifikasi
dimulai dengan huruf kecil.
● Anda dapat menggunakan garis bawah untuk memisahkan beberapa kata
dalam pengenal Anda.
● Anda harus selalu memilih pengidentifikasi yang masuk akal bagi Anda
bahkan setelah jeda yang panjang. Oleh karena itu, walaupun mudah untuk
mengatur variabel Anda ke c = 2, Anda mungkin merasa lebih bermanfaat
untuk referensi di masa mendatang jika Anda menggunakan nama variabel
yang lebih lama tetapi lebih relevan seperti jumlah = 2.

Kutipan
Python memungkinkan penggunaan tanda kutip untuk menunjukkan string
literal. Anda dapat menggunakan tanda kutip tunggal, ganda, atau tiga kali lipat
tetapi Anda harus memulai dan mengakhiri string dengan jenis yang sama. Yo akan
menggunakan kuotasi rangkap tiga ketika string Anda melintasi beberapa baris.

Pernyataan
Pernyataan adalah instruksi yang dapat dijalankan oleh juru bahasa Python.
Saat Anda menetapkan nilai ke variabel, katakanlah my_variable
= "dog", Anda membuat pernyataan penetapan. Pernyataan penugasan juga dapat
sesingkat c = 3. Ada jenis pernyataan lain dalam Python, seperti pernyataan if,
sedangkan statement, untuk statement, dll. Pernyataan dapat menjangkau beberapa
baris. Untuk mematahkan pernyataan panjang pada beberapa baris, Anda bisa
membungkus ekspresi di dalam tanda kurung, kurung kurawal, dan kurung. Ini
adalah gaya yang disukai untuk menangani ekspresi multi-line. Cara lain untuk
membungkus beberapa baris adalah dengan menggunakan garis miring terbalik (\)
pada akhir setiap baris untuk menunjukkan kelanjutan garis.

Indentasi
Sementara sebagian besar bahasa pemrograman seperti Java, C, dan C ++
menggunakan tanda kurung untuk menunjukkan blok kode, program Python disusun
melalui indentasi. Dalam Python, blok kode didefinisikan oleh indentasi bukan
sebagai masalah gaya atau preferensi tetapi sebagai persyaratan bahasa yang kaku.
Prinsip ini membuat kode Python lebih mudah dibaca dan dimengerti.
Satu blok kode dapat dengan mudah diidentifikasi ketika Anda melihat program
Python ketika mereka mulai pada jarak yang sama ke kanan. Jika harus di-nestle
lebih dalam, Anda bisa membuat indentasi blok lain lebih jauh ke kanan.

18
Komentar
Saat menulis sebuah program, Anda akan merasa terbantu jika menaruh
beberapa catatan di dalam kode Anda untuk menjelaskan apa yang dilakukannya.
Sebuah komentar sangat berguna ketika Anda harus meninjau atau mengunjungi
kembali program Anda. Ini juga akan membantu programmer lain yang mungkin
perlu membaca kode sumber. Anda dapat menulis komentar di dalam program Anda
dengan memulai baris dengan simbol hash (#). Simbol hash memberi tahu juru
bahasa Python untuk mengabaikan komentar saat menjalankan kode Anda. Untuk
komentar multi-baris, Anda dapat menggunakan simbol hash di awal setiap baris.
Atau, Anda juga dapat membungkus komentar multi-baris dengan tanda kutip tiga.

Variabel
Variabel seperti wadah yang menyimpan nilai yang dapat Anda akses atau
ubah. Ini adalah cara menunjuk ke lokasi memori yang digunakan oleh suatu
program. Anda dapat menggunakan variabel untuk menginstruksikan komputer
untuk menyimpan atau mengambil data ke dan dari lokasi memori ini.
Python berbeda secara signifikan dari bahasa seperti Java, C, atau C
++ ketika datang untuk berurusan dengan variabel. Bahasa lain mendeklarasikan
dan mengikat variabel ke tipe data tertentu. Ini berarti hanya dapat menyimpan tipe
data unik. Oleh karena itu, jika suatu variabel bertipe integer, Anda hanya dapat
menyimpan integer dalam variabel itu saat menjalankan program Anda. Python jauh
lebih fleksibel dalam menangani variabel. Jika Anda membutuhkan variabel, Anda
hanya perlu memikirkan nama dan mendeklarasikannya dengan memberikan nilai.
Jika perlu, Anda dapat mengubah nilai dan tipe data yang disimpan variabel selama
eksekusi program.

Tipe data
Python menangani beberapa tipe data untuk memfasilitasi kebutuhan
programmer dan pengembang aplikasi untuk data yang bisa diterapkan. Ini
termasuk string, angka, Boolean, daftar, tanggal, dan waktu

d. Alat dan Bahan


1) Kertas Folio
2) Spidol Hitam
3) Kertas A0
4) Papan tulis portable tripod

19
e. Prosedur Kerja
Variabel
Variabel adalah lokasi di memori yang digunakan untuk menyimpan nilai. Pada saat
kita membuat sebuah variabel, kita memesan tempat di dalam memori, di dalam
Bahasa pemrograman python kita langsung menginisialisasikan nama variabel dan
memberi nilai :

Tipe data
Integer dan Float
Kita bisa menggunakan fungsi type() untuk mengetahui tipe data suatu objek di
Bahasa pemrograman python python :

String
String adalah tipe data yang anggotanya berurut dan memiliki indeks. Indeks dimulai
dari angka 0 bila dimulai dari depan dan -1 bila di indeks dari belakang, [4:7] artinya
memesan data yang akan di tampilkan dimulai dari 4 dan pada batas 7 :

20
List
List adalah tipe data yang berisi satu atau beberapa nilai di dalamnya. Nilai – nilai
ini sering juga disebut item, elemen, atau anggota list, Variabel a adalah contoh
variabel yang diisi list, list ditulis dengan kurung siku [ ] :

Tuple
Tuple mirip dengan list. Bedanya, tuple bersifat immutable, sehingga anggotanya
tidak bisa diubah Variabel a adalah contoh variabel yang di isi tuple, tuple ditulis
dengan tanda kurung ( ) :

Set
Set adalah salah satu tipe data di Python yang tidak berurut (unordered). Set
memiliki anggota yang unik (tidak ada duplikasi). Jadi misalnya kalau kita
meletakkan dua anggota yang sama di dalam set, maka otomatis set akan
menghilangkan yang salah satunya

f. Hasil dan Pembahasan


Membuat laporan dari apa yang sudah dipelajari dengan ketentuan format laporan
sebagai berikut :
• Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V,
logo polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/

21
g. Kesimpulan
Penjelasan terkait variable dan tipe data

h. Rubrik Penilaian

No Indikator Skor*

Ketepatan waktu dan ketepatan dalam menjelaskan dari tugas 4


1 1 2 3
ditunjang dengan bukti referensi

2 Ketepatan waktu dan ketepatan dalam menjelaskan dari tugas 1 2 3 4

3 Ketepatan waktu akan tetapi kurang tepat dalam menjelaskan tugas 1 2 3 4

Keterlambatan pengumpulan tugas dan ketidaktepatan dalam 1


4 2 3 4
menjelaskan tugas

Jumlah skor

22
Acara 4
Pokok Bahasan : Python Dasar 2 - Struktur control dan fungsi
Acara Praktikum/Praktek: Minggu 2/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami dan menjelaskan struktur control dan fungsi

b. Indikator
• Ketepatan dalam memahami dan menjelaskan struktur control dan fungsi

c. Dasar Teori
Pengambilan Keputusan
Pengambilan keputusan adalah antisipasi kondisi yang terjadi saat
pelaksanaan program dan menentukan tindakan yang diambil sesuai dengan
kondisi. Struktur keputusan mengevaluasi beberapa ekspresi yang menghasilkan
BENAR atau SALAH sebagai hasil. Anda perlu menentukan tindakan mana yang
harus diambil dan pernyataan mana yang harus dieksekusi jika hasilnya BENAR
atau SALAH sebaliknya.
Berikut ini adalah bentuk umum dari struktur pengambilan keputusan tipikal
yang ditemukan di sebagian besar bahasa pemrograman

Pernyataan pengambilan keputusan dalam Python


Bahasa pemrograman Python mengasumsikan nilai-nilai non-nol dan non-nol
sebagai BENAR, dan jika bernilai nol atau nol, maka dianggap sebagai nilai SALAH.

23
Bahasa pemrograman Python menyediakan jenis-jenis pernyataan pengambilan
keputusan berikut.

Python - Loop
Secara umum, pernyataan dieksekusi berurutan: Pernyataan pertama dalam
suatu fungsi dieksekusi pertama, diikuti oleh yang kedua, dan seterusnya. Mungkin
ada situasi ketika Anda perlu mengeksekusi blok kode beberapa kali. Bahasa
pemrograman menyediakan berbagai struktur kontrol yang memungkinkan jalur
eksekusi yang lebih rumit.
Pernyataan loop memungkinkan kita untuk menjalankan pernyataan atau
grup pernyataan beberapa kali. Diagram berikut menggambarkan pernyataan loop

Bahasa pemrograman Python menyediakan jenis loop berikut untuk menangani


persyaratan looping

24
Fungsi
Fungsi adalah blok kode yang terorganisir dan dapat digunakan kembali yang
digunakan untuk melakukan tindakan tunggal yang terkait. Fungsi menyediakan
modularitas yang lebih baik untuk aplikasi Anda dan penggunaan kembali kode
tingkat tinggi. Seperti yang sudah Anda ketahui, Python memberi Anda banyak
fungsi built-in seperti print (), dll. Tetapi Anda juga bisa membuat fungsi sendiri.
Fungsi-fungsi ini disebut fungsi yang ditentukan pengguna.

Mendefinisikan suatu Fungsi


Anda dapat menentukan fungsi untuk menyediakan fungsionalitas yang
diperlukan. Berikut adalah aturan sederhana untuk mendefinisikan suatu fungsi
dengan Python. Blok fungsi dimulai dengan def kata kunci diikuti oleh nama fungsi
dan tanda kurung (()). Parameter atau argumen input apa pun harus ditempatkan
di dalam tanda kurung ini. Anda juga dapat menentukan parameter di dalam tanda
kurung ini. Pernyataan pertama dari suatu fungsi dapat berupa pernyataan opsional
- string dokumentasi dari fungsi atau docstring. Blok kode dalam setiap fungsi
dimulai dengan titik dua (:) dan diindentasi. Pernyataan mengembalikan [ekspresi]
keluar dari suatu fungsi, secara opsional meneruskan kembali ekspresi ke pemanggil.
Pernyataan pengembalian tanpa argumen sama dengan return none.

25
Syntax

Secara default, parameter memiliki perilaku posisi dan Anda harus


menginformasikannya dalam urutan yang sama seperti yang telah ditentukan.
Memanggil suatu Fungsi
Mendefinisikan fungsi hanya memberinya nama, menentukan parameter yang
akan dimasukkan dalam fungsi dan struktur blok kode. Setelah struktur dasar suatu
fungsi selesai, Anda dapat menjalankannya dengan memanggilnya dari fungsi lain
atau langsung dari prompt Python

Pass by reference vs nilai


Semua parameter (argumen) dalam bahasa Python diteruskan oleh referensi.
Itu berarti jika Anda mengubah apa yang merujuk parameter dalam suatu fungsi,
perubahan juga mencerminkan kembali pada fungsi panggilan.

d. Alat dan Bahan


1) Kertas Folio
2) Spidol Hitam
3) Kertas A0
4) Papan tulis portable tripod

26
e. Prosedur Kerja
Struktur Kontrol
Tulis kode program berikut dan amati apa yang terjadi

• Tulis kode program berikut dan amati apa yang terjadi

• Tulis kode program berikut dan amati apa yang terjadi

• Tulis kode program berikut dan amati apa yang terjadi

27
Fungsi
● Tulis kode program berikut dan amati apa yang terjadi

● Tulis kode program berikut dan amati apa yang terjadi

● Tulis kode program berikut dan amati apa yang terjadi

● Tulis kode program berikut dan amati apa yang terjadi

f. Hasil dan Pembahasan


Membuat laporan dari hasil percobaan dan penjelasan dari pengamatan struktur
kontrol dengan ketentuan format laporan sebagai berikut :

28
• Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V,
logo polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/

g. Kesimpulan
Penjelasan terkait struktur kontrol

h. Rubrik Penilaian

No Indikator Skor*

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 4


1 1 2 3
menjelaskan tugas yang ditunjang dengan bukti referensi

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas

Ketepatan waktu pengumpulan tugas akan tetapi kurang tepat dalam 2


3 1 3 4
menjelaskan tugas

Keterlambatan pengumpulan tugas dan ketidak tepatan dalam 1


4 2 3 4
menjelaskan tugas

Jumlah skor

29
Acara 5
Pokok Bahasan : Library 1 Numpy
Acara Praktikum/Praktek: Minggu 3/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami dan menjelaskan penerapan library numpy

b. Indikator
• Ketepatan dalam memahami dan menjelaskan library numpy

c. Dasar Teori
NumPy (kependekan dari Numerical Python) menyediakan antarmuka yang
efisien untuk menyimpan dan mengoperasikan buffer data (pembacaan data melalui
memori). Data Sains dan komputasi berbasis data yang efektif membutuhkan
pemahaman bagaimana data disimpan dan dimanipulasi. Beberapa kategori
manipulasi array dasar yang akan dibahas:
➔ Atribut array: Menentukan ukuran, bentuk, konsumsi memori, dan tipe data
array
➔ Pengindeksan array: Mendapatkan dan mengatur nilai elemen array
individual
➔ Mengiris array: Mendapatkan dan mengatur subarrays yang lebih kecil dalam
array yang lebih besar
➔ Pembentukan kembali array: Mengubah bentuk array yang diberikan
➔ Bergabung dan memisahkan array: Menggabungkan banyak array menjadi
satu, dan memisahkan satu array menjadi banyak
➔ Atribut Numpy array
Setiap array memiliki atribut:
● ndim (jumlah dimensi),
● shape (ukuran setiap dimensi),
● size (ukuran total array),
● dtype, tipe data array,
● itemsize, yang mencantumkan ukuran (dalam byte) dari setiap elemen array,
● nbytes, yang mencantumkan ukuran total (dalam byte) dari array

30
d. Alat dan Bahan
1) Kertas Folio
2) Spidol Hitam
3) Kertas A0
4) Papan tulis portable tripod

e. Prosedur Kerja
Coba dan amati hasil dari masing-masing baris kode:
1.

2.

Peng-index-an Array
Sama seperti array yang lain, index dalam Numpy array dimulai dari index ke-0.
Dalam array satu dimensi, nilai ke-x (menghitung dari nol) dapat diakses dengan
menentukan indeks yang diinginkan dalam tanda kurung siku.
Coba dan amati kode berikut ini:
1.

31
2.

Untuk array multi dimensi dapat digunakan seperti kode berikut ini:
3.

Pemotongan Array – mengakses subarray


Sama seperti kita dapat menggunakan tanda kurung siku untuk mengakses elemen
array individual, kita juga dapat menggunakan array tersebut untuk diakses lebih
dari satu nilai atau biasa disebut subarrays dengan notasi slice, ditandai oleh karakter
titik dua (:). Sintaks mengiris (slicing) NumPy mengikuti daftar Python standar; yaitu
untuk mengakses sepotong sebuah array x, gunakan ini:

Coba dan amati kode berikut ini:


1.

32
Untuk array multi dimensi digunakan cara yang sama, hanya dipisahkan dengan
tanda koma (,). Coba dan amati kode berikut:
2.

Membentuk kembali Array


Jenis operasi lain yang bermanfaat adalah pembentukan kembali array. Cara paling
fleksibel untuk melakukan ini adalah dengan metode membentuk kembali. Misalnya,
jika Anda ingin meletakkan angka 1 hingga 9 dalam kisi 3 × 3, Anda dapat melakukan
hal berikut:

Perhatikan bahwa agar ini berfungsi, ukuran array awal harus cocok dengan ukuran
array yang dibentuk ulang. Pola pembentukan kembali umum lainnya adalah
konversi array satu dimensi menjadi baris dua dimensi atau matriks kolom. Ini dapat
dilakukan dengan metode membentuk kembali, atau lebih mudah dilakukan dengan
menggunakan kata kunci newaxis dalam operasi slice. Coba dan amati kode berikut
ini:
1.

33
f. Hasil dan Pembahasan
Membuat laporan penjelasan dari pengamatan kode program pada prosedur kerja
diatas dengan ketentuan format laporan sebagai berikut :
Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V, logo
polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/

g. Kesimpulan
Penjelasan terkait penggunaan library numpy

h. Rubrik Penilaian

No Indikator Skor*

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 4


1 1 2 3
menjelaskan tugas yang ditunjang dengan bukti referensi

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas

Ketepatan waktu pengumpulan tugas akan tetapi kurang tepat dalam 2


3 1 3 4
menjelaskan tugas

Keterlambatan pengumpulan tugas dan ketidak tepatan dalam 1


4 2 3 4
menjelaskan tugas

Jumlah skor

34
Acara 6
Pokok Bahasan : Library 2 Pandas
Acara Praktikum/Praktek: Minggu 3/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami dan mengimplementasi library pandas

b. Indikator
• Ketepatan dalam installasi library pandas
• Ketepatan dalam penggunaan library pandas

c. Dasar Teori
Pandas merupakan sebuah open source python package/library dengan lisensi
BSD yang menyediakan banyak perkakas untuk kebutuhan data analisis,
manipulasi dan pembersihan data. Pandas mendukung pembacaan dan penulisan
data dengan media berupa excel spreadsheet, CSV, dan SQL yang kemudian akan
dijadikan sebagai objek python dengan rows dan columns yang disebut data frame
seperti halnya pada tabel statistik. Adapun beberapa fungsi dan fitur yang berguna
pada Pandas seperti dikutip dari Learning Pandas, Second Edition oleh Michael
Heydt (Introducing pandas) sebagai berikut:
● Cepat dan efisien untuk manipulasi objek data yang berbentuk deret dan data
frame dengan pengindeksan terintegrasi
● Penyelarasan data cerdas menggunakan indeks dan label
● Penanganan terpadu data yang hilang
● Fasilitas untuk mengubah data berantakan menjadi data tertib (merapikan)
● Alat bawaan untuk membaca dan menulis data antara struktur dan file data
di dalam memori, basis data, dan layanan web
● Kemampuan untuk memproses data yang disimpan dalam banyak format
umum seperti CSV, Excel, HDF5, dan JSON
● Pembentukan dan pivoting set data yang fleksibel
● Pemotongan berbasis label pintar, pengindeksan mewah, dan pengaturan
subset dataset besar
● Kolom dapat dimasukkan dan dihapus dari struktur data untuk ukuran yang
berubah-ubah
● Menggabungkan atau mentransformasikan data dengan fasilitas
pengelompokan data yang kuat untuk melakukan split-apply-
menggabungkan pada dataset

35
● Penggabungan dan penggabungan data kinerja tinggi
● Pengindeksan hierarki memfasilitasi kerja dengan data dimensi tinggi dalam
struktur data dimensi rendah
● Fitur luas untuk data deret waktu, termasuk generasi rentang tanggal dan
konversi frekuensi, statistik jendela bergerak, regresi linier jendela bergerak,
pergeseran tanggal, dan lagging
Sangat dioptimalkan untuk kinerja, dengan jalur kode kritis ditulis dalam
Python atau C
Instalasi panda
Untuk melakukan instalasi Pandas, kita hanya cukup dengan menggunakan pip
ataupun bisa menggunakan Anaconda bila sudah tersedia pada sistem yang
digunakan.
Menggunakan pip:

Menggunakan anaconda:

Import Pandas
Bila sudah berhasil melakukan instalasi pandas, kita dapat menggunakannya untuk
melakukan manipulasi data dengan cara import modul tersebut pada projek yang
akan kita buat.

Kita melakukan impor modul pandas sebagai pd untuk mempermudah penulisan,


jadi cukup dengan menuliskan pd.function dibandingkan dengan pandas.function
sebagai alias. Pada baris selanjutnya kita menambahkan library tambahan, yaitu
NumPy.

Struktur Data Pandas


Pandas memiliki dua tipe struktur data untuk versi terbaru dan satu deprecated
struktur data:
● Series
● Data Frame
● Panel (deprecated)

36
Series
Series merupakan struktur data dasar dalam Pandas. Series bisa juga diibaratkan
sebagai array satu dimensi seperti halnya yang ada pada numpy array, hanya
bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen
tersebut. Struktur data yang bisa ditampung berupa integer, float, dan juga string.
Series juga mendukung operasi vektor. Secara definisi, Series tidak dapat
mempunyai kolom ganda, untuk masalah ini bisa menggunakan struktur data frame.

Data Frame
Data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini
merupakan cara paling standar untuk menyimpan data. Secara sederhana, data
frame merupakan tabel/data tabular. Setiap kolom pada Data Frame merupakan
objek dari Series, dan baris terdiri dari elemen yang ada pada Series. Baris berguna
untuk menyimpan informasi dan kolom untuk menyimpan nama dari informasi
tersebut. Sebagai contoh, berikut adalah perbandingan antara Series dan Data
Frame:

Sintaks Series di Pandas


Bila merujuk pada dokumentasi pandas, terdapat struktur dari class Series seperti
berikut:

● Parameter data bisa berisi array, Iterable, dict, atau nilai scalar
● Parameter index disarankan bernilai unik dan hashable yang memiliki panjang sama
dengan data
● Parameter dtype menunjukan tipe data, bila tidak didefinisikan akan bernilai sesuai
dengan data yang diberikan
● Parameter copy berguna untuk menyalin data

37
Membuat Series di Pandas
Series pada Pandas bisa dibuat dengan menggunakan python list ataupun array dari
NumPy. Untuk membuatnya, kita bisa memanggil pd.Series() method dengan isi
array. Berbeda dengan python list, Series hanya dapat berisi data dengan tipe yang
sama. Jadi, bisa juga menggunakan array dari NumPy untuk mengisi data pada
Series.
Untuk membuat Series bisa dengan mendefinisikan:

Akses Data Series dengan Indeks


Untuk mendapatkan nilai dengan indeks yang ditentukan, kita bisa mengakses
dengan menentukan indeks.

Untuk mengetahui indeks dari sebuah Series, bisa dengan memanggil series.index

38
Slicing Data dengan Pandas
Seperti halnya NumPy, Pandas pun mendukung operasi slicing. Slice sendiri dibangun
dengan format [start, stop, step] seperti RangeIndex yang sudah dijelaskan
sebelumnya. Sebagai contoh, kita ingin menampilkan data dimulai dari indeks 0
hingga 4 dengan interval 2.

Nilai tersebut hanya opsional, bila tidak diisi maka akan mengikuti nilai default. Misal,
kita ingin menampilkan data setelah indeks-N.

Atau data sebelum indeks-N

Data sebelum indeks terakhir

39
d. Alat dan Bahan
5) Kertas Folio
6) Spidol Hitam
7) Kertas A0
8) Papan tulis portable tripod

e. Prosedur Kerja
Pandas adalah library python memberikan kemudahan dalam mengerjakan
data tabular. Pandas sering digunakan para data scientist. Berikut ini kita akan
mempelajari manipulsi data frame menggunakan library pandas yang datanya
didapat dari file CSV. Untuk membaca file csv, gunakan perintah
read_csv("nama_file.csv"). Perintah .head() menampilkan 5 data teratas. Perintah
.tail() untuk menampilkan 5 data terbawah.

Bila kita ingin menampilkan sejumlah data teratas, kita dapat menggunakan
parameter untuk menentukan jumlah row yang ingin diretrieve. Contohnya
mydata.head(10) akan menghasilkan tampilan sbb.

40
Berikut ini adalah contoh hasil dari perintah .tail() dan .tail(10)

Selain head() dan tail(), ada beberapa perintah yang bisa digunakan dalam
manipulasi data dalam pandas, yaitu:

41
● shape untuk melihat bentuk dari data frame.Akan mengembalikan row x column.
● size untuk melihat total ukuran dari data frame. Mengembalikan nilai perkalian
dari row dan column.
● len untuk melihat jumlah row dari data frame.
● columns untuk melihat nama kolom dari data frame.
Kita juga bisa hanya mengambil data 1 kolom saja dengan argumen 'nama_row'.
Operasi slicing juga dapat digunakan, contoh ingin menampilkan data years experience
5 teratas. Bila ingin menampilkan 2 kolom atau lebih, maka kita kirim parameter nama
row dalam list.

Perintah sort_values() digunakan untuk mengurutkan data frame. Gunakan


nama columns untuk melakukan sorting. Bila kita ingin menghitung jumlah
berdasar grouping(kategori) dapat dilakukan dengan perintah value_counts(). Pada
contoh dilakukan group count berdasar kategori Level of Education.

42
Membaca File CSV
Untuk memulai/membaca file csv pada Pandas sangat mudah sekali

df akan berisi sebuah Dataframe / array 2 dimensi yang akan bisa kita olah/ubah
ke series, contoh output seperti berikut :

Kita akan melihat data unik(distict dalam SQL) kolom kabupaten_kota :

Maka output yang dihasilkan adalah :

43
Group By: split-apply-combine
Jika kita ingin menghitung record suatu kolom tertentu kita gunakan fungsi size()

Outputnya :

Untuk penjumlahan suatu kolom terhadap kolom tertentu, semisal kita ingin total
pada kolom jumlah_rt terhadap kolom nama_kabupaten_kota, nama_kecamatan,
nama_kelurahan

Outputnya sebagai berikut :

nama_kabupaten_kota nama_kecamatan nama_kelurahan jumlah_rt


0 JAKARTA BARAT CENGKARENG CENGKARENG BARAT 906
1 JAKARTA BARAT CENGKARENG CENGKARENG TIMUR 1132
2 JAKARTA BARAT CENGKARENG DURI KOSAMBI 843
3 JAKARTA BARAT CENGKARENG KAPUK 1110
4 JAKARTA BARAT CENGKARENG KEDAUNG KALI ANGKE 494
5 JAKARTA BARAT CENGKARENG RAWA BUAYA 700
6 JAKARTA BARAT GROGOL PETAMBURAN GROGOL 570
7 JAKARTA BARAT GROGOL PETAMBURAN JELAMBAR 695
8 JAKARTA BARAT GROGOL PETAMBURAN JELAMBAR BARU 674
9 JAKARTA BARAT GROGOL PETAMBURAN TANJUNG DUREN SELATAN 463
10 JAKARTA BARAT GROGOL PETAMBURAN TANJUNG DUREN UTARA 450
11 JAKARTA BARAT GROGOL PETAMBURAN TOMANG 870
12 JAKARTA BARAT GROGOL PETAMBURAN WIJAYA KUSUMA 635
13 JAKARTA BARAT KALI DERES KALIDERES 908
14 JAKARTA BARAT KALI DERES KAMAL 510
15 JAKARTA BARAT KALI DERES PEGADUNGAN 945
16 JAKARTA BARAT KALI DERES SEMANAN 583

44
17 JAKARTA BARAT KALI DERES TEGAL ALUR 822
18 JAKARTA BARAT KEBON JERUK DURI KEPA 685
19 JAKARTA BARAT KEBON JERUK KEBON JERUK 665
20 JAKARTA BARAT KEBON JERUK KEDOYA SELATAN 365
21 JAKARTA BARAT KEBON JERUK KEDOYA UTARA 660
22 JAKARTA BARAT KEBON JERUK KELAPA DUA 300
23 JAKARTA BARAT KEBON JERUK SUKABUMI SELATAN 390
24 JAKARTA BARAT KEBON JERUK SUKABUMI UTARA 515
25 JAKARTA BARAT KEMBANGAN JOGLO 570
26 JAKARTA BARAT KEMBANGAN KEMBANGAN SELATAN 388
27 JAKARTA BARAT KEMBANGAN KEMBANGAN UTARA 590
28 JAKARTA BARAT KEMBANGAN MERUYA SELATAN 420
29 JAKARTA BARAT KEMBANGAN MERUYA UTARA 630
.. ... ... ... ...
237 JAKARTA UTARA KELAPA GADING KELAPA GADING BARAT 1084
238 JAKARTA UTARA KELAPA GADING KELAPA GADING TIMUR 1211
239 JAKARTA UTARA KELAPA GADING PEGANGSAAN DUA 1262
240 JAKARTA UTARA KOJA KOJA 735
241 JAKARTA UTARA KOJA LAGOA 1110
242 JAKARTA UTARA KOJA RAWA BADAK SELATAN 545
243 JAKARTA UTARA KOJA RAWA BADAK UTARA 595
244 JAKARTA UTARA KOJA TUGU SELATAN 475
245 JAKARTA UTARA KOJA TUGU UTARA 1070
246 JAKARTA UTARA PADEMANGAN ANCOL 346
247 JAKARTA UTARA PADEMANGAN PADEMANGAN BARAT 1073
248 JAKARTA UTARA PADEMANGAN PADEMANGAN TIMUR 767
249 JAKARTA UTARA PENJARINGAN KAMAL MUARA 224
250 JAKARTA UTARA PENJARINGAN KAPUK MUARA 500
251 JAKARTA UTARA PENJARINGAN PEJAGALAN 1125
252 JAKARTA UTARA PENJARINGAN PENJARINGAN 1210
253 JAKARTA UTARA PENJARINGAN PLUIT 1251
254 JAKARTA UTARA TANJUNG PRIOK KEBON BAWANG 980
255 JAKARTA UTARA TANJUNG PRIOK PAPANGGO 635
256 JAKARTA UTARA TANJUNG PRIOK SUNGAI BAMBU 520
257 JAKARTA UTARA TANJUNG PRIOK SUNTER AGUNG 1400

45
258 JAKARTA UTARA TANJUNG PRIOK SUNTER JAYA 1116
259 JAKARTA UTARA TANJUNG PRIOK TANJUNG PRIOK 790
260 JAKARTA UTARA TANJUNG PRIOK WARAKAS 920
261 KAB.ADM.KEP.SERIBU KEP. SERIBU SLT P. PARI 70
262 KAB.ADM.KEP.SERIBU KEP. SERIBU SLT P. TIDUNG 145
263 KAB.ADM.KEP.SERIBU KEP. SERIBU SLT P. UNTUNG JAWA 45
264 KAB.ADM.KEP.SERIBU KEP. SERIBU UTR P. HARAPAN 75
265 KAB.ADM.KEP.SERIBU KEP. SERIBU UTR P. KELAPA 155
266 KAB.ADM.KEP.SERIBU KEP. SERIBU UTR P. PANGGANG 145

f. Hasil dan Pembahasan


Membuat laporan yang berisi install library pandas pada laptop/pc masing-masing
dan berikan contoh coding dalam salah satu penggunaan library pandas yang
dikerjakan secara mandiri dengan ketentuan format laporan sebagai berikut :
• Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V,
logo polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/
g. Kesimpulan
Penjelasan terkait installasi dan implementasi library pandas

h. Rubrik Penilaian

No Indikator Skor*

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 4


1 1 2 3
menjelaskan tugas yang ditunjang dengan bukti referensi

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas

Ketepatan waktu pengumpulan tugas akan tetapi kurang tepat dalam 2


3 1 3 4
menjelaskan tugas

Keterlambatan pengumpulan tugas dan ketidak tepatan dalam 1


4 2 3 4
menjelaskan tugas

Jumlah skor

46
Acara 7
Pokok Bahasan : Library 3 Matplotlib
Acara Praktikum/Praktek: Minggu 4/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami library Matplotlib
• Mahasiswa mampu menjelaskan penggunaan library Matplotlib

b. Indikator
• Ketepatan dalam memahami library matplotlib
• Ketepatan dalam menjelaskan penggunaan library matplotlib

c. Dasar Teori
Matplotlib adalah salah satu paket Python paling populer yang digunakan
untuk visualisasi data. Ini adalah perpustakaan lintas platform untuk membuat plot
2D dari data dalam array. Matplotlib ditulis dengan Python dan menggunakan
NumPy, ekstensi matematika numerik dari Python. Ini menyediakan API berorientasi
objek yang membantu dalam menyematkan plot dalam aplikasi menggunakan toolkit
Python GUI seperti PyQt, WxPythonotTkinter. Ini dapat digunakan dalam shell Python
dan IPython, notebook Jupyter dan server aplikasi web juga.
Matplotlib memiliki antarmuka prosedural bernama Pylab, yang dirancang
menyerupai MATLAB, bahasa pemrograman berpemilik yang dikembangkan oleh
MathWorks. Matplotlib bersama dengan NumPy dapat dianggap sebagai open source
yang setara dengan MATLAB.
Matplotlib awalnya ditulis oleh John D. Hunter pada tahun 2003. Versi stabil saat ini
adalah 2.2.0 yang dirilis pada Januari 2018. Visualisasi dari matplotlib adalah sebuah
gambar grafik yang terdapat satu sumbu atau lebih. Setiap sumbu memiliki sumbu
horizontal (x) dan sumbu vertikal (y), dan data yang direpresentasikan menjadi
warna dan glyphs seperti marker (contohnya bentuk lingkaran) atau lines (garis)
atau poligon.
Instalasi matplotlib:

Untuk menggunakannya import terlebih dahulu dengan perintah seperti ini:

47
Tipe Plot:

48
Fungsi Image (manipulasi gambar)

Axis

49
d. Alat dan Bahan
1) Kertas Folio
2) Spidol Hitam
3) Kertas A0
4) Papan tulis portable tripod

50
e. Prosedur Kerja
Membuat Line Plot
Line plot berguna untuk melacak perubahan pada periode waktu pendek dan
panjang. Ketika terdapat perubahan kecil, line plot lebih baik dalam melakukan
visualisasi dibandingkan grafik bar. Ketikkan kode program berikut:

Membuat Scatter Plot


Scatter plot biasanya digunakan untuk melakukan observasi dan menunjukkan
hubungan relasi antara dua variabel numeric. Titik-titik pada scatter plot juga
dapat menggambarkan pola dari data secara keseluruhan. Matplotlib menyediakan
fungsi scatter() untuk mempermudah dalam visualisasi scatter plot.

51
Membuat Bar Plot
Bar plot digunakan untuk membandingkan perubahan tiap waktu pada beberapa
kelompok data. Bar plot sangat bagus digunakan dalam visualisasi ketika
perubahan data sangat besar dibandingkan dengan line plot. Bar plot biasanya
memiliki dua sumbu yaitu sumbu x untuk jenis kelompok dan sumbu y untuk
proporsi kelompok. Matplotlib menyediakan fungsi bar() untuk mempermudah
dalam visualisasi bar plot.

Pie Chart
Pie chart adalah grafik yang berbentuk lingkaran atau donat.

Hasil:

52
f. Hasil dan Pembahasan
Membuat laporan yang berisi hasil installasi library matplotlib dan percobaan kode
program yang ada pada prosedur kerja yang dikerjakan secara mandiri dengan
ketentuan format laporan sebagai berikut :
• Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V,
logo polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/

g. Kesimpulan
Penjelasan dan contoh implementasi penggunaan library matplotlib

h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

53
Acara 8
Pokok Bahasan : Library 4 Seaborn
Acara Praktikum/Praktek: Minggu 4/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami library seaborn
• Mahasiswa mampu mengimplementasi library seaborn

b. Indikator
• Ketepatan dalam memahami library seaborn
• Ketepatan dalam mengimplementasi library seaborn

c. Dasar Teori
Di dunia Analytics, cara terbaik untuk mendapatkan wawasan adalah dengan
memvisualisasikan data. Data dapat divisualisasikan dengan merepresentasikannya
sebagai plot yang mudah dipahami, dieksplorasi, dan dipahami. Data tersebut
membantu dalam menarik perhatian elemen kunci. Untuk menganalisis sekumpulan
data menggunakan Python, kami menggunakan Matplotlib, pustaka ploting 2D yang
diimplementasikan secara luas. Demikian juga, Seaborn adalah library visualisasi
dengan Python. Itu dibangun di atas Matplotlib.
Fitur Penting Seaborn
Seaborn dibangun di atas pustaka visualisasi inti Python, Matplotlib. Ini dimaksudkan
untuk berfungsi sebagai pelengkap, dan bukan pengganti. Namun, Seaborn hadir
dengan beberapa fitur yang sangat penting. Beberapa fitur penting yang ada di
seaborn antara lain:
• Tema bawaan untuk menata grafis matplotlib
• Memvisualisasikan data univariat dan bivariat
• Memasang dan memvisualisasikan model regresi linier
• Merencanakan data deret waktu statistik
• Seaborn bekerja dengan baik dengan struktur data NumPy dan Pandas
• Muncul dengan tema bawaan untuk menata grafis Matplotlib
Dalam kebanyakan kasus, Anda masih akan menggunakan Matplotlib untuk
membuat plot sederhana. Pengetahuan tentang Matplotlib direkomendasikan untuk
mengubah plot default Seaborn. Untuk menggunakan library seaborn kita harus
install library ini terlebih dahulu dengan menggunakan pip.

54
Untuk menggunakannya import terlebih dahulu dengan perintah seperti ini:

Dalam Library Seaborn terdapat banyak fungsi grafik yang bisa digunakan untuk
melakukan visualisasi data.
Ada beberapa jenis plot yang dapat dilakukan dengan seaborn seperti
• Categorical plots
• Distribution plots
• Relational plots
• Regression plots
• Matrix plots

d. Alat dan Bahan


1) Kertas Folio
2) Spidol Hitam
3) Kertas A0
4) Papan tulis portable tripod

e. Prosedur Kerja
Seperti yang sudah dijelaskan sebelumnya, Seaborn adalah library untuk membuat
grafik statistik dengan Python. Seaborn membantu Anda menjelajahi dan
memahami data Anda. Fungsi plotnya beroperasi pada kerangka data dan larik
yang berisi seluruh kumpulan data dan secara internal melakukan pemetaan
semantik dan agregasi statistik yang diperlukan untuk menghasilkan plot yang
informatif.
Coba ketikkan kode program berikut:

55
Hasilnya sebagai berikut:

Abstraksi API dalam visualisasi


Tidak ada cara terbaik secara universal untuk memvisualisasikan data.
Pertanyaan yang berbeda paling baik dijawab oleh plot yang berbeda. Seaborn
memudahkan untuk beralih di antara representasi visual yang berbeda dengan
menggunakan API berorientasi kumpulan data yang konsisten.
Fungsi relplot() dinamai demikian karena dirancang untuk memvisualisasikan
banyak hubungan statistik yang berbeda. Sementara plot sebar sering efektif,
hubungan di mana satu variabel mewakili ukuran waktu lebih baik diwakili oleh
garis. Fungsi relplot() memiliki parameter jenis yang mudah digunakan yang
memungkinkan Anda dengan mudah beralih ke representasi alternatif ini:
Ketikkan kode program berikut:

Hasilnya sebagai berikut:

56
Estimasi statistik dan bilah kesalahan
Seringkali, kita tertarik pada nilai rata-rata satu variabel sebagai fungsi dari
variabel lain. Banyak fungsi seaborn akan secara otomatis melakukan estimasi
statistik yang diperlukan untuk menjawab pertanyaan-pertanyaan ini:

f. Hasil dan Pembahasan


Membuat laporan dari hasil percobaan kode program pada prosedur kerja serta
berikan penjelasannya yang di kerjakan secara mandiri dengan ketentuan format
laporan sebagai berikut :
• Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V,
logo polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/

g. Kesimpulan
Penjelasan terkait library seaborn

57
h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

58
Acara 9
Pokok Bahasan : Data Preparation 1
Acara Praktikum/Praktek: Minggu 5/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami penentuan objek data
• Mahasiswa mampu memahami teknik membersihkan data
• Mahasiswa mampu memahami teknik validasi data
b. Indikator
• Mahasiswa dapat memahami peemilihan data, melakukan pembersihan data
dan memeriksa kualitas serta kecukupan data
c. Dasar Teori
1. Terminologi dan Definisi

Istilah – istilah yang digunakan pada modul ini adalah Pre-processing,


Data Manipulation dan Data Cleansing/ Normalization. Definisi transformasi data
mentah menjadi format yang mudah dipahami menemukan data yang relevan
untuk disertakan dalam aplikasi analitik sehingga memberikan informasi yang
dicari oleh analis atau pengguna bisnis langkah pra-pemrosesan yang melibatkan
pembersihan, transformasi, dan konsolidasi data.

Gambar 1. Langkah Pra-Pemrosesan Data


Langkah pra-pemrosesan data dimulai dari raw-data lalu kemudian data
disiapkan dengan langkah data preparation yang menghasilkan prepared data
yang selanjutnya akan melewati proses data analytics yang akan menghasilkan
data insights. Proses yang melibatkan koneksi ke satu atau banyak sumber data
yang berbeda, membersihkan data kotor, memformat ulang atau
merestrukturisasi data, dan akhirnya menggabungkan data ini untuk digunakan
untuk analisis.

59
2. Fakta Terkait Data Preparation
Berikut gambar 2 merupakan gambaran mengenai fakta terkait data
preparation yang menggambarkan porsi kegiatan data scientis.

Gambar 2. Porsi Kegiatan Data Scientis


60-80% porsi kegiatan data saintis (forbes, crowdflower 2016) data yang
ada saat ini dari banyak sumber data dan format yang beragam (terstruktur,
semi, dan tidak terstruktur) kualitas model prediktif bergantung pada kualitas
data (GIGO).

Gambar 3. Data Preparation

3. Pentingnya Data Preparation


Pentingnya dilakukan data preparation sebelum data diolah adalah untuk
menentukan kualitas hasil yang diinginkan karena dalam data mentah masih
terdapat data seperti yang dijabarkan dibawah ini :

Gambar 4. Pentingnya Data Preparation

60
• Data perlu diformat sesuai dengan software yang digunakan
• Data perlu disesuaikan dengan metode data sain yang digunakan
• Data real-world cenderung ‘kotor’:
o Tidak komplit: kurangnya nilai attribute, kurangnya atribut
tertentu/penting,
o hanya berisi data agregate. misal: pekerjaan=”” (tidak ada isian)
o Noisy: memiliki error atau outlier. misal: Gaji=”-10”, Usia=”222”
o Tidak konsisten: memliki perbedaan dalam kode dan nama. misal : Usia=
“32” TglLahir=”03/07/2000”;
o Rating “1,2,3” -- > rating “A, B, C”
• Kolom dan baris yang saling bertukar
• Banyak variabel dalam satu kolom yang sama

4. Manfaat Data Preparation


Manfaat dari data preparation antara lainnya adalah sebagai berikut :
• Kompilasi Data menjadi Efisien dan Efektif (menghindari duplikasi)
• Identifikasi dan Memperbaiki Error
• Mudah Perubahan Secara Global
• Menghasilkan Informasi yang Akurat utk Pengambilan Keputusan
• Nilai Bisnis dan ROI (Return on Ivestment) akan Meningkat

Gambar 5. Perkembangan Data Preparation

Dilihat dari gambar 5 diatas, gambar tersebut menggambarkan


perkembangan market size data preparation dari tahun 2018 hingga diperkirakan
nantinya pada tahun 2023 yang mana hasilnya akan terus meningkat tiap
tahunnya.

61
5. Tantangan Data Preparation
Dari penjelasan mengenai manfaat dan pentingnya data preparation
diatas, ternyata data preparation masih memiliki tantangan tersendiri antara
lainnya adalah :
• Memakan Waktu Lama
• Porsi Teknis yang Dominan
• Data yang Tersedia Tidak Akurat atau Jelas/Tidak Langsung Pakai
• Data tidak Balance Saat Pengambilan Sampel
• Rentan akan Error

6. Tahapan Data Preparation


Berikut dibawah ini merupakan gambaran tahapan dari data preparation.

Gambar 6. Tahapan Data Preparation


Dari gambar 6 diatas, digambarkan bahwa tahapan data preparation
dimulai dari requirement analysis yaitu mengumpulkan analisis kebutuhan
seperti hardware dan software yang dibutuhkan lalu dilnjutkan dengan data
aquisition yaitu mengumpulkan data yang dibutuhkan. Data yang didapat masih
berupa data mentah yang selanjutkan akan diolah oleh data scientist dan domain
expert pada tahapan data preparation. Data yang telah diolah pada tahapan data
preparation akan menghasilakn training data yang digunakan untuk predictive
modelling dan test data yang akan digunakan untuk evaluation. Tahapan
selanjutnya adalah data siap digunakan untuk deployment suatu sistem.

7. Data Preparation dalam CRISP-DM


CRISP-DM adalah standarisasi data mining yang disusun oleh tiga
penggagas data mining market. Yaitu Daimler Chrysler (Daimler-Benz), SPSS
(ISL), NCR. Kemudian dikembangkan pada berbagai workshops (antara 1997-
1999). Lebih dari 300 organisasi yang berkontribusi dalam proses modelling ini
dan akhirnya CRISP-DM 1.0 dipublikasikan pada 1999 (Budiman 2012). CRISP-
DM adalah akronim dari CRoss Industry Standard Process Data Mining yang

62
merupakan Metodologi umum untuk data mining, analitik, dan proyek data sains,
berfungsi menstandarkan proses data mining lintas industri dan digunakan untuk
semua level dari pemula hingga pakar.

Gambar 7. Proses data mining berdasarkan CRISP-DM Proses data mining


berdasarkan CRISP-DM terdiri dari 6 fase. Yaitu:
• Business Understanding atau pemahaman domain (penelitian). Pada fase ini
• dibutuhkan pemahaman tentang substansi dari kegiatan data mining yang
akan dilakukan, kebutuhan dari perspektif bisnis. Kegiatannya antara lain:
menentukan sasaran atau tujuan bisnis, memahami situasi bisnis,
menentukan tujuan data mining dan membuat perencanaan strategi serta
jadwal penelitian.
• Data Understanding atau pemahaman data adalah fase mengumpulkan data
awal, mempelajari data untuk bisa mengenal data yang akan dipakai. Fase
ini mencoba mengidentifikasikan masalah yang berkaitan dengan kualitas
data, mendeteksi subset yang menarik dari data untuk membuat hipotesa
awal.
• Data preparation atau persiapan data. Fase ini sering disebut sebagai fase
yang padat karya. Aktivitas yang dilakukan antara lain memilih table dan field
yang akan ditransformasikan ke dalam database baru untuk bahan data
mining (set data mentah).

• Modeling adalah fase menentukan tehnik data mining yang digunakan,


menentukan tools data mining, teknik data mining, algoritma data mining,
menentukan parameter dengan nilai yang optimal.
• Evaluation adalah fase interpretasi terhadap hasil data mining yang
ditunjukan dalam proses pemodelan pada fase sebelumnya. Evaluasi
dilakukan secara mendalam dengan tujuan menyesuaikan model yang
didapat agar sesuai dengan sasaran yang ingin dicapai dalam fase pertama.

63
• Deployment atau penyebaran adalah fase penyusunan laporan atau
presentasi dari pengetahuan yang didapat dari evaluasi pada proses data
mining (Budiman 2012).

8. Tahapan Data Preparation versi simpel


Berikut merupakan gambaran serta penjelasan dari proses data
preparation versi simpel. Dilihat dari gambar 8 dibawah ini terbagi menjadi tiga
tahapan yaitu pengumpulan data lalu data di proses ulang yang selanjutnya akan
menghasilkan data transformation.

Gambar 8. Tahapan Data Preparation : Versi Simpel


Berikut merupakan rincian tahap – tahap dalam proses data preparation :
1. Pilih/ Select Data
• Pertimbangkan pemilihan data
• Tentukan dataset yang akan digunakan
• Kumpulkan data tambahan yang sesuai (internal atau eksternal)
• Pertimbangkan penggunaan teknik pengambilan sampel
• Jelaskan mengapa data tertentu dimasukkan atau dikecualikan
2. Bersihkan/ Clean Data
• Perbaiki, hapus atau abaikan noise
• Putuskan bagaimana menangani nilai-nilai khusus dan maknanya
• Tingkat agregasi, nilai yang hilang (missing value), dll
• Bersihkan atau manipulasi outlier
3. Validasi Data
• Periksa/Nilai Kualitas Data
• Periksa/Nilai Tingkat Kecukupan Data
4. Bangun/ Construct Data
• Atribut turunan.
• Latar belakang pengetahuan.
• Bagaimana atribut yang hilang dapat dibangun atau diperhitungkan
5. Integrasi/ Integrate Data
• Mengintegrasikan sumber dan menyimpan hasil (tabel dan catatan baru)

64
6. Bentuk/ Format Data

9. Sampling Data
A. Pengertin Sampling
Sebelum melakukan tahapan dalam data preparation, terlebih dahulu
adalah pemilihan/penentuan objek yang dapat dilakukan dengan
menggunakan penentuan:
• Populasi. Populasi adalah wilayah generalisasi yang terdiri atas objek atau
subjek yang mempunyai kualitas dan karakteristik tertentu yang
ditetapkan oleh peneliti untuk dipelajari dan kemudian ditarik
kesimpulannya. (Sugiyono 2011: 80). Populasi adalah suatu kesatuan
individu atau subyek pada wilayah dan waktu dengan kualitas tertentu
yang akan diamati/diteliti. Populasi penelitian dapat dibedakan meryadi
populasi "finit" dan populasi "infinit". Populasi finit adalah suatu populasi
yang jumlah anggota populasi secara pasti diketahui, sedang populasi
infinit adalah suatu populasi yang jumlah anggota populasi tidak dapat
diketahui secara pasti. (Supardi, 1993)
• Sampel. Sugiyono (2011: 81) menyatakan bahwa sampel adalah bagian
dari jumlah dan karakteristik yang dimiliki oleh populasi tersebut. Sampel
adalah bagian dari populasi yang dijadikan subyek penelitian sebagai
"wakil" dari para anggota populasi. (Supardi, 1993)

Gambar 9. Sampling Data

B. Metode Sampling
Kategori Metode Sampling terdapat dua macam yaitu Probability
sampling dan non-Probability Sampling seperti yang digambarkan pada
gambar 10 dibawah ini.

65
Gambar 10. Metode Sampling
1. Probability Sampling
Probably sampling adalah penarikan contoh dengan metode
peluang yang dilakukan secara acak (random), dan dapat dilakukan
dengan cara undian atau tabel bilangan random. (Ayu Asari, 2018) Teknik
ini sering juga disebut dengan random sampling, yaitu pengambilan
sampel penelitian secara random. Teknik sampling ini cocok dipilih untuk
populasi yang bersifat finit, artinya besaran anggota populasi dapat
ditentukan lebih dahulu. Pada teknik sampling ini, penentuan sampel
penelitian dengan memberikan kemungkinan (probability) yang sama
pada setiap anggota populasi untuk menjadi sampel terpilih. Dengan
demikian pada teknik sampling ini alat analisis statistik dapat
dipergunakan untuk membantu penentuan sampel terpilih. Teknik
probability sampling ini ada beberapa model yaitu: simple random
sampling (acak sederhana maupun bilangan random); sistematik random
sampling; stratified random sampling dan cluster random sampling.
(Supardi, 1993). Ciri – ciri dari Probability Sampling adalah diantaranya
adalah sebagai berikut :
• Populasi diketahui. Populasi yang akan dijadikan sebagai sumber
harus diketahui terlebih dahulu.
• Randomisasi/keteracakan: Ya. Pada probability sampling data yang
akan diambil tersebar secara acak dan memiliki kesempatan yang
sama untuk digunakan sebagai sample.
• Conclusiver. Riset ini digunakan untuk menguji variabel-variabel
penelitian dan biasanya menggunakan metode analisis data
kuantitatif.
• Hasil dari penggunaan probability sampling method adalah Unbiased
atau bias minimum (representasi populasi yang tidak bias).

66
• Kesimpulan yang dihasilkan pada probability sampling berupa
Statistik.

Gambar 11. Kegunaan Probability Sampling


Probability sampling berarti setiap anggota populasi mempunyai
kesempatan yang sama untuk terpilih. Hal ini terutama digunakan dalam
penelitian kuantitatif. Jika ingin menghasilkan hasil yang mewakili
seluruh populasi, teknik probability sampling adalah pilihan yang paling
valid (McCombes 2021). Kita dapat menggunakan probability sampling
ketika :
• Bila ingin mengurangi bias pada sampel: Metode sampling ini
digunakan ketika bias harus minimum. Pemilihan sampel sangat
menentukan kualitas inferensi
• penelitian. Bagaimana peneliti memilih sampel mereka sangat
menentukan kualitas temuan peneliti. Pengambilan sampel
probabilitas mengarah pada temuan berkualitas lebih tinggi karena
memberikan representasi populasi yang tidak bias.
• Ketika populasi biasanya beragam: Peneliti menggunakan metode ini
secara ekstensif (menjangkau secara luas) karena membantu mereka
membuat sampel yang sepenuhnya mewakili populasi. Katakanlah
kita ingin mengetahui berapa banyak orang yang lebih memilih wisata
medis daripada dirawat di negara mereka sendiri. Metode sampling
ini akan membantu pengambilan sampel dari berbagai strata sosial
ekonomi, latar belakang, dll untuk mewakili populasi yang lebih luas.

67
• Untuk membuat sampel yang akurat: Probability sampling membantu
peneliti membuat sampel yang akurat dari populasi mereka. Para
peneliti menggunakan metode statistik yang telah terbukti untuk
menggambar ukuran sampel yang tepat untuk memperoleh data
yang terdefinisi dengan baik.

Gambar 12. Tipe Probability Sampling


Dari gambar 12 diatas, penjabaran mengenai tipe – tipe
Probability sampling adalah sebagai berikut :
• Simple Random Sampling (pengambilan sampel acak sederhana) :
dalam sampel acak sederhana, setiap anggota populasi memiliki
peluang yang sama untuk dipilih. Contoh : Anda ingin memilih sampel
acak sederhana dari 100 karyawan Perusahaan X. Anda menetapkan
nomor untuk setiap karyawan di database perusahaan dari 1 hingga
1000, dan menggunakan generator nomor acak untuk memilih 100
nomor.
• Systematic Sampling (pengambilan sampel sistematis) : pengambilan
sampel sistematik mirip dengan pengambilan sampel acak sederhana,
tetapi biasanya sedikit lebih mudah dilakukan. Setiap anggota
populasi terdaftar dengan nomor, tetapi bukannya menghasilkan
nomor secara acak namun individu dipilih secara berkala. Contoh :
Semua karyawan perusahaan terdaftar dalam urutan abjad. Dari 10
nomor pertama, Anda secara acak memilih titik awal: nomor 6. Dari
nomor 6 dan seterusnya, setiap orang ke-10 dalam daftar dipilih (6,
16, 26, 36, dan seterusnya) dan Anda mendapatkan sampel dari 100
orang.

68
• Stratified Sampling (pengambilan sampel bertingkat) : Pengambilan
sampel bertingkat melibatkan membagi populasi menjadi subpopulasi
yang mungkin berbeda dalam hal-hal penting. Ini memungkinkan
Anda menarik kesimpulan yang lebih tepat dengan memastikan bahwa
setiap subkelompok terwakili dengan benar dalam sampel. Untuk
menggunakan metode pengambilan sampel ini, Anda membagi
populasi menjadi subkelompok (disebut strata) berdasarkan
karakteristik yang relevan (misalnya jenis kelamin, rentang usia,
golongan pendapatan, peran pekerjaan). Contoh : Perusahaan ini
memiliki 800 karyawan wanita dan 200 karyawan pria. Anda ingin
memastikan bahwa sampel mencerminkan keseimbangan gender
perusahaan, sehingga Anda mengurutkan populasi menjadi dua strata
berdasarkan gender. Kemudian Anda menggunakan pengambilan
sampel acak pada setiap kelompok, memilih 80 wanita dan 20 pria,
dan memberi anda sampel yang representatif dari 100 orang.
• Cluster Smpling (pengambilan sampel klaster) : Pengambilan sampel
klaster juga melibatkan pembagian populasi menjadi subkelompok,
tetapi setiap subkelompok harus memiliki karakteristik yang serupa
dengan keseluruhan sampel. Alih-alih mengambil sampel individu dari
setiap subkelompok, Anda secara acak memilih seluruh subkelompok.
Jika memungkinkan, Anda dapat memasukkan setiap individu dari
setiap cluster sampel. Jika cluster itu sendiri besar, Anda juga dapat
mengambil sampel individu dari dalam setiap cluster menggunakan
salah satu teknik di atas. Metode ini bagus untuk menangani populasi
yang besar dan tersebar, tetapi ada lebih banyak risiko kesalahan
dalam sampel, karena mungkin ada perbedaan substansial antara
kelompok. Sulit untuk menjamin bahwa cluster sampel benar-benar
mewakili seluruh populasi. Contoh : Perusahaan ini memiliki kantor di
10 kota di seluruh negeri (semua dengan jumlah karyawan yang kira-
kira sama dengan peran yang sama). Anda tidak memiliki kapasitas
untuk melakukan perjalanan ke setiap kantor untuk mengumpulkan
data Anda, jadi Anda menggunakan sampling acak untuk memilih 3
kantor dan ini adalah klaster Anda.
2. Non-Probability Sampling
Nonprobability sampling adalah teknik pengambilan sampel yang
tidak memberi peluang atau kesempatan sama bagi setiap unsur atau
anggota populasi yang dipilih menjadi sampel. Non probability sampling
ini tidak bisa digunakan untuk membuat generalisasi (Retnawati 2021).

69
Ciri – ciri dari Probability Sampling adalah diantaranya adalah sebagai
berikut :
• Populasi yang akan dijadikan sumber data tidak diketahui
sebelumnya.
• Keterbatasan penelitian. Metode ini tidak tidak bisa digunakan untuk
membuat generalisasi.
• Randomisasi/keteracakan data yang digunakan tidak acak.
• Exploratory. Riset eksploratori bersifat fleksibel dan tidak terstruktur.
Umumnya riset ini berbentuk riset kualitatif dengan metode
pengumpulan data yang lazim digunakan yaitu wawancara dan Focus
Group Discussion.
• Hasil dari penggunaan metode ini adalah Biased (bias).
• Kesimpulan yang dihasilkan dengan menggunakan metode ini berupa
analitik.

Gambar 13. Non-Probability Sampling

Dapat dilihat dari gambar 13 diatas menggambarkan mengenai metode non-


probability sampling dan tipe dari non-probability sampling. Berikut dibawah ini
merupakan penjabaran dari metode non-probability sampling berdasarkan gambar
diatas :
• Convenience : Convenience sampling adalah teknik pengambilan sampel non-
probabilitas di mana sampel dipilih dari populasi hanya karena mereka tersedia
untuk peneliti. Peneliti memilih sampel ini hanya karena mereka mudah direkrut,
dan peneliti tidak mempertimbangkan untuk memilih sampel yang mewakili
seluruh populasi. Idealnya, dalam penelitian, ada baiknya menguji sampel yang
mewakili populasi. Namun, dalam beberapa penelitian, populasi terlalu besar
untuk diteliti dan mempertimbangkan seluruh populasi. Ini adalah salah satu

70
alasan mengapa peneliti mengandalkan convenience sampling yang merupakan
metode pengambilan sampel non-probabilitas yang paling umum, karena
kecepatan, efektivitas biaya, dan kemudahan ketersediaan sampel.
• Judgmental : Dalam metode judgemental sampling, peneliti memilih sampel
hanya berdasarkan pengetahuan dan kredibilitas peneliti. Dengan kata lain,
peneliti hanya memilih orang-orang yang mereka anggap cocok untuk
berpartisipasi dalam penelitian. Pengambilan sampel yang menghakimi atau
purposive bukanlah metode pengambilan sampel yang ilmiah, dan kelemahan
dari teknik pengambilan sampel ini adalah bahwa praduga dari seorang peneliti
dapat mempengaruhi hasil. Dengan demikian, teknik penelitian ini melibatkan
tingkat ambiguitas yang tinggi.
• Quota : karakteristik yang relevan digunakan untuk memisahkan sampel untuk
meningkatkan keterwakilannya. Secara hipotesis mempertimbangkan bahwa
seorang peneliti ingin mempelajari tujuan karir karyawan pria dan wanita dalam
suatu organisasi. Ada 500 karyawan dalam organisasi, juga dikenal sebagai
populasi. Untuk memahami lebih baik tentang suatu populasi, peneliti hanya
perlu sampel, bukan seluruh populasi. Selanjutnya, peneliti tertarik pada strata
tertentu dalam populasi. Di sinilah pengambilan sampel kuota membantu dalam
membagi populasi menjadi strata atau kelompok. Contoh jika kita tertarik untuk
mempelajari populasi 40 persen perempuan dan 60 persen laki-laki. Kami
membutuhkan ukuran 100 untuk sampel; seleksi tidak akan berhenti kecuali
target sudah terpenuhi. Sedangkan bila diperoleh jumlah pasti laki-laki atau
perempuan, misalkan 40 perempuan, seleksi untuk laki-laki harus dilanjutkan
dengan proses yang sama, akhirnya ketika perempuan yang sah ditemukan,
tidak akan dipilih karena quota yang ditetapkan sudah penuh (Etikan and Bala
2017).
• Snowball : Pengambilan sampel snowball membantu peneliti menemukan sampel
ketika mereka sulit ditemukan. Peneliti menggunakan teknik ini ketika ukuran
sampel kecil dan tidak mudah didapat. Sistem pengambilan sampel ini bekerja
seperti program rujukan (referal). Setelah peneliti menemukan subjek yang
cocok, ia meminta bantuan mereka untuk mencari subjek serupa untuk
membentuk sampel ukuran yang cukup baik.
• Consecutive sampling (Pengambilan sampel berurutan) : Metode sampling non-
probabilitas ini sangat mirip dengan convenience sampling, dengan sedikit
variasi. Di sini, peneliti memilih satu orang atau sekelompok sampel, melakukan
penelitian selama satu periode, menganalisis hasilnya, dan kemudian beralih ke
subjek atau kelompok lain jika diperlukan. Teknik pengambilan sampel berurutan
memberi peneliti kesempatan untuk bekerja dengan banyak topik dan

71
menyempurnakan penelitiannya dengan mengumpulkan hasil yang memiliki
wawasan penting.
C. Tahapan Sampling
Seperti yang diketahui, sampling terdiri dari beberapa tahap seperti yang
digambarkan pada gambar 14 dibawah ini.

Gambar 14. Tahapan Sampling


Tahapan sampling yang pertama adalah mengidentifikasi dan mendejabarkan
target dari populasi yang akan digunakan. Langkah selanjutnya adalah memilih
sample frame dari populasi yang digunakan lalu memilih metode sampling mana
yang akan digunakan. Langkah selanjutnya adalah menentukan ukuran sample dan
langkah yang terakhir adalah mengumpulkan data yang dibutuhkan.
10. Imbalance Dataset
Imbalanced Dataset merupakan data yang biasanya diolah secara klasifikasi
dengan salah satu kelas/label pada datanya mempunyai nilai yang sangat jauh
berbeda jumlahnya dari kelas lainnya. Pada imbalanced dataset, biasanya kita
memiliki data dengan kelas yang sedikit (rare class) dan data dengan kelas yang
banyak (abundant class). Beberapa contoh kasus yang sering terjadi imbalance
dataset yaitu credit scoring, fraud, data penyakit, dsb. Salah satu cara untuk
mengatasi imbalance dataset adalah dengan malakukan resampling.
A. Resampling
Ini dilakukan setelah proses pemilihan, pembersihan dan rekayasa fitur
dilakuan atas pertanyaan:
• Apakah kelas target data yang kita inginkan telah secara sama terdistribusi di
seluruh dataset?
• Jawaban atas pertanyaan diatas adalah di banyak kasus tidak/belum tentu.
Biasanya terjadi imbalance (ketidakseimbangan) antara dua kelas. Misal utk
dataset tentang detekis fraud di perbankan, lelang real-time, atau deteksi intrusi
di network! Biasanya data dari dataset tersebut berukuran sangat kecil atau

72
kurang dari 1%, namun sangat signifikan. Kebanyakan algoritma ML tidak bekerja
baik utk dataset imbalance tsb.

Gambar 15. Target Distribution


• Berikut adalah beberapa cara untuk mengatasi imbalance dataset adalah
sebagai berikut :
• Gunakan pengukuran (metrik) yang tepat, misal dengan menggunakan:
o Precision/Spesikasi: berapa banyak instance yang relevan
o Recall/Sensitifitas: berapa banyak instance yang dipilih
o F1 score: harmonisasi mean dari precision dan recall
o MCC: koefisien korelasi antara klasifikasi biner antara observasi vs
prediksi
o AUC: relasi antara tingkat true-positive vs false-positive
• Resample data training, dengan dua metode:
o Undersampling: menyeimbangkan dataset dengan mereduksi ukuran
kelas yang melimpah. Dilakukan jika kuantitas data mencukupi.
Undersampling bekerja dengan mengurangi jumlah data pada bagian
kelas mayor (majority class) undersampling adalah mengambil sampel
sedemikian rupa sehingga proporsi kelas mayoritas tidak sebesar
(menjadi lebih kecil) proporsi aslinya. Sering dikerjakan bahwa amatan
kelas minoritas dipilih semuanya, sedangkan amatan kelas mayoritas
diambil secara acak sebagian saja. Dengan cara ini maka ketimpangan
proporsi mayoritas dan minoritas menjadi berkurang. (Riswanto,
Bijaksana, and Maulana 2007).
o Oversampling: Kebalikan dari undersampling, dilakukan jika kuantitas
data tidak mencukupi. Oversampling bekerja dengan menambah jumlah
data pada bagian kelas minor (minority class). Secara umum teknik ini
adalah mengambil kelas minoritas sedemikian rupa sehingga proporsinya
dalam sample lebih besar dibandingkan proporsi asalnya. Yang dilakukan
umumnya pada kasus pemodelan klasifikasi adalah dengan cara
menduplikasi amatan minoritas.

73
B. Teknik Resampling
Terdapat beberapa teknik dari resampling seperti yang digambarkan oleh
gambar 16 dibawah ini.

Gambar 16. Teknik Resampling


Berikut merupakan penjelasan dari teknik resampling SMOTE, Oversampling
Bootstrap dan Undersampling Bootstrap.
• Oversampling (SMOTE) : Synthetic Minority Oversampling Technique (SMOTE)
adalah salah satu turunan dari oversampling. SMOTE pertama kali diperkenalkan
oleh Nithes V. Chawla. Pendekatan ini bekerja dengan membuat replikasi dari
data minoritas. Replikasi tersebut dikenal dengan data sintetis (syntetic data).
Metode SMOTE bekerja dengan cara memperbanyak jumlah data pada kelas
minor agar setara dengan kelas mayor dengan cara membangkitkan data buatan
yang dibuat berdasarkan k-nearest neighbor atau KNN (yaitu ketetanggaan
terdekat data sebanyak k) untuk setiap data di kelas minoritas, setelah itu dibuat
data sintetis sebanyak prosentase duplikasi yang diinginkan antara data minor
dan knearest neighbors yang dipilih secara acak (Siringoringo 2018).
• Oversampling : Oversampling bekerja dengan menambah jumlah data pada
bagian kelas minor (minority class). Secara umum teknik ini adalah mengambil
kelas minoritas sedemikian rupa sehingga proporsinya dalam sample lebih besar
dibandingkan proporsi asalnya. Yang dilakukan umumnya pada kasus pemodelan
klasifikasi adalah dengan cara menduplikasi amatan minoritas.
• Undersampling : Undersampling bekerja dengan mengurangi jumlah data pada
bagian kelas mayor (majority class) undersampling adalah mengambil sampel
sedemikian rupa sehingga proporsi kelas mayoritas tidak sebesar (menjadi lebih
kecil) proporsi aslinya. Sering dikerjakan bahwa amatan kelas minoritas dipilih
semuanya, sedangkan amatan kelas mayoritas diambil secara acak sebagian
saja.

74
• Dengan cara ini maka ketimpangan proporsi mayoritas dan minoritas menjadi
berkurang. (Riswanto, Bijaksana, and Maulana 2007).
11. Pemilihan (Seleksi Fitur) Data
Setelah menentukan sampling atas data yang akan diambil nanti, selanjutnya
adalah melakukan seleksi fitur (feature selection) atas data sampling tersebut.
Seleksi fitur merupakan konsep inti dalam Machine Learning yang berdampak besar
bagi kinerja model prediksi. Fitur data yang tidak/sebagian saja relevan damapak
berdampak negatif terhadap kinerja model. Definisi Seleksi Fitur itu sendiri adalah
proses otomatis atau manual memilih fitur data yang paling berkontribusi terhadap
variabel prediksi atau output yang diinginkan. Beberapa manfaat dari seleksi fitur
data anatara lainnya adalah sebagai berikut :
• Reduksi Overfitting: semakin kecil data redundant maka keputusan berdasarkan
noise semakin berkurang
• Meningkatkan Akurasi: semakin kecil data misleading maka akurasi model lebih
baik
• Reduksi Waktu Training: semakin kecil titik data (data point) maka kompleksitas
algortima berkurang dan latih algoritma lebih cepat
Terdapat beberapa jenis dari seleksi fitur data, antara lainnya adalah
dijabarkan sebagai berikut :
• Unsupervised: metode yang mengabaikan variabel target, seperti menghapus
variabel yang berlebihan menggunakan korelasi
• Supervised: metode yang menggunakan variabel target, seperti menghapus
variabel yang tidak relevan
Pada seleksi fitur data, kita harus dapat membedakan Jenis Data yaitu
diantaranya adalah Numerik dan Kategori Kategorik. Gambar 17 dibawah ini
menggambarkan tentang perbedaan data Kategoris dan Numerik.

Gambar 17. Jenis Data Kategoris vs Numerik

Pada data kategoris / kualitatif, termasuk didalamnya adalah nominal dan


ordinal. Nominal dapat dimisalkan dengan NIM, Kode Pos & Jenis Kelamin dan ordinal

75
dimisalkan dengan tingkat kelulusan (cumlaude,sangat memuaskan & memuaskan)
dan suhu (dingin, normal & panas). Pada data Numerik / kuantitatif termasuk
didalamnya adalah Interval dan Rasio. Internal dimisalkan tanggal dan suhu
sedangkan rasio dimisalkan umur, panjang dan tinggi.
12. Validasi Data
Sebelum membahas lebih jauh mengenai validasi data, sebaiknya kita
mengetahui apa perbedaan dari Verifikasi dan Validasi. Verifikasi bertujuan untuk
membuktikan bahwa sesuatu ada atau benar, atau untuk memastikan bahwa
sesuatu adalah benar atau salah sedangkan Validasi bertujuan untuk membuat
sesuatu yang resmi diterima atau disetujui, terutama setelah memeriksanya apakah
Kuat atau Lemah.
Validasi atau validitas adalah mengukur sejauh mana perbedaan skor yang
mencerminkan perbedaan sebenarnya baik itu antar individu, kelompok, atau juga
situasi yang mengenai karakteristik yang akan diukur, atau juga kesalahan
sebenarnya pada individu ataupun juga kelompok yang sama dari satu situasi ke
situasi yang lain. (https://pendidikan.co.id/verifikasi-vs-validasi/) Validasi adalah
suatu tindakan pembuktian, artinya validasi merupakan suatu pekerjaan
“dokumentasi”. (https://penerbitbukudeepublish.com/validasi-data-penelitian/ )
Sebagai contoh adalah sebagi berikut :
• Validasi didalam Mengukur Kemampuan para Siswa didalam Matematik.
Kemudian dengan diberikan soal bersifat kalimat Panjang begitu berbelit-belit.
Hal tersebut bertujuan untuk dapat memberikan kesukaran dalam menangkap
maknanya. Hasil akhirnya, siswa tersebut tidak dapat menjawab, akibat tidak
memahami per-tanyaannya.
• Contoh variabel prestasi belajar serta motivasi bisa diukur oleh tes ataupun juga
oleh kuesioner. Cara demikian juga bisa berbeda, tes tersebut dapat
dilaksanakan baik itu secara tertulis ataupun lisan.
• Verifikasi yang dituliskan menurut wikipedia adalah teori filsafat positif logis
didalam memilih metode pengalaman. Dalam artian, bahwa suatu sumber yang
didasarkan pengetahuan serta pengematan dengan melalui analisis logis dengan
bantuan berupa simbol-simbol logika dengan menggunakan metode dalam
pemecahan masalah dengan melalui metode empirik.
(https://pendidikan.co.id/verifikasi-vs-validasi/ ).
• Contoh: Verifikasi itu sering ditemui dalam pendaftaran. Pada saat mendaftar,
maka akan diperlukan untuk menyediakan bukti obyektif contohnya seperti
fotokopi KTP, akte kelahiran, dan sejenisnya. Setelah hal-hal tersebut dilengkapi,
maka selanjutnya berkas pendaftaran tersebut diverifikasi. Selain dari itu,
verifikasi dapat juga dilakukan pada laboratorium yang akan melakukan sebuah

76
penelitian. Metode Verifikasi ini, dilakukan dengan menggunakan sifat yang baku
untuk dapat membuktikan hasil yang benar valid. Verifikasi tersebut juga bisa
ditujukan untuk dapat melihat apakah laboratorium tersebut memiliki
kompetensi personil. Validasi merupakan tahapan kritikal yang sering diabaikan
Data Scientist pemula, karena memeriksa, diantaranya sbb:
• Tipe Data (mis. integer, float, string)
• Range Data
• Uniqueness (mis. Kode Pos)
• Consisten expression (mis. Jalan, Jl., Jln.)
• Format Data (mis. utk tgl “YYYY-MM-DD” VS “DD-MM-YYYY.”)
• Nilai Null/Missing Values
• Misspelling/Type
• Invalid Data (gender: L/P: L; Laki-laki; P: Pria/Perempuan? )
Perbedaan Verifikasi dan Validasi dapat kita jabarkan sebagai Verifikasi dan
validasi ini memiliki tujuan untuk menunjukkan bahwa sistem itu sesuai dengan
spesifikasinya serta bahwa sistem tersebut memenuhi harapan pelanggan. Berikut
perbedaannya:
a. Verifikasi itu sebenarnya berbicara pada konfirmasi dengan proses pengujian
dengan secara ilmiah serta objektif mengenai persyaratan tersebut.
b. Berbeda dengan verifikasi, pemeriksaan validasi tersebut biasanya memiliki sifat
tidak baku atau dengan menggunakan metode tersendiiri yang dilakukan pada
laboratorium.
d. Selain dari itu validasi tersebut juga dapat mengembangkan metode tersendiri
pada laboratorium. Validasi tersebut tujuannya untuk dapat memperoleh hasil
berupa valid ataupun tidaknya.
e. Terdapat beberapa teknik validasi data dan model yang ada, diantaranya adalah
sebagai berikut :
o Akurasi atau Ketepatan data yang ada
o Kelengkapan data
o Konsistensi data
o Ketepatan Waktu validasi data
o Kepercayaan
o Nilai Tambah
o Penafsiran data
o Kemudahan Akses

f. Alat dan Bahan


Laptop, Ms Word, PDF.

77
g. Prosedur Kerja
Jelaskan tiga Teknik seleksi fitur dibawah ini :
• Seleksi Univariat (Univariate Selection)
• Pentingnya Fitur (Feature Important)
• Matriks Korelasi (Corelation Matrix) dengan Heatmap

h. Hasil dan Pembahasan


Membuat laporan dari penjelasan terkait teknik seleksi fitur yang dikerjakan secara
mandiri dalam bentuk makalah dengan ketentuan format laporan sebagai berikut :
• Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V,
logo polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/
i. Kesimpulan
Penjelasan terkait teknik seleksi fitur.
j. Rubrik Penilaian

No Indikator Skor*

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 4


1 1 2 3
menjelaskan tugas yang ditunjang dengan bukti referensi

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas

Ketepatan waktu pengumpulan tugas akan tetapi kurang tepat dalam 2


3 1 3 4
menjelaskan tugas

Keterlambatan pengumpulan tugas dan ketidak tepatan dalam 1


4 2 3 4
menjelaskan tugas

Jumlah skor

78
Acara 10
Pokok Bahasan : Data Preparation 2
Acara Praktikum/Praktek: Minggu 5/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami teknik transformasi data sesuai kebutuhan
• Mahasiswa mampu memahami pembuatan dokumen konstruksi data
b. Indikator
• Mahasiswa mampu memahami beberapa teknik transformasi data dalam
membuat dokumentasi konstruksi data
c. Dasar Teori
1. Transformasi Data
Trasnformasi data merupakan perubahan data dari variabel yang
sebenarnya menjadi skala konversi nilai tertentu. Transformasi data dapat
dilakukan untuk data numerik. Tujuan/Alasan dilakukannya Transformasi Data:
Mengubah data menjadi skala yang berbeda; Meningkatkan kecocokan data
dengan asumsi yang mendasari pada proses pemodelan; Melinearisasikan
hubungan antara 2 variabel yang hubungannya tidak linear; Memodifikasi
rentang nilai dari suatu variable; Mengetahui distribusi dari suatu data;
Memudahkan interpretabilitas; Menormalkan suatu data.
Tantangan teknis transformasi data berasal dari variasi input dan output
yang tidak terbatas untuk masalah, yang sering membutuhkan pekerjaan
khusus. Pada intinya, transformasi data adalah masalah pemrograman khusus
domain, dengan fokus kuat pada struktur, semantik dan sifat statistik data. Jika
kita membuat spesifikasi program transformasi data secara dramatis lebih
mudah, kita dapat menghilangkan kejenuhan bagi pekerja teknis yang langka,
dan melibatkan sekumpulan tenaga kerja yang jauh lebih luas dalam tugas-tugas
data-centric yang memakan waktu. Konteks variabel transformasi data, dibagi
menjadi dua yaitu Representasi Fitur dan Rekayasa Fitur. Terdapat beberapa
teknik transformasi data yang digunakan sesuai kebutuhan dan ketersediaan/
jenis data baik numerik maupun kategorik. Representasi fitur data awal dapat
berupa kolom data atau fitur tipe data yang dapat digunakan untuk algoritme
machine learning sesuai dengan tipe data. Rekayasa fitur data dapat berupa
normalisasi, pemilihan fitur tipe data baru, menambahkan kolom data baru.
Representasi Fitur atau Pembelajaran Fitur, teknik yang
memungkinkan system bekerja otomatis menemukan representasi yang
diperlukan untuk deteksi fitur atau klarifikasi dari dataset, menggantikan

79
rekayasa fitur manual, dan memungkinkan mesin mempelajari fitur dan
menggunakannya untuk melakukan tugas tertentu.
Rekayasa Fitur, proses mengubah data mentah menjadi fitur yang
mewakili masalah mendasar ke model prediktif, dan menghasilkan akurasi model
yang lebih baik pada data yang tidak terlihat.

Gambar 1. Keluarga Rekayasa Fitur


Apa itu Rekayasa Fitur?
o Ketika kita memiliki banyak fitur dalam kumpulan data yang diberikan,
rekayasa fitur dapat menjadi modul yang cukup menantang dan menarik.
o Jumlah fitur dapat sangat mempengaruhi model, sehingga rekayasa fitur
merupakan tugas penting dalam siklus hidup Ilmu Data.
Outlier adalah pengamatan yang menyimpang dari data yang terstruktur
dengan baik. Akar penyebab Outlier dapat berupa kesalahan dalam pengukuran
atau kesalahan pengumpulan data.
Cara cepat untuk menangani Outlier:
o Outlier bisa berupa kesalahan atau hanya varians. (Seperti disebutkan,
contoh)
o Jika menemukan sebagai kesalahan, maka dapat mengabaikannya.
o Jika menemukan sebagai varians dalam data, maka dapat dikerjakan.

80
Gambar 2. Outlier
2. Berbagai Teknik Transformasi Data
o Imputasi
Imputasi merupakan model menggantikan nilai/ data yang hilang
(missing value; NaN; Blank) dengan nilai pengganti.
Mekanisme data yang hilang, dalam teori data yang hilang, kami
mengklasifikasikan masalah data yang hilang ke dalam tiga kategori:
hilangnya MCAR, MAR dan MNAR. Pertimbangkan dataset dengan fitur hasil
Y, fitur prediksi X1 dan X2 dan beberapa variabel Z yang tersedia tetapi tidak
digunakan dalam model analisis. Untuk fitur X1 yang tidak lengkap, datanya
adalah:
- Missing Completely at Random (MCAR), ketika setiap sel memiliki
kemungkinan hilang yang tetap dan sama. Akibatnya, nilai X1 besar dan
kecil menjadi hilang. Pada Gambar 1, nilai yang hilang ditunjukkan
dengan warna merah.
- Missing at Random (MAR), ketika probabilitas yang hilang tergantung
pada nilai- nilai yang diamati. Pada Gambar 2, record dengan nilai besar
pada variabel Z memiliki kemungkinan lebih tinggi untuk hilang pada fitur
X1. Pada Gambar 3, ketidakhadiran tergantung pada nilai yang diamati
dari fitur X lainnya, misalnya X2. Dalam kedua situasi, korelasi antara fitur
yang tidak lengkap dan lengkap menentukan nilai mana yang hilang.
- Missing Not at Random (MNAR), ketika kemungkinan hilang tergantung
pada data yang tidak teramati atau hilang. Situasi ini dapat terjadi karena
kovariat yang sesuai untuk menjelaskan ketidakhadiran belum dicatat
(variabel Z tidak tersedia) atau ketika probabilitas kehilangan bergantung
pada nilai X1 yang hilang itu sendiri.

81
Ketika hilangnya tergantung pada variabel hasil Y, dan ketika variabel
hasil Y selesai diamati, peneliti ilmiah akan mengklasifikasikan ini sebagai
hilangnya MAR. Bagaimanapun, informasi dalam Y dapat digunakan dalam
model imputasi. Namun, dalam model ilmu data, umumnya tidak diterima
untuk menggunakan variabel hasil. Seseorang dapat berargumen bahwa
dalam situasi di mana ketidakhadiran dalam X1 bergantung pada nilai-nilai Y
yang diamati, dan variabel Y tidak dapat digunakan dalam model imputasi,
lebih masuk akal untuk mengklasifikasikan ketidakhadiran sebagai MNAR.

Gambar 3. MCAR, MAR, MNAR


Multiple Imputation telah menjadi cara standar menangani data yang hilang:
- Memanfaatkan semua informasi yang tersedia;
- Umumnya digunakan di bawah MAR, yaitu asumsi untuk data yang hilang
adalah bahwa alasan ketidakhadiran ada pada variabel yang diamati;
- Sangat fleksibel, pertahankan model analisis yang diinginkan dengan
yang sama interpretasi hasil.

Gambar 4. Multiple Imputation

82
o Tahapan dan Teknik Imputasi
Imputasi data adalah tindakan mengganti data yang hilang dengan
perkiraan statistik dari nilai yang hilang. Tujuan dari setiap teknik imputasi
adalah untuk menghasilkan kumpulan data yang lengkap untuk digunakan
dalam proses pelatihan model pembelajaran mesin. Untuk membantu proses
ini, kita perlu menggunakan pustaka yang disebut mesin fitur yang dapat
menyederhanakan proses memasukkan nilai yang hilang. Anda dapat dengan
mudah menginstalnya dengan pip:

Teknik Imputasi Data yang Hilang, teknik yang berlaku untuk variabel
numerik dan kategoris, dan juga beberapa metode yang berlaku untuk
keduanya.

Jika tipe data variabel numerik:


- Imputasi mean atau median
- Imputasi nilai suka-suka (arbitrary)
- Imputasi nilai/ data ujung (end of tail)

Jika tipe data variable kategorik:


- Imputasi kategori yang sering muncul
- Imputasi tambah kategoru yang hilang

Gambar 5. Tahapan Multiple Imputation

Proses Multiple Imputation (MI). Pada langkah pertama data yang


hilang (ditampilkan dalam warna putih) diperhitungkan (ditampilkan dengan

83
warna biru tua) untuk membuat M set data lengkap, dengan M 3 ditampilkan
di sini. Kemudian setiap set data lengkap yang diperhitungkan dianalisis
menggunakan standar metode seperti regresi linier. Akhirnya hasilnya
dikumpulkan menggunakan aturan Rubin.

d. Alat dan Bahan


Laptop, Ms Word, Ms. Power Point

e. Prosedur Kerja
• Jelaskan pengertian transformasi data dan teknik transformasi data

f. Hasil dan Pembahasan


Membuat laporan dari penjelasan terkait transformsi data dan teknik transformasi
data yang dikerjakan secara mandiri dalam bentuk makalah dengan ketentuan
format laporan sebagai berikut :
• Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V,
logo polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/

g. Kesimpulan
Penjelasan terkait transformasi data dan teknik transformasi data.

h. Rubrik Penilaian

No Indikator Skor*

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 4


1 1 2 3
menjelaskan tugas yang ditunjang dengan bukti referensi

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas

Ketepatan waktu pengumpulan tugas akan tetapi kurang tepat dalam 2


3 1 3 4
menjelaskan tugas

Keterlambatan pengumpulan tugas dan ketidak tepatan dalam 1


4 2 3 4
menjelaskan tugas

Jumlah skor

84
Acara 11
Pokok Bahasan : Statistik Deskriptif 1
Acara Praktikum/Praktek: Minggu 6/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan Statistik

b. Indikator
Mahasiswa mampu menggunakan Statistik Deskriptik untuk Mengolah Data

c. Dasar Teori
Statistika Deskriptif mempunyai tujuan untuk mendeskripsikan atau memberi
gambaran objek yang diteliti sebagaimana adanya tanpa menarik kesimpulan atau
generalisasi. Dalam statistika deskriptif ini dikemukakan cara-cara penyajian data
dalam bentuk tabel maupun diagram, penentuan rata-rata (mean), modus, median,
rentang serta simpangan baku.

Statistika Inferensial mempunyai tujuan untuk penarikan kesimpulan. Sebelum


menarik kesimpulan dilakukan suatu dugaan yang diperoleh dari statistika deskriptif.
Diantaranta pengujian hipotesis , penyimpangan asumsi klasik, berbagai motode
analisis

manfaat statistik, yaitu:


1. Sebagai alat komunikasi atau penghubung dengan beberapa pihak
2. Alat untuk menyajikan atau mengambarkan data dalam bentuk tabel, gambar dan
diagram sehingga orang lain dapat mudah memahami
3. Alat untuk meramalkan dan memprediksi pengaruh data tertentu terhadap
data lain yang mempengaruhi, atau dalam mengujian lebih dikenal dengan
regresi dimana variabel bebas berpengaruh terhadap variabel terikat
4. Alat untu menentukan seberapa kuat hubungan diantara dua data dalam
penelitian yang dikenal dengan korelasi
5. Alat untuk membandingkan dua kelompok data atau lebih, lebih dikenal
dengan komparasi

85
d. Alat dan Bahan
Laptop, Ms Excel, dan data yang sudah tersedia

e. Prosedur Kerja

86
f. Hasil dan Pembahasan

g. Kesimpulan
Simpulkan apa yang sudah anda pelajari dan tulis dalam laporan!

87
h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

88
Acara 12
Pokok Bahasan : Statistik Deskriptif 2
Acara Praktikum/Praktek: Minggu 6/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan Statistik

b. Indikator
Mahasiswa mampu menggunakan Statistik Deskriptik untuk Mengolah Data

c. Dasar Teori
Statistika Deskriptif mempunyai tujuan untuk mendeskripsikan atau memberi
gambaran objek yang diteliti sebagaimana adanya tanpa menarik kesimpulan atau
generalisasi. Dalam statistika deskriptif ini dikemukakan cara-cara penyajian data
dalam bentuk tabel maupun diagram, penentuan rata-rata (mean), modus, median,
rentang serta simpangan baku.

Statistika Inferensial mempunyai tujuan untuk penarikan kesimpulan. Sebelum


menarik kesimpulan dilakukan suatu dugaan yang diperoleh dari statistika deskriptif.
Diantaranta pengujian hipotesis , penyimpangan asumsi klasik, berbagai motode
analisis

manfaat statistik, yaitu:


1. Sebagai alat komunikasi atau penghubung dengan beberapa pihak
2. Alat untuk menyajikan atau mengambarkan data dalam bentuk tabel, gambar dan
diagram sehingga orang lain dapat mudah memahami
3. Alat untuk meramalkan dan memprediksi pengaruh data tertentu terhadap
data lain yang mempengaruhi, atau dalam mengujian lebih dikenal dengan
regresi dimana variabel bebas berpengaruh terhadap variabel terikat
4. Alat untu menentukan seberapa kuat hubungan diantara dua data dalam
penelitian yang dikenal dengan korelasi
5. Alat untuk membandingkan dua kelompok data atau lebih, lebih dikenal
dengan komparasi

89
d. Alat dan Bahan
Laptop, Ms Excel, dan data yang sudah tersedia
e. Prosedur Kerja
Data yang diperoleh dari suatu penelitian yang masih berupa random dapat disusun
menjadi data yang berurutan satu per satu atau berkelompok, yaitu data yang telah
disusun ke dalam kelas-kelas tertentu. Tabel untuk distribusi frekuensi disebut
dengan Tabel Distribusi Frekuensi atau Tabel Frekuensi saja. Jadi, distribusi frekuensi
adalah susunan data menurut kelas-kelas interval tertentu atau menurut kategori
tertentu dalam sebuah daftar. Distribusi Tunggal adalah satuan-satuan unit, urutan
tiap skor, atau tiap varitas tertentu. Daftar yang memuat data berkelompok disebut
distribusi frekuensi kelompok atau tabel frekuensi bergolong. Distribusi bergolong
terdiri atas beberapa interval kelas dalam penyusunannya. Selanjutnya, dari
distribusi frekuensi dapat diperoleh keterangan atau gambaran dan sistematis dari
data yang diperoleh.

90
91
f. Hasil dan Pembahasan

92
g. Kesimpulan
Simpulkan apa yang sudah anda pelajari dan tulis ke dalam Laporan!

h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

93
Acara 13
Pokok Bahasan : Statistik Deskriptif 3
Acara Praktikum/Praktek: Minggu 7/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan Statistik

b. Indikator
Mahasiswa mampu menggunakan Statistik Deskriptik untuk Mengolah Data

c. Dasar Teori
Statistika Deskriptif mempunyai tujuan untuk mendeskripsikan atau memberi
gambaran objek yang diteliti sebagaimana adanya tanpa menarik kesimpulan atau
generalisasi. Dalam statistika deskriptif ini dikemukakan cara-cara penyajian data
dalam bentuk tabel maupun diagram, penentuan rata-rata (mean), modus, median,
rentang serta simpangan baku.

Statistika Inferensial mempunyai tujuan untuk penarikan kesimpulan. Sebelum


menarik kesimpulan dilakukan suatu dugaan yang diperoleh dari statistika deskriptif.
Diantaranta pengujian hipotesis , penyimpangan asumsi klasik, berbagai motode
analisis

manfaat statistik, yaitu:


1. Sebagai alat komunikasi atau penghubung dengan beberapa pihak
2. Alat untuk menyajikan atau mengambarkan data dalam bentuk tabel, gambar dan
diagram sehingga orang lain dapat mudah memahami
3. Alat untuk meramalkan dan memprediksi pengaruh data tertentu terhadap
data lain yang mempengaruhi, atau dalam mengujian lebih dikenal dengan
regresi dimana variabel bebas berpengaruh terhadap variabel terikat
4. Alat untu menentukan seberapa kuat hubungan diantara dua data dalam
penelitian yang dikenal dengan korelasi
5. Alat untuk membandingkan dua kelompok data atau lebih, lebih dikenal
dengan komparasi

94
d. Alat dan Bahan
Laptop, Ms Excel, dan data yang sudah tersedia
e. Prosedur Kerja
Ketika kita menyajikan suatu data, seringkali kita ingin menemukan pola atau
hubungan antara variabel-variabel dalam data tersebut. Agar dapat mencari atau
menemukan pola dan hubungan antar variabel tersebut, maka dapat digunakan
grafik untuk memvisualisasikan data. Jenis visualisasi yang dipilih tergantung pada
penekanan yang ingin kita temukan dalam suatu data. Contoh grafik yang sering
digunakan antara lain grafik garis, grafik batang, dan diagram lingkaran

f. Hasil dan Pembahasan

95
g. Kesimpulan
Tulis apa yang sudah anda pelajari ke dalam laporan!

h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

96
Acara 14
Pokok Bahasan : Statistik Deskriptif 4
Acara Praktikum/Praktek: Minggu 7/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan Statistik

b. Indikator
Mahasiswa mampu menggunakan Statistik Deskriptik untuk Mengolah Data

c. Dasar Teori
Statistika Deskriptif mempunyai tujuan untuk mendeskripsikan atau memberi
gambaran objek yang diteliti sebagaimana adanya tanpa menarik kesimpulan atau
generalisasi. Dalam statistika deskriptif ini dikemukakan cara-cara penyajian data
dalam bentuk tabel maupun diagram, penentuan rata-rata (mean), modus, median,
rentang serta simpangan baku.

Statistika Inferensial mempunyai tujuan untuk penarikan kesimpulan. Sebelum


menarik kesimpulan dilakukan suatu dugaan yang diperoleh dari statistika deskriptif.
Diantaranta pengujian hipotesis , penyimpangan asumsi klasik, berbagai motode
analisis

manfaat statistik, yaitu:


1. Sebagai alat komunikasi atau penghubung dengan beberapa pihak
2. Alat untuk menyajikan atau mengambarkan data dalam bentuk tabel, gambar dan
diagram sehingga orang lain dapat mudah memahami
3. Alat untuk meramalkan dan memprediksi pengaruh data tertentu terhadap
data lain yang mempengaruhi, atau dalam mengujian lebih dikenal dengan
regresi dimana variabel bebas berpengaruh terhadap variabel terikat
4. Alat untu menentukan seberapa kuat hubungan diantara dua data dalam
penelitian yang dikenal dengan korelasi
5. Alat untuk membandingkan dua kelompok data atau lebih, lebih dikenal
dengan komparasi

d. Alat dan Bahan


Laptop, Ms Excel, dan data yang sudah tersedia

97
e. Prosedur Kerja
Ukuran Pemusatan adalah nilai tunggal yang mewakili suatu kumpulan data dan
menunjukkan karakteristik dari data. Ukuran pemusatan menunjukkan pusat dari
nilai data.

Mean merupakan nilai yang diperoleh dengan menjumlahkan semua nilai data dan
membaginya dengan jumlah data. Mean merupakan nilai yang menunjukkan pusat
dari nilai data dan merupakan nilai yang dapat mewakili keterpusatan data.
(Purwanto S.K., 2012)

Median merupakan salah satu ukuran pemusatan. Median merupakan suatu nilai
yang berada di tengah-tengah data, setelah data tersebut diurutkan. (Purwanto S.K.,
2012)

98
Menghitung median: Jika jumlah data ganjil, maka median adalah nilai tengah dari
urutan data Jika jumlah data genap maka untuk menentukan mediannya diambil 2
data tengah dijumlah, kemudian dibagi 2 Berdasarkan data di atas, maka nilai
tengah dari kelompok data tersebut adalah urutan ke 5 dan 6 dibagi 2 yaitu 20. Jadi
mediannya = 20. Median sebesar 20 menit artinya terdapat 5 hari dengan waktu
layanan kurang atau sama dengan 20 menit, dan terdapat 5 hari dengan waktu
layanan lebih besar atau sama dengan 20 menit.

99
Modus adalah nilai yang sering muncul diantara sebaran data. Jika pada data yang
bersifat data individu akan mudah untuk dicari modusnya.
Contoh :
Diketahui nilai Ujian Tengah Semester Statistika yaitu 50,40,70,75,75,80,75,30,75
dan 80 maka modusnya adalah 75 Rumus :

100
101
f. Hasil dan Pembahasan

102
g. Kesimpulan
Tulis apa yang sudah anda pelajari ke dalam laporan!

h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

103
Acara 15
Pokok Bahasan : Pie Chart
Acara Praktikum/Praktek: Minggu 9/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data

b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data

c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.

d. Alat dan Bahan


Laptop, Jupyter Notebook, data yang sudah tersedia.

e. Prosedur Kerja
Pie Charts Pie chart digunakan untuk menunjukkan seberapa banyak dari setiap jenis
kategori dalam dataset berbanding dengan keseluruhan. Pada bagian ini kita akan
membuat diagram lingkaran menggunakan kumpulan data sampel. Variabel label
berisi tupel rasa es krim. Variabel voting berisi tupel voting. Data tersebut mewakili
jumlah voting rase es krim favorit. Kita dapat membuat grafik menggunakan library
Pyplot Matplotlib. Method plt.pie () digunakan untuk membuat interface pie chart
berdasarkan data rasa es krim dan jumlah voting.

104
Berdasarkan Gambar 0.1, kita dapat dengan mudah melihat bahwa cokelat adalah
rasa yang paling populer, diikuti dengan rasa vanila. Kita dapat mengetahui hal ini
dengan melihat data mentahnya. Namun, data dalam format diagram lingkaran juga
dapat digunakan untuk melihat informasi lain dengan mudah, seperti fakta bahwa
kombinasi cokelat dan vanila mewakili lebih dari setengah suara. Apa yang tidak kita
lihat adalah persentase sebenarnya. Jika kita ingin melihat berapa persen kontribusi
masing-masing rasa es kirim, kita bisa menggunakan argumen autopct. Untuk nilai
argumen, ada beberapa string format yang dapat digunakan untuk mengatur
ketepatan tampilan data. Coba ubah nilainya menjadi% 1.0 %% dan% 1.2f %%.
Apa yang terjadi?

105
Sekarang kita dapat melihat persentase kontribusi setiap rasa es krim secara
keseluruhan (Gambar 0.2). Satu hal yang masih sedikit membingungkan tentang
bagan ini adalah pilihan warnanya. Kita dapat merubah warna dari setiap rasa es
krim Pie Chart. Matplotlib memungkinkan Anda mengubah warna yang ditampilkan
pada bagan dengan memasukkan nilai warna. Anda dapat menggunakan shorcut
yang telah diprogram seperti 'b' untuk biru dan 'g' untuk hijau. Dalam kasus ini, kita
menggunakan warna html. Warna ini adalah adalah nilai enam karakter di mana dua
karakter pertama mewakili jumlah warna merah, dua karakter berikutnya adalah
jumlah warna hijau, dan dua karakter terakhir mewakili jumlah warna biru. Anda
dapat menemukan custom warna yang lebih banyak dengan mencari kata kunci
'kode warna html'. Pada code dibawah ini assignment warna dilakukan untuk setiap
rasa (Gambar 0.3)

106
Sekarang mari kita bayangkan kita sedang mempersiapkan bagan ini untuk
presentasi, dan kita ingin memanggil salah satu rasa secara khusus. Mungkin
mangga baru dipasarkan, dan kita ingin melakukan highlight terhadap data mangga.
Untuk melakukan ini kita bisa menggunakan argumen explode. Ini memungkinkan
kita menyetel offset untuk setiap irisan pai dari tengah. Pada contoh di bawah ini
kita mendorong mangga keluar sebesar 0,1 sambil menjaga semua potongan lainnya
tetap berada ditengah.

107
Sekarang mangga sudah ditarik keluar sedikit dari Pie Chart, sehingga kita dapat
melihat highlight dari data mangga (Gambar 0.4). Diagram lingkaran sudah terlihat
cukup bagus, tetapi tampilanya sangat standard. Kita bisa memberinya sedikit
tampilan tiga dimensi dengan menambahkan bayangan dengan argumen bayangan
(Gambar 0.5).

108
Untuk menyelesaikannya, kita bisa menambahkan judul menggunakan plt.title ().
Perhatikan bahwa ini bukan argumen untuk plt.pie (), melainkan pemanggilan
metode terpisah di plt.

109
f. Hasil dan Pembahasan

Sekarang kita dapat memiliki Pie Chart (Gambar 0.6) yang menunjukkan semua rasa
es krim favorit dalam sebuah survey! Ingat diagram lingkaran bagus untuk
menunjukkan bagaimana distribusi kelas pada data yang berbeda (dalam hal ini,
rasa es krim) . Pie chart akan sangat efektif jika hanya ada beberapa kelas yang
terwakili. Bayangkan jika kita memiliki 100 rasa es krim. Maka tampilan Pie Chart
akan sangat penuh

110
g. Kesimpulan
Simpulkan apa yang sudah anda pelajari di dalam laporan !

h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

111
Acara 16
Pokok Bahasan : Bar Chart
Acara Praktikum/Praktek: Minggu 9/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data

b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data

c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.

d. Alat dan Bahan


Laptop, Jupyter Notebook, data yang sudah tersedia.

e. Prosedur Kerja
Bar Chart adalah merupakan tools visualisassi yang dapat digunakan untuk
membandingkan data kategorikal. Mirip dengan diagram lingkaran, diagram ini dapat
digunakan untuk membandingkan kategori data satu sama lain. Namun, diagram
lingkaran sangat spesifik untuk melihat bagaimana satu kategori data dibandingkan
dengan keseluruhan. Grafik diagram batang tidak terlalu tepat untuk hal tersebut.
Selain itu, diagram batang dapat menampilkan lebih banyak kategori data daripada
diagram lingkaran.

112
Mari kita mulai dengan melihat diagram batang yang menunjukkan populasi setiap
negara di Amerika Selatan. Untuk melakukan ini kita akan menggunakan Matplotlib.
Kali ini kita akan menggunakan method bar(). bar () memiliki dua argumen yang
diperlukan. Argumen pertama berisi koordinat x dari data. Karena kita ingin memplot
nama negara pada sumbu x. Dalam kasus ini kita dapat menggunakan fungsi arange
() NumPy untuk membuat daftar angka yang memiliki jumlah array sama.
Assignment angka antara 0 dan panjang data, yang seharusnya memberi daftar
bilangan bulat mulai dari 0 dan berakhir pada len (data) -1, yaitu 13 dalam contoh
kasus ini. Argumen berikutnya adalah data numerik untuk dipetakan. Dalam contoh
ini kita memplot data populasi.

113
Anda dapat melihat pada Gambar 0.7 bahwa x-label tidak bermakna. Kita bisa
memperbaiki ini dengan meneruskan argumen tick_label ke bar (). Karena kita
memiliki label yang relatif lebar, akan berguna juga untuk memutar label sejauh 90
derajat agar lebih mudah dibaca. Lakukan panggilan metode plt.xticks (rotation =
90).

114
Kita dapat menambahkan label ke diagram batang (Gambar 0.8) untuk membantu
membuat diagram agar lebih mudah dibaca. Pada contoh di bawah ini kita
menambahkan label-y menggunakan metode ylabel () dan judul grafik
menggunakan metode title () (Gambar 0.9).

115
Bagannya sudah terlihat cukup bagus. Tetapi bagaimana jika pertanyaan: Apa
negara terpadat kedua di Amerika Selatan? Anda mungkin harus sedikit menatap
Argentina dan Kolombia. Ini karena data diurutkan menurut abjad, yang bukan
merupakan pengurutan yang paling berguna untuk menjawab pertanyaan tentang
data. Sayangnya Matplotlib tidak memiliki penyortiran bawaan. Sebagai gantinya,

116
Anda dapat mengimpor Panda dan menggunakannya untuk mengurutkan data
(Gambar 0.10).

117
Sekarang kita dapat dengan mudah melihat bahwa Kolombia adalah negara terbesar
kedua (Gambar 0.11). Jika kita ingin memanggilnya, kita bisa meneruskan daftar
warna bar ke metode bar ()

118
119
f. Hasil dan Pembahasan
Kita juga bisa membuat grafik menjadi lebih besar menggunakan metode figure ().
Kita dapat meneruskan argumen figsize = yang mewakili lebar dan tinggi gambar
dalam inci (Gambar 0.12).

120
g. Kesimpulan
Simpulkan apa yang anda sudah kerjakan di laporan praktikum!

h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

121
Acara 17
Pokok Bahasan : Line Graph
Acara Praktikum/Praktek: Minggu 10/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data

b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data

c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.

d. Alat dan Bahan


Laptop, Jupyter Notebook, data yang sudah tersedia.

e. Prosedur Kerja
Line Graph adalah bentuk visualisasi lainya selain diagram lingkaran dan diagram
batan. Meskipun diagram lingkaran dan diagram batang berguna untuk
menunjukkan bagaimana kelas data saling terkait, diagram garis lebih berguna
untuk menunjukkan bagaimana kemajuan data selama beberapa periode. Misalnya,
grafik garis dapat berguna dalam membuat grafik suhu dari waktu ke waktu, harga
saham dari waktu ke waktu, berat menurut hari, atau metrik berkelanjutan lainnya.
Kita akan membuat grafik garis yang sangat sederhana di bawah ini. Data yang kita
miliki adalah suhu dalam celsius dan jam dalam sehari untuk satu hari dan lokasi.
Anda dapat melihat bahwa untuk membuat grafik garis kita menggunakan metode
plt.plot ().

122
Kita dapat melihat bahwa suhu mulai sekitar 2 derajat celcius pada tengah malam,
sedikit turun menjadi beku sekitar pukul 05:00, naik menjadi sekitar 9 derajat celcius
pada pukul 15:00, dan kemudian turun kembali menjadi sekitar 2 derajat pada
tengah malam (Gambar 0.13).
Kita juga bisa menambahkan elemen bagan standar dari title (), ylabel (), dan xlabel
() (Gambar 0.14).

123
Kita juga dapat menambahkan penanda di setiap titik data (Gambar 0.15). Pada
contoh di bawah ini kita menambahkan penanda titik pada setiap titik data
menggunakan argumen marker = 'o'.

124
Kita bahkan dapat memiliki beberapa garis pada grafik yang sama (Gambar 0.16).
Misalnya, misalnya, kita ingin mengilustrasikan nilai suhu aktual dan prediksi. Kita
bisa memanggil plot () dua kali, sekali dengan setiap kumpulan nilai. Perhatikan
bahwa dalam panggilan kedua, kita menggunakan argumen lain untuk plot (),
linestyle = '-'. Hal ini menyebabkan garis prediksi terlihat seperti garis putus-putus
sedangkan nilai sebenarnya tetap solid. Anda dapat melihat dokumentasi tambahan
pada Matplotlib pyplot.plot() documentation.

125
f. Hasil dan Pembahasan

g. Kesimpulan
Simpulkan apa yang sudah anda kerjakan di laporan!

126
h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

127
Acara 18
Pokok Bahasan : Scatter Plot dan Heatmap
Acara Praktikum/Praktek: Minggu 10/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data

b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data

c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.

d. Alat dan Bahan


Laptop, Jupyter Notebook, data yang sudah tersedia.

e. Prosedur Kerja
Scatter plot berfungsi baik untuk data dengan dua komponen numerik. Scatter plot
dapat memberikan informasi yang berguna terutama mengenai pola atau pencilan.
Pada contoh di bawah ini, kita memiliki data yang terkait dengan produk domestik
bruto (PDB) dan populasi untuk negara-negara dengan populasi lebih dari seratus
juta. PDB adalah total nilai barang dan jasa yang dibuat / disediakan oleh suatu
negara selama satu tahun. Kita kemudian menggunakan plt.scatter () untuk
membuat sebaran populasi dan PDB (Gambar 0.17).

128
Scatter plot sangat intuitif karena kita dapat mengumpulkan informasi tentang data
kita. Kita dapat melihat bahwa ada dua pencilan populasi (pencilan PDB). Informasi
ini dapat membantu kita memutuskan apakah kita perlu mengoreksi atau
mengecualikan pencilan dalam analisis kita. Kita juga dapat menambahkan lebih dari
satu kumpulan data ke plot (Gambar 0.18).
Pada contoh di bawah ini, kita memplot diameter dan berat sekumpulan lemon dan
jeruk nipis agar dapat melihat apakah kita dapat menentukan polanya.

129
Melihat sampel kita, tidak ada pola yang sangat jelas. Namun, salah satu jenis jeruk
tampaknya lebih berat dan diameternya lebih besar. Tapi yang mana? Mari kita
bersihkan bagan ini sedikit. Pertama kita akan menambahkan judul menggunakan
plt.title (), x-label menggunakan plt.xlabel (), dan y-label menggunakan plt.ylabel ()
(Gambar 0.19).

130
Sekarang kita dapat menambahkan beberapa warna dan legenda untuk membuat
scatter plot sedikit lebih intuitif. Kita menambahkan warna dengan meneruskan color
= argumen ke plt.scatter (). Dalam hal ini kita hanya mengatur titik lemon menjadi
kuning menggunakan color = 'y' dan titik lime menjadi hijau menggunakan color =
'g'. Untuk menambahkan legenda, kita panggil plt.legend () dan berikan daftar yang
berisi label untuk setiap sebaran data (Gambar 0.20).

131
Sekarang kita dapat melihat lebih jelas bahwa jeruk nipis kita cenderung sedikit lebih
berat dan diameternya lebih besar sedikit daripada lemon.

132
f. Hasil dan Pembahasan
Heatmap adalah jenis visualisasi yang menggunakan kode warna untuk
mewakili nilai / kepadatan relatif data di seluruh permukaan. Seringkali ini adalah
bagan tabel, tetapi tidak harus terbatas pada itu. Untuk data tabular, terdapat label
pada sumbu x dan y. Nilai di persimpangan label tersebut dipetakan ke warna.
Warna-warna ini kemudian dapat digunakan untuk memeriksa data secara visual
guna menemukan kelompok dengan nilai serupa dan mendeteksi tren dalam data.
Kita akan bekerja dengan data tentang temperatur rata-rata setiap bulan
untuk 12 kota terbesar di dunia. Untuk membuat heatmap ini, kita akan
menggunakan library Seaborn. Seaborn adalah library visualisasi yang dibangun di
atas Matplotlib.Library ini menyediakan antarmuka tingkat yang lebih tinggi dan
dapat membuat grafik yang lebih menarik. Langkah-langkah untuk melakukan
visualisasi heatmap (Gambar 0.21) adalah sebagai berikut
1. Pada kode di bawah ini, pertama kita mengimpor seaborn.
2. Kita kemudian membuat daftar yang berisi nama 12 kota terbesar di dunia dan
12 bulan dalam setahun.
3. Selanjutnya kita menetapkan daftar-daftar ke variabel suhu. Setiap baris dalam
daftar mewakili sebuah kota.
4. Setiap kolom adalah satu bulan. Nilai-nilai tersebut adalah suhu tinggi rata-rata
untuk kota selama bulan tersebut.
5. Pada tahap akhir kita memanggil sns.heatmap () untuk membuat peta panas. Kita
mengirimkan data suhu, nama kota sebagai label-y, dan singkatan bulan sebagai
label-x.

133
134
Kita bisa melihat data di grafik yang dihasilkan. Tapi bagaimana kita
menafsirkannya? Sebenarnya cukup sulit untuk memahami data. Bagian kiri dan
kanan grafik mungkin berisi warna yang lebih gelap, yang memetakan ke suhu yang
lebih dingin, tetapi itu pun sulit untuk ditentukan. Kita perlu mengurutkan secara
manual kota-kota tersebut, dari yang terkecil ke yang terbesar. Mari kita coba ubah
pengurutan berdasarkan lintang pada garis bumi (Gambar 0.22).

135
Kita dapat melihat bahwa kota-kota di garis lintang yang lebih tinggi, lebih dingin
dari bulan September hingga Maret dan suhu cenderung meningkat seiring dengan
semakin mengecilnya garis lintang. Perhatikan juga bahwa Sao Paulo terlihat lebih
hangat di tengah tahun meskipun berada di belahan bumi selatan. Memang, skema
warnanya sulit dibaca. Anda dapat mengubah skema warna menggunakan argumen
cmap =. cmap = menerima daftar warna dan skema warna preset (Gambar 0.23).
Anda dapat menemukan skema di Matplotlib colormap documentation.

136
g. Kesimpulan
Simpulkan apa yang sudah anda kerjakan dan tulis di laporan!

137
h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

138
Acara 19
Pokok Bahasan : Histogram
Acara Praktikum/Praktek: Minggu 11/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data

b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data

c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.

d. Alat dan Bahan


Laptop, Jupyter Notebook, data yang sudah tersedia.

e. Prosedur Kerja
Histogram adalah salah satu visualisasi yang cukup penting dalam memahami
distribusi pada data kita. Pandas Histogram menyediakan method yang
memudahkan kita untuk membuat histogram. Plot histogram secara tradisional
hanya membutuhkan satu dimensi data. Ini dimaksudkan untuk menunjukkan
jumlah nilai atau kumpulan nilai secara serial. Pandas DataFrame.hist() akan
mengambil DataFrame kita dan menampilkan plot histogram yang menunjukkan
distribusi nilai dalam satu seri. Untuk membuat histogram di panda, yang perlu kita
lakukan adalah memberi tahu panda kolom mana yang ingin kita berikan datanya.
Dalam hal ini, saya akan memberi tahu panda bahwa saya ingin melihat distribusi
harga (histogram).

139
Parameter lain didalam histogram yang cukup menentukan banyaknya bar didalam
visualisasi data kita adalah bin. Cara mudah untuk memikirkan bin adalah "berapa
banyak batang yang Anda inginkan dalam bar chart?" Semakin banyak tempat
sampah, semakin tinggi resolusi data Anda. Jika kita melakukan setting 2 bin
sepertinya tidak terlalu memberikan informasi yang cukup, namun jika kita set
menjadi 200 juga terlalu banyak. Kita bisa set sekitar 20-30 agar tampilan seimbang.
Sebagai contoh studi kasus data yang kita gunakan dalam modul ini adalah
automobile.csv yang merupakan data-data spesifikasi kendaraan dari berbagai
merek dan harganya. Overview data automobile dapat dilihat pada Gambar 0.24.
Histogram pada data automobile dapat kita lihat pada Gambar 0.25, histogram
tersebut dibentuk dengan memanggil fungsi hist().

140
Kita juga dapat memplot beberapa grup secara berdampingan. Di sini saya ingin
melihat dua histogram, histogram price akan dikelompokkan berdasarkan roda
penggerak dari kenderaan (fwd – berpenggerak roda depan, 4wd – berpenggerak 4
roda, atau rwd – pengerak belakang (Gambar 0.26).

Untuk memplot beberapa seri, kita bisa menggunakan metode df.plot(kind='hist)


(Gambar 0.27).

141
f. Hasil dan Pembahasan

g. Kesimpulan
Simpulkan apa yang sudah anda kerjakan dan tulis di laporan!
h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

142
Acara 20
Pokok Bahasan : Correlation
Acara Praktikum/Praktek: Minggu 11/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data

b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data

c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.

d. Alat dan Bahan


Laptop, Jupyter Notebook, data yang sudah tersedia.

e. Prosedur Kerja
Korelasi merupakan suatu pengukuran sejauh mana nilai saling ketergantungan
antar variabel. Causation merupakan hubungan antara sebab dan akibat antara dua
variable Penting untuk mengetahui perbedaan antara keduanya dan bahwa korelasi
tidak mendeskripsikan sebab-akibat. Menentukan korelasi jauh lebih sederhana
menentukan sebab memerlukan analisis lebih lanjut

Korelasi Pearson Korelasi Pearson mengukur ketergantungan linier antara dua


variabel X dan Y. Koefisien yang dihasilkan adalah nilai antara -1 dan 1 inklusif, di
mana:

143
• 1: Total korelasi linier positif.
• 0 : Tidak ada korelasi linier, kedua variabel kemungkinan besar tidak saling
mempengaruhi.
• -1: Total korelasi linier negatif.
Pearson Correlation adalah metode default dari fungsi "corr". Seperti sebelumnya
kita dapat menghitung Korelasi Pearson dari variabel 'int64' atau 'float64'. Terkadang
kita ingin mengetahui signifikansi dari estimasi korelasi, kita dapat menggunakan p-
value.

P-Value:
Berapa nilai P ini? Nilai P adalah nilai probabilitas bahwa korelasi antara kedua
variabel ini signifikan secara statistik. Biasanya, kita memilih tingkat signifikansi
0,05, yang berarti bahwa kami yakin bahwa 95% korelasi antar variabel signifikan.
Dengan konvensi, ketika
• nilai p adalah $<$ 0,001: kami katakan ada bukti kuat bahwa korelasinya
signifikan.
• nilai p adalah $<$ 0,05: terdapat bukti moderat bahwa korelasi tersebut signifikan.
• nilai p adalah $<$ 0,1: ada bukti lemah bahwa korelasinya signifikan.
• nilai p adalah $>$ 0,1: tidak ada bukti bahwa korelasi tersebut signifikan.

Kita dapat menggunakan library scipy untuk menghitung korelasi dan p-value

144
misalnya, kita dapat menghitung korelasi antara variabel bertipe "int64" atau
"float64" menggunakan method "corr" (Gambar 0.29):

145
Variabel numerik kontinu adalah variabel yang mungkin berisi nilai nunerik dalam
rentang tertentu. Variabel numerik kontinu dapat memiliki tipe "int64" atau
"float64". Cara yang bagus untuk memvisualisasikan variabel-variabel ini adalah
dengan menggunakan scatterplots dengan garis-garis yang pas.

Untuk mulai memahami keterhubungan (linier) antara variabel individu dan harga.
Kita dapat melakukan ini dengan menggunakan "regplot". Fungsi ini yang memplot
scatterplot ditambah garis regresi yang sesuai untuk data ( Gambar 0.30). Hubungan
korelasi positf kuat antara variabel

146
Saat kapasitas mesin naik, harga mobil tersebut juga tinggi: ini menunjukkan
hubungan linier antara kedua variabel tersebut. Ukuran mesin berpotensi menjadi
prediktor harga. Kita dapat memeriksa korelasi antara engine-size dan harga sekitar
0,87

Saat highway-mpg naik, harganya mobil tersebut rendah: ini menunjukkan


hubungan terbalik/negatif antara kedua variabel ini. Highway mpg berpotensi
menjadi prediktor harga. Hal ini bisa dilhat sebagai korelasi kuat negative pada
Gambar 0.31. Kita dapat memeriksa korelasi antara 'highway-mpg' dan 'price' adalah
-0,704

147
Peak rpm sepertinya bukan merupakan prediktor harga yang baik karena garis
regresinya mendekati horizontal (Gambar 0.32). Titik-titik data sangat tersebar dan
jauh dari garis pas, menunjukkan banyak variabilitas. Oleh karena itu itu bukan
variabel yang dapat diandalkan untuk memperdiksi harga. Kita dapat memeriksa
korelasi antara 'puncak-rpm' dan 'harga' dan melihatnya kira-kira -0,101616

f. Hasil dan Pembahasan


Variabel kategori statistic adalah variabel yang menggambarkan 'karakteristik' dari
unit data, dan dipilih dari sekelompok kategori. Variabel kategori dapat memiliki tipe
"objek" atau "int64". Cara yang baik untuk memvisualisasikan variabel kategori
adalah dengan menggunakan boxplot.
Boxplot menggambarkan variable variable statistic seperti quartil 1, median / quartil
2, quartil 3, nilai maksimum, nilai minimum, dan outlier (Gambar 0.33).

148
Kita melihat bahwa distribusi harga antara kategori kendaraan memiliki tumpang
tindih yang signifikan, sehingga kategori tidak akan menjadi prediktor harga yang
baik (Gambar 0.34). Mari kita periksa variable lokasi mesin dan harga:

Visualisasi Deskriptif Statistik

149
Fungsi deskripsikan secara otomatis menghitung statistik dasar untuk semua
variabel kontinu (Gambar 0.36). Analisis yang bisa kita dapatkan dari deskriptif
statistik adalah
• Jumlah variabel
• Rata-rata
• Standard deviasi
• Nilai minimal
• IQR (Interquartile Range: 25%, 50% and 75%)
• Nilai Maximal

Pengaturan default "describe" melewatkan variabel tipe objek. Kita bisa


menggunakan code ini untuk menghitung jumlah type data objek (Gambar 0.36).

Nilai-hitungan adalah cara untuk memahami berapa banyak unit dari setiap
karakteristik/variabel yang kita miliki. Kita bisa menerapkan metode "value_counts"
pada kolom 'drive-wheels'. Jangan lupa metode "value_counts" hanya berfungsi
pada seri Pandas, bukan Pandas Dataframes.

150
Mari ulangi langkah di atas tetapi simpan hasilnya ke dataframe
"drive_wheels_counts" dan ganti nama kolom 'drive-wheels' menjadi 'value_counts'.

g. Kesimpulan
Simpulkan apa yang sudah anda pelajari ke dalam laporan!

151
h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

152
Acara 21
Pokok Bahasan : Grouping
Acara Praktikum/Praktek: Minggu 12
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data

b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data

c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.

d. Alat dan Bahan


Laptop, Jupyter Notebook, data yang sudah tersedia.

e. Prosedur Kerja
Method "groupby" digunakan untuk mengelompokkan data menurut kategori yang
berbeda. Data dikelompokkan berdasarkan satu atau beberapa variabel dan analisis
dilakukan pada kelompok individu.

Sebagai contoh, mari kita kelompokkan berdasarkan variabel "roda penggerak". Kita
melihat bahwa ada 3 kategori roda penggerak yang berbeda.

153
Jika kita ingin mengetahui, secara rata-rata, jenis roda penggerak mana yang paling
mahal, kita dapat mengelompokkan "roda penggerak" dan kemudian membuat
rataratanya. Kita dapat memilih kolom 'drive-wheels', 'body-style' dan 'price', lalu
menetapkannya ke variabel "df_group_one".

Dari data kita, sepertinya kendaraan roda belakang rata-rata paling mahal,
sedangkan penggerak 4 roda dan roda depan harganya kurang lebih sama. Anda
juga dapat mengelompokkan dengan beberapa variabel. Misalnya, mari kita
kelompokkan berdasarkan 'roda penggerak' dan body-style'. Ini mengelompokkan
dataframe dengan kombinasi unik 'drive-wheels' dan 'body-style'. Kita dapat
menyimpan hasilnya dalam variabel 'grouped_test1'.

154
Data yang dikelompokkan ini jauh lebih mudah untuk divisualisasikan ketika dibuat
menjadi tabel pivot. Tabel pivot yang mirip seperti pada spreadsheet Excel, dengan
satu variabel di sepanjang kolom dan variabel lainnya di sepanjang baris. Kita dapat
mengonversi kerangka data menjadi tabel pivot menggunakan metode "pivot" untuk
membuat tabel pivot dari grup. Dalam hal ini, kita akan membiarkan variabel drive-
wheel sebagai baris tabel, dan pivot body-style menjadi kolom tabel:

Seringkali, kita tidak memiliki data untuk beberapa sel pivot. Kita dapat mengisi sel
yang hilang ini dengan nilai 0, tetapi nilai lain apa pun berpotensi digunakan juga.
Harus disebutkan bahwa data yang hilang adalah subjek yang cukup kompleks.

155
f. Hasil dan Pembahasan

156
Heatmap memplot variabel target (harga) dengan variabel 'roda penggerak' dan
‘bodystyle’ disumbu vertikal dan horizontal. Hal ini memungkinkan kita untuk
memvisualisasikan bagaimana harga terkait dengan 'drive-wheel' dan 'body-style'.
Label default belum menyampaikan informasi yang cukup kepada kita. Mari kita ubah
label pada heatmap tersebut agar bisa memiliki informasi legend (Gambar 0.38):

157
Visualisasi sangat penting dalam data science, dan paket visualisasi Python
memberikan kebebasan untuk dapat dikonfigurai. Pertanyaan utama yang ingin
dijawab pada dataset ini, adalah "Apakah karakteristik utama yang paling
berpengaruh terhadap harga mobil?"

g. Kesimpulan
Simpulkan apa yang sudah anda kerjakan dan tulis ke dalam laporan!

h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

158
Acara 22
Pokok Bahasan : ANOVA
Acara Praktikum/Praktek: Minggu 12
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data

b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data

c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.

d. Alat dan Bahan


Laptop, Jupyter Notebook, data yang sudah tersedia.

e. Prosedur Kerja
ANOVA: Analysis of Variance
Analysis of Varians (ANOVA) adalah metode statistik yang digunakan untuk menguji
apakah ada perbedaan yang signifikan antara rata-rata dua kelompok atau lebih.
ANOVA mengembalikan dua parameter

F-Score: ANOVA mengasumsikan rata-rata semua kelompok adalah sama, anova


akan menghitung seberapa jauh rata-rata yang sebenarnya menyimpang dari
asumsi, dan melaporkannya sebagai F-Skore. Skor yang lebih besar berarti ada
perbedaan yang lebih besar antara rata-rata.
P-Value: Nilai-P menunjukkan seberapa signifikan secara statistik nilai skor yang
dihitung. Jika variabel harga pada dataset mobil sangat berkorelasi dengan variabel

159
lainya, ANOVA akan mengembalikan skor F-Score yang cukup besar dan nilai-p yang
kecil. ANOVA menganalisis perbedaan antara kelompok yang berbeda dari variabel
yang sama, fungsi groupby akan berguna dalam kasus ANOVA. Mari kita lihat apakah
jenis 'roda penggerak' mempengaruhi 'harga',

160
f. Hasil dan Pembahasan

g. Kesimpulan
Simpulkan apa yang sudah anda pelajari dan tulis di laporan!

161
h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

162
Acara 23
Pokok Bahasan : Project 1 (Preparation Data)
Acara Praktikum/Praktek: Minggu 13/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
● Mahasiswa dapat mengimplementasikan pemilihan data, pembersihan data,
pemeriksaan data yang sesuai kualitas dan kecukupan data pada final project.
● Mahasiswa dapat membuat laporan dan video terkait proses preparation data.
● Mahasiswa dapat mempresentasikan hasil preparation data.
b. Indikator
Ketepatan dalam mengimplementasikan proses preparation data final project
c. Dasar Teori
-
d. Alat dan Bahan
● Kertas folio bergaris
● Jaringan internet
● Pc/Laptop
● Aplikasi Zoom
● Jupyter notebook
● Scikit-learn
● Pandas
● Numpy
e. Prosedur Kerja
● Mengambil data dari open data mana saja dengan minimal 150 baris data.
● Menampilkan data yang telah didapatkan dalam code program

163
● Perlu melakukan preparation data (perlu tidaknya pemilihan data, pembersihan
data, pemeriksaan data yang sesuai kualitas dan kecukupan data) atau tidak.

● Membuat laporan data preparation berdasarkan data yang didapatkan dari open
data.
● Membuat presentasi dari hasil preparation data yang telah dikerjakan.
f. Hasil dan Pembahasan
● Data yang di dapatkan dari open data
● Data setelah dilakukan preparation
● Source Code Program Preparation Data
● Laporan dan power point.

164
g. Kesimpulan
Didapatkan sebuah penjelasan dari perlu tidaknya dilakukan pemilihan data,
pembersihan data, pemeriksaan data yang sesuai kualitas dan kecukupan data
berdasarkan data yang didaptkan.

h. Rubrik Penilaian

No Indikator Skor*

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 4


1 1 2 3
menjelaskan tugas yang ditunjang dengan bukti referensi

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas

Ketepatan waktu pengumpulan tugas akan tetapi kurang tepat dalam 2


3 1 3 4
menjelaskan tugas

Keterlambatan pengumpulan tugas dan ketidak tepatan dalam 1


4 2 3 4
menjelaskan tugas

Jumlah skor

165
Acara 24
Pokok Bahasan : Project 2 (Statistic Descriptif)
Acara Praktikum/Praktek: Minggu 13/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
● Mahasiswa dapat menghasilkan nilai mean, median, modus dari data yang telah
dikerjakan pada project sebelumnya.
● Mahasiswa mampu menjelaskan hasil dari statisktik diskriptif berdasarkan data
yang telah dikerjakan.
● Mahasiswa mampu menyimpulkan hasil statistic diskriptif dari data yang telah
dikerjakan.
b. Indikator
● Ketepatan dalam menghasilkan nilai mean, median, modus.
● Ketepatan dalam menjelaskan dan menyimpulkan hasil statistic diskriptif.
c. Dasar Teori
-
d. Alat dan Bahan
● Kertas folio bergaris
● Jaringan internet
● Pc/Laptop
● Aplikasi Zoom
● Jupyter notebook
● Statistics
● Pandas
● Numpy
e. Prosedur Kerja
● Menggunakan data yang telah dipreparation sebelumnya.

166
● Menghasilkan nilai mean, median, modus

● Membuat laporan statistik deskriptif berdasarkan data yang diproses


sebelumnya.
● Membuat presentasi dari hasil statistic deskriptif dari data yang telah dikerjakan.

f. Hasil dan Pembahasan


● Data yang menghasilkan nilai mean, median, modus
● Laporan dan power point.
● Source Code program keseluruhan

g. Kesimpulan
Didapatkan data mean, median, modus dari open data yang diolah dalam statistic
deskriptif.

167
h. Rubrik Penilaian

No Indikator Skor*

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 4


1 1 2 3
menjelaskan tugas yang ditunjang dengan bukti referensi

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas

Ketepatan waktu pengumpulan tugas akan tetapi kurang tepat dalam 2


3 1 3 4
menjelaskan tugas

Keterlambatan pengumpulan tugas dan ketidak tepatan dalam 1


4 2 3 4
menjelaskan tugas

Jumlah skor

168
Acara 25
Pokok Bahasan : Project 3 (Chart, line, dan Scatter Plot)
Acara Praktikum/Praktek: Minggu 14/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
● Mahasiswa mampu mengimplementasikan chart, line dan scatter plot pada data
project akhir yang telah dikerjakan sebelumnya
● Mahasiswa mampu menentukan chart yang efektif digunakan sesuai data yang
dimilikinya
● Mahasiswa mampu menampilkan line dan scatter plot data project
● Mahasiswa mampu menjelaskan hasil chart, line, dan scatter plot dari data
yang telah dibuat
b. Indikator
● Ketepatan dalam penggunaan jenis chart yang sesuai dengan data yang dimiliki
● Kemampuan dalam menampilkan chart, line, dan scatter plot melalui code
program dengan sigle data maupun multi data
● Ketepatan dalam menjelaskan dan menyimpulkan data dalam bentuk chart,
line, dan scatter plot
c. Dasar Teori
-
d. Alat dan Bahan
● Jaringan internet
● Pc/Laptop
● Aplikasi Zoom
● Jupyter notebook
● Pandas
● Numpy
● Matplotlib
e. Prosedur Kerja
● Menggunakan data pada project sebelumnya.

169
● Memilih data yang akan divisualisasikan dalam bentuk chart, line, dan scatter
plot yang efektif berdasarkan karakteristik data yang dimiliki

● Creating chart dan line

170
● Creating scatter plot single data

● Creating scatter plot multi data

● Membuat laporan dari data yang telah di visualisasi dalam bentuk chart, line, dan
scatter plot.
● Membuat presentasi yang menampilkan deskripsi, table data, chart, line, scatter
plot berdasarkan data yang dimiliki.
f. Hasil dan Pembahasan
● Data chart dan line
● Laporan dan power point.
● Source Code keseluruhan

g. Kesimpulan
Didapatkan chart yang sesuai dengan data yang dimiliki

171
h. Rubrik Penilaian

No Indikator Skor*

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 4


1 1 2 3
menjelaskan tugas yang ditunjang dengan bukti referensi

Ketepatan waktu pengumpulan tugas dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas

Ketepatan waktu pengumpulan tugas akan tetapi kurang tepat dalam 2


3 1 3 4
menjelaskan tugas

Keterlambatan pengumpulan tugas dan ketidak tepatan dalam 1


4 2 3 4
menjelaskan tugas

Jumlah skor

172
Acara 26
Pokok Bahasan : Project 5 (Histogram)
Acara Praktikum/Praktek: Minggu 14/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2X100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
● Mahasiswa mampu mengimplementasikan Hystogram pada data project akhir
● Mahasiswa mampu mendiskripsikan Hystogram berdasaran studi kasus yang
digunakan
● Mahasiswa mampu menjelaskan Hystogram yang telah dikerjakan
b. Indikator
● Ketepatan dalam mengimplementasikan Hystogram pada data project
● Ketepatan dalam menjelaskan dan menyimpulkan Hystogram berdasarkan data
project
c. Dasar Teori
-
d. Alat dan Bahan
● Jaringan internet
● Pc/Laptop
● Aplikasi Zoom
● Jupyter notebook
● Pandas
● Numpy
● Matplotlib
● Seaborn
e. Prosedur Kerja
● Tampilkan data

173
● Tampilkan Hystogram dari data yang digunakan dan kembangkan tampilan
sesuai kebutuhan

● Presentasi hasil kerja

f. Hasil dan Pembahasan


● Data Hystogram
● Laporan dan power point.
● Source Code keseluruhan
g. Kesimpulan
Didapatkan Pemaparan dan penjelasan Hystogram dari project yang dimiliki
h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

174
Acara 27
Pokok Bahasan : Project 7
Acara Praktikum/Praktek: Minggu 15/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2X100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
● Mahasiswa mampu membuat visualisasi data berdasarkan studi kasus
● Mahasiswa mampu mengembangkan visualisasi data berdasarkan kebutuhan
data yang ditampilkan
● Mahasiswa mampu menjelaskan hasil visualisasi data dari studi kasus

b. Indikator
● Ketepatan dalam mengolah preparation data secara tim
● Ketepatan dalam memvisualisasikan data secara tim
● Ketepatan dalam mengembangkan visualisasi data berdasarkan kebutuhan data
yang ditampilkan
● Ketepatan dalam menjelaskan hasil dari visualisasi data

c. Dasar Teori
-
d. Alat dan Bahan
● Jaringan internet
● Pc/Laptop
● Aplikasi Zoom
● Jupyter notebook
● Pandas
● Numpy
● Matplotlib
● Seaborn

175
e. Prosedur Kerja
● Membuat kelompok dengan ketentuan satu kelompok 5 anggota
● Download data sebagai materi untuk dibuat project

Dataset Nama File Link

Daftar Buku dari British BL-Flickr-Images- python-data-cleaning/BL-Flickr-Images-


Library Book.csv Book.csv at master · realpython/python-
data-cleaning · GitHub

● Pembagian kelompok :
Kelompok 1 gol A : baris 1 s/d 400 Kelompok 1 gol C : baris 4001 s/d 4400
Kelompok 2 gol A : baris 401 s/d 800 Kelompok 2 gol C : baris 4401 s/d 4800
Kelompok 3 gol A : baris 801 s/d 1200 Kelompok 3 gol C : baris 4801 s/d 5200
Kelompok 4 gol A : baris 1201 s/d 1600 Kelompok 4 gol C : baris 5201 s/d 5600
Kelompok 5 gol A: baris 1601 s/d 2000 Kelompok 5 gol C : baris 6000 s/d 6400
Kelompok 1 gol B : baris 2001 s/d 2400 Kelompok 1 gol D : baris 6401 s/d 6800
Kelompok 2 gol B : baris 2401 s/d 2800 Kelompok 2 gol D : baris 6801 s/d 7200
Kelompok 3 gol B : baris 2801 s/d 3200 Kelompok 3 gol D : baris 7201 s/d 7600
Kelompok 4 gol B : baris 3201 s/d 3600 Kelompok 4 gol D : baris 7601 s/d 8000
Kelompok 5 gol B : baris 3601 s/d 4000 Kelompok 5 gol D : baris 8001 s/d 8288

● Kerja tim dalam mengolah dan menvisualisasikan data


● masing - masing kelompok mempresentasikan project max waktu 10 menit
● Tanya jawab setiap kelompok

f. Hasil dan Pembahasan


● visualisasi data keseluruhan
● Laporan dan power point.
● Source Code keseluruhan

g. Kesimpulan
Didapatkan Pemaparan dan penjelasan heatmap grouping dari project yang
dkerjakan

176
h. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

177
Acara 28
Pokok Bahasan : Project 6
Acara Praktikum/Praktek: Minggu 15/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2X100 menit
i. Capaian Pembelajaran Mata Kuliah (CPMK)
● Mahasiswa mampu membuat visualisasi data berdasarkan studi kasus
● Mahasiswa mampu mengembangkan visualisasi data berdasarkan kebutuhan
data yang ditampilkan
● Mahasiswa mampu menjelaskan hasil visualisasi data dari studi kasus

j. Indikator
● Ketepatan dalam mengolah preparation data secara tim
● Ketepatan dalam memvisualisasikan data secara tim
● Ketepatan dalam mengembangkan visualisasi data berdasarkan kebutuhan data
yang ditampilkan
● Ketepatan dalam menjelaskan hasil dari visualisasi data

k. Dasar Teori
-
l. Alat dan Bahan
● Jaringan internet
● Pc/Laptop
● Aplikasi Zoom
● Jupyter notebook
● Pandas
● Numpy
● Matplotlib
● Seaborn

178
m. Prosedur Kerja
● Membuat kelompok dengan ketentuan satu kelompok 5 anggota
● Download data sebagai materi untuk dibuat project

Dataset Nama File Link

Daftar Buku dari British BL-Flickr-Images- python-data-cleaning/BL-Flickr-Images-


Library Book.csv Book.csv at master · realpython/python-
data-cleaning · GitHub

● Pembagian kelompok :
Kelompok 1 gol A : baris 1 s/d 400 Kelompok 1 gol C : baris 4001 s/d 4400
Kelompok 2 gol A : baris 401 s/d 800 Kelompok 2 gol C : baris 4401 s/d 4800
Kelompok 3 gol A : baris 801 s/d 1200 Kelompok 3 gol C : baris 4801 s/d 5200
Kelompok 4 gol A : baris 1201 s/d 1600 Kelompok 4 gol C : baris 5201 s/d 5600
Kelompok 5 gol A: baris 1601 s/d 2000 Kelompok 5 gol C : baris 6000 s/d 6400
Kelompok 1 gol B : baris 2001 s/d 2400 Kelompok 1 gol D : baris 6401 s/d 6800
Kelompok 2 gol B : baris 2401 s/d 2800 Kelompok 2 gol D : baris 6801 s/d 7200
Kelompok 3 gol B : baris 2801 s/d 3200 Kelompok 3 gol D : baris 7201 s/d 7600
Kelompok 4 gol B : baris 3201 s/d 3600 Kelompok 4 gol D : baris 7601 s/d 8000
Kelompok 5 gol B : baris 3601 s/d 4000 Kelompok 5 gol D : baris 8001 s/d 8288

● Kerja tim dalam mengolah dan menvisualisasikan data


● masing - masing kelompok mempresentasikan project max waktu 10 menit
● Tanya jawab setiap kelompok

n. Hasil dan Pembahasan


● visualisasi data keseluruhan
● Laporan dan power point.
● Source Code keseluruhan

o. Kesimpulan
Didapatkan Pemaparan dan penjelasan heatmap grouping dari project yang
dkerjakan

179
p. Rubrik Penilaian

No Indikator Skor*

Kekompakan tim baik, kreatifitas ppt baik dan ketepatan dalam 4


1 1 2 3
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan ketepatan dalam 3


2 1 2 4
menjelaskan dari tugas ditunjang dengan bukti referensi

Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas

Kelompopk tidak kompak, kreatifitas ppt tidak baik, ketidaktepatan 1


4 2 3 4
dalam menjelaskan tugas

Jumlah skor

180

Anda mungkin juga menyukai