BKPM Workshop Visualisasi Data
BKPM Workshop Visualisasi Data
SEMESTER
OLEH :
Hermawan Arief Putranto, ST, MT.
Mukhamad Angga Gumilang, S. Pd., M. Eng.
Dia Bitari Mei Yuana, S.ST., M.Tr.Kom.
LEMBAR PENGESAHAN
Mengetahui,
Koordinator Program Studi, Koordinator,
Menyetujui,
Ketua Jurusan,
1
KATA PENGANTAR
Puji Syukur kehadirat Tuhan Yang Maha Esa karena atas limpahan rahmat-
Nya sehingga kami dapat menyelesaikan Buku Kerja Praktim Mahasiswa (BKPM)
Workshop Visualisasi Data. Materi Workshop terdiri dari Instalasi dan penggunaan
tools, python dasar, library numpy, library pandas, library scikit learn, library
seaborn, data preparaton, statistic discriptif, Pie Chart, Bar Chart, Line Graphs,
Scatter Plot, Heatmap, Hystogram, Correlation, Grouping, ANOVA, serta
penerapan dari visualisasi data. BKPM ini disusun berdasarkan metode Student
Center Learning yaitu menempatkan mahasiswa sebagai pusat kegiatan belajar.
BKPM ini terdiri dari Pokok Bahasan, Acara Praktikum, Tempat, Alokasi Waktu,
Capaian Pembelajaran Mata Kuliah (CPMK), Indikator, Dasar Teori, Alat dan
Bahan, Prosedur Kerja, Hasil dan Pembahasan, Kesimpulan, Rubrik Penilaian.
Kami menyadari masih banyak kekurangan dalam penyusunan BKPM ini.
Oleh karena itu, kami sangat mengharapkan kritik dan saran demi perbaikan dan
kesempurnaan modul ini. Kami mengucapkan terima kasih kepada berbagai pihak
yang telah membantu proses penyelesain BKPM ini. Semoga BKPM ini dapat
bermanfaat bagi kita semua.
Tim Penulis
2
DAFTAR ISI
LEMBAR PENGESAHAN 1
KATA PENGANTAR 2
DAFTAR ISI 3
Acara 1 Installasi dan Penggunaan Tools 1 1
Acara 2 Installasi dan Penggunaan Tools 2 7
Acara 3 Python Dasar 1 16
Acara 4 Python Dasar 2 22
Acara 5 Library 1 Numpy 29
Acara 6 Library 2 Pandas 34
Acara 7 Library 3 Matplotlib 46
Acara 8 Library 4 Seaborn 47
Acara 9 Data Preparation 1 48
Acara 10 Data Preparation 2 49
Acara 11 Statistik Deskriptif 1 50
Acara 12 Statistik Deskriptif 2 51
Acara 13 Statistik Deskriptif 3 52
Acara 14 Statistik Deskriptif 4 53
Acara 15 Pie Chart 54
Acara 16 Bar Chart 55
Acara 17 Line Graphs 56
Acara 18 Scatter Plot + Heatmap 57
Acara 19 Hystogram 58
Acara 20 Correlation 59
Acara 21 Grouping 60
Acara 22 ANOVA 61
Acara 23 Project 1 62
Acara 24 Project 2 65
Acara 25 Project 3 68
Acara 26 Project 4 72
Acara 27 Project 5 74
Acara 28 Project 6 76
3
Minggu ke - Pertemuan Ke-1 (4JP) Pertemuan-2 (4JP)
8 UTS
11 Histogram Correlation
12 Grouping ANOVA
16 UAS
4
Acara 1
Pokok Bahasan : Instalasi dan Penggunaan Tools 1
Acara Praktikum/Praktek: Minggu 1/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu melakukan installasi python
• Mahasiswa mampu memahami dan mengimplementasi penggunaan tools
(Python)
b. Indikator
• Ketepatan dalam melakukan installasi python
• Ketepatan dalam memahami dan mengimplementasi penggunaan tools
(Python)
c. Dasar Teori
Python adalah bahasa pemrograman tingkat tinggi yang ditafsirkan,
berorientasi objek, dengan semantik dinamis. Tingkat tinggi yang dibangun dalam
struktur data, dikombinasikan dengan pengetikan dinamis dan pengikatan dinamis,
membuatnya sangat menarik untuk Pengembangan Aplikasi Cepat, serta untuk
digunakan sebagai bahasa scripting atau lem untuk menghubungkan komponen
yang ada bersama- sama. Sintaksis Python yang sederhana dan mudah dipelajari
menekankan keterbacaan dan karenanya mengurangi biaya pemeliharaan program.
Python mendukung modul dan paket, yang mendorong modularitas program dan
penggunaan kembali kode (kode reuse). Interpreter Python dan pustaka standar
yang luas tersedia dalam bentuk sumber atau biner tanpa biaya untuk semua
platform utama, dan dapat didistribusikan secara bebas.
Keunggulan Python yang bersifat interpretatif juga banyak digunakan untuk
prototyping, scripting dalam pengelolaan infrastruktur, hingga pembuatan website
berskala besar. Selain itu juga terdapat keunggulan lain diantaranya adalah:
● Bahasa Python menjadi keharusan untuk Anda yang ingin mempelajari dasar-
dasar scripting dan pengolahan data atau machine learning.
● Bahasa Python digunakan secara luas, masuk dalam 3 besar bahasa
pemrograman yang digunakan dalam beberapa tahun belakangan.
● Pustaka (Library) yang luas, memungkinkan Anda mengembangkan ke
bidang-bidang lainnya. Beberapa library atau framework terpopuler data
science dan machine learning menggunakan Python antara lain: Scikit-Learn,
TensorFlow, PyTorch.
1
● Bahasa Python memiliki kurva pembelajaran (learning-curve) yang sangat
landai, cocok untuk dipelajari sebagai bahasa pemrograman pertama -
dengan kemudahan pembacaan dan kemudahan mempelajari sintaksisnya.
Berikut adalah beberapa kegunaan Python sehingga penting untuk dipelajari!
1. Pengembangan website
Dalam membangun bisnis, adanya website tentu menjadi unsur penting di
dalamnya. Selain sebagai pemberi informasi kepada calon konsumen, website juga
menunjukkan kredibilitas perusahaan. Tak jarang, berbagai website untuk bisnis pun
diberikan berbagai macam fitur agar pengunjung dapat lebih memahami bisnis yang
dijalankan. Untuk mengembangkan suatu website agar lebih intuitif dan menarik,
menggunakan Python akan mempermudah prosesnya.
2. Pengembangan IoT
Hal lain yang menunjukan pentingnya Python adalah pengembangan internet
of things (IoT). Internet of things adalah sebuah sistem di mana berbagai benda atau
peralatan dapat berkomunikasi satu sama lain dengan piranti internet. Untuk
mengembangkan hal tersebut, Python digunakan karena berbagai kemudahan dan
fleksibilitasnya.
3. Penambangan data
Hal lain yang termasuk dalam kegunaan Python adalah pengaturan dan
pembersihan data. Python dianggap sebagai salah satu bahasa pemrograman terbaik
untuk mengerjakannya. Selain itu, pembelajaran mesin dengan Python
menyederhanakan analisis data dengan menggunakan algoritma.
4. Pengembangan machine learning
Masih berkaitan dengan penambangan data, dalam menjalankan machine
learning akan dibutuhkan beragam data untuk diinput. Beragam data yang masuk
kemudian diolah untuk menjadi suatu tindakan yang dilakukan oleh mesin tersebut.
Dalam prosesnya, untuk mempermudah proses ini bahasa pemrograman Python-lah
yang digunakan.
5. Pengembangan game
Ternyata, Python juga berguna untuk mengembangkan game yang kamu
mainkan. Dalam Python, terdapat program yang bernama GUI. Antarmuka pengguna
grafis (graphical user interface/GUI) memungkinkan orang untuk berinteraksi
dengan komputer menggunakan elemen visual seperti ikon atau gambar alih-alih
perintah berbasis teks. Inilah yang membuat game yang kamu mainkan menjadi
lebih atraktif dan menantang.
6. Python untuk fintech
Pentingnya Python tergambar juga dalam pengembangan fintech. Dengan
menggunakan Python, aplikasi dan berbagai fitur yang ada di fintech akan lebih
2
aman. Selain itu, karena fintech memerlukan pengoperasian yang cepat, Python-lah
yang digunakan seiring dengan kemampuannya untuk mendukung hal itu.
3
➔ Pilih Pengguna
➔ Pada tahapan ini kita akan diminta untuk memilih siapa saja yang boleh memakai
python Pilih saja ‘Install for all users’ agar bisa dipakai untuk semua user di
komputernya
➔ Lokasi Instalasi
➔ Tentukan lokasi python akan diinstal. Biarkan saja di C:\python34\, kemudian klik
next.
➔ Kostumisasi
4
➔ Pada tahapan ini, kita akan menentukan fitur-fitur yang akan diinstal.
➔ Jangan lupa untuk mengaktifkan ‘Add python.exe to path’ agar perintahpython
dikenali pada CMD (Command Prompt).
Testing
➔ Pertama, kita coba dulu membuka Python Shell. Silahkan buka Start Menu
kemudian cari Python Shell.
➔ Kemudian kita coba Python dari CMD, ketik perintah python untuk masuk ke
Python Shell dari CMD.
5
f. Hasil dan Pembahasan
Membuat laporan dari hasil installasi tools python pada laptop/pc masing-masing
dan berikan penjelasan dengan ketentuan format laporan sebagai berikut :
• Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V,
logo polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/
g. Kesimpulan
Penjelasan dari installasi dan penggunaan tools Python
h. Rubrik Penilaian
Jumlah Skor
6
Acara 2
Pokok Bahasan : Installasi dan Penggunaan Tools (Jupyter Notebook)
Acara Praktikum/Praktek: Minggu 1/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu melakukan installasi penggunaan tools yaitu Jupyter
Notebook
• Mahasiswa mampu memahami dan mengimplementasi penggunaan tools
(Jupyter Notebook)
b. Indikator
• Ketepatan dalam melakukan installasi Jupyter Notebook
• Ketepatan dalam memahami dan mengimplementasi penggunaan tools
(Jupyter Notebook)
c. Dasar Teori
Jupyter (https://jupyter.org/) adalah organisasi non-profit untuk
mengembangkan software interaktif dalam berbagai bahasa pemrograman.
Notebook adalah satu software buatan Jupyter, adalah aplikasi web open-source
yang memungkinkan Anda membuat dan berbagi dokumen interaktif yang berisi
kode live, persamaan, visualisasi, dan teks naratif yang kaya.
Mungkin penjelasan di atas kurang jelas. Sebagai gambaran. dulu, biasanya
kita membagikan kode dan dokumen secara terpisah. Kode-kode kita satukan dalam
sebuah library/aplikasi/proyek (Visual Studio, Eclipse, dsb), dan dokumen kita buat
dengan penyunting kata. Dalam dokumen bisa tampilkan cuplikan kode, tampilan
hasil, dan visualisasi lainnya dari program kita. Jupyter Notebook menyatukan semua
ini, baik itu teks/narasi, kode hidup, persamaan, tampilan hasil, gambar statis, dan
visualisasi grafis, dalam satu file interaktif. Dan, kelebihan lainnya, notebook dapat
dijalankan ulang oleh siapapun yang membukanya, untuk me-reproduksi eksekusi
kode di dalamnya.
Contohnya adalah dokumen ini sendiri. Dokumen ini aslinya adalah sebuah
Jupyter Notebook. Mungkin Anda membacanya di blog IndoML, karena notebook ini
telah dikonversi menjadi blog WordPress dengan menggunakan utilitas nb2wp. Anda
bisa melihat file aslinya di GitHub, dan akan tampak keluaran yang sama.
Keistimewaan dari dokumen ini adalah kemampuannya membawa kode hidup (live
code). Seperti di bawah ini.
7
Kode di atas bukan sekedar cuplikan tulisan kode di dokumentasi, tapi adalah kode
hidup. Kalau Anda melihat tulisan ini di blog IndoML atau di GitHub, memang yang
Anda lihat adalah tampilan statis dari eksekusi terakhir ketika notebook ini disimpan.
Ibaratnya Anda sedang melihat sebuah dokumen. Tampilannya tidak akan berubah.
Tapi kalau Anda menjalankan file notebook ini di instalasi Jupyter Anda, maka Anda
bisa menjalankan kode di atas dan nanti akan keluar tampilan waktu yang berbeda
tentunya!
Jenis keluaran kode yang didukung juga tidak sebatas teks sederhana seperti
di atas. Bisa juga grafik seperti ini:
8
d. Alat dan Bahan
1) Kertas Folio
2) Spidol Hitam
3) Kertas A0
4) Papan tulis portable tripod
e. Prosedur Kerja
Petunjuk Instalasi Jupyter Notebook
Ada beberapa cara untuk menginstall Jupyter, tapi menurut saya yang paling praktis
adalah menggunakan pip. Cukup jalankan perintah ini di Terminal (Mac/Linux) atau
Command Prompt (Windows):
9
Setelah beberapa saat, jupyter akan membuka laman http://localhost:8888/ yang
merupakan laman depan dari instalasi Jupyter notebook Anda (disebut laman
Notebook Dashboard).
Notebook Dashboard
Laman ini menampilkan semua direktori dan file yang ada di direktori di mana
Jupyter dijalankan. Di tempat saya tampilannya seperti ini:
● Judul
Yang pertama harus Anda sunting adalah judul. Masukkan judul dengan
mengklik tulisan Untitled di atas. Harap diperhatikan bahwa judul ini akan
menjadi nama file notebooknya juga.
● Sel dan Jenis Sel
Setelah itu, bagian penting yang Anda harus ketahui adalah sel (Inggris: cell)
(lihat gambar di atas). Sel adalah tempat Anda menuliskan karya Anda, baik
berupa narasi ataupun kode. Nantinya notebook akan berisi banyak sel. Saat
ini notebook hanya mempunyai satu sel. Jenis sel Anda pilih dengan memilih
pada dropdown jenis sel seperti yang ditunjukkan pada gambar. Pada
awalnya, jenis sel adalah kode.
10
Untuk sel pertama, sebaiknya kita isi dengan narasi awal tentang karya kita,
misalnya judul, pendahuluan, dsb. Ikuti petunjuk berikut.
Ketika kita menyunting sel seperti ini, maka sel disebut sedang dalam mode edit.
Perhatikan garis kotak hijau yang mengelilingi sel. Pada mode ini, untuk sel
Markdown kode sumber Markdownnya akan ditampilkan. Untuk menampilkan hasil
tulisan Markdown kita itu, sel harus dijalankan.
Menjalankan Sel
Untuk melihat tampilan sebuah sel, maka sel itu harus kita jalankan, dengan
salah satu cara berikut (kalau selnya masih belum mendapatkan fokus, maka kliklah
sekali agar dia fokus):
11
Menjalankan Sel Markdown
Mari kita eksekusi sel Markdown kita di atas, dan hasilnya akan seperti ini:
Setelah sel dieksekusi, maka sel disebut ada dalam mode command. Perhatikan garis
kotak biru yang mengelilingi sel.
Menyunting Kembali
Ketika sel dalam mode command, untuk menyunting kembali di mode edit
Anda bisa mengklik ganda sel itu atau mengklik sekali untuk menjadikan sel itu fokus
lalu menekan Enter. Selanjutnya mari kita membuat sel baru bertipe kode.
Tambahkan sel baru dengan memilih menu Insert –> Insert Cell Below, atau dengan
menekan tombol + dari toolbar. Secara default, jenis sel baru adalah kode jadi kita
tidak perlu merubah jenisnya.
Menulis dan Menjalankan Kode
Mari kita sunting sel kode seperti di bawah ini:
Perhatikan juga bahwa untuk jenis sel kode, ada braket kotak di sebelah kiri sel,
bertuliskan “In [ ]:“. Braket kotak ini nanti akan diisi angka urutan eksekusi setelah
selnya dieksekusi. Mari kita jalankan. Hasilnya akan seperti ini:
12
Menyimpan Notebook
Untuk menyimpan notebook, Anda bisa melakukan salah satu di bawah ini:
● tekan kunci Ctrl+S (atau Cmd+S di Mac)
● pilih dari menu File –> Save and Checkpoint
● tekan tombol disket dari toolbar
Menutup Notebook
Untuk menutup notebook, pilih dari menu File –> Close and Halt. Kadang-
kadang window/tab browser tidak tertutup setelah Anda melakukan itu. Anda bisa
menutup tab/window browser secara manual.
Membuka Kembali Notebook
Anda bisa membuka notebook dari Notebook Dashboard dengan mengklik
notebooknya:
13
f. Hasil dan Pembahasan
Tulis dan perhatikan output dari beberapa syntax berikut.
14
g. Kesimpulan
Penjelasan terkait Jupyter Notebook
h. Rubrik Penilaian
No Indikator Skor*
Jumlah skor
15
Acara 3
Pokok Bahasan : Python Dasar 1 – Variabel dan tipe data
Acara Praktikum/Praktek: Minggu 2/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami dan menjelaskan variable dan tipe data
b. Indikator
• Ketepatan dalam memahami dan menjelaskan variabel dan tipe data
c. Dasar Teori
Python adalah bahasa pemrograman tingkat tinggi open source yang
dikembangkan oleh Guido van Rossum pada akhir 1980-an dan saat ini dikelola oleh
Python Software Foundation. Itu berasal dari bahasa ABC yang ia bantu ciptakan
sejak awal dalam kariernya. Python adalah bahasa yang kuat yang dapat Anda
gunakan untuk membuat game, menulis GUI, dan mengembangkan aplikasi web.
Ini adalah bahasa tingkat tinggi. Membaca dan menulis kode dengan Python
sama seperti membaca dan menulis pernyataan bahasa Inggris reguler. Karena
mereka tidak ditulis dalam bahasa yang dapat dibaca mesin, program Python perlu
diproses sebelum mesin dapat menjalankannya. Python adalah bahasa yang
ditafsirkan. Ini berarti bahwa setiap kali suatu program dijalankan, interpreter-nya
berjalan melalui kode dan menerjemahkannya ke dalam kode byte yang dapat dibaca
mesin. Python adalah bahasa berorientasi objek yang memungkinkan pengguna
untuk mengelola dan mengontrol struktur data atau objek untuk membuat dan
menjalankan program. Segala sesuatu di Python sebenarnya adalah kelas satu.
Semua objek, tipe data, fungsi, metode, dan kelas mengambil posisi yang sama
dalam Python.
Bahasa pemrograman diciptakan untuk memenuhi kebutuhan programmer
dan pengguna akan alat yang efektif untuk mengembangkan aplikasi yang
berdampak pada kehidupan, gaya hidup, ekonomi, dan masyarakat. Mereka
membantu membuat hidup lebih baik dengan meningkatkan produktivitas,
meningkatkan komunikasi, dan meningkatkan efisiensi. Bahasa mati dan menjadi
usang ketika mereka gagal memenuhi harapan dan digantikan dan digantikan oleh
bahasa yang lebih kuat. Python adalah bahasa pemrograman yang telah teruji oleh
waktu dan tetap relevan di berbagai industri dan bisnis dan di antara programmer,
dan pengguna individu. Ini adalah bahasa yang hidup, berkembang, dan sangat
16
berguna yang sangat direkomendasikan sebagai bahasa pemrograman pertama bagi
mereka yang ingin menyelam ke dalam dan mengalami pemrograman.
Identifier di Python
Pengidentifikasi Python adalah nama yang diberikan ke fungsi, kelas, variabel,
modul, atau objek lain yang akan Anda gunakan dalam program Python Anda. Entitas
apa pun yang akan Anda gunakan dengan Python harus dinamai atau diidentifikasi
dengan tepat karena mereka akan menjadi bagian dari program Anda. Berikut adalah
konvensi penamaan Python yang harus Anda perhatikan:
● Identifier dapat berupa kombinasi huruf besar, huruf kecil, garis bawah, dan
digit (0-9). Oleh karena itu, berikut ini adalah pengidentifikasi yang valid:
myClass, my_variable, var_1, dan print_hello_world.
● Karakter khusus seperti%, @, dan $ tidak diperbolehkan dalam
pengidentifikasi.
● Identifier tidak boleh dimulai dengan angka. Oleh karena itu, 2variable tidak
valid, tetapi variabel2 dapat diterima.
● Python adalah bahasa yang case-sensitive dan perilaku ini meluas ke
pengidentifikasi. Dengan demikian, Buruh dan tenaga kerja adalah dua
pengidentifikasi yang berbeda dalam Python.
● Anda tidak dapat menggunakan kata kunci Python sebagai pengidentifikasi.
17
● Pengidentifikasi kelas dimulai dengan huruf besar, tetapi sisa pengidentifikasi
dimulai dengan huruf kecil.
● Anda dapat menggunakan garis bawah untuk memisahkan beberapa kata
dalam pengenal Anda.
● Anda harus selalu memilih pengidentifikasi yang masuk akal bagi Anda
bahkan setelah jeda yang panjang. Oleh karena itu, walaupun mudah untuk
mengatur variabel Anda ke c = 2, Anda mungkin merasa lebih bermanfaat
untuk referensi di masa mendatang jika Anda menggunakan nama variabel
yang lebih lama tetapi lebih relevan seperti jumlah = 2.
Kutipan
Python memungkinkan penggunaan tanda kutip untuk menunjukkan string
literal. Anda dapat menggunakan tanda kutip tunggal, ganda, atau tiga kali lipat
tetapi Anda harus memulai dan mengakhiri string dengan jenis yang sama. Yo akan
menggunakan kuotasi rangkap tiga ketika string Anda melintasi beberapa baris.
Pernyataan
Pernyataan adalah instruksi yang dapat dijalankan oleh juru bahasa Python.
Saat Anda menetapkan nilai ke variabel, katakanlah my_variable
= "dog", Anda membuat pernyataan penetapan. Pernyataan penugasan juga dapat
sesingkat c = 3. Ada jenis pernyataan lain dalam Python, seperti pernyataan if,
sedangkan statement, untuk statement, dll. Pernyataan dapat menjangkau beberapa
baris. Untuk mematahkan pernyataan panjang pada beberapa baris, Anda bisa
membungkus ekspresi di dalam tanda kurung, kurung kurawal, dan kurung. Ini
adalah gaya yang disukai untuk menangani ekspresi multi-line. Cara lain untuk
membungkus beberapa baris adalah dengan menggunakan garis miring terbalik (\)
pada akhir setiap baris untuk menunjukkan kelanjutan garis.
Indentasi
Sementara sebagian besar bahasa pemrograman seperti Java, C, dan C ++
menggunakan tanda kurung untuk menunjukkan blok kode, program Python disusun
melalui indentasi. Dalam Python, blok kode didefinisikan oleh indentasi bukan
sebagai masalah gaya atau preferensi tetapi sebagai persyaratan bahasa yang kaku.
Prinsip ini membuat kode Python lebih mudah dibaca dan dimengerti.
Satu blok kode dapat dengan mudah diidentifikasi ketika Anda melihat program
Python ketika mereka mulai pada jarak yang sama ke kanan. Jika harus di-nestle
lebih dalam, Anda bisa membuat indentasi blok lain lebih jauh ke kanan.
18
Komentar
Saat menulis sebuah program, Anda akan merasa terbantu jika menaruh
beberapa catatan di dalam kode Anda untuk menjelaskan apa yang dilakukannya.
Sebuah komentar sangat berguna ketika Anda harus meninjau atau mengunjungi
kembali program Anda. Ini juga akan membantu programmer lain yang mungkin
perlu membaca kode sumber. Anda dapat menulis komentar di dalam program Anda
dengan memulai baris dengan simbol hash (#). Simbol hash memberi tahu juru
bahasa Python untuk mengabaikan komentar saat menjalankan kode Anda. Untuk
komentar multi-baris, Anda dapat menggunakan simbol hash di awal setiap baris.
Atau, Anda juga dapat membungkus komentar multi-baris dengan tanda kutip tiga.
Variabel
Variabel seperti wadah yang menyimpan nilai yang dapat Anda akses atau
ubah. Ini adalah cara menunjuk ke lokasi memori yang digunakan oleh suatu
program. Anda dapat menggunakan variabel untuk menginstruksikan komputer
untuk menyimpan atau mengambil data ke dan dari lokasi memori ini.
Python berbeda secara signifikan dari bahasa seperti Java, C, atau C
++ ketika datang untuk berurusan dengan variabel. Bahasa lain mendeklarasikan
dan mengikat variabel ke tipe data tertentu. Ini berarti hanya dapat menyimpan tipe
data unik. Oleh karena itu, jika suatu variabel bertipe integer, Anda hanya dapat
menyimpan integer dalam variabel itu saat menjalankan program Anda. Python jauh
lebih fleksibel dalam menangani variabel. Jika Anda membutuhkan variabel, Anda
hanya perlu memikirkan nama dan mendeklarasikannya dengan memberikan nilai.
Jika perlu, Anda dapat mengubah nilai dan tipe data yang disimpan variabel selama
eksekusi program.
Tipe data
Python menangani beberapa tipe data untuk memfasilitasi kebutuhan
programmer dan pengembang aplikasi untuk data yang bisa diterapkan. Ini
termasuk string, angka, Boolean, daftar, tanggal, dan waktu
19
e. Prosedur Kerja
Variabel
Variabel adalah lokasi di memori yang digunakan untuk menyimpan nilai. Pada saat
kita membuat sebuah variabel, kita memesan tempat di dalam memori, di dalam
Bahasa pemrograman python kita langsung menginisialisasikan nama variabel dan
memberi nilai :
Tipe data
Integer dan Float
Kita bisa menggunakan fungsi type() untuk mengetahui tipe data suatu objek di
Bahasa pemrograman python python :
String
String adalah tipe data yang anggotanya berurut dan memiliki indeks. Indeks dimulai
dari angka 0 bila dimulai dari depan dan -1 bila di indeks dari belakang, [4:7] artinya
memesan data yang akan di tampilkan dimulai dari 4 dan pada batas 7 :
20
List
List adalah tipe data yang berisi satu atau beberapa nilai di dalamnya. Nilai – nilai
ini sering juga disebut item, elemen, atau anggota list, Variabel a adalah contoh
variabel yang diisi list, list ditulis dengan kurung siku [ ] :
Tuple
Tuple mirip dengan list. Bedanya, tuple bersifat immutable, sehingga anggotanya
tidak bisa diubah Variabel a adalah contoh variabel yang di isi tuple, tuple ditulis
dengan tanda kurung ( ) :
Set
Set adalah salah satu tipe data di Python yang tidak berurut (unordered). Set
memiliki anggota yang unik (tidak ada duplikasi). Jadi misalnya kalau kita
meletakkan dua anggota yang sama di dalam set, maka otomatis set akan
menghilangkan yang salah satunya
21
g. Kesimpulan
Penjelasan terkait variable dan tipe data
h. Rubrik Penilaian
No Indikator Skor*
Jumlah skor
22
Acara 4
Pokok Bahasan : Python Dasar 2 - Struktur control dan fungsi
Acara Praktikum/Praktek: Minggu 2/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami dan menjelaskan struktur control dan fungsi
b. Indikator
• Ketepatan dalam memahami dan menjelaskan struktur control dan fungsi
c. Dasar Teori
Pengambilan Keputusan
Pengambilan keputusan adalah antisipasi kondisi yang terjadi saat
pelaksanaan program dan menentukan tindakan yang diambil sesuai dengan
kondisi. Struktur keputusan mengevaluasi beberapa ekspresi yang menghasilkan
BENAR atau SALAH sebagai hasil. Anda perlu menentukan tindakan mana yang
harus diambil dan pernyataan mana yang harus dieksekusi jika hasilnya BENAR
atau SALAH sebaliknya.
Berikut ini adalah bentuk umum dari struktur pengambilan keputusan tipikal
yang ditemukan di sebagian besar bahasa pemrograman
23
Bahasa pemrograman Python menyediakan jenis-jenis pernyataan pengambilan
keputusan berikut.
Python - Loop
Secara umum, pernyataan dieksekusi berurutan: Pernyataan pertama dalam
suatu fungsi dieksekusi pertama, diikuti oleh yang kedua, dan seterusnya. Mungkin
ada situasi ketika Anda perlu mengeksekusi blok kode beberapa kali. Bahasa
pemrograman menyediakan berbagai struktur kontrol yang memungkinkan jalur
eksekusi yang lebih rumit.
Pernyataan loop memungkinkan kita untuk menjalankan pernyataan atau
grup pernyataan beberapa kali. Diagram berikut menggambarkan pernyataan loop
24
Fungsi
Fungsi adalah blok kode yang terorganisir dan dapat digunakan kembali yang
digunakan untuk melakukan tindakan tunggal yang terkait. Fungsi menyediakan
modularitas yang lebih baik untuk aplikasi Anda dan penggunaan kembali kode
tingkat tinggi. Seperti yang sudah Anda ketahui, Python memberi Anda banyak
fungsi built-in seperti print (), dll. Tetapi Anda juga bisa membuat fungsi sendiri.
Fungsi-fungsi ini disebut fungsi yang ditentukan pengguna.
25
Syntax
26
e. Prosedur Kerja
Struktur Kontrol
Tulis kode program berikut dan amati apa yang terjadi
27
Fungsi
● Tulis kode program berikut dan amati apa yang terjadi
28
• Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V,
logo polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/
g. Kesimpulan
Penjelasan terkait struktur kontrol
h. Rubrik Penilaian
No Indikator Skor*
Jumlah skor
29
Acara 5
Pokok Bahasan : Library 1 Numpy
Acara Praktikum/Praktek: Minggu 3/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami dan menjelaskan penerapan library numpy
b. Indikator
• Ketepatan dalam memahami dan menjelaskan library numpy
c. Dasar Teori
NumPy (kependekan dari Numerical Python) menyediakan antarmuka yang
efisien untuk menyimpan dan mengoperasikan buffer data (pembacaan data melalui
memori). Data Sains dan komputasi berbasis data yang efektif membutuhkan
pemahaman bagaimana data disimpan dan dimanipulasi. Beberapa kategori
manipulasi array dasar yang akan dibahas:
➔ Atribut array: Menentukan ukuran, bentuk, konsumsi memori, dan tipe data
array
➔ Pengindeksan array: Mendapatkan dan mengatur nilai elemen array
individual
➔ Mengiris array: Mendapatkan dan mengatur subarrays yang lebih kecil dalam
array yang lebih besar
➔ Pembentukan kembali array: Mengubah bentuk array yang diberikan
➔ Bergabung dan memisahkan array: Menggabungkan banyak array menjadi
satu, dan memisahkan satu array menjadi banyak
➔ Atribut Numpy array
Setiap array memiliki atribut:
● ndim (jumlah dimensi),
● shape (ukuran setiap dimensi),
● size (ukuran total array),
● dtype, tipe data array,
● itemsize, yang mencantumkan ukuran (dalam byte) dari setiap elemen array,
● nbytes, yang mencantumkan ukuran total (dalam byte) dari array
30
d. Alat dan Bahan
1) Kertas Folio
2) Spidol Hitam
3) Kertas A0
4) Papan tulis portable tripod
e. Prosedur Kerja
Coba dan amati hasil dari masing-masing baris kode:
1.
2.
Peng-index-an Array
Sama seperti array yang lain, index dalam Numpy array dimulai dari index ke-0.
Dalam array satu dimensi, nilai ke-x (menghitung dari nol) dapat diakses dengan
menentukan indeks yang diinginkan dalam tanda kurung siku.
Coba dan amati kode berikut ini:
1.
31
2.
Untuk array multi dimensi dapat digunakan seperti kode berikut ini:
3.
32
Untuk array multi dimensi digunakan cara yang sama, hanya dipisahkan dengan
tanda koma (,). Coba dan amati kode berikut:
2.
Perhatikan bahwa agar ini berfungsi, ukuran array awal harus cocok dengan ukuran
array yang dibentuk ulang. Pola pembentukan kembali umum lainnya adalah
konversi array satu dimensi menjadi baris dua dimensi atau matriks kolom. Ini dapat
dilakukan dengan metode membentuk kembali, atau lebih mudah dilakukan dengan
menggunakan kata kunci newaxis dalam operasi slice. Coba dan amati kode berikut
ini:
1.
33
f. Hasil dan Pembahasan
Membuat laporan penjelasan dari pengamatan kode program pada prosedur kerja
diatas dengan ketentuan format laporan sebagai berikut :
Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V, logo
polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/
g. Kesimpulan
Penjelasan terkait penggunaan library numpy
h. Rubrik Penilaian
No Indikator Skor*
Jumlah skor
34
Acara 6
Pokok Bahasan : Library 2 Pandas
Acara Praktikum/Praktek: Minggu 3/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami dan mengimplementasi library pandas
b. Indikator
• Ketepatan dalam installasi library pandas
• Ketepatan dalam penggunaan library pandas
c. Dasar Teori
Pandas merupakan sebuah open source python package/library dengan lisensi
BSD yang menyediakan banyak perkakas untuk kebutuhan data analisis,
manipulasi dan pembersihan data. Pandas mendukung pembacaan dan penulisan
data dengan media berupa excel spreadsheet, CSV, dan SQL yang kemudian akan
dijadikan sebagai objek python dengan rows dan columns yang disebut data frame
seperti halnya pada tabel statistik. Adapun beberapa fungsi dan fitur yang berguna
pada Pandas seperti dikutip dari Learning Pandas, Second Edition oleh Michael
Heydt (Introducing pandas) sebagai berikut:
● Cepat dan efisien untuk manipulasi objek data yang berbentuk deret dan data
frame dengan pengindeksan terintegrasi
● Penyelarasan data cerdas menggunakan indeks dan label
● Penanganan terpadu data yang hilang
● Fasilitas untuk mengubah data berantakan menjadi data tertib (merapikan)
● Alat bawaan untuk membaca dan menulis data antara struktur dan file data
di dalam memori, basis data, dan layanan web
● Kemampuan untuk memproses data yang disimpan dalam banyak format
umum seperti CSV, Excel, HDF5, dan JSON
● Pembentukan dan pivoting set data yang fleksibel
● Pemotongan berbasis label pintar, pengindeksan mewah, dan pengaturan
subset dataset besar
● Kolom dapat dimasukkan dan dihapus dari struktur data untuk ukuran yang
berubah-ubah
● Menggabungkan atau mentransformasikan data dengan fasilitas
pengelompokan data yang kuat untuk melakukan split-apply-
menggabungkan pada dataset
35
● Penggabungan dan penggabungan data kinerja tinggi
● Pengindeksan hierarki memfasilitasi kerja dengan data dimensi tinggi dalam
struktur data dimensi rendah
● Fitur luas untuk data deret waktu, termasuk generasi rentang tanggal dan
konversi frekuensi, statistik jendela bergerak, regresi linier jendela bergerak,
pergeseran tanggal, dan lagging
Sangat dioptimalkan untuk kinerja, dengan jalur kode kritis ditulis dalam
Python atau C
Instalasi panda
Untuk melakukan instalasi Pandas, kita hanya cukup dengan menggunakan pip
ataupun bisa menggunakan Anaconda bila sudah tersedia pada sistem yang
digunakan.
Menggunakan pip:
Menggunakan anaconda:
Import Pandas
Bila sudah berhasil melakukan instalasi pandas, kita dapat menggunakannya untuk
melakukan manipulasi data dengan cara import modul tersebut pada projek yang
akan kita buat.
36
Series
Series merupakan struktur data dasar dalam Pandas. Series bisa juga diibaratkan
sebagai array satu dimensi seperti halnya yang ada pada numpy array, hanya
bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen
tersebut. Struktur data yang bisa ditampung berupa integer, float, dan juga string.
Series juga mendukung operasi vektor. Secara definisi, Series tidak dapat
mempunyai kolom ganda, untuk masalah ini bisa menggunakan struktur data frame.
Data Frame
Data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini
merupakan cara paling standar untuk menyimpan data. Secara sederhana, data
frame merupakan tabel/data tabular. Setiap kolom pada Data Frame merupakan
objek dari Series, dan baris terdiri dari elemen yang ada pada Series. Baris berguna
untuk menyimpan informasi dan kolom untuk menyimpan nama dari informasi
tersebut. Sebagai contoh, berikut adalah perbandingan antara Series dan Data
Frame:
● Parameter data bisa berisi array, Iterable, dict, atau nilai scalar
● Parameter index disarankan bernilai unik dan hashable yang memiliki panjang sama
dengan data
● Parameter dtype menunjukan tipe data, bila tidak didefinisikan akan bernilai sesuai
dengan data yang diberikan
● Parameter copy berguna untuk menyalin data
37
Membuat Series di Pandas
Series pada Pandas bisa dibuat dengan menggunakan python list ataupun array dari
NumPy. Untuk membuatnya, kita bisa memanggil pd.Series() method dengan isi
array. Berbeda dengan python list, Series hanya dapat berisi data dengan tipe yang
sama. Jadi, bisa juga menggunakan array dari NumPy untuk mengisi data pada
Series.
Untuk membuat Series bisa dengan mendefinisikan:
Untuk mengetahui indeks dari sebuah Series, bisa dengan memanggil series.index
38
Slicing Data dengan Pandas
Seperti halnya NumPy, Pandas pun mendukung operasi slicing. Slice sendiri dibangun
dengan format [start, stop, step] seperti RangeIndex yang sudah dijelaskan
sebelumnya. Sebagai contoh, kita ingin menampilkan data dimulai dari indeks 0
hingga 4 dengan interval 2.
Nilai tersebut hanya opsional, bila tidak diisi maka akan mengikuti nilai default. Misal,
kita ingin menampilkan data setelah indeks-N.
39
d. Alat dan Bahan
5) Kertas Folio
6) Spidol Hitam
7) Kertas A0
8) Papan tulis portable tripod
e. Prosedur Kerja
Pandas adalah library python memberikan kemudahan dalam mengerjakan
data tabular. Pandas sering digunakan para data scientist. Berikut ini kita akan
mempelajari manipulsi data frame menggunakan library pandas yang datanya
didapat dari file CSV. Untuk membaca file csv, gunakan perintah
read_csv("nama_file.csv"). Perintah .head() menampilkan 5 data teratas. Perintah
.tail() untuk menampilkan 5 data terbawah.
Bila kita ingin menampilkan sejumlah data teratas, kita dapat menggunakan
parameter untuk menentukan jumlah row yang ingin diretrieve. Contohnya
mydata.head(10) akan menghasilkan tampilan sbb.
40
Berikut ini adalah contoh hasil dari perintah .tail() dan .tail(10)
Selain head() dan tail(), ada beberapa perintah yang bisa digunakan dalam
manipulasi data dalam pandas, yaitu:
41
● shape untuk melihat bentuk dari data frame.Akan mengembalikan row x column.
● size untuk melihat total ukuran dari data frame. Mengembalikan nilai perkalian
dari row dan column.
● len untuk melihat jumlah row dari data frame.
● columns untuk melihat nama kolom dari data frame.
Kita juga bisa hanya mengambil data 1 kolom saja dengan argumen 'nama_row'.
Operasi slicing juga dapat digunakan, contoh ingin menampilkan data years experience
5 teratas. Bila ingin menampilkan 2 kolom atau lebih, maka kita kirim parameter nama
row dalam list.
42
Membaca File CSV
Untuk memulai/membaca file csv pada Pandas sangat mudah sekali
df akan berisi sebuah Dataframe / array 2 dimensi yang akan bisa kita olah/ubah
ke series, contoh output seperti berikut :
43
Group By: split-apply-combine
Jika kita ingin menghitung record suatu kolom tertentu kita gunakan fungsi size()
Outputnya :
Untuk penjumlahan suatu kolom terhadap kolom tertentu, semisal kita ingin total
pada kolom jumlah_rt terhadap kolom nama_kabupaten_kota, nama_kecamatan,
nama_kelurahan
44
17 JAKARTA BARAT KALI DERES TEGAL ALUR 822
18 JAKARTA BARAT KEBON JERUK DURI KEPA 685
19 JAKARTA BARAT KEBON JERUK KEBON JERUK 665
20 JAKARTA BARAT KEBON JERUK KEDOYA SELATAN 365
21 JAKARTA BARAT KEBON JERUK KEDOYA UTARA 660
22 JAKARTA BARAT KEBON JERUK KELAPA DUA 300
23 JAKARTA BARAT KEBON JERUK SUKABUMI SELATAN 390
24 JAKARTA BARAT KEBON JERUK SUKABUMI UTARA 515
25 JAKARTA BARAT KEMBANGAN JOGLO 570
26 JAKARTA BARAT KEMBANGAN KEMBANGAN SELATAN 388
27 JAKARTA BARAT KEMBANGAN KEMBANGAN UTARA 590
28 JAKARTA BARAT KEMBANGAN MERUYA SELATAN 420
29 JAKARTA BARAT KEMBANGAN MERUYA UTARA 630
.. ... ... ... ...
237 JAKARTA UTARA KELAPA GADING KELAPA GADING BARAT 1084
238 JAKARTA UTARA KELAPA GADING KELAPA GADING TIMUR 1211
239 JAKARTA UTARA KELAPA GADING PEGANGSAAN DUA 1262
240 JAKARTA UTARA KOJA KOJA 735
241 JAKARTA UTARA KOJA LAGOA 1110
242 JAKARTA UTARA KOJA RAWA BADAK SELATAN 545
243 JAKARTA UTARA KOJA RAWA BADAK UTARA 595
244 JAKARTA UTARA KOJA TUGU SELATAN 475
245 JAKARTA UTARA KOJA TUGU UTARA 1070
246 JAKARTA UTARA PADEMANGAN ANCOL 346
247 JAKARTA UTARA PADEMANGAN PADEMANGAN BARAT 1073
248 JAKARTA UTARA PADEMANGAN PADEMANGAN TIMUR 767
249 JAKARTA UTARA PENJARINGAN KAMAL MUARA 224
250 JAKARTA UTARA PENJARINGAN KAPUK MUARA 500
251 JAKARTA UTARA PENJARINGAN PEJAGALAN 1125
252 JAKARTA UTARA PENJARINGAN PENJARINGAN 1210
253 JAKARTA UTARA PENJARINGAN PLUIT 1251
254 JAKARTA UTARA TANJUNG PRIOK KEBON BAWANG 980
255 JAKARTA UTARA TANJUNG PRIOK PAPANGGO 635
256 JAKARTA UTARA TANJUNG PRIOK SUNGAI BAMBU 520
257 JAKARTA UTARA TANJUNG PRIOK SUNTER AGUNG 1400
45
258 JAKARTA UTARA TANJUNG PRIOK SUNTER JAYA 1116
259 JAKARTA UTARA TANJUNG PRIOK TANJUNG PRIOK 790
260 JAKARTA UTARA TANJUNG PRIOK WARAKAS 920
261 KAB.ADM.KEP.SERIBU KEP. SERIBU SLT P. PARI 70
262 KAB.ADM.KEP.SERIBU KEP. SERIBU SLT P. TIDUNG 145
263 KAB.ADM.KEP.SERIBU KEP. SERIBU SLT P. UNTUNG JAWA 45
264 KAB.ADM.KEP.SERIBU KEP. SERIBU UTR P. HARAPAN 75
265 KAB.ADM.KEP.SERIBU KEP. SERIBU UTR P. KELAPA 155
266 KAB.ADM.KEP.SERIBU KEP. SERIBU UTR P. PANGGANG 145
h. Rubrik Penilaian
No Indikator Skor*
Jumlah skor
46
Acara 7
Pokok Bahasan : Library 3 Matplotlib
Acara Praktikum/Praktek: Minggu 4/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami library Matplotlib
• Mahasiswa mampu menjelaskan penggunaan library Matplotlib
b. Indikator
• Ketepatan dalam memahami library matplotlib
• Ketepatan dalam menjelaskan penggunaan library matplotlib
c. Dasar Teori
Matplotlib adalah salah satu paket Python paling populer yang digunakan
untuk visualisasi data. Ini adalah perpustakaan lintas platform untuk membuat plot
2D dari data dalam array. Matplotlib ditulis dengan Python dan menggunakan
NumPy, ekstensi matematika numerik dari Python. Ini menyediakan API berorientasi
objek yang membantu dalam menyematkan plot dalam aplikasi menggunakan toolkit
Python GUI seperti PyQt, WxPythonotTkinter. Ini dapat digunakan dalam shell Python
dan IPython, notebook Jupyter dan server aplikasi web juga.
Matplotlib memiliki antarmuka prosedural bernama Pylab, yang dirancang
menyerupai MATLAB, bahasa pemrograman berpemilik yang dikembangkan oleh
MathWorks. Matplotlib bersama dengan NumPy dapat dianggap sebagai open source
yang setara dengan MATLAB.
Matplotlib awalnya ditulis oleh John D. Hunter pada tahun 2003. Versi stabil saat ini
adalah 2.2.0 yang dirilis pada Januari 2018. Visualisasi dari matplotlib adalah sebuah
gambar grafik yang terdapat satu sumbu atau lebih. Setiap sumbu memiliki sumbu
horizontal (x) dan sumbu vertikal (y), dan data yang direpresentasikan menjadi
warna dan glyphs seperti marker (contohnya bentuk lingkaran) atau lines (garis)
atau poligon.
Instalasi matplotlib:
47
Tipe Plot:
48
Fungsi Image (manipulasi gambar)
Axis
49
d. Alat dan Bahan
1) Kertas Folio
2) Spidol Hitam
3) Kertas A0
4) Papan tulis portable tripod
50
e. Prosedur Kerja
Membuat Line Plot
Line plot berguna untuk melacak perubahan pada periode waktu pendek dan
panjang. Ketika terdapat perubahan kecil, line plot lebih baik dalam melakukan
visualisasi dibandingkan grafik bar. Ketikkan kode program berikut:
51
Membuat Bar Plot
Bar plot digunakan untuk membandingkan perubahan tiap waktu pada beberapa
kelompok data. Bar plot sangat bagus digunakan dalam visualisasi ketika
perubahan data sangat besar dibandingkan dengan line plot. Bar plot biasanya
memiliki dua sumbu yaitu sumbu x untuk jenis kelompok dan sumbu y untuk
proporsi kelompok. Matplotlib menyediakan fungsi bar() untuk mempermudah
dalam visualisasi bar plot.
Pie Chart
Pie chart adalah grafik yang berbentuk lingkaran atau donat.
Hasil:
52
f. Hasil dan Pembahasan
Membuat laporan yang berisi hasil installasi library matplotlib dan percobaan kode
program yang ada pada prosedur kerja yang dikerjakan secara mandiri dengan
ketentuan format laporan sebagai berikut :
• Terdapat cover dengan ketentuan Judul Tugas “Data Preparation 1”, Minggu V,
logo polije, nama, nim, gol
• Berisi : pendahuluan, isi makalah, kesimpulan, dan daftar Pustaka
• Format *.pdf
• Simpan file dengan Nama_NIM_GOL_MingguV
• Kumpulkan di http://jti.polije.ac.id/elearning/
g. Kesimpulan
Penjelasan dan contoh implementasi penggunaan library matplotlib
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
53
Acara 8
Pokok Bahasan : Library 4 Seaborn
Acara Praktikum/Praktek: Minggu 4/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami library seaborn
• Mahasiswa mampu mengimplementasi library seaborn
b. Indikator
• Ketepatan dalam memahami library seaborn
• Ketepatan dalam mengimplementasi library seaborn
c. Dasar Teori
Di dunia Analytics, cara terbaik untuk mendapatkan wawasan adalah dengan
memvisualisasikan data. Data dapat divisualisasikan dengan merepresentasikannya
sebagai plot yang mudah dipahami, dieksplorasi, dan dipahami. Data tersebut
membantu dalam menarik perhatian elemen kunci. Untuk menganalisis sekumpulan
data menggunakan Python, kami menggunakan Matplotlib, pustaka ploting 2D yang
diimplementasikan secara luas. Demikian juga, Seaborn adalah library visualisasi
dengan Python. Itu dibangun di atas Matplotlib.
Fitur Penting Seaborn
Seaborn dibangun di atas pustaka visualisasi inti Python, Matplotlib. Ini dimaksudkan
untuk berfungsi sebagai pelengkap, dan bukan pengganti. Namun, Seaborn hadir
dengan beberapa fitur yang sangat penting. Beberapa fitur penting yang ada di
seaborn antara lain:
• Tema bawaan untuk menata grafis matplotlib
• Memvisualisasikan data univariat dan bivariat
• Memasang dan memvisualisasikan model regresi linier
• Merencanakan data deret waktu statistik
• Seaborn bekerja dengan baik dengan struktur data NumPy dan Pandas
• Muncul dengan tema bawaan untuk menata grafis Matplotlib
Dalam kebanyakan kasus, Anda masih akan menggunakan Matplotlib untuk
membuat plot sederhana. Pengetahuan tentang Matplotlib direkomendasikan untuk
mengubah plot default Seaborn. Untuk menggunakan library seaborn kita harus
install library ini terlebih dahulu dengan menggunakan pip.
54
Untuk menggunakannya import terlebih dahulu dengan perintah seperti ini:
Dalam Library Seaborn terdapat banyak fungsi grafik yang bisa digunakan untuk
melakukan visualisasi data.
Ada beberapa jenis plot yang dapat dilakukan dengan seaborn seperti
• Categorical plots
• Distribution plots
• Relational plots
• Regression plots
• Matrix plots
e. Prosedur Kerja
Seperti yang sudah dijelaskan sebelumnya, Seaborn adalah library untuk membuat
grafik statistik dengan Python. Seaborn membantu Anda menjelajahi dan
memahami data Anda. Fungsi plotnya beroperasi pada kerangka data dan larik
yang berisi seluruh kumpulan data dan secara internal melakukan pemetaan
semantik dan agregasi statistik yang diperlukan untuk menghasilkan plot yang
informatif.
Coba ketikkan kode program berikut:
55
Hasilnya sebagai berikut:
56
Estimasi statistik dan bilah kesalahan
Seringkali, kita tertarik pada nilai rata-rata satu variabel sebagai fungsi dari
variabel lain. Banyak fungsi seaborn akan secara otomatis melakukan estimasi
statistik yang diperlukan untuk menjawab pertanyaan-pertanyaan ini:
g. Kesimpulan
Penjelasan terkait library seaborn
57
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
58
Acara 9
Pokok Bahasan : Data Preparation 1
Acara Praktikum/Praktek: Minggu 5/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami penentuan objek data
• Mahasiswa mampu memahami teknik membersihkan data
• Mahasiswa mampu memahami teknik validasi data
b. Indikator
• Mahasiswa dapat memahami peemilihan data, melakukan pembersihan data
dan memeriksa kualitas serta kecukupan data
c. Dasar Teori
1. Terminologi dan Definisi
59
2. Fakta Terkait Data Preparation
Berikut gambar 2 merupakan gambaran mengenai fakta terkait data
preparation yang menggambarkan porsi kegiatan data scientis.
60
• Data perlu diformat sesuai dengan software yang digunakan
• Data perlu disesuaikan dengan metode data sain yang digunakan
• Data real-world cenderung ‘kotor’:
o Tidak komplit: kurangnya nilai attribute, kurangnya atribut
tertentu/penting,
o hanya berisi data agregate. misal: pekerjaan=”” (tidak ada isian)
o Noisy: memiliki error atau outlier. misal: Gaji=”-10”, Usia=”222”
o Tidak konsisten: memliki perbedaan dalam kode dan nama. misal : Usia=
“32” TglLahir=”03/07/2000”;
o Rating “1,2,3” -- > rating “A, B, C”
• Kolom dan baris yang saling bertukar
• Banyak variabel dalam satu kolom yang sama
61
5. Tantangan Data Preparation
Dari penjelasan mengenai manfaat dan pentingnya data preparation
diatas, ternyata data preparation masih memiliki tantangan tersendiri antara
lainnya adalah :
• Memakan Waktu Lama
• Porsi Teknis yang Dominan
• Data yang Tersedia Tidak Akurat atau Jelas/Tidak Langsung Pakai
• Data tidak Balance Saat Pengambilan Sampel
• Rentan akan Error
62
merupakan Metodologi umum untuk data mining, analitik, dan proyek data sains,
berfungsi menstandarkan proses data mining lintas industri dan digunakan untuk
semua level dari pemula hingga pakar.
63
• Deployment atau penyebaran adalah fase penyusunan laporan atau
presentasi dari pengetahuan yang didapat dari evaluasi pada proses data
mining (Budiman 2012).
64
6. Bentuk/ Format Data
9. Sampling Data
A. Pengertin Sampling
Sebelum melakukan tahapan dalam data preparation, terlebih dahulu
adalah pemilihan/penentuan objek yang dapat dilakukan dengan
menggunakan penentuan:
• Populasi. Populasi adalah wilayah generalisasi yang terdiri atas objek atau
subjek yang mempunyai kualitas dan karakteristik tertentu yang
ditetapkan oleh peneliti untuk dipelajari dan kemudian ditarik
kesimpulannya. (Sugiyono 2011: 80). Populasi adalah suatu kesatuan
individu atau subyek pada wilayah dan waktu dengan kualitas tertentu
yang akan diamati/diteliti. Populasi penelitian dapat dibedakan meryadi
populasi "finit" dan populasi "infinit". Populasi finit adalah suatu populasi
yang jumlah anggota populasi secara pasti diketahui, sedang populasi
infinit adalah suatu populasi yang jumlah anggota populasi tidak dapat
diketahui secara pasti. (Supardi, 1993)
• Sampel. Sugiyono (2011: 81) menyatakan bahwa sampel adalah bagian
dari jumlah dan karakteristik yang dimiliki oleh populasi tersebut. Sampel
adalah bagian dari populasi yang dijadikan subyek penelitian sebagai
"wakil" dari para anggota populasi. (Supardi, 1993)
B. Metode Sampling
Kategori Metode Sampling terdapat dua macam yaitu Probability
sampling dan non-Probability Sampling seperti yang digambarkan pada
gambar 10 dibawah ini.
65
Gambar 10. Metode Sampling
1. Probability Sampling
Probably sampling adalah penarikan contoh dengan metode
peluang yang dilakukan secara acak (random), dan dapat dilakukan
dengan cara undian atau tabel bilangan random. (Ayu Asari, 2018) Teknik
ini sering juga disebut dengan random sampling, yaitu pengambilan
sampel penelitian secara random. Teknik sampling ini cocok dipilih untuk
populasi yang bersifat finit, artinya besaran anggota populasi dapat
ditentukan lebih dahulu. Pada teknik sampling ini, penentuan sampel
penelitian dengan memberikan kemungkinan (probability) yang sama
pada setiap anggota populasi untuk menjadi sampel terpilih. Dengan
demikian pada teknik sampling ini alat analisis statistik dapat
dipergunakan untuk membantu penentuan sampel terpilih. Teknik
probability sampling ini ada beberapa model yaitu: simple random
sampling (acak sederhana maupun bilangan random); sistematik random
sampling; stratified random sampling dan cluster random sampling.
(Supardi, 1993). Ciri – ciri dari Probability Sampling adalah diantaranya
adalah sebagai berikut :
• Populasi diketahui. Populasi yang akan dijadikan sebagai sumber
harus diketahui terlebih dahulu.
• Randomisasi/keteracakan: Ya. Pada probability sampling data yang
akan diambil tersebar secara acak dan memiliki kesempatan yang
sama untuk digunakan sebagai sample.
• Conclusiver. Riset ini digunakan untuk menguji variabel-variabel
penelitian dan biasanya menggunakan metode analisis data
kuantitatif.
• Hasil dari penggunaan probability sampling method adalah Unbiased
atau bias minimum (representasi populasi yang tidak bias).
66
• Kesimpulan yang dihasilkan pada probability sampling berupa
Statistik.
67
• Untuk membuat sampel yang akurat: Probability sampling membantu
peneliti membuat sampel yang akurat dari populasi mereka. Para
peneliti menggunakan metode statistik yang telah terbukti untuk
menggambar ukuran sampel yang tepat untuk memperoleh data
yang terdefinisi dengan baik.
68
• Stratified Sampling (pengambilan sampel bertingkat) : Pengambilan
sampel bertingkat melibatkan membagi populasi menjadi subpopulasi
yang mungkin berbeda dalam hal-hal penting. Ini memungkinkan
Anda menarik kesimpulan yang lebih tepat dengan memastikan bahwa
setiap subkelompok terwakili dengan benar dalam sampel. Untuk
menggunakan metode pengambilan sampel ini, Anda membagi
populasi menjadi subkelompok (disebut strata) berdasarkan
karakteristik yang relevan (misalnya jenis kelamin, rentang usia,
golongan pendapatan, peran pekerjaan). Contoh : Perusahaan ini
memiliki 800 karyawan wanita dan 200 karyawan pria. Anda ingin
memastikan bahwa sampel mencerminkan keseimbangan gender
perusahaan, sehingga Anda mengurutkan populasi menjadi dua strata
berdasarkan gender. Kemudian Anda menggunakan pengambilan
sampel acak pada setiap kelompok, memilih 80 wanita dan 20 pria,
dan memberi anda sampel yang representatif dari 100 orang.
• Cluster Smpling (pengambilan sampel klaster) : Pengambilan sampel
klaster juga melibatkan pembagian populasi menjadi subkelompok,
tetapi setiap subkelompok harus memiliki karakteristik yang serupa
dengan keseluruhan sampel. Alih-alih mengambil sampel individu dari
setiap subkelompok, Anda secara acak memilih seluruh subkelompok.
Jika memungkinkan, Anda dapat memasukkan setiap individu dari
setiap cluster sampel. Jika cluster itu sendiri besar, Anda juga dapat
mengambil sampel individu dari dalam setiap cluster menggunakan
salah satu teknik di atas. Metode ini bagus untuk menangani populasi
yang besar dan tersebar, tetapi ada lebih banyak risiko kesalahan
dalam sampel, karena mungkin ada perbedaan substansial antara
kelompok. Sulit untuk menjamin bahwa cluster sampel benar-benar
mewakili seluruh populasi. Contoh : Perusahaan ini memiliki kantor di
10 kota di seluruh negeri (semua dengan jumlah karyawan yang kira-
kira sama dengan peran yang sama). Anda tidak memiliki kapasitas
untuk melakukan perjalanan ke setiap kantor untuk mengumpulkan
data Anda, jadi Anda menggunakan sampling acak untuk memilih 3
kantor dan ini adalah klaster Anda.
2. Non-Probability Sampling
Nonprobability sampling adalah teknik pengambilan sampel yang
tidak memberi peluang atau kesempatan sama bagi setiap unsur atau
anggota populasi yang dipilih menjadi sampel. Non probability sampling
ini tidak bisa digunakan untuk membuat generalisasi (Retnawati 2021).
69
Ciri – ciri dari Probability Sampling adalah diantaranya adalah sebagai
berikut :
• Populasi yang akan dijadikan sumber data tidak diketahui
sebelumnya.
• Keterbatasan penelitian. Metode ini tidak tidak bisa digunakan untuk
membuat generalisasi.
• Randomisasi/keteracakan data yang digunakan tidak acak.
• Exploratory. Riset eksploratori bersifat fleksibel dan tidak terstruktur.
Umumnya riset ini berbentuk riset kualitatif dengan metode
pengumpulan data yang lazim digunakan yaitu wawancara dan Focus
Group Discussion.
• Hasil dari penggunaan metode ini adalah Biased (bias).
• Kesimpulan yang dihasilkan dengan menggunakan metode ini berupa
analitik.
70
alasan mengapa peneliti mengandalkan convenience sampling yang merupakan
metode pengambilan sampel non-probabilitas yang paling umum, karena
kecepatan, efektivitas biaya, dan kemudahan ketersediaan sampel.
• Judgmental : Dalam metode judgemental sampling, peneliti memilih sampel
hanya berdasarkan pengetahuan dan kredibilitas peneliti. Dengan kata lain,
peneliti hanya memilih orang-orang yang mereka anggap cocok untuk
berpartisipasi dalam penelitian. Pengambilan sampel yang menghakimi atau
purposive bukanlah metode pengambilan sampel yang ilmiah, dan kelemahan
dari teknik pengambilan sampel ini adalah bahwa praduga dari seorang peneliti
dapat mempengaruhi hasil. Dengan demikian, teknik penelitian ini melibatkan
tingkat ambiguitas yang tinggi.
• Quota : karakteristik yang relevan digunakan untuk memisahkan sampel untuk
meningkatkan keterwakilannya. Secara hipotesis mempertimbangkan bahwa
seorang peneliti ingin mempelajari tujuan karir karyawan pria dan wanita dalam
suatu organisasi. Ada 500 karyawan dalam organisasi, juga dikenal sebagai
populasi. Untuk memahami lebih baik tentang suatu populasi, peneliti hanya
perlu sampel, bukan seluruh populasi. Selanjutnya, peneliti tertarik pada strata
tertentu dalam populasi. Di sinilah pengambilan sampel kuota membantu dalam
membagi populasi menjadi strata atau kelompok. Contoh jika kita tertarik untuk
mempelajari populasi 40 persen perempuan dan 60 persen laki-laki. Kami
membutuhkan ukuran 100 untuk sampel; seleksi tidak akan berhenti kecuali
target sudah terpenuhi. Sedangkan bila diperoleh jumlah pasti laki-laki atau
perempuan, misalkan 40 perempuan, seleksi untuk laki-laki harus dilanjutkan
dengan proses yang sama, akhirnya ketika perempuan yang sah ditemukan,
tidak akan dipilih karena quota yang ditetapkan sudah penuh (Etikan and Bala
2017).
• Snowball : Pengambilan sampel snowball membantu peneliti menemukan sampel
ketika mereka sulit ditemukan. Peneliti menggunakan teknik ini ketika ukuran
sampel kecil dan tidak mudah didapat. Sistem pengambilan sampel ini bekerja
seperti program rujukan (referal). Setelah peneliti menemukan subjek yang
cocok, ia meminta bantuan mereka untuk mencari subjek serupa untuk
membentuk sampel ukuran yang cukup baik.
• Consecutive sampling (Pengambilan sampel berurutan) : Metode sampling non-
probabilitas ini sangat mirip dengan convenience sampling, dengan sedikit
variasi. Di sini, peneliti memilih satu orang atau sekelompok sampel, melakukan
penelitian selama satu periode, menganalisis hasilnya, dan kemudian beralih ke
subjek atau kelompok lain jika diperlukan. Teknik pengambilan sampel berurutan
memberi peneliti kesempatan untuk bekerja dengan banyak topik dan
71
menyempurnakan penelitiannya dengan mengumpulkan hasil yang memiliki
wawasan penting.
C. Tahapan Sampling
Seperti yang diketahui, sampling terdiri dari beberapa tahap seperti yang
digambarkan pada gambar 14 dibawah ini.
72
kurang dari 1%, namun sangat signifikan. Kebanyakan algoritma ML tidak bekerja
baik utk dataset imbalance tsb.
73
B. Teknik Resampling
Terdapat beberapa teknik dari resampling seperti yang digambarkan oleh
gambar 16 dibawah ini.
74
• Dengan cara ini maka ketimpangan proporsi mayoritas dan minoritas menjadi
berkurang. (Riswanto, Bijaksana, and Maulana 2007).
11. Pemilihan (Seleksi Fitur) Data
Setelah menentukan sampling atas data yang akan diambil nanti, selanjutnya
adalah melakukan seleksi fitur (feature selection) atas data sampling tersebut.
Seleksi fitur merupakan konsep inti dalam Machine Learning yang berdampak besar
bagi kinerja model prediksi. Fitur data yang tidak/sebagian saja relevan damapak
berdampak negatif terhadap kinerja model. Definisi Seleksi Fitur itu sendiri adalah
proses otomatis atau manual memilih fitur data yang paling berkontribusi terhadap
variabel prediksi atau output yang diinginkan. Beberapa manfaat dari seleksi fitur
data anatara lainnya adalah sebagai berikut :
• Reduksi Overfitting: semakin kecil data redundant maka keputusan berdasarkan
noise semakin berkurang
• Meningkatkan Akurasi: semakin kecil data misleading maka akurasi model lebih
baik
• Reduksi Waktu Training: semakin kecil titik data (data point) maka kompleksitas
algortima berkurang dan latih algoritma lebih cepat
Terdapat beberapa jenis dari seleksi fitur data, antara lainnya adalah
dijabarkan sebagai berikut :
• Unsupervised: metode yang mengabaikan variabel target, seperti menghapus
variabel yang berlebihan menggunakan korelasi
• Supervised: metode yang menggunakan variabel target, seperti menghapus
variabel yang tidak relevan
Pada seleksi fitur data, kita harus dapat membedakan Jenis Data yaitu
diantaranya adalah Numerik dan Kategori Kategorik. Gambar 17 dibawah ini
menggambarkan tentang perbedaan data Kategoris dan Numerik.
75
dimisalkan dengan tingkat kelulusan (cumlaude,sangat memuaskan & memuaskan)
dan suhu (dingin, normal & panas). Pada data Numerik / kuantitatif termasuk
didalamnya adalah Interval dan Rasio. Internal dimisalkan tanggal dan suhu
sedangkan rasio dimisalkan umur, panjang dan tinggi.
12. Validasi Data
Sebelum membahas lebih jauh mengenai validasi data, sebaiknya kita
mengetahui apa perbedaan dari Verifikasi dan Validasi. Verifikasi bertujuan untuk
membuktikan bahwa sesuatu ada atau benar, atau untuk memastikan bahwa
sesuatu adalah benar atau salah sedangkan Validasi bertujuan untuk membuat
sesuatu yang resmi diterima atau disetujui, terutama setelah memeriksanya apakah
Kuat atau Lemah.
Validasi atau validitas adalah mengukur sejauh mana perbedaan skor yang
mencerminkan perbedaan sebenarnya baik itu antar individu, kelompok, atau juga
situasi yang mengenai karakteristik yang akan diukur, atau juga kesalahan
sebenarnya pada individu ataupun juga kelompok yang sama dari satu situasi ke
situasi yang lain. (https://pendidikan.co.id/verifikasi-vs-validasi/) Validasi adalah
suatu tindakan pembuktian, artinya validasi merupakan suatu pekerjaan
“dokumentasi”. (https://penerbitbukudeepublish.com/validasi-data-penelitian/ )
Sebagai contoh adalah sebagi berikut :
• Validasi didalam Mengukur Kemampuan para Siswa didalam Matematik.
Kemudian dengan diberikan soal bersifat kalimat Panjang begitu berbelit-belit.
Hal tersebut bertujuan untuk dapat memberikan kesukaran dalam menangkap
maknanya. Hasil akhirnya, siswa tersebut tidak dapat menjawab, akibat tidak
memahami per-tanyaannya.
• Contoh variabel prestasi belajar serta motivasi bisa diukur oleh tes ataupun juga
oleh kuesioner. Cara demikian juga bisa berbeda, tes tersebut dapat
dilaksanakan baik itu secara tertulis ataupun lisan.
• Verifikasi yang dituliskan menurut wikipedia adalah teori filsafat positif logis
didalam memilih metode pengalaman. Dalam artian, bahwa suatu sumber yang
didasarkan pengetahuan serta pengematan dengan melalui analisis logis dengan
bantuan berupa simbol-simbol logika dengan menggunakan metode dalam
pemecahan masalah dengan melalui metode empirik.
(https://pendidikan.co.id/verifikasi-vs-validasi/ ).
• Contoh: Verifikasi itu sering ditemui dalam pendaftaran. Pada saat mendaftar,
maka akan diperlukan untuk menyediakan bukti obyektif contohnya seperti
fotokopi KTP, akte kelahiran, dan sejenisnya. Setelah hal-hal tersebut dilengkapi,
maka selanjutnya berkas pendaftaran tersebut diverifikasi. Selain dari itu,
verifikasi dapat juga dilakukan pada laboratorium yang akan melakukan sebuah
76
penelitian. Metode Verifikasi ini, dilakukan dengan menggunakan sifat yang baku
untuk dapat membuktikan hasil yang benar valid. Verifikasi tersebut juga bisa
ditujukan untuk dapat melihat apakah laboratorium tersebut memiliki
kompetensi personil. Validasi merupakan tahapan kritikal yang sering diabaikan
Data Scientist pemula, karena memeriksa, diantaranya sbb:
• Tipe Data (mis. integer, float, string)
• Range Data
• Uniqueness (mis. Kode Pos)
• Consisten expression (mis. Jalan, Jl., Jln.)
• Format Data (mis. utk tgl “YYYY-MM-DD” VS “DD-MM-YYYY.”)
• Nilai Null/Missing Values
• Misspelling/Type
• Invalid Data (gender: L/P: L; Laki-laki; P: Pria/Perempuan? )
Perbedaan Verifikasi dan Validasi dapat kita jabarkan sebagai Verifikasi dan
validasi ini memiliki tujuan untuk menunjukkan bahwa sistem itu sesuai dengan
spesifikasinya serta bahwa sistem tersebut memenuhi harapan pelanggan. Berikut
perbedaannya:
a. Verifikasi itu sebenarnya berbicara pada konfirmasi dengan proses pengujian
dengan secara ilmiah serta objektif mengenai persyaratan tersebut.
b. Berbeda dengan verifikasi, pemeriksaan validasi tersebut biasanya memiliki sifat
tidak baku atau dengan menggunakan metode tersendiiri yang dilakukan pada
laboratorium.
d. Selain dari itu validasi tersebut juga dapat mengembangkan metode tersendiri
pada laboratorium. Validasi tersebut tujuannya untuk dapat memperoleh hasil
berupa valid ataupun tidaknya.
e. Terdapat beberapa teknik validasi data dan model yang ada, diantaranya adalah
sebagai berikut :
o Akurasi atau Ketepatan data yang ada
o Kelengkapan data
o Konsistensi data
o Ketepatan Waktu validasi data
o Kepercayaan
o Nilai Tambah
o Penafsiran data
o Kemudahan Akses
77
g. Prosedur Kerja
Jelaskan tiga Teknik seleksi fitur dibawah ini :
• Seleksi Univariat (Univariate Selection)
• Pentingnya Fitur (Feature Important)
• Matriks Korelasi (Corelation Matrix) dengan Heatmap
No Indikator Skor*
Jumlah skor
78
Acara 10
Pokok Bahasan : Data Preparation 2
Acara Praktikum/Praktek: Minggu 5/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
• Mahasiswa mampu memahami teknik transformasi data sesuai kebutuhan
• Mahasiswa mampu memahami pembuatan dokumen konstruksi data
b. Indikator
• Mahasiswa mampu memahami beberapa teknik transformasi data dalam
membuat dokumentasi konstruksi data
c. Dasar Teori
1. Transformasi Data
Trasnformasi data merupakan perubahan data dari variabel yang
sebenarnya menjadi skala konversi nilai tertentu. Transformasi data dapat
dilakukan untuk data numerik. Tujuan/Alasan dilakukannya Transformasi Data:
Mengubah data menjadi skala yang berbeda; Meningkatkan kecocokan data
dengan asumsi yang mendasari pada proses pemodelan; Melinearisasikan
hubungan antara 2 variabel yang hubungannya tidak linear; Memodifikasi
rentang nilai dari suatu variable; Mengetahui distribusi dari suatu data;
Memudahkan interpretabilitas; Menormalkan suatu data.
Tantangan teknis transformasi data berasal dari variasi input dan output
yang tidak terbatas untuk masalah, yang sering membutuhkan pekerjaan
khusus. Pada intinya, transformasi data adalah masalah pemrograman khusus
domain, dengan fokus kuat pada struktur, semantik dan sifat statistik data. Jika
kita membuat spesifikasi program transformasi data secara dramatis lebih
mudah, kita dapat menghilangkan kejenuhan bagi pekerja teknis yang langka,
dan melibatkan sekumpulan tenaga kerja yang jauh lebih luas dalam tugas-tugas
data-centric yang memakan waktu. Konteks variabel transformasi data, dibagi
menjadi dua yaitu Representasi Fitur dan Rekayasa Fitur. Terdapat beberapa
teknik transformasi data yang digunakan sesuai kebutuhan dan ketersediaan/
jenis data baik numerik maupun kategorik. Representasi fitur data awal dapat
berupa kolom data atau fitur tipe data yang dapat digunakan untuk algoritme
machine learning sesuai dengan tipe data. Rekayasa fitur data dapat berupa
normalisasi, pemilihan fitur tipe data baru, menambahkan kolom data baru.
Representasi Fitur atau Pembelajaran Fitur, teknik yang
memungkinkan system bekerja otomatis menemukan representasi yang
diperlukan untuk deteksi fitur atau klarifikasi dari dataset, menggantikan
79
rekayasa fitur manual, dan memungkinkan mesin mempelajari fitur dan
menggunakannya untuk melakukan tugas tertentu.
Rekayasa Fitur, proses mengubah data mentah menjadi fitur yang
mewakili masalah mendasar ke model prediktif, dan menghasilkan akurasi model
yang lebih baik pada data yang tidak terlihat.
80
Gambar 2. Outlier
2. Berbagai Teknik Transformasi Data
o Imputasi
Imputasi merupakan model menggantikan nilai/ data yang hilang
(missing value; NaN; Blank) dengan nilai pengganti.
Mekanisme data yang hilang, dalam teori data yang hilang, kami
mengklasifikasikan masalah data yang hilang ke dalam tiga kategori:
hilangnya MCAR, MAR dan MNAR. Pertimbangkan dataset dengan fitur hasil
Y, fitur prediksi X1 dan X2 dan beberapa variabel Z yang tersedia tetapi tidak
digunakan dalam model analisis. Untuk fitur X1 yang tidak lengkap, datanya
adalah:
- Missing Completely at Random (MCAR), ketika setiap sel memiliki
kemungkinan hilang yang tetap dan sama. Akibatnya, nilai X1 besar dan
kecil menjadi hilang. Pada Gambar 1, nilai yang hilang ditunjukkan
dengan warna merah.
- Missing at Random (MAR), ketika probabilitas yang hilang tergantung
pada nilai- nilai yang diamati. Pada Gambar 2, record dengan nilai besar
pada variabel Z memiliki kemungkinan lebih tinggi untuk hilang pada fitur
X1. Pada Gambar 3, ketidakhadiran tergantung pada nilai yang diamati
dari fitur X lainnya, misalnya X2. Dalam kedua situasi, korelasi antara fitur
yang tidak lengkap dan lengkap menentukan nilai mana yang hilang.
- Missing Not at Random (MNAR), ketika kemungkinan hilang tergantung
pada data yang tidak teramati atau hilang. Situasi ini dapat terjadi karena
kovariat yang sesuai untuk menjelaskan ketidakhadiran belum dicatat
(variabel Z tidak tersedia) atau ketika probabilitas kehilangan bergantung
pada nilai X1 yang hilang itu sendiri.
81
Ketika hilangnya tergantung pada variabel hasil Y, dan ketika variabel
hasil Y selesai diamati, peneliti ilmiah akan mengklasifikasikan ini sebagai
hilangnya MAR. Bagaimanapun, informasi dalam Y dapat digunakan dalam
model imputasi. Namun, dalam model ilmu data, umumnya tidak diterima
untuk menggunakan variabel hasil. Seseorang dapat berargumen bahwa
dalam situasi di mana ketidakhadiran dalam X1 bergantung pada nilai-nilai Y
yang diamati, dan variabel Y tidak dapat digunakan dalam model imputasi,
lebih masuk akal untuk mengklasifikasikan ketidakhadiran sebagai MNAR.
82
o Tahapan dan Teknik Imputasi
Imputasi data adalah tindakan mengganti data yang hilang dengan
perkiraan statistik dari nilai yang hilang. Tujuan dari setiap teknik imputasi
adalah untuk menghasilkan kumpulan data yang lengkap untuk digunakan
dalam proses pelatihan model pembelajaran mesin. Untuk membantu proses
ini, kita perlu menggunakan pustaka yang disebut mesin fitur yang dapat
menyederhanakan proses memasukkan nilai yang hilang. Anda dapat dengan
mudah menginstalnya dengan pip:
Teknik Imputasi Data yang Hilang, teknik yang berlaku untuk variabel
numerik dan kategoris, dan juga beberapa metode yang berlaku untuk
keduanya.
83
warna biru tua) untuk membuat M set data lengkap, dengan M 3 ditampilkan
di sini. Kemudian setiap set data lengkap yang diperhitungkan dianalisis
menggunakan standar metode seperti regresi linier. Akhirnya hasilnya
dikumpulkan menggunakan aturan Rubin.
e. Prosedur Kerja
• Jelaskan pengertian transformasi data dan teknik transformasi data
g. Kesimpulan
Penjelasan terkait transformasi data dan teknik transformasi data.
h. Rubrik Penilaian
No Indikator Skor*
Jumlah skor
84
Acara 11
Pokok Bahasan : Statistik Deskriptif 1
Acara Praktikum/Praktek: Minggu 6/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan Statistik
b. Indikator
Mahasiswa mampu menggunakan Statistik Deskriptik untuk Mengolah Data
c. Dasar Teori
Statistika Deskriptif mempunyai tujuan untuk mendeskripsikan atau memberi
gambaran objek yang diteliti sebagaimana adanya tanpa menarik kesimpulan atau
generalisasi. Dalam statistika deskriptif ini dikemukakan cara-cara penyajian data
dalam bentuk tabel maupun diagram, penentuan rata-rata (mean), modus, median,
rentang serta simpangan baku.
85
d. Alat dan Bahan
Laptop, Ms Excel, dan data yang sudah tersedia
e. Prosedur Kerja
86
f. Hasil dan Pembahasan
g. Kesimpulan
Simpulkan apa yang sudah anda pelajari dan tulis dalam laporan!
87
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
88
Acara 12
Pokok Bahasan : Statistik Deskriptif 2
Acara Praktikum/Praktek: Minggu 6/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan Statistik
b. Indikator
Mahasiswa mampu menggunakan Statistik Deskriptik untuk Mengolah Data
c. Dasar Teori
Statistika Deskriptif mempunyai tujuan untuk mendeskripsikan atau memberi
gambaran objek yang diteliti sebagaimana adanya tanpa menarik kesimpulan atau
generalisasi. Dalam statistika deskriptif ini dikemukakan cara-cara penyajian data
dalam bentuk tabel maupun diagram, penentuan rata-rata (mean), modus, median,
rentang serta simpangan baku.
89
d. Alat dan Bahan
Laptop, Ms Excel, dan data yang sudah tersedia
e. Prosedur Kerja
Data yang diperoleh dari suatu penelitian yang masih berupa random dapat disusun
menjadi data yang berurutan satu per satu atau berkelompok, yaitu data yang telah
disusun ke dalam kelas-kelas tertentu. Tabel untuk distribusi frekuensi disebut
dengan Tabel Distribusi Frekuensi atau Tabel Frekuensi saja. Jadi, distribusi frekuensi
adalah susunan data menurut kelas-kelas interval tertentu atau menurut kategori
tertentu dalam sebuah daftar. Distribusi Tunggal adalah satuan-satuan unit, urutan
tiap skor, atau tiap varitas tertentu. Daftar yang memuat data berkelompok disebut
distribusi frekuensi kelompok atau tabel frekuensi bergolong. Distribusi bergolong
terdiri atas beberapa interval kelas dalam penyusunannya. Selanjutnya, dari
distribusi frekuensi dapat diperoleh keterangan atau gambaran dan sistematis dari
data yang diperoleh.
90
91
f. Hasil dan Pembahasan
92
g. Kesimpulan
Simpulkan apa yang sudah anda pelajari dan tulis ke dalam Laporan!
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
93
Acara 13
Pokok Bahasan : Statistik Deskriptif 3
Acara Praktikum/Praktek: Minggu 7/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan Statistik
b. Indikator
Mahasiswa mampu menggunakan Statistik Deskriptik untuk Mengolah Data
c. Dasar Teori
Statistika Deskriptif mempunyai tujuan untuk mendeskripsikan atau memberi
gambaran objek yang diteliti sebagaimana adanya tanpa menarik kesimpulan atau
generalisasi. Dalam statistika deskriptif ini dikemukakan cara-cara penyajian data
dalam bentuk tabel maupun diagram, penentuan rata-rata (mean), modus, median,
rentang serta simpangan baku.
94
d. Alat dan Bahan
Laptop, Ms Excel, dan data yang sudah tersedia
e. Prosedur Kerja
Ketika kita menyajikan suatu data, seringkali kita ingin menemukan pola atau
hubungan antara variabel-variabel dalam data tersebut. Agar dapat mencari atau
menemukan pola dan hubungan antar variabel tersebut, maka dapat digunakan
grafik untuk memvisualisasikan data. Jenis visualisasi yang dipilih tergantung pada
penekanan yang ingin kita temukan dalam suatu data. Contoh grafik yang sering
digunakan antara lain grafik garis, grafik batang, dan diagram lingkaran
95
g. Kesimpulan
Tulis apa yang sudah anda pelajari ke dalam laporan!
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
96
Acara 14
Pokok Bahasan : Statistik Deskriptif 4
Acara Praktikum/Praktek: Minggu 7/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan Statistik
b. Indikator
Mahasiswa mampu menggunakan Statistik Deskriptik untuk Mengolah Data
c. Dasar Teori
Statistika Deskriptif mempunyai tujuan untuk mendeskripsikan atau memberi
gambaran objek yang diteliti sebagaimana adanya tanpa menarik kesimpulan atau
generalisasi. Dalam statistika deskriptif ini dikemukakan cara-cara penyajian data
dalam bentuk tabel maupun diagram, penentuan rata-rata (mean), modus, median,
rentang serta simpangan baku.
97
e. Prosedur Kerja
Ukuran Pemusatan adalah nilai tunggal yang mewakili suatu kumpulan data dan
menunjukkan karakteristik dari data. Ukuran pemusatan menunjukkan pusat dari
nilai data.
Mean merupakan nilai yang diperoleh dengan menjumlahkan semua nilai data dan
membaginya dengan jumlah data. Mean merupakan nilai yang menunjukkan pusat
dari nilai data dan merupakan nilai yang dapat mewakili keterpusatan data.
(Purwanto S.K., 2012)
Median merupakan salah satu ukuran pemusatan. Median merupakan suatu nilai
yang berada di tengah-tengah data, setelah data tersebut diurutkan. (Purwanto S.K.,
2012)
98
Menghitung median: Jika jumlah data ganjil, maka median adalah nilai tengah dari
urutan data Jika jumlah data genap maka untuk menentukan mediannya diambil 2
data tengah dijumlah, kemudian dibagi 2 Berdasarkan data di atas, maka nilai
tengah dari kelompok data tersebut adalah urutan ke 5 dan 6 dibagi 2 yaitu 20. Jadi
mediannya = 20. Median sebesar 20 menit artinya terdapat 5 hari dengan waktu
layanan kurang atau sama dengan 20 menit, dan terdapat 5 hari dengan waktu
layanan lebih besar atau sama dengan 20 menit.
99
Modus adalah nilai yang sering muncul diantara sebaran data. Jika pada data yang
bersifat data individu akan mudah untuk dicari modusnya.
Contoh :
Diketahui nilai Ujian Tengah Semester Statistika yaitu 50,40,70,75,75,80,75,30,75
dan 80 maka modusnya adalah 75 Rumus :
100
101
f. Hasil dan Pembahasan
102
g. Kesimpulan
Tulis apa yang sudah anda pelajari ke dalam laporan!
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
103
Acara 15
Pokok Bahasan : Pie Chart
Acara Praktikum/Praktek: Minggu 9/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data
b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data
c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.
e. Prosedur Kerja
Pie Charts Pie chart digunakan untuk menunjukkan seberapa banyak dari setiap jenis
kategori dalam dataset berbanding dengan keseluruhan. Pada bagian ini kita akan
membuat diagram lingkaran menggunakan kumpulan data sampel. Variabel label
berisi tupel rasa es krim. Variabel voting berisi tupel voting. Data tersebut mewakili
jumlah voting rase es krim favorit. Kita dapat membuat grafik menggunakan library
Pyplot Matplotlib. Method plt.pie () digunakan untuk membuat interface pie chart
berdasarkan data rasa es krim dan jumlah voting.
104
Berdasarkan Gambar 0.1, kita dapat dengan mudah melihat bahwa cokelat adalah
rasa yang paling populer, diikuti dengan rasa vanila. Kita dapat mengetahui hal ini
dengan melihat data mentahnya. Namun, data dalam format diagram lingkaran juga
dapat digunakan untuk melihat informasi lain dengan mudah, seperti fakta bahwa
kombinasi cokelat dan vanila mewakili lebih dari setengah suara. Apa yang tidak kita
lihat adalah persentase sebenarnya. Jika kita ingin melihat berapa persen kontribusi
masing-masing rasa es kirim, kita bisa menggunakan argumen autopct. Untuk nilai
argumen, ada beberapa string format yang dapat digunakan untuk mengatur
ketepatan tampilan data. Coba ubah nilainya menjadi% 1.0 %% dan% 1.2f %%.
Apa yang terjadi?
105
Sekarang kita dapat melihat persentase kontribusi setiap rasa es krim secara
keseluruhan (Gambar 0.2). Satu hal yang masih sedikit membingungkan tentang
bagan ini adalah pilihan warnanya. Kita dapat merubah warna dari setiap rasa es
krim Pie Chart. Matplotlib memungkinkan Anda mengubah warna yang ditampilkan
pada bagan dengan memasukkan nilai warna. Anda dapat menggunakan shorcut
yang telah diprogram seperti 'b' untuk biru dan 'g' untuk hijau. Dalam kasus ini, kita
menggunakan warna html. Warna ini adalah adalah nilai enam karakter di mana dua
karakter pertama mewakili jumlah warna merah, dua karakter berikutnya adalah
jumlah warna hijau, dan dua karakter terakhir mewakili jumlah warna biru. Anda
dapat menemukan custom warna yang lebih banyak dengan mencari kata kunci
'kode warna html'. Pada code dibawah ini assignment warna dilakukan untuk setiap
rasa (Gambar 0.3)
106
Sekarang mari kita bayangkan kita sedang mempersiapkan bagan ini untuk
presentasi, dan kita ingin memanggil salah satu rasa secara khusus. Mungkin
mangga baru dipasarkan, dan kita ingin melakukan highlight terhadap data mangga.
Untuk melakukan ini kita bisa menggunakan argumen explode. Ini memungkinkan
kita menyetel offset untuk setiap irisan pai dari tengah. Pada contoh di bawah ini
kita mendorong mangga keluar sebesar 0,1 sambil menjaga semua potongan lainnya
tetap berada ditengah.
107
Sekarang mangga sudah ditarik keluar sedikit dari Pie Chart, sehingga kita dapat
melihat highlight dari data mangga (Gambar 0.4). Diagram lingkaran sudah terlihat
cukup bagus, tetapi tampilanya sangat standard. Kita bisa memberinya sedikit
tampilan tiga dimensi dengan menambahkan bayangan dengan argumen bayangan
(Gambar 0.5).
108
Untuk menyelesaikannya, kita bisa menambahkan judul menggunakan plt.title ().
Perhatikan bahwa ini bukan argumen untuk plt.pie (), melainkan pemanggilan
metode terpisah di plt.
109
f. Hasil dan Pembahasan
Sekarang kita dapat memiliki Pie Chart (Gambar 0.6) yang menunjukkan semua rasa
es krim favorit dalam sebuah survey! Ingat diagram lingkaran bagus untuk
menunjukkan bagaimana distribusi kelas pada data yang berbeda (dalam hal ini,
rasa es krim) . Pie chart akan sangat efektif jika hanya ada beberapa kelas yang
terwakili. Bayangkan jika kita memiliki 100 rasa es krim. Maka tampilan Pie Chart
akan sangat penuh
110
g. Kesimpulan
Simpulkan apa yang sudah anda pelajari di dalam laporan !
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
111
Acara 16
Pokok Bahasan : Bar Chart
Acara Praktikum/Praktek: Minggu 9/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data
b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data
c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.
e. Prosedur Kerja
Bar Chart adalah merupakan tools visualisassi yang dapat digunakan untuk
membandingkan data kategorikal. Mirip dengan diagram lingkaran, diagram ini dapat
digunakan untuk membandingkan kategori data satu sama lain. Namun, diagram
lingkaran sangat spesifik untuk melihat bagaimana satu kategori data dibandingkan
dengan keseluruhan. Grafik diagram batang tidak terlalu tepat untuk hal tersebut.
Selain itu, diagram batang dapat menampilkan lebih banyak kategori data daripada
diagram lingkaran.
112
Mari kita mulai dengan melihat diagram batang yang menunjukkan populasi setiap
negara di Amerika Selatan. Untuk melakukan ini kita akan menggunakan Matplotlib.
Kali ini kita akan menggunakan method bar(). bar () memiliki dua argumen yang
diperlukan. Argumen pertama berisi koordinat x dari data. Karena kita ingin memplot
nama negara pada sumbu x. Dalam kasus ini kita dapat menggunakan fungsi arange
() NumPy untuk membuat daftar angka yang memiliki jumlah array sama.
Assignment angka antara 0 dan panjang data, yang seharusnya memberi daftar
bilangan bulat mulai dari 0 dan berakhir pada len (data) -1, yaitu 13 dalam contoh
kasus ini. Argumen berikutnya adalah data numerik untuk dipetakan. Dalam contoh
ini kita memplot data populasi.
113
Anda dapat melihat pada Gambar 0.7 bahwa x-label tidak bermakna. Kita bisa
memperbaiki ini dengan meneruskan argumen tick_label ke bar (). Karena kita
memiliki label yang relatif lebar, akan berguna juga untuk memutar label sejauh 90
derajat agar lebih mudah dibaca. Lakukan panggilan metode plt.xticks (rotation =
90).
114
Kita dapat menambahkan label ke diagram batang (Gambar 0.8) untuk membantu
membuat diagram agar lebih mudah dibaca. Pada contoh di bawah ini kita
menambahkan label-y menggunakan metode ylabel () dan judul grafik
menggunakan metode title () (Gambar 0.9).
115
Bagannya sudah terlihat cukup bagus. Tetapi bagaimana jika pertanyaan: Apa
negara terpadat kedua di Amerika Selatan? Anda mungkin harus sedikit menatap
Argentina dan Kolombia. Ini karena data diurutkan menurut abjad, yang bukan
merupakan pengurutan yang paling berguna untuk menjawab pertanyaan tentang
data. Sayangnya Matplotlib tidak memiliki penyortiran bawaan. Sebagai gantinya,
116
Anda dapat mengimpor Panda dan menggunakannya untuk mengurutkan data
(Gambar 0.10).
117
Sekarang kita dapat dengan mudah melihat bahwa Kolombia adalah negara terbesar
kedua (Gambar 0.11). Jika kita ingin memanggilnya, kita bisa meneruskan daftar
warna bar ke metode bar ()
118
119
f. Hasil dan Pembahasan
Kita juga bisa membuat grafik menjadi lebih besar menggunakan metode figure ().
Kita dapat meneruskan argumen figsize = yang mewakili lebar dan tinggi gambar
dalam inci (Gambar 0.12).
120
g. Kesimpulan
Simpulkan apa yang anda sudah kerjakan di laporan praktikum!
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
121
Acara 17
Pokok Bahasan : Line Graph
Acara Praktikum/Praktek: Minggu 10/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data
b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data
c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.
e. Prosedur Kerja
Line Graph adalah bentuk visualisasi lainya selain diagram lingkaran dan diagram
batan. Meskipun diagram lingkaran dan diagram batang berguna untuk
menunjukkan bagaimana kelas data saling terkait, diagram garis lebih berguna
untuk menunjukkan bagaimana kemajuan data selama beberapa periode. Misalnya,
grafik garis dapat berguna dalam membuat grafik suhu dari waktu ke waktu, harga
saham dari waktu ke waktu, berat menurut hari, atau metrik berkelanjutan lainnya.
Kita akan membuat grafik garis yang sangat sederhana di bawah ini. Data yang kita
miliki adalah suhu dalam celsius dan jam dalam sehari untuk satu hari dan lokasi.
Anda dapat melihat bahwa untuk membuat grafik garis kita menggunakan metode
plt.plot ().
122
Kita dapat melihat bahwa suhu mulai sekitar 2 derajat celcius pada tengah malam,
sedikit turun menjadi beku sekitar pukul 05:00, naik menjadi sekitar 9 derajat celcius
pada pukul 15:00, dan kemudian turun kembali menjadi sekitar 2 derajat pada
tengah malam (Gambar 0.13).
Kita juga bisa menambahkan elemen bagan standar dari title (), ylabel (), dan xlabel
() (Gambar 0.14).
123
Kita juga dapat menambahkan penanda di setiap titik data (Gambar 0.15). Pada
contoh di bawah ini kita menambahkan penanda titik pada setiap titik data
menggunakan argumen marker = 'o'.
124
Kita bahkan dapat memiliki beberapa garis pada grafik yang sama (Gambar 0.16).
Misalnya, misalnya, kita ingin mengilustrasikan nilai suhu aktual dan prediksi. Kita
bisa memanggil plot () dua kali, sekali dengan setiap kumpulan nilai. Perhatikan
bahwa dalam panggilan kedua, kita menggunakan argumen lain untuk plot (),
linestyle = '-'. Hal ini menyebabkan garis prediksi terlihat seperti garis putus-putus
sedangkan nilai sebenarnya tetap solid. Anda dapat melihat dokumentasi tambahan
pada Matplotlib pyplot.plot() documentation.
125
f. Hasil dan Pembahasan
g. Kesimpulan
Simpulkan apa yang sudah anda kerjakan di laporan!
126
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
127
Acara 18
Pokok Bahasan : Scatter Plot dan Heatmap
Acara Praktikum/Praktek: Minggu 10/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data
b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data
c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.
e. Prosedur Kerja
Scatter plot berfungsi baik untuk data dengan dua komponen numerik. Scatter plot
dapat memberikan informasi yang berguna terutama mengenai pola atau pencilan.
Pada contoh di bawah ini, kita memiliki data yang terkait dengan produk domestik
bruto (PDB) dan populasi untuk negara-negara dengan populasi lebih dari seratus
juta. PDB adalah total nilai barang dan jasa yang dibuat / disediakan oleh suatu
negara selama satu tahun. Kita kemudian menggunakan plt.scatter () untuk
membuat sebaran populasi dan PDB (Gambar 0.17).
128
Scatter plot sangat intuitif karena kita dapat mengumpulkan informasi tentang data
kita. Kita dapat melihat bahwa ada dua pencilan populasi (pencilan PDB). Informasi
ini dapat membantu kita memutuskan apakah kita perlu mengoreksi atau
mengecualikan pencilan dalam analisis kita. Kita juga dapat menambahkan lebih dari
satu kumpulan data ke plot (Gambar 0.18).
Pada contoh di bawah ini, kita memplot diameter dan berat sekumpulan lemon dan
jeruk nipis agar dapat melihat apakah kita dapat menentukan polanya.
129
Melihat sampel kita, tidak ada pola yang sangat jelas. Namun, salah satu jenis jeruk
tampaknya lebih berat dan diameternya lebih besar. Tapi yang mana? Mari kita
bersihkan bagan ini sedikit. Pertama kita akan menambahkan judul menggunakan
plt.title (), x-label menggunakan plt.xlabel (), dan y-label menggunakan plt.ylabel ()
(Gambar 0.19).
130
Sekarang kita dapat menambahkan beberapa warna dan legenda untuk membuat
scatter plot sedikit lebih intuitif. Kita menambahkan warna dengan meneruskan color
= argumen ke plt.scatter (). Dalam hal ini kita hanya mengatur titik lemon menjadi
kuning menggunakan color = 'y' dan titik lime menjadi hijau menggunakan color =
'g'. Untuk menambahkan legenda, kita panggil plt.legend () dan berikan daftar yang
berisi label untuk setiap sebaran data (Gambar 0.20).
131
Sekarang kita dapat melihat lebih jelas bahwa jeruk nipis kita cenderung sedikit lebih
berat dan diameternya lebih besar sedikit daripada lemon.
132
f. Hasil dan Pembahasan
Heatmap adalah jenis visualisasi yang menggunakan kode warna untuk
mewakili nilai / kepadatan relatif data di seluruh permukaan. Seringkali ini adalah
bagan tabel, tetapi tidak harus terbatas pada itu. Untuk data tabular, terdapat label
pada sumbu x dan y. Nilai di persimpangan label tersebut dipetakan ke warna.
Warna-warna ini kemudian dapat digunakan untuk memeriksa data secara visual
guna menemukan kelompok dengan nilai serupa dan mendeteksi tren dalam data.
Kita akan bekerja dengan data tentang temperatur rata-rata setiap bulan
untuk 12 kota terbesar di dunia. Untuk membuat heatmap ini, kita akan
menggunakan library Seaborn. Seaborn adalah library visualisasi yang dibangun di
atas Matplotlib.Library ini menyediakan antarmuka tingkat yang lebih tinggi dan
dapat membuat grafik yang lebih menarik. Langkah-langkah untuk melakukan
visualisasi heatmap (Gambar 0.21) adalah sebagai berikut
1. Pada kode di bawah ini, pertama kita mengimpor seaborn.
2. Kita kemudian membuat daftar yang berisi nama 12 kota terbesar di dunia dan
12 bulan dalam setahun.
3. Selanjutnya kita menetapkan daftar-daftar ke variabel suhu. Setiap baris dalam
daftar mewakili sebuah kota.
4. Setiap kolom adalah satu bulan. Nilai-nilai tersebut adalah suhu tinggi rata-rata
untuk kota selama bulan tersebut.
5. Pada tahap akhir kita memanggil sns.heatmap () untuk membuat peta panas. Kita
mengirimkan data suhu, nama kota sebagai label-y, dan singkatan bulan sebagai
label-x.
133
134
Kita bisa melihat data di grafik yang dihasilkan. Tapi bagaimana kita
menafsirkannya? Sebenarnya cukup sulit untuk memahami data. Bagian kiri dan
kanan grafik mungkin berisi warna yang lebih gelap, yang memetakan ke suhu yang
lebih dingin, tetapi itu pun sulit untuk ditentukan. Kita perlu mengurutkan secara
manual kota-kota tersebut, dari yang terkecil ke yang terbesar. Mari kita coba ubah
pengurutan berdasarkan lintang pada garis bumi (Gambar 0.22).
135
Kita dapat melihat bahwa kota-kota di garis lintang yang lebih tinggi, lebih dingin
dari bulan September hingga Maret dan suhu cenderung meningkat seiring dengan
semakin mengecilnya garis lintang. Perhatikan juga bahwa Sao Paulo terlihat lebih
hangat di tengah tahun meskipun berada di belahan bumi selatan. Memang, skema
warnanya sulit dibaca. Anda dapat mengubah skema warna menggunakan argumen
cmap =. cmap = menerima daftar warna dan skema warna preset (Gambar 0.23).
Anda dapat menemukan skema di Matplotlib colormap documentation.
136
g. Kesimpulan
Simpulkan apa yang sudah anda kerjakan dan tulis di laporan!
137
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
138
Acara 19
Pokok Bahasan : Histogram
Acara Praktikum/Praktek: Minggu 11/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data
b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data
c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.
e. Prosedur Kerja
Histogram adalah salah satu visualisasi yang cukup penting dalam memahami
distribusi pada data kita. Pandas Histogram menyediakan method yang
memudahkan kita untuk membuat histogram. Plot histogram secara tradisional
hanya membutuhkan satu dimensi data. Ini dimaksudkan untuk menunjukkan
jumlah nilai atau kumpulan nilai secara serial. Pandas DataFrame.hist() akan
mengambil DataFrame kita dan menampilkan plot histogram yang menunjukkan
distribusi nilai dalam satu seri. Untuk membuat histogram di panda, yang perlu kita
lakukan adalah memberi tahu panda kolom mana yang ingin kita berikan datanya.
Dalam hal ini, saya akan memberi tahu panda bahwa saya ingin melihat distribusi
harga (histogram).
139
Parameter lain didalam histogram yang cukup menentukan banyaknya bar didalam
visualisasi data kita adalah bin. Cara mudah untuk memikirkan bin adalah "berapa
banyak batang yang Anda inginkan dalam bar chart?" Semakin banyak tempat
sampah, semakin tinggi resolusi data Anda. Jika kita melakukan setting 2 bin
sepertinya tidak terlalu memberikan informasi yang cukup, namun jika kita set
menjadi 200 juga terlalu banyak. Kita bisa set sekitar 20-30 agar tampilan seimbang.
Sebagai contoh studi kasus data yang kita gunakan dalam modul ini adalah
automobile.csv yang merupakan data-data spesifikasi kendaraan dari berbagai
merek dan harganya. Overview data automobile dapat dilihat pada Gambar 0.24.
Histogram pada data automobile dapat kita lihat pada Gambar 0.25, histogram
tersebut dibentuk dengan memanggil fungsi hist().
140
Kita juga dapat memplot beberapa grup secara berdampingan. Di sini saya ingin
melihat dua histogram, histogram price akan dikelompokkan berdasarkan roda
penggerak dari kenderaan (fwd – berpenggerak roda depan, 4wd – berpenggerak 4
roda, atau rwd – pengerak belakang (Gambar 0.26).
141
f. Hasil dan Pembahasan
g. Kesimpulan
Simpulkan apa yang sudah anda kerjakan dan tulis di laporan!
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
142
Acara 20
Pokok Bahasan : Correlation
Acara Praktikum/Praktek: Minggu 11/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data
b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data
c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.
e. Prosedur Kerja
Korelasi merupakan suatu pengukuran sejauh mana nilai saling ketergantungan
antar variabel. Causation merupakan hubungan antara sebab dan akibat antara dua
variable Penting untuk mengetahui perbedaan antara keduanya dan bahwa korelasi
tidak mendeskripsikan sebab-akibat. Menentukan korelasi jauh lebih sederhana
menentukan sebab memerlukan analisis lebih lanjut
143
• 1: Total korelasi linier positif.
• 0 : Tidak ada korelasi linier, kedua variabel kemungkinan besar tidak saling
mempengaruhi.
• -1: Total korelasi linier negatif.
Pearson Correlation adalah metode default dari fungsi "corr". Seperti sebelumnya
kita dapat menghitung Korelasi Pearson dari variabel 'int64' atau 'float64'. Terkadang
kita ingin mengetahui signifikansi dari estimasi korelasi, kita dapat menggunakan p-
value.
P-Value:
Berapa nilai P ini? Nilai P adalah nilai probabilitas bahwa korelasi antara kedua
variabel ini signifikan secara statistik. Biasanya, kita memilih tingkat signifikansi
0,05, yang berarti bahwa kami yakin bahwa 95% korelasi antar variabel signifikan.
Dengan konvensi, ketika
• nilai p adalah $<$ 0,001: kami katakan ada bukti kuat bahwa korelasinya
signifikan.
• nilai p adalah $<$ 0,05: terdapat bukti moderat bahwa korelasi tersebut signifikan.
• nilai p adalah $<$ 0,1: ada bukti lemah bahwa korelasinya signifikan.
• nilai p adalah $>$ 0,1: tidak ada bukti bahwa korelasi tersebut signifikan.
Kita dapat menggunakan library scipy untuk menghitung korelasi dan p-value
144
misalnya, kita dapat menghitung korelasi antara variabel bertipe "int64" atau
"float64" menggunakan method "corr" (Gambar 0.29):
145
Variabel numerik kontinu adalah variabel yang mungkin berisi nilai nunerik dalam
rentang tertentu. Variabel numerik kontinu dapat memiliki tipe "int64" atau
"float64". Cara yang bagus untuk memvisualisasikan variabel-variabel ini adalah
dengan menggunakan scatterplots dengan garis-garis yang pas.
Untuk mulai memahami keterhubungan (linier) antara variabel individu dan harga.
Kita dapat melakukan ini dengan menggunakan "regplot". Fungsi ini yang memplot
scatterplot ditambah garis regresi yang sesuai untuk data ( Gambar 0.30). Hubungan
korelasi positf kuat antara variabel
146
Saat kapasitas mesin naik, harga mobil tersebut juga tinggi: ini menunjukkan
hubungan linier antara kedua variabel tersebut. Ukuran mesin berpotensi menjadi
prediktor harga. Kita dapat memeriksa korelasi antara engine-size dan harga sekitar
0,87
147
Peak rpm sepertinya bukan merupakan prediktor harga yang baik karena garis
regresinya mendekati horizontal (Gambar 0.32). Titik-titik data sangat tersebar dan
jauh dari garis pas, menunjukkan banyak variabilitas. Oleh karena itu itu bukan
variabel yang dapat diandalkan untuk memperdiksi harga. Kita dapat memeriksa
korelasi antara 'puncak-rpm' dan 'harga' dan melihatnya kira-kira -0,101616
148
Kita melihat bahwa distribusi harga antara kategori kendaraan memiliki tumpang
tindih yang signifikan, sehingga kategori tidak akan menjadi prediktor harga yang
baik (Gambar 0.34). Mari kita periksa variable lokasi mesin dan harga:
149
Fungsi deskripsikan secara otomatis menghitung statistik dasar untuk semua
variabel kontinu (Gambar 0.36). Analisis yang bisa kita dapatkan dari deskriptif
statistik adalah
• Jumlah variabel
• Rata-rata
• Standard deviasi
• Nilai minimal
• IQR (Interquartile Range: 25%, 50% and 75%)
• Nilai Maximal
Nilai-hitungan adalah cara untuk memahami berapa banyak unit dari setiap
karakteristik/variabel yang kita miliki. Kita bisa menerapkan metode "value_counts"
pada kolom 'drive-wheels'. Jangan lupa metode "value_counts" hanya berfungsi
pada seri Pandas, bukan Pandas Dataframes.
150
Mari ulangi langkah di atas tetapi simpan hasilnya ke dataframe
"drive_wheels_counts" dan ganti nama kolom 'drive-wheels' menjadi 'value_counts'.
g. Kesimpulan
Simpulkan apa yang sudah anda pelajari ke dalam laporan!
151
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
152
Acara 21
Pokok Bahasan : Grouping
Acara Praktikum/Praktek: Minggu 12
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data
b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data
c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.
e. Prosedur Kerja
Method "groupby" digunakan untuk mengelompokkan data menurut kategori yang
berbeda. Data dikelompokkan berdasarkan satu atau beberapa variabel dan analisis
dilakukan pada kelompok individu.
Sebagai contoh, mari kita kelompokkan berdasarkan variabel "roda penggerak". Kita
melihat bahwa ada 3 kategori roda penggerak yang berbeda.
153
Jika kita ingin mengetahui, secara rata-rata, jenis roda penggerak mana yang paling
mahal, kita dapat mengelompokkan "roda penggerak" dan kemudian membuat
rataratanya. Kita dapat memilih kolom 'drive-wheels', 'body-style' dan 'price', lalu
menetapkannya ke variabel "df_group_one".
Dari data kita, sepertinya kendaraan roda belakang rata-rata paling mahal,
sedangkan penggerak 4 roda dan roda depan harganya kurang lebih sama. Anda
juga dapat mengelompokkan dengan beberapa variabel. Misalnya, mari kita
kelompokkan berdasarkan 'roda penggerak' dan body-style'. Ini mengelompokkan
dataframe dengan kombinasi unik 'drive-wheels' dan 'body-style'. Kita dapat
menyimpan hasilnya dalam variabel 'grouped_test1'.
154
Data yang dikelompokkan ini jauh lebih mudah untuk divisualisasikan ketika dibuat
menjadi tabel pivot. Tabel pivot yang mirip seperti pada spreadsheet Excel, dengan
satu variabel di sepanjang kolom dan variabel lainnya di sepanjang baris. Kita dapat
mengonversi kerangka data menjadi tabel pivot menggunakan metode "pivot" untuk
membuat tabel pivot dari grup. Dalam hal ini, kita akan membiarkan variabel drive-
wheel sebagai baris tabel, dan pivot body-style menjadi kolom tabel:
Seringkali, kita tidak memiliki data untuk beberapa sel pivot. Kita dapat mengisi sel
yang hilang ini dengan nilai 0, tetapi nilai lain apa pun berpotensi digunakan juga.
Harus disebutkan bahwa data yang hilang adalah subjek yang cukup kompleks.
155
f. Hasil dan Pembahasan
156
Heatmap memplot variabel target (harga) dengan variabel 'roda penggerak' dan
‘bodystyle’ disumbu vertikal dan horizontal. Hal ini memungkinkan kita untuk
memvisualisasikan bagaimana harga terkait dengan 'drive-wheel' dan 'body-style'.
Label default belum menyampaikan informasi yang cukup kepada kita. Mari kita ubah
label pada heatmap tersebut agar bisa memiliki informasi legend (Gambar 0.38):
157
Visualisasi sangat penting dalam data science, dan paket visualisasi Python
memberikan kebebasan untuk dapat dikonfigurai. Pertanyaan utama yang ingin
dijawab pada dataset ini, adalah "Apakah karakteristik utama yang paling
berpengaruh terhadap harga mobil?"
g. Kesimpulan
Simpulkan apa yang sudah anda kerjakan dan tulis ke dalam laporan!
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
158
Acara 22
Pokok Bahasan : ANOVA
Acara Praktikum/Praktek: Minggu 12
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
Mahasiswa mampu menggunakan teknik visualisasi untuk menganalisis data
b. Indikator
1. Mahasiswa Mampu menelaah data dengan teknik visualisasi
2. Mahasiswa Mampu menggunakan teknik visualisasi untuk menganalisis data
c. Dasar Teori
Visualisasi Variabel
Visualisasi berperan peran penting dalam bidang machine learning dan data science.
Seringkali kita perlu menyaring informasi kunci yang ditemukan dalam sejumlah data
untuk menjadi bentuk yang bermakna dan mudah dicerna. Visualisasi yang baik
dapat menceritakan sebuah cerita tentang data dengan cara yang tidak dapat
dilakukan oleh sebuah kalimat. Di modul ini kita akan mengeksplorasi beberapa
teknik visualisasi yang umum. Lab ini akan menggunakan toolkit seperti Matplotlib's
Pyplot dan Seaborn untuk membuat gambar informatif yang memberikan informasi
dan pengetahuan mengenai dataset.
e. Prosedur Kerja
ANOVA: Analysis of Variance
Analysis of Varians (ANOVA) adalah metode statistik yang digunakan untuk menguji
apakah ada perbedaan yang signifikan antara rata-rata dua kelompok atau lebih.
ANOVA mengembalikan dua parameter
159
lainya, ANOVA akan mengembalikan skor F-Score yang cukup besar dan nilai-p yang
kecil. ANOVA menganalisis perbedaan antara kelompok yang berbeda dari variabel
yang sama, fungsi groupby akan berguna dalam kasus ANOVA. Mari kita lihat apakah
jenis 'roda penggerak' mempengaruhi 'harga',
160
f. Hasil dan Pembahasan
g. Kesimpulan
Simpulkan apa yang sudah anda pelajari dan tulis di laporan!
161
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
162
Acara 23
Pokok Bahasan : Project 1 (Preparation Data)
Acara Praktikum/Praktek: Minggu 13/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
● Mahasiswa dapat mengimplementasikan pemilihan data, pembersihan data,
pemeriksaan data yang sesuai kualitas dan kecukupan data pada final project.
● Mahasiswa dapat membuat laporan dan video terkait proses preparation data.
● Mahasiswa dapat mempresentasikan hasil preparation data.
b. Indikator
Ketepatan dalam mengimplementasikan proses preparation data final project
c. Dasar Teori
-
d. Alat dan Bahan
● Kertas folio bergaris
● Jaringan internet
● Pc/Laptop
● Aplikasi Zoom
● Jupyter notebook
● Scikit-learn
● Pandas
● Numpy
e. Prosedur Kerja
● Mengambil data dari open data mana saja dengan minimal 150 baris data.
● Menampilkan data yang telah didapatkan dalam code program
163
● Perlu melakukan preparation data (perlu tidaknya pemilihan data, pembersihan
data, pemeriksaan data yang sesuai kualitas dan kecukupan data) atau tidak.
● Membuat laporan data preparation berdasarkan data yang didapatkan dari open
data.
● Membuat presentasi dari hasil preparation data yang telah dikerjakan.
f. Hasil dan Pembahasan
● Data yang di dapatkan dari open data
● Data setelah dilakukan preparation
● Source Code Program Preparation Data
● Laporan dan power point.
164
g. Kesimpulan
Didapatkan sebuah penjelasan dari perlu tidaknya dilakukan pemilihan data,
pembersihan data, pemeriksaan data yang sesuai kualitas dan kecukupan data
berdasarkan data yang didaptkan.
h. Rubrik Penilaian
No Indikator Skor*
Jumlah skor
165
Acara 24
Pokok Bahasan : Project 2 (Statistic Descriptif)
Acara Praktikum/Praktek: Minggu 13/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
● Mahasiswa dapat menghasilkan nilai mean, median, modus dari data yang telah
dikerjakan pada project sebelumnya.
● Mahasiswa mampu menjelaskan hasil dari statisktik diskriptif berdasarkan data
yang telah dikerjakan.
● Mahasiswa mampu menyimpulkan hasil statistic diskriptif dari data yang telah
dikerjakan.
b. Indikator
● Ketepatan dalam menghasilkan nilai mean, median, modus.
● Ketepatan dalam menjelaskan dan menyimpulkan hasil statistic diskriptif.
c. Dasar Teori
-
d. Alat dan Bahan
● Kertas folio bergaris
● Jaringan internet
● Pc/Laptop
● Aplikasi Zoom
● Jupyter notebook
● Statistics
● Pandas
● Numpy
e. Prosedur Kerja
● Menggunakan data yang telah dipreparation sebelumnya.
166
● Menghasilkan nilai mean, median, modus
g. Kesimpulan
Didapatkan data mean, median, modus dari open data yang diolah dalam statistic
deskriptif.
167
h. Rubrik Penilaian
No Indikator Skor*
Jumlah skor
168
Acara 25
Pokok Bahasan : Project 3 (Chart, line, dan Scatter Plot)
Acara Praktikum/Praktek: Minggu 14/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2x100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
● Mahasiswa mampu mengimplementasikan chart, line dan scatter plot pada data
project akhir yang telah dikerjakan sebelumnya
● Mahasiswa mampu menentukan chart yang efektif digunakan sesuai data yang
dimilikinya
● Mahasiswa mampu menampilkan line dan scatter plot data project
● Mahasiswa mampu menjelaskan hasil chart, line, dan scatter plot dari data
yang telah dibuat
b. Indikator
● Ketepatan dalam penggunaan jenis chart yang sesuai dengan data yang dimiliki
● Kemampuan dalam menampilkan chart, line, dan scatter plot melalui code
program dengan sigle data maupun multi data
● Ketepatan dalam menjelaskan dan menyimpulkan data dalam bentuk chart,
line, dan scatter plot
c. Dasar Teori
-
d. Alat dan Bahan
● Jaringan internet
● Pc/Laptop
● Aplikasi Zoom
● Jupyter notebook
● Pandas
● Numpy
● Matplotlib
e. Prosedur Kerja
● Menggunakan data pada project sebelumnya.
169
● Memilih data yang akan divisualisasikan dalam bentuk chart, line, dan scatter
plot yang efektif berdasarkan karakteristik data yang dimiliki
170
● Creating scatter plot single data
● Membuat laporan dari data yang telah di visualisasi dalam bentuk chart, line, dan
scatter plot.
● Membuat presentasi yang menampilkan deskripsi, table data, chart, line, scatter
plot berdasarkan data yang dimiliki.
f. Hasil dan Pembahasan
● Data chart dan line
● Laporan dan power point.
● Source Code keseluruhan
g. Kesimpulan
Didapatkan chart yang sesuai dengan data yang dimiliki
171
h. Rubrik Penilaian
No Indikator Skor*
Jumlah skor
172
Acara 26
Pokok Bahasan : Project 5 (Histogram)
Acara Praktikum/Praktek: Minggu 14/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2X100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
● Mahasiswa mampu mengimplementasikan Hystogram pada data project akhir
● Mahasiswa mampu mendiskripsikan Hystogram berdasaran studi kasus yang
digunakan
● Mahasiswa mampu menjelaskan Hystogram yang telah dikerjakan
b. Indikator
● Ketepatan dalam mengimplementasikan Hystogram pada data project
● Ketepatan dalam menjelaskan dan menyimpulkan Hystogram berdasarkan data
project
c. Dasar Teori
-
d. Alat dan Bahan
● Jaringan internet
● Pc/Laptop
● Aplikasi Zoom
● Jupyter notebook
● Pandas
● Numpy
● Matplotlib
● Seaborn
e. Prosedur Kerja
● Tampilkan data
173
● Tampilkan Hystogram dari data yang digunakan dan kembangkan tampilan
sesuai kebutuhan
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
174
Acara 27
Pokok Bahasan : Project 7
Acara Praktikum/Praktek: Minggu 15/2
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2X100 menit
a. Capaian Pembelajaran Mata Kuliah (CPMK)
● Mahasiswa mampu membuat visualisasi data berdasarkan studi kasus
● Mahasiswa mampu mengembangkan visualisasi data berdasarkan kebutuhan
data yang ditampilkan
● Mahasiswa mampu menjelaskan hasil visualisasi data dari studi kasus
b. Indikator
● Ketepatan dalam mengolah preparation data secara tim
● Ketepatan dalam memvisualisasikan data secara tim
● Ketepatan dalam mengembangkan visualisasi data berdasarkan kebutuhan data
yang ditampilkan
● Ketepatan dalam menjelaskan hasil dari visualisasi data
c. Dasar Teori
-
d. Alat dan Bahan
● Jaringan internet
● Pc/Laptop
● Aplikasi Zoom
● Jupyter notebook
● Pandas
● Numpy
● Matplotlib
● Seaborn
175
e. Prosedur Kerja
● Membuat kelompok dengan ketentuan satu kelompok 5 anggota
● Download data sebagai materi untuk dibuat project
● Pembagian kelompok :
Kelompok 1 gol A : baris 1 s/d 400 Kelompok 1 gol C : baris 4001 s/d 4400
Kelompok 2 gol A : baris 401 s/d 800 Kelompok 2 gol C : baris 4401 s/d 4800
Kelompok 3 gol A : baris 801 s/d 1200 Kelompok 3 gol C : baris 4801 s/d 5200
Kelompok 4 gol A : baris 1201 s/d 1600 Kelompok 4 gol C : baris 5201 s/d 5600
Kelompok 5 gol A: baris 1601 s/d 2000 Kelompok 5 gol C : baris 6000 s/d 6400
Kelompok 1 gol B : baris 2001 s/d 2400 Kelompok 1 gol D : baris 6401 s/d 6800
Kelompok 2 gol B : baris 2401 s/d 2800 Kelompok 2 gol D : baris 6801 s/d 7200
Kelompok 3 gol B : baris 2801 s/d 3200 Kelompok 3 gol D : baris 7201 s/d 7600
Kelompok 4 gol B : baris 3201 s/d 3600 Kelompok 4 gol D : baris 7601 s/d 8000
Kelompok 5 gol B : baris 3601 s/d 4000 Kelompok 5 gol D : baris 8001 s/d 8288
g. Kesimpulan
Didapatkan Pemaparan dan penjelasan heatmap grouping dari project yang
dkerjakan
176
h. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
177
Acara 28
Pokok Bahasan : Project 6
Acara Praktikum/Praktek: Minggu 15/1
Tempat : Politeknik Negeri Jember
Alokasi Waktu : 2X100 menit
i. Capaian Pembelajaran Mata Kuliah (CPMK)
● Mahasiswa mampu membuat visualisasi data berdasarkan studi kasus
● Mahasiswa mampu mengembangkan visualisasi data berdasarkan kebutuhan
data yang ditampilkan
● Mahasiswa mampu menjelaskan hasil visualisasi data dari studi kasus
j. Indikator
● Ketepatan dalam mengolah preparation data secara tim
● Ketepatan dalam memvisualisasikan data secara tim
● Ketepatan dalam mengembangkan visualisasi data berdasarkan kebutuhan data
yang ditampilkan
● Ketepatan dalam menjelaskan hasil dari visualisasi data
k. Dasar Teori
-
l. Alat dan Bahan
● Jaringan internet
● Pc/Laptop
● Aplikasi Zoom
● Jupyter notebook
● Pandas
● Numpy
● Matplotlib
● Seaborn
178
m. Prosedur Kerja
● Membuat kelompok dengan ketentuan satu kelompok 5 anggota
● Download data sebagai materi untuk dibuat project
● Pembagian kelompok :
Kelompok 1 gol A : baris 1 s/d 400 Kelompok 1 gol C : baris 4001 s/d 4400
Kelompok 2 gol A : baris 401 s/d 800 Kelompok 2 gol C : baris 4401 s/d 4800
Kelompok 3 gol A : baris 801 s/d 1200 Kelompok 3 gol C : baris 4801 s/d 5200
Kelompok 4 gol A : baris 1201 s/d 1600 Kelompok 4 gol C : baris 5201 s/d 5600
Kelompok 5 gol A: baris 1601 s/d 2000 Kelompok 5 gol C : baris 6000 s/d 6400
Kelompok 1 gol B : baris 2001 s/d 2400 Kelompok 1 gol D : baris 6401 s/d 6800
Kelompok 2 gol B : baris 2401 s/d 2800 Kelompok 2 gol D : baris 6801 s/d 7200
Kelompok 3 gol B : baris 2801 s/d 3200 Kelompok 3 gol D : baris 7201 s/d 7600
Kelompok 4 gol B : baris 3201 s/d 3600 Kelompok 4 gol D : baris 7601 s/d 8000
Kelompok 5 gol B : baris 3601 s/d 4000 Kelompok 5 gol D : baris 8001 s/d 8288
o. Kesimpulan
Didapatkan Pemaparan dan penjelasan heatmap grouping dari project yang
dkerjakan
179
p. Rubrik Penilaian
No Indikator Skor*
Kekompakan tim baik, kreatifitas ppt kurang dan tetapi kurang tepat 2
3 1 3 4
dalam menjelaskan tugas
Jumlah skor
180