0% menganggap dokumen ini bermanfaat (0 suara)
35 tayangan

Python 6 Ver 2

Bab VI membahas cara membaca isi data dengan bahasa pemrograman Python. Data penerimaan beasiswa tahun 2018 dan 2019 disiapkan dalam format CSV dan dibaca menggunakan perintah Pandas. Perintah-perintah seperti .info(), .head(), dan .describe() digunakan untuk melihat informasi ringkasan tentang data termasuk jumlah baris, kolom, tipe data, statistik deskriptif nilai-nilai.

Diunggah oleh

bang delau
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
35 tayangan

Python 6 Ver 2

Bab VI membahas cara membaca isi data dengan bahasa pemrograman Python. Data penerimaan beasiswa tahun 2018 dan 2019 disiapkan dalam format CSV dan dibaca menggunakan perintah Pandas. Perintah-perintah seperti .info(), .head(), dan .describe() digunakan untuk melihat informasi ringkasan tentang data termasuk jumlah baris, kolom, tipe data, statistik deskriptif nilai-nilai.

Diunggah oleh

bang delau
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 11

Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ.

Budi Darma

BAB VI
MEMBACA ISI DATA DENGAN BAHASA PYTHON

Salah satu kelebihan bahasa python adalah dapat membaca isi dengan dengan berbagai macam
output baik dalam bentuk grafik ataupun dalam bentuk ringkasan. Dengan berbagai perintah /
kode bahasa python yang ada, dapat dengan mudah kita mengetahui makna / arti dari isi data
yang berukuran besar atau mengetahui deskripsi dari data yang akan kita gunakan. Untuk
mencoba berbagai perintah python dalam isi data maka ikutilah langkah-langkah berikut:

1. Siapkan sejumlah data di Microsoft Excell seperti berikut:


Tabel 1: Data Penerimaan Beasiswa
nama ipk pekerjaan_orang_tua prestasi aktif_organisasi jenis_kelamin prodi tahun status
SM Harahap 4.00 Petani 0 1 P TI 2018 1
RS Nasution 4.00 Petani 1 1 L TI 2018 1
F. Telaumbanua 3.86 Petani 0 0 L TI 2018 1
L. Sarumaha 3.69 Wiraswasta 0 0 L TI 2018 0
I. Solin 3.67 Petani 0 0 P TI 2018 0
H. Sari 3.65 Petani 0 1 P TI 2018 0
A. Sari 3.82 Ibu Rumah Tangga 0 0 P TI 2018 1
JAN Purba 3.75 Petani 0 1 L TI 2018 1
MD Lubis 3.74 Petani 0 0 P TI 2018 1
P. Tanjung 3.67 Petani 0 0 P MI 2018 0
J. Saputra 3.63 Petani 0 0 L MI 2018 0
D. Iqbal 3.62 Petani 1 1 L TI 2018 1
SR Purba 3.79 Petani 1 1 P TI 2018 1
MS Margolang 3.47 Polisi 1 1 P MI 2018 1
IW Sinaga 3.73 Pegawai Swasta 1 1 L TI 2018 1
RO Finola 3.51 Wiraswasta 1 1 P TI 2018 1
HC Putra 3.7 Wiraswasta 1 1 L TI 2018 1
A. Safitra 3.28 Wiraswasta 1 1 L TI 2018 1
AA Pramadi 3.66 Petani 1 1 L TI 2018 1
SY Hutagalung 3.53 Petani 1 1 L TI 2018 1
J. Tarigan 3.53 PNS 1 1 P TI 2018 1
A. Malik 3.36 Petani 0 0 L TI 2018 0
I. Maulana 3.31 Petani 0 0 L TI 2018 0
RAG Manurung 3.00 Petani 0 0 L TI 2018 0
I. Lesmana 3.26 Petani 0 0 L TI 2018 0
L. Anggriani 3.25 Petani 0 0 P TI 2018 0
W. Jannah 3.92 Petani 0 0 P MI 2019 0
F. Utari 3.93 Petani 0 0 P MI 2019 1
SR Rahayu 3.85 Petani 0 0 P MI 2019 1
S. Harahap 3.83 Wiraswasta 0 0 L TI 2019 1
NH. Purba 3.19 Wiraswasta 0 0 L TI 2019 0
WHB 4.00 Lainnya 0 1 L TI 2019 1
Lumbanbatu
S. Hummairoh 3.83 Wiraswasta 0 1 P TI 2019 1
A. Tanjung 3.75 Wiraswasta 0 1 L TI 2019 1
EDY Sitepu 3.94 Wiraswasta 0 1 P TI 2019 1
AN Apriliani 4.00 Wiraswasta 0 1 P TI 2019 1
IJT Situmeang 3.55 Petani 0 1 L TI 2019 0
TN Sari 3.75 Pegawai Swasta 0 0 P TI 2019 1
MM Harahap 3.38 Petani 1 0 L TI 2019 1
ES Sipayung 3.77 Wiraswasta 1 1 P TI 2019 1
SS Hutauruk 3.40 Petani 1 1 L TI 2019 1
Ey Wita 3.46 Lainnya 0 0 P TI 2019 0
F. Aziz 3.50 Lainnya 0 0 L TI 2019 0
M. Zalukhu 3.61 Petani 0 0 P TI 2019 0
Fr Tampubolon 3.64 Lainnya 1 0 L TI 2019 1
LN Habibah 3.62 Wiraswasta 0 0 P TI 2019 0
SM Harahap 3.94 Petani 0 1 L TI 2019 1
AL Rajagukguk 3.84 Lainnya 0 1 P TI 2019 1
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma

I. Susilawati 3.81 Wiraswasta 0 1 P TI 2019 1


M. Ndruru 2.99 1 0 L TI 2019 0
TG 2.00 0 0 TI 2019 0
Tampubolon
PS Hasmita 3.65 Petani 0 1 P TI 2018 0
Keterangan:
a. Data diatas merupakan data mahasiswa yang menerima dan yang tidak merima beasiswa
tahun 2018 dan 2019
b. Data diatas sebagian kosong
c. Penulisan nama attribute / kolom usahakan jangan menggunakan spasi
d. Pengisan tabel usahakan menggunakan angka dari pada huruf / kata supaya data lebih
mudah dibaca
e. Attribute prestasi yaitu 0 (nol) artinya tidak punya prestasi dan 1 (satu) artinya punya
prestasi
f. Attribute aktif_organisasi yaitu 0 (nol) artinya tidak aktif dan 1 (satu) artinya aktif
g. Attribute status yaitu 0 (nol) artinya tidak menerima dan 1 (satu) artinya menerima.
2. Data Tabel 1 konversi menjadi data dengan Ekstensi File Comma Separated Values (.csv)
dan simpan disuatu folder. Untuk data diatas saya buat namanya data_beasiswa.csv
3. Selanjutnya buka editor bahasa python jupiter notebook atau google colab dan file
programnya satu tempat / folder dengan data yang digunakan yaitu data_beasiswa.csv.
4. Selanjutnya ketik kode program python berikut (kode program berikut hanya satu file
halaman kerja):

Gambar 1:
Perintah mahasiswa=pd.read_csv('data_beasiswa.csv') berfungsi untuk membaca isi
data_beasiswa.csv yang divariabelkan dengan mahasiswa, sehingga untuk perintah berikutnya
jika menggunakan menggunakan data_beasiswa.csv, gunakan variabel mahasiswa.
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma

Gambar 2:
Perintah mahasiswa.info() untuk menampilkan detail data seperti kolom / attribute, jumlah data
dan type data untuk setiap attribute. Pada data yang diolah terdiri atas 9 attribute, jumlah record
data 52 dan sebagian record data 50 dan 51 karena sebagian data ada yang kosong.

Gambar3:

Perintah mahasiswa.head() menampilkan data. Perintah .head() dapat menampilkan data


sebanyak yang diinginkan seperti perintah mahasiswa.head(10), maka data mahasiswa
ditampikan sebanyak 10 record.

Gambar 4:
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma

display(mahasiswa.describe(include=
np.number).transpose())

display(mahasiswa.describe(include=np. object).transpose())

Gambar 5:
Perintah display(mahasiswa.describe(include=np.number).transpose()) menampilkan detail
data seperti jumlah data, rata-rata, standard, nilai paling rendah, nilai data berdasarkan persen
dan nilai paling tinggi dari attribute / kolom dengan type data number / angka yaitu int, float
dan lain-lain. Dari data diatas attribute “ipk” jumlah data 52, rata-rata IPK 3.608269, IPK paling
rendah 2.0 dan IPK paling tinggi 4.0.

Perintah display(mahasiswa.describe(include=np.object).transpose()) menampilkan detail


data seperti jumlah, keunikan (data yang berbeda), top (paling sering muncul) dan jumlah
kemunculan dengan type data objek (string) yaitu object. Dari data diatas attribute “nama”
jumlah data 52, nama yang berbeda 51, SM Harahap yang sering muncul sebanyak 2 kali.

Gambar 6:
Perintah def countplot(column):
return sb.countplot(x=column,data=mahasiswa)
Pendefenisian untuk visualisasi data dalam bentuk grafik batang berdasarkan kategori isi suatu
attribute data dengan menggunakan library Seaborn yang divariabelkan dengan sb.

Perintah countplot('status') untuk visualisasikan kategori data pada attribute status.


Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma

Gambar 7:
Perintah countplot('prodi') untuk visualisasikan kategori data pada attribute prodi.

Gambar 8:
Perintah countplot('ipk') untuk visualisasikan kategori data pada attribute ipk.

Gambar 9:
Perintah mahasiswa.plot.scatter(x='prestasi', y='status',figsize=(6,3)) untuk visualisasi data
dalam bentuk sebaran hubungan antara attribute prestasi (x) dengan attribute status (y) dan
figsize fungsinya untuk ukuran sebaran visualisasi. Dari visualisasi tersebut dapat dijelaskan
bahwa status menerima atau tidak menerima beasiswa didasarkan pada punya prestasi atau tidak
punya prestasi.
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma

Tidak Menerima

Gambar 10:
Dari visualisasi tersebut bahwa berdasarkan data hanya yang IPK 3.25 keatas yang status
menerima beasiswa sedangkan dibawah IPK tersebut tidak menerima.

Pendefenisian hubungan antar


dua attribute tabel dalam
bentuk frekuensi kemunculan

Gambar 11
Perintah compute_freq_chi2(mahasiswa.prestasi,mahasiswa.status) menampilkan frekuensi
antara kedua attribute. Pada perintah tersebut yang ditampilkan data attribute prestasi dan status
dari data mahasiswa dimana yang stutus 0 (tidak menerima beasiswa) bersala dari yang tidak
punya prestasi berjumlah 19 (prestasi 0) orang dan 1 (prestasi 1) orang yang mempunyai
prestasi, sedangkan dengan status 1 (menerima beasiswa) yang tidak punya prestasi (prestasi 0)
berjumlah 17 orang dan yang punya prestasi (prestasi 1) berjumlah 15 orang.

Lanjutan

Gambar 12
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma

Perintah compute_freq_chi2(mahasiswa.ipk,mahasiswa.status) menampilkan frekuensi data


antara ipk dengan status mahasiswa seperti ipk 2.0 pada attribute status nilai yang tidak sama
dengan 0 berada pada kolom 0 artinya ipk tersebut tidak menerima beasiswa, sedangkan IPK
4.0 pada attribu attribute status nilai yang tidak sama dengan nol berada pada kolom artinya
ipk tersebut menerima beasiswa, dan lain sebagainya.

Gambar 13

Perintah sb.boxplot(x="prestasi",y="tahun",hue="status",data=mahasiswa) visualisasi dalam


bentuk boxplot hubungan antara attribute prestasi, tahun dan status. Dari grafis tersebut
dijelaskan pada prestasi 0 (tidak punya prestasi) berwarna biru dan merah artinya prestasi bukan
penentuan seseorang penentuan beasiswa. Tetapi pada posisi prestasi 1(punya prestasi) semua
berwarna merah artinya punya prestasi dipastikan menerima beasiswa.

Gambar 14
Perintah
col=["status","ipk","prestasi","aktif_organisasi","tahun"]
sb.pairplot(mahasiswa[col],kind='scatter', diag_kind='kde') menvisualisasikan
hubungan antara attribute status, IPK, prestasi, aktif organisasi dan tahun.
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma
Untuk mengecek data yang
sama, hasilnya 0 (nol) artinya
tidak ada data yang sama

cek_data_kosong(mahasiswa)

Pendefenisian untuk
pengecekan data yang kosong
berdasarkan attribute
Gambar 15

Perintah cek_data_kosong(mahasiswa) untuk pengecekan data kosong setelah dididefenisikan


sebelumnya. Hasilnya adalah attribute pekerjaan orang tua total 2 data yang kosong dan
attribute jenis kelamin 1 data yang kosong.

Mengelompokan data
mahasiswa berdasarkan
pekerjaan orang tua
berdasarkan kategori status
yaitu 1 dan 0, hitung
jumlahnya dan bentuk dalam
bentuk tumpukan

Gambar 16
Berdasarkan hasil program diatas diperoleh pekerjaan_orang tua dengan kategori ibu rumah
tangga pada kolom status 0 sama dengan NaN artinya datangnya kosong / tidak ada data
mahasiswa yang pekerjaan orang tuanya ibu rumah tangga yang tidak menerima beasiswa,
sedangkan pada kolom status 1 sama dengan 1.0 artinya ada 1 orang mahasiswa yang menerima
beasiswa dengan pekerjaan orang tua ibu rumah tangga, perkerjaan orang tua petani pada kolom
status 0 berjumlah 13.0 artinya 13 orang mahasiswa yang tidak menerima beasiswa dan
pekerjaan orang tua pada kolom status 1 berjumlah 14.0 artinya 14 orang mahasiwa menerima
beasiswa dan begitu seterusnya.
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma

Perintah untuk mengisi


data yang kosong pada
attribute pekerjaan
orang tua dengan
karakter “U”.

Gambar 17
Setelah diisi data yang kosong diattribute pekerjaan orang tua maka bertambah kategori
pekerjaan_orang_tua yaitu “U” dengan attribute status 0 sama dengan 2 dan attribute status 1
sama dengan NaN.

Data yang
diisi
Data masih
kosong diattribu
jenis kelamin
Gambar 18
Selanjutkan dilakukan pengecekan data yang masih kosong isinya dengan perintah berikut:
Perintah pengecekan data
yang kosong dan hasilnya
masih satu data yang kosong
pada attribute jenis kelamin
Perintah mengisi data yang kosong dengan
karakter “None” pada attribute jenis kelamin

Pengecekan data
yang kosong dan
tidak ditemukan data
yang kosong (empty)

Gambar 19
Data yang sebelumnya kosong sudah beriisi semuanya.
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma

Gambar 20
Perintah mahasiswa_clr=mahasiswa.drop(['nama','prodi'], axis=1) menampilkan data
mahasiswa tanpa attribute nama dan prodi. Tujuannya adalah attribute yang tidak berpengaruh
ke status tidak perlu ditampilkan. Variabel dari mahasiswa adalah mahasiswa_clr.
Perintah untuk
mengecek data
attribute pekerjaan
Menghapus attribute orang tua yang kosong
yang tidak ditampilkan
yaitu nama dan prodi

Bentuk tabel mahasiswac


dengan 52 record dan 7
attribute

Gambar 21
Data yang ditampilkan dengan 7 attribute yang berpangaruh distatus, sedangkan 2 attribute
lagi tidak berpengaruh di status.

Gambar 22
Menampilkan detail tabel mahasiswa_clr
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma

Konversi attribute
dengan type data
objek menjadi float
dan sekaligus
konversi isi attribute
object tersebut

Gambar 23
Seperti attribute jenis kelamin P dikoversi menjadi 2 dan L dikonversi menjadi 0, dan atrtibute
pekerjaan orang tua yaitu petani dikonversi menjadi 4 dan wiraswasta dikonversi menjadi 7 dan
begitu seterusnya.

Gambar 24
Dari perintah mahasiswa_clr.info() untuk detail tabel terlihat semua tipe data berubah menjadi
float 64.

Anda mungkin juga menyukai