Python 6 Ver 2
Python 6 Ver 2
Budi Darma
BAB VI
MEMBACA ISI DATA DENGAN BAHASA PYTHON
Salah satu kelebihan bahasa python adalah dapat membaca isi dengan dengan berbagai macam
output baik dalam bentuk grafik ataupun dalam bentuk ringkasan. Dengan berbagai perintah /
kode bahasa python yang ada, dapat dengan mudah kita mengetahui makna / arti dari isi data
yang berukuran besar atau mengetahui deskripsi dari data yang akan kita gunakan. Untuk
mencoba berbagai perintah python dalam isi data maka ikutilah langkah-langkah berikut:
Gambar 1:
Perintah mahasiswa=pd.read_csv('data_beasiswa.csv') berfungsi untuk membaca isi
data_beasiswa.csv yang divariabelkan dengan mahasiswa, sehingga untuk perintah berikutnya
jika menggunakan menggunakan data_beasiswa.csv, gunakan variabel mahasiswa.
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma
Gambar 2:
Perintah mahasiswa.info() untuk menampilkan detail data seperti kolom / attribute, jumlah data
dan type data untuk setiap attribute. Pada data yang diolah terdiri atas 9 attribute, jumlah record
data 52 dan sebagian record data 50 dan 51 karena sebagian data ada yang kosong.
Gambar3:
Gambar 4:
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma
display(mahasiswa.describe(include=
np.number).transpose())
display(mahasiswa.describe(include=np. object).transpose())
Gambar 5:
Perintah display(mahasiswa.describe(include=np.number).transpose()) menampilkan detail
data seperti jumlah data, rata-rata, standard, nilai paling rendah, nilai data berdasarkan persen
dan nilai paling tinggi dari attribute / kolom dengan type data number / angka yaitu int, float
dan lain-lain. Dari data diatas attribute “ipk” jumlah data 52, rata-rata IPK 3.608269, IPK paling
rendah 2.0 dan IPK paling tinggi 4.0.
Gambar 6:
Perintah def countplot(column):
return sb.countplot(x=column,data=mahasiswa)
Pendefenisian untuk visualisasi data dalam bentuk grafik batang berdasarkan kategori isi suatu
attribute data dengan menggunakan library Seaborn yang divariabelkan dengan sb.
Gambar 7:
Perintah countplot('prodi') untuk visualisasikan kategori data pada attribute prodi.
Gambar 8:
Perintah countplot('ipk') untuk visualisasikan kategori data pada attribute ipk.
Gambar 9:
Perintah mahasiswa.plot.scatter(x='prestasi', y='status',figsize=(6,3)) untuk visualisasi data
dalam bentuk sebaran hubungan antara attribute prestasi (x) dengan attribute status (y) dan
figsize fungsinya untuk ukuran sebaran visualisasi. Dari visualisasi tersebut dapat dijelaskan
bahwa status menerima atau tidak menerima beasiswa didasarkan pada punya prestasi atau tidak
punya prestasi.
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma
Tidak Menerima
Gambar 10:
Dari visualisasi tersebut bahwa berdasarkan data hanya yang IPK 3.25 keatas yang status
menerima beasiswa sedangkan dibawah IPK tersebut tidak menerima.
Gambar 11
Perintah compute_freq_chi2(mahasiswa.prestasi,mahasiswa.status) menampilkan frekuensi
antara kedua attribute. Pada perintah tersebut yang ditampilkan data attribute prestasi dan status
dari data mahasiswa dimana yang stutus 0 (tidak menerima beasiswa) bersala dari yang tidak
punya prestasi berjumlah 19 (prestasi 0) orang dan 1 (prestasi 1) orang yang mempunyai
prestasi, sedangkan dengan status 1 (menerima beasiswa) yang tidak punya prestasi (prestasi 0)
berjumlah 17 orang dan yang punya prestasi (prestasi 1) berjumlah 15 orang.
Lanjutan
Gambar 12
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma
Gambar 13
Gambar 14
Perintah
col=["status","ipk","prestasi","aktif_organisasi","tahun"]
sb.pairplot(mahasiswa[col],kind='scatter', diag_kind='kde') menvisualisasikan
hubungan antara attribute status, IPK, prestasi, aktif organisasi dan tahun.
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma
Untuk mengecek data yang
sama, hasilnya 0 (nol) artinya
tidak ada data yang sama
cek_data_kosong(mahasiswa)
Pendefenisian untuk
pengecekan data yang kosong
berdasarkan attribute
Gambar 15
Mengelompokan data
mahasiswa berdasarkan
pekerjaan orang tua
berdasarkan kategori status
yaitu 1 dan 0, hitung
jumlahnya dan bentuk dalam
bentuk tumpukan
Gambar 16
Berdasarkan hasil program diatas diperoleh pekerjaan_orang tua dengan kategori ibu rumah
tangga pada kolom status 0 sama dengan NaN artinya datangnya kosong / tidak ada data
mahasiswa yang pekerjaan orang tuanya ibu rumah tangga yang tidak menerima beasiswa,
sedangkan pada kolom status 1 sama dengan 1.0 artinya ada 1 orang mahasiswa yang menerima
beasiswa dengan pekerjaan orang tua ibu rumah tangga, perkerjaan orang tua petani pada kolom
status 0 berjumlah 13.0 artinya 13 orang mahasiswa yang tidak menerima beasiswa dan
pekerjaan orang tua pada kolom status 1 berjumlah 14.0 artinya 14 orang mahasiwa menerima
beasiswa dan begitu seterusnya.
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma
Gambar 17
Setelah diisi data yang kosong diattribute pekerjaan orang tua maka bertambah kategori
pekerjaan_orang_tua yaitu “U” dengan attribute status 0 sama dengan 2 dan attribute status 1
sama dengan NaN.
Data yang
diisi
Data masih
kosong diattribu
jenis kelamin
Gambar 18
Selanjutkan dilakukan pengecekan data yang masih kosong isinya dengan perintah berikut:
Perintah pengecekan data
yang kosong dan hasilnya
masih satu data yang kosong
pada attribute jenis kelamin
Perintah mengisi data yang kosong dengan
karakter “None” pada attribute jenis kelamin
Pengecekan data
yang kosong dan
tidak ditemukan data
yang kosong (empty)
Gambar 19
Data yang sebelumnya kosong sudah beriisi semuanya.
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma
Gambar 20
Perintah mahasiswa_clr=mahasiswa.drop(['nama','prodi'], axis=1) menampilkan data
mahasiswa tanpa attribute nama dan prodi. Tujuannya adalah attribute yang tidak berpengaruh
ke status tidak perlu ditampilkan. Variabel dari mahasiswa adalah mahasiswa_clr.
Perintah untuk
mengecek data
attribute pekerjaan
Menghapus attribute orang tua yang kosong
yang tidak ditampilkan
yaitu nama dan prodi
Gambar 21
Data yang ditampilkan dengan 7 attribute yang berpangaruh distatus, sedangkan 2 attribute
lagi tidak berpengaruh di status.
Gambar 22
Menampilkan detail tabel mahasiswa_clr
Big Data Analysis -Efori Bu’ulolo, S.Kom, M.Kom - Teknik Informatika - Univ. Budi Darma
Konversi attribute
dengan type data
objek menjadi float
dan sekaligus
konversi isi attribute
object tersebut
Gambar 23
Seperti attribute jenis kelamin P dikoversi menjadi 2 dan L dikonversi menjadi 0, dan atrtibute
pekerjaan orang tua yaitu petani dikonversi menjadi 4 dan wiraswasta dikonversi menjadi 7 dan
begitu seterusnya.
Gambar 24
Dari perintah mahasiswa_clr.info() untuk detail tabel terlihat semua tipe data berubah menjadi
float 64.