MAKALAH
LIMBRARY PANDAS PADA PYTHON
Semester : I (satu)
UAS
D
I
S
U
S
U
N
OLEH
FIKRI
KAK PRODI : DR. IWAN PURNAMA, S.KOM,M.KOM
FAKULTAS SAINS DAN TEKNOLOGI
PRODI TEKNOLOGI INFORMASI
UNIVERSITAS LABUHANBATU
TA. 2022/2023
KATA PENGANTAR
Puji syukur saya panjatkan atas kehadirat Tuhan Yang Maha Esa karena segala
nikmat dan karunianya, sehingga saya dapat menyusun makalah ini dengan baik. Tak lupa
saya ucapkan terima kasih kepada pihak-pihak yang telah memberikan dukungan, baik ide
maupun materi.
Saya berharap semoga makalah ini dapat menambah pengetahuan dan bisa
menjadi referensi bagi para pembaca. Selain itu, besar harapan saya agar makalah ini
dapat dipraktikkan dalam kehidupan sehari-hari.
Karena keterbatasan pengetahuan dan pengalaman saya , tentu masih banyak
kekurangan dalam penyusunan makalah ini. Oleh karena itu, saya mengharapkan kritik dan
saran yang benar-benar membangun dari para pembaca untuk menyempurnakan makalah
ini.
Rantauprapat, 16 Januari 2023
Fikri
i
DAFTAR ISI
ii
BAB I
PENDAHULUAN
1.1 LATAR BELAKANG
Seorang data scientist sangat perlu menguasai berbagai skill untuk menyelesaikan
proses analisis data secara efektif dan efisien. Untuk itu, dibutuhkan beragam tools dengan
fungsinya masing-masing. Salah satu tools yang mungkin paling sering digunakan oleh data
scientist adalah Pandas. Dalam bahasa pemrograman Python, Pandas adalah alat yang
sangat berguna sebagai library yang mengatur tata letak data sehingga mudah dicari secara
intuitif.
1.2 RUMUSAN MALASAH
1 Pengertian pandas
2 Sejarah pandas
3 Mengenal pandas dalam python
4 Keunggulan library pandas
5 Pandas bisa di gunakan untuk apa saja
1
BAB II
PEMBAHASAN
2.1 PANDAS
Pandas adalah paket Python open source yang paling sering dipakai untuk menganalisis
data serta membangun sebuah machine learning. Pandas dibuat berdasarkan satu package
lain bernama Numpy, yang mendukung arrays multi dimensi. Sebagai salah satu paket kode
Python, Pandas juga dapat digunakan secara optimal denga modul data science yang lain
dalam ekosistem Python.
2.2 SEJARAH PANDAS
Awalnya, Pandas dikembangkan oleh Wes McKinney pada 2008 saat ia bekerja di AQR
Capital Management. McKinney kemudian meyakinkan AQR untuk memperbolehkan
Pandas menjadi open source. Library Pandas pun berkembang dengan pesat hingga saat
ini. Penggunaan Pandas dalam Python sendiri sering kali muncul pada domain akademis
hingga komersial, termasuk keuangan, neurosciences, ekonomi, statistik, periklanan,
analisis web, dan lain sebagainya.
Pandas umumnya menyediakan dua struktur data yang berguna untuk memanipulasi
data. Struktur tersebut adalah Series dan DataFrame. Pandas Series merupakan array satu
dimensi yang dapat memegang data dari berbagai tipe, mulai dari integer, string, hingga
Python object. Pandas Series pada dasarnya sangat mirip dengan kolom pada Sheet dalam
Excel. Untuk membuat Pandas Series, biasanya pengguna akan memuat datasets dari
storage yang sudah dibuat sebelumnya, baik berupa database SQL, CSV, atau bahkan
Excel.
2
2.3 KEUNGGULAN LIBRARY PANDAS
Pandas dapat digunakan bersamaan dengan library lain dalam data science. Karena
dibuat menggunakan NumPy, artinya ada banyak struktur library yang digunakan atau
direplika di dalam Pandas. Selain itu, data yang diproduksi oleh Pandas sering kali
digunakan sebagai input plotting functions untuk Matplotlib, analisis statistik di SciPy, serta
algoritma machine learning dalam Scikit-learn.
Program library Pandas sendiri dapat dijalankan menggunakan berbagai text editor,
namun sangat disarankan untuk menggunakan Jupyter Notebook. Hal ini disebabkan karena
kemampuan Jupyter untuk meng-execute kode dari satu cell tertentu tanpa perlu
menjalankan file secara keseluruhan. Selain itu, Jupyter juga menyediakan cara yang
mudah untuk memvisualisasikan data frames dan plot yang dibuat oleh Pandas.
2.4 FUNGSI LIBRARY PANDAS
Ada banyak kegunaan Pandas, terutama dalam bidang data analysis yang
membutuhkan task repetitif dan memakan banyak waktu. Fungsi library Pandas antara lain:
Data cleansing
Data fill
Normalisasi data
Penggabungan dan penyatuan data
Visualisasi data
Analisis statistik
Inspeksi data
Memuat dan menyimpan data
Selain fungsi-fungsi yang disebutkan di atas, Pandas juga memungkinkan penggunanya
untuk membuat DataFrame sekaligus melakukan analisis serta manipulasi dan
3
penyimpanan database. Pandas juga dapat dimanfaatkan untuk membersihkan datasets
pada machine learning.
2.5 KELEBIHAN PANDAS
a. Cepat dan efisien dalam proses manipulasi dan analisis data.
b. Dapat memuat data yang berasal dari objek file yang berbeda.
c. Penanganan data yang hilang dengan mudah (diwakili sebagai NaN) dalam data
floating point maupun non-floating point.
d. Perubahan ukuran data dengan mudah, dimana kolom dapat dimasukkan dan
dihapus dari DataFrame dan objek dimensi yang lebih tinggi.
e. Dapat digunakan untuk melakukan join dan merge dataset.
f. Mampu untuk melakukan reshaping dan pivoting dataset
g. Menyediakan fungsionalitas time series.
h. Grup yang kuat berdasarkan fungsionalitas untuk melakukan operasi split-apply-
combine pada kumpulan data.
2.6 PROGRAM I
DATAFRAME DF
Disini, contoh yang akan digunakan adalah bagaimana membuat kolom baru dari data
pada kolom yang sudah ada. Misalnya dalam contoh kali ini, kita akan membuat dataframe
df yang berisi data nilai mahasiswa seperti di bawah ini.
import pandas as pd
data = {'Nama': ['Amanda', 'Andi', 'Anton', 'Arini', 'Aziz'],
'Tugas': [77, 80, 91, 83, 78],
'UTS': [90, 76, 88, 69, 75],
'UAS': [80, 87, 77, 90, 88]}
4
df = pd.DataFrame(data)
df
Ootput :
Seperti yang dapat kita lihat, ada 4 kolom yaitu Nama, Tugas, UTS, dan UAS. Misalnya
kita ingin menambahkan kolom baru yaitu Nilai Akhir yang berisi perhitungan akhir dari nilai
Tugas, UTS, dan UAS.
Cara pertama yang akan kita bahas untuk menambahkan kolom baru pada dataframe
Pandas adalah dengan langsung mendefiniskan kolom baru tanpa menggunakan method
apapun. Perhatikan kode berikut.
import pandas as pd
data = {'Nama': ['Amanda', 'Andi', 'Anton', 'Arini', 'Aziz'],
'Tugas': [77, 80, 91, 83, 78],
'UTS': [90, 76, 88, 69, 75],
'UAS': [80, 87, 77, 90, 88]}
df = pd.DataFrame(data)
# Menambahkan kolom baru
df['Nilai Akhir'] = df['Tugas']*0.3 + df['UTS']*0.3 + df['UAS']*0.4
df
5
Dari kode di atas, kita hanya perlu mendefinisikan df['Nilai Akhir'] yang diberikan nilai
perhitungan yang diinginkan. Setelah itu, saat kita menampilkan dataframe df, kolom Nilai
Akhir sudah otomatis terbentuk dengan posisi paling akhir pada dataframe.
Menggunakan insert()
Nah, jika kita ingin menyisipkan kolom baru di antara kolom-kolom yang sudah ada,
maka kita dapat menggunakan method insert(). Setidaknya kita harus memberikan tiga
argumen pada method insert() untuk membuat kolom baru, yaitu posisi kolom akan
ditempatkan (pada indeks ke berapa), nama kolom, dan nilai yang akan diisi pada kolom
tersebut.
Langsung saja kita lihat contoh kodenya.
import pandas as pd
data = {'Nama': ['Amanda', 'Andi', 'Anton', 'Arini', 'Aziz'],
'Tugas': [77, 80, 91, 83, 78],
'UTS': [90, 76, 88, 69, 75],
'UAS': [80, 87, 77, 90, 88]}
df = pd.DataFrame(data)
# Menambahkan kolom baru dengan insert
df.insert(1, 'Nilai Akhir', df['Tugas']*0.3 + df['UTS']*0.3 + df['UAS']*0.4)
df
6
2.7 PROGRAM II
Membuat Bar Plot dengan Matplotlib
Misalnya kita memiliki data kategori yaitu prodi yang berisi nama-nama program studi
dan data numerik jumlah_mhs yang berisi jumlah mahasiswa. Kita ingin membuat bar plot
yang menampilkan jumlah mahasiswa untuk tiap program studi. Perhatikan kode berikut.
import matplotlib.pyplot as plt
%matplotlib inline
prodi = ['Matematika', 'Statistika', 'Biologi', 'Kimia', 'Teknik Informatika', 'Fisika']
jumlah_mhs = [108, 134, 167, 155, 120, 97]
plt.figure(figsize=(12,7))
plt.barh(prodi, jumlah_mhs, color='yellowgreen')
plt.title('Jumlah Mahasiswa Per Program Studi', size=16)
plt.xlabel('Jumlah Mahasiswa', size=14)
plt.xticks(size=12)
plt.yticks(size=12)
plt.show()
7
8
DAFTAR PUSTAKA
https://colab.research.google.com/drive/
1McbgIbYl80PJTYzfwLcZp12LAxqA3bXg#scrollTo=lB5OzzbSWwLP
https://algorit.ma/blog/library-pandas-python-2022/