0% menganggap dokumen ini bermanfaat (0 suara)
37 tayangan18 halaman

Pandas

Pandas adalah pustaka Python yang digunakan untuk menganalisis dan memanipulasi data. Pandas memungkinkan pengguna untuk membersihkan dan memperbaiki data agar lebih relevan dan dapat diolah."

Diunggah oleh

Ab Ab
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
37 tayangan18 halaman

Pandas

Pandas adalah pustaka Python yang digunakan untuk menganalisis dan memanipulasi data. Pandas memungkinkan pengguna untuk membersihkan dan memperbaiki data agar lebih relevan dan dapat diolah."

Diunggah oleh

Ab Ab
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 18

PANDAS

1.1 Pengenalan Pandas


Pandas adalah pustaka Python yang digunakan untuk bekerja dengan kumpulan data. Ini
memiliki fungsi untuk menganalisis, membersihkan, menjelajahi, dan memanipulasi data. Nama
"Pandas" memiliki referensi ke "Data Panel", dan "Analisis Data Python" dan dibuat oleh Wes
McKinney pada tahun 2008.
Mengapa Menggunakan Pandas?
Pandas memungkinkan kita untuk menganalisis data besar dan membuat kesimpulan berdasarkan
teori statistik. Pandas dapat membersihkan kumpulan data yang berantakan, dan membuatnya
dapat dibaca dan relevan.
Data yang relevan sangat penting dalam ilmu data.
Ilmu Data: adalah cabang ilmu komputer tempat kami mempelajari cara menyimpan,
menggunakan, dan menganalisis data untuk memperoleh informasi darinya.
Pandas juga dapat menghapus baris yang tidak relevan, atau berisi nilai yang salah, seperti nilai
kosong atau NULL. Ini disebut membersihkan data.
Di mana Pangkalan Kode Pandas?
Kode sumber untuk Pandas terletak di repositori github ini https://github.com/pandas-
dev/pandas
github: memungkinkan banyak orang untuk bekerja pada basis kode yang sama.

1.2 Install Pandas


Jika Anda sudah menginstal Python dan PIP pada suatu sistem, maka instalasi Pandas sangat
mudah.
Instal menggunakan perintah ini:
Gambar 1.
Jika perintah ini gagal, maka gunakan distribusi python yang sudah menginstal Pandas
seperti, Anaconda, Spyder dll.
Impor Pandas
Setelah Pandas diinstal, impor di aplikasi Anda dengan menambahkan importkata kunci:

Sekarang Pandas diimpor dan siap digunakan.

Pandas sebagai pd
Pandas biasanya diimpor dengan pd alias.
alias: Dalam Python alias adalah nama alternatif untuk merujuk pada hal yang sama.
Buat alias dengan askata kunci saat mengimpor:

Sekarang paket Pandas dapat disebut sebagai pdalih-alih pandas.


1.3 Seri Pandas
Seri Pandas seperti kolom dalam tabel. Ini adalah array satu dimensi yang menyimpan data jenis
apa pun.
Contoh buat Seri Pandas sederhana dari daftar:

Label
Jika tidak ada lagi yang ditentukan, nilai diberi label dengan nomor indeksnya. Nilai pertama
memiliki indeks 0, nilai kedua memiliki indeks 1 dll.
Label ini dapat digunakan untuk mengakses nilai tertentu.
Contoh kembalikan nilai pertama dari Seri:

Buat Label
Dengan indexargumen, Anda dapat memberi nama label Anda sendiri.
Contoh
Buat label Anda sendiri:

Setelah membuat label, Anda dapat mengakses item dengan merujuk ke label.
Contoh
Kembalikan nilai "y":

Objek Kunci/Nilai sebagai Seri


Anda juga dapat menggunakan objek kunci/nilai, seperti kamus, saat membuat Seri.
Contoh Buat Seri Pandas sederhana dari kamus:
DataFrame
Kumpulan data di Pandas biasanya berupa tabel multidimensi, yang disebut DataFrames. Seri
seperti kolom, DataFrame adalah seluruh tabel.
Contoh Buat DataFrame dari dua Seri:

1.4 DataFrame Pandas


Pandas DataFrame adalah struktur data 2 dimensi, seperti array 2 dimensi, atau tabel dengan
baris dan kolom.
Contoh Buat DataFrame Pandas sederhana:

Cari Baris
Seperti yang Anda lihat dari hasil di atas, DataFrame seperti tabel dengan baris dan kolom.
Pandas menggunakan locatribut untuk mengembalikan satu atau lebih baris yang ditentukan
Contoh Kembalikan baris 0:

Catatan: Contoh ini mengembalikan Seri Pandas .

Contoh Kembalikan baris 0 dan 1:

Catatan: Saat menggunakan [], hasilnya adalah Pandas DataFrame .


Indeks Bernama
Dengan indexargumen, Anda dapat memberi nama indeks Anda sendiri.
Contoh
Tambahkan daftar nama untuk memberi setiap baris nama:

Temukan Indeks Bernama


Gunakan indeks bernama dalam locatribut untuk mengembalikan baris yang ditentukan.
Contoh Kembali "hari2":

Muat File Ke DataFrame


Jika kumpulan data Anda disimpan dalam file, Pandas dapat memuatnya ke dalam DataFrame.
Contoh Muat file yang dipisahkan koma (file CSV) ke dalam DataFrame:

1.5 Pandas Membaca CSV


Cara sederhana untuk menyimpan kumpulan data besar adalah dengan menggunakan file CSV
(file yang dipisahkan koma).
File CSV berisi teks biasa dan merupakan format yang dikenal baik yang dapat dibaca oleh semua
orang termasuk Pandas.
Dalam contoh kita, kita akan menggunakan file CSV yang disebut 'data.csv'.
Unduh data.csv . atau Buka data.csv pada link berikut
https://drive.google.com/file/d/16Pjk950QAO8n2V4PKUMYqeUWj_5-UIge/view?usp=share_link
Contoh
Muat CSV ke dalam DataFrame:

Tip: gunakan to_string()untuk mencetak seluruh DataFrame.


Jika Anda memiliki DataFrame besar dengan banyak baris, Pandas hanya akan mengembalikan 5
baris pertama, dan 5 baris terakhir:
Contoh
Cetak DataFrame tanpa to_string() metode:

max_rows
Jumlah baris yang dikembalikan ditentukan dalam pengaturan opsi Pandas.
Anda dapat memeriksa baris maksimum sistem Anda dengan
pd.options.display.max_rowspernyataan.
Contoh
Periksa jumlah baris yang dikembalikan maksimum:

Di sistem saya jumlahnya adalah 60, yang berarti bahwa jika DataFrame berisi lebih dari 60 baris,
print(df)pernyataan tersebut hanya akan mengembalikan header dan 5 baris pertama dan
terakhir.
Anda dapat mengubah jumlah baris maksimum dengan pernyataan yang sama.
Contoh
Tingkatkan jumlah baris maksimum untuk menampilkan seluruh DataFrame:

1.6 Pandas Menganalisis DataFrame


Melihat Data
Salah satu metode yang paling sering digunakan untuk mendapatkan gambaran singkat tentang
DataFrame, adalah head()metodenya.
Metode head()ini mengembalikan header dan sejumlah baris tertentu, mulai dari atas.
Contoh
Dapatkan ikhtisar singkat dengan mencetak 10 baris pertama DataFrame:
Dalam contoh kita, kita akan menggunakan file CSV yang disebut 'data.csv'.
Unduh data.csv , atau buka data.csv di browser Anda pada link berikut
https://drive.google.com/file/d/16Pjk950QAO8n2V4PKUMYqeUWj_5-
UIge/view?usp=share_link.
Catatan: jika jumlah baris tidak ditentukan, head()metode ini akan mengembalikan 5 baris
teratas.
Contoh
Cetak 5 baris pertama DataFrame:

Ada juga tail()metode untuk melihat baris terakhir dari DataFrame.


Metode tail()ini mengembalikan header dan sejumlah baris tertentu, mulai dari bawah.
Contoh
Cetak 5 baris terakhir DataFrame:

Info Tentang Data


Objek DataFrames memiliki metode yang disebut info(), yang memberi Anda lebih banyak
informasi tentang kumpulan data.
Contoh
Cetak informasi tentang data:

hasil

Hasilnya memberi tahu kita bahwa ada 169 baris dan 4 kolom:
RangeIndex: 169 entri, 0 hingga 168
Kolom data (total 4 kolom):

Dan nama setiap kolom, dengan tipe data:

# Tipe D Hitungan Non-Null


--- ------ -------------- -----
0 Durasi 169 non-null int64
1 Detak 169 non-null int64
2 MakDetak 169 non-null int64
3 Kalori 164 non-null float64

Nilai Null
Metode info()ini juga memberi tahu kami berapa banyak nilai Non-Null yang ada di setiap
kolom, dan dalam kumpulan data kami sepertinya ada 164 dari 169 nilai Non-Null di kolom
"Kalori".
Artinya ada 5 baris tanpa nilai sama sekali, di kolom "Kalori", untuk alasan apa pun.
Nilai kosong, atau nilai Null, bisa berakibat buruk saat menganalisis data, dan Anda harus
mempertimbangkan untuk menghapus baris dengan nilai kosong.

1.7 Membersihkan Data


Membersihan data berarti memperbaiki data yang buruk dalam kumpulan data Anda.
Data yang buruk dapat berupa:
 Sel kosong
 Data dalam format yang salah
 Data yang salah
 Duplikat

Dalam tutorial ini Anda akan belajar bagaimana menangani semuanya.

a. Membersihkan Sel Kosong


Sel Kosong
Sel kosong berpotensi memberikan hasil yang salah saat Anda menganalisis data.
Hapus Baris
Salah satu cara untuk menangani sel kosong adalah dengan menghapus baris yang berisi sel
kosong.
Ini biasanya baik-baik saja, karena kumpulan data bisa sangat besar, dan menghapus beberapa
baris tidak akan berdampak besar pada hasilnya.
Contoh kembalikan Bingkai Data baru tanpa sel kosong:

Catatan: Secara default, dropna()metode mengembalikan DataFrame baru , dan tidak akan
mengubah aslinya.
Jika Anda ingin mengubah DataFrame asli, gunakan inplace = Trueargumen:
Contoh
Hapus semua baris dengan nilai NULL:

Catatan: Sekarang, dropna(inplace = True)TIDAK akan mengembalikan DataFrame baru, tetapi


akan menghapus semua baris yang berisi nilai NULL dari DataFrame asli.

Ganti Nilai Kosong


Cara lain untuk menangani sel kosong adalah dengan memasukkan nilai baru sebagai gantinya.
Dengan cara ini Anda tidak perlu menghapus seluruh baris hanya karena beberapa sel kosong.
Metode fillna()ini memungkinkan kita untuk mengganti sel kosong dengan nilai:
Contoh
Ganti nilai NULL dengan angka 130:

Ganti Hanya Untuk Kolom Tertentu


Contoh di atas menggantikan semua sel kosong di seluruh Bingkai Data.
Untuk hanya mengganti nilai kosong untuk satu kolom, tentukan nama kolom untuk DataFrame:
Contoh
Ganti nilai NULL di kolom "Kalori" dengan angka 130:
Ganti Menggunakan Mean, Median, atau Mode
Cara umum untuk mengganti sel kosong adalah dengan menghitung nilai mean, median, atau
mode kolom.
Pandas menggunakan metode mean() median()and mode()untuk menghitung nilai masing-masing
untuk kolom tertentu:
Contoh
Hitung MEAN, dan ganti nilai kosong apa pun dengannya:

Mean = nilai rata-rata (jumlah semua nilai dibagi jumlah nilai).

Contoh
Hitung MEDIAN, dan ganti nilai kosong apa pun dengannya:

Median = nilai di tengah, setelah Anda mengurutkan semua nilai secara menaik.
Contoh
Hitung MODE, dan ganti nilai kosong apa pun dengannya:

Modus = nilai yang paling sering muncul.

b. Membersihkan Data dari Format Yang Salah


Sel dengan data dengan format yang salah dapat mempersulit, atau bahkan tidak mungkin,
untuk menganalisis data.
Untuk memperbaikinya, Anda memiliki dua opsi: menghapus baris, atau mengonversi semua sel
dalam kolom ke dalam format yang sama.
Ubah Menjadi Format yang Benar
Dalam Bingkai Data kami, kami memiliki dua sel dengan format yang salah. Lihat baris 22 dan 26,
kolom 'Tanggal' harus berupa string yang mewakili tanggal.
kita coba mengubah semua sel di kolom 'Tanggal' menjadi tanggal.

Pandas memiliki to_datetime()metode untuk ini:


Contoh
Konversikan ke tanggal:

Seperti yang Anda lihat dari hasilnya, tanggal di baris 26 sudah diperbaiki, tetapi tanggal kosong
di baris 22 mendapat nilai NaT (Not a Time), dengan kata lain nilai kosong. Salah satu cara untuk
menangani nilai kosong adalah dengan menghapus seluruh baris.
Menghapus Baris
Hasil dari konversi pada contoh di atas memberi kita nilai NaT, yang dapat ditangani sebagai nilai
NULL, dan kita dapat menghapus baris dengan menggunakan dropna()metode.

Contoh
Hapus baris dengan nilai NULL di kolom "Tanggal":

c. Memperbaiki Data yang Salah


"Data salah" tidak harus "sel kosong" atau "format salah", bisa saja salah, seperti jika seseorang
mendaftarkan "199" dan bukan "1,99". Terkadang Anda dapat menemukan data yang salah
dengan melihat kumpulan data, karena Anda memiliki ekspektasi tentang apa yang seharusnya
terjadi. Jika Anda melihat kumpulan data kami, Anda dapat melihat bahwa di baris 7, durasinya
adalah 450, tetapi untuk semua baris lainnya durasinya antara 30 dan 60.
Tidak harus salah, tetapi dengan mempertimbangkan bahwa ini adalah kumpulan data sesi latihan
seseorang, kami menyimpulkan dengan fakta bahwa orang ini tidak berolahraga dalam 450 menit.
Bagaimana kita bisa memperbaiki nilai yang salah, seperti yang untuk "Durasi" di baris 7?

Mengganti Nilai
Salah satu cara untuk memperbaiki nilai yang salah adalah dengan menggantinya dengan yang
lain.
Contoh
Tetapkan "Durasi" = 45 di baris 7:

Untuk kumpulan data kecil, Anda mungkin dapat mengganti data yang salah satu per satu, tetapi
tidak untuk kumpulan data besar.
Untuk mengganti data yang salah untuk kumpulan data yang lebih besar, Anda dapat membuat
beberapa aturan, misalnya menetapkan beberapa batasan untuk nilai legal, dan mengganti nilai
apa pun yang berada di luar batasan.
Contoh
Ulangi semua nilai di kolom "Durasi".
Jika nilainya lebih tinggi dari 120, atur ke 120:

Menghapus Baris
Cara lain untuk menangani data yang salah adalah dengan menghapus baris yang berisi data
yang salah.

Dengan cara ini Anda tidak perlu mencari tahu apa yang harus diganti, dan ada kemungkinan
besar Anda tidak membutuhkan mereka untuk melakukan analisis Anda.
Contoh
Hapus baris di mana "Durasi" lebih tinggi dari 120:

d. Menghapus Duplikat
Baris duplikat adalah baris yang telah didaftarkan lebih dari satu kali.
Untuk menemukan duplikat, kita dapat menggunakan duplicated()metode.
Metode duplicated()mengembalikan nilai Boolean untuk setiap baris:
Contoh
Pengembalian Trueuntuk setiap baris yang merupakan duplikat, jika tidak False:

Menghapus Duplikat
Untuk menghapus duplikat, gunakan drop_duplicates()metode.
Contoh
Hapus semua duplikat:

Ingat: Ini (inplace = True)akan memastikan bahwa metode TIDAK mengembalikan DataFrame
baru , tetapi akan menghapus semua duplikat dari DataFrame asli .

1.8 Koreksi Data


Aspek hebat dari modul Pandas adalah corr()metodenya. Metode corr()ini menghitung
hubungan antara setiap kolom dalam kumpulan data Anda. Contoh di halaman ini menggunakan
file CSV yang disebut: 'data.csv'.
Unduh data.csv di link berikut
https://drive.google.com/file/d/16Pjk950QAO8n2V4PKUMYqeUWj_5-UIge/view?usp=share_link
Contoh Tunjukkan hubungan antar kolom:

Hasil
Durasi Detak MakDetak Kalori
Durasi 1.000.000 -0.155408 0.009403 0.922721
Detak -0,155408 1.000000 0.786535 0.025120
MakDetak 0.009403 0.786535 1.000000 0.203814
Kalori 0.922721 0.025120 0.203814 1.000.000
Catatan: Metode corr()ini mengabaikan kolom "bukan numerik".

Hasil Dijelaskan
Hasil dari corr()metode ini adalah tabel dengan banyak angka yang mewakili seberapa baik
hubungan antara dua kolom.

Jumlahnya bervariasi dari -1 hingga 1.

1 berarti ada hubungan 1 banding 1 (korelasi sempurna), dan untuk kumpulan data ini, setiap
kali nilai naik di kolom pertama, nilai lainnya juga naik.

0,9 juga merupakan hubungan yang baik, dan jika Anda meningkatkan satu nilai, nilai lainnya
mungkin juga akan meningkat.

-0,9 akan sama baiknya dengan 0,9, tetapi jika Anda meningkatkan satu nilai, yang lain mungkin
akan turun.

0.2 berarti BUKAN hubungan yang baik, artinya jika salah satu nilai naik tidak berarti nilai yang lain
akan naik.

Apa itu korelasi yang baik? Itu tergantung pada penggunaannya, tetapi saya pikir aman untuk
mengatakan Anda harus memiliki setidaknya 0.6(atau -0.6) untuk menyebutnya korelasi yang baik.

Korelasi Sempurna:
Kita dapat melihat bahwa "Durasi" dan "Durasi" mendapat nomor 1.000000, yang masuk akal,
setiap kolom selalu memiliki hubungan yang sempurna dengan dirinya sendiri.

Korelasi yang baik:


"Durasi" dan "Kalori" memiliki 0.922721korelasi, yang merupakan korelasi yang sangat baik, dan
kami dapat memprediksi bahwa semakin lama Anda berolahraga, semakin banyak kalori yang
Anda bakar, dan sebaliknya: jika Anda membakar banyak kalori, Anda mungkin sudah lama
bekerja.

Korelasi kurang:
“Durasi” dan “Maxpulse” memiliki 0.009403 korelasi yang merupakan korelasi yang sangat buruk,
artinya kita tidak dapat memprediksi denyut nadi maksimal hanya dengan melihat durasi latihan,
begitu juga sebaliknya.

1.9 Plotting
Pandas menggunakan plot()metode untuk membuat diagram. Kita dapat menggunakan Pyplot,
sebuah submodul dari library Matplotlib untuk memvisualisasikan diagram di layar.
Contoh
Impor pyplot dari Matplotlib dan visualisasikan DataFrame kami:

Contoh di halaman ini menggunakan file CSV yang disebut: 'data.csv'.

Unduh data.csv pada link berikut


https://drive.google.com/file/d/16Pjk950QAO8n2V4PKUMYqeUWj_5-UIge/view?usp=share_link
Plot Pencar
Tentukan bahwa Anda menginginkan plot pencar dengan kindargumen:
kind = 'scatter'
Sebuah plot pencar membutuhkan sumbu x dan sumbu y.
Pada contoh di bawah ini kita akan menggunakan "Durasi" untuk sumbu x dan "Kalori" untuk
sumbu y.
Sertakan argumen x dan y seperti ini:
x = 'Durasi', y = 'Calori'
Contoh

Hasil

Ingat: Pada contoh sebelumnya, kita mengetahui bahwa korelasi antara "Durasi" dan "Kalori"
adalah 0.922721, dan kami menyimpulkan fakta bahwa durasi yang lebih tinggi berarti lebih
banyak kalori yang terbakar.

Mari kita buat scatterplot lain, di mana ada hubungan yang buruk antara kolom, seperti
"Duration" dan "Maxpulse", dengan korelasi 0.009403:
Contoh
Sebuah scatterplot di mana tidak ada hubungan antara kolom:
Hasil

Histogram
Gunakan kindargumen untuk menentukan bahwa Anda menginginkan histogram:
kind = 'hist'
Sebuah histogram hanya membutuhkan satu kolom.
Histogram menunjukkan frekuensi setiap interval, misalnya berapa banyak latihan yang
berlangsung antara 50 dan 60 menit?

Pada contoh di bawah ini kita akan menggunakan kolom "Duration" untuk membuat histogram:

Hasil

Anda mungkin juga menyukai