Pandas
Pandas
Pandas sebagai pd
Pandas biasanya diimpor dengan pd alias.
alias: Dalam Python alias adalah nama alternatif untuk merujuk pada hal yang sama.
Buat alias dengan askata kunci saat mengimpor:
Label
Jika tidak ada lagi yang ditentukan, nilai diberi label dengan nomor indeksnya. Nilai pertama
memiliki indeks 0, nilai kedua memiliki indeks 1 dll.
Label ini dapat digunakan untuk mengakses nilai tertentu.
Contoh kembalikan nilai pertama dari Seri:
Buat Label
Dengan indexargumen, Anda dapat memberi nama label Anda sendiri.
Contoh
Buat label Anda sendiri:
Setelah membuat label, Anda dapat mengakses item dengan merujuk ke label.
Contoh
Kembalikan nilai "y":
Cari Baris
Seperti yang Anda lihat dari hasil di atas, DataFrame seperti tabel dengan baris dan kolom.
Pandas menggunakan locatribut untuk mengembalikan satu atau lebih baris yang ditentukan
Contoh Kembalikan baris 0:
max_rows
Jumlah baris yang dikembalikan ditentukan dalam pengaturan opsi Pandas.
Anda dapat memeriksa baris maksimum sistem Anda dengan
pd.options.display.max_rowspernyataan.
Contoh
Periksa jumlah baris yang dikembalikan maksimum:
Di sistem saya jumlahnya adalah 60, yang berarti bahwa jika DataFrame berisi lebih dari 60 baris,
print(df)pernyataan tersebut hanya akan mengembalikan header dan 5 baris pertama dan
terakhir.
Anda dapat mengubah jumlah baris maksimum dengan pernyataan yang sama.
Contoh
Tingkatkan jumlah baris maksimum untuk menampilkan seluruh DataFrame:
hasil
Hasilnya memberi tahu kita bahwa ada 169 baris dan 4 kolom:
RangeIndex: 169 entri, 0 hingga 168
Kolom data (total 4 kolom):
Nilai Null
Metode info()ini juga memberi tahu kami berapa banyak nilai Non-Null yang ada di setiap
kolom, dan dalam kumpulan data kami sepertinya ada 164 dari 169 nilai Non-Null di kolom
"Kalori".
Artinya ada 5 baris tanpa nilai sama sekali, di kolom "Kalori", untuk alasan apa pun.
Nilai kosong, atau nilai Null, bisa berakibat buruk saat menganalisis data, dan Anda harus
mempertimbangkan untuk menghapus baris dengan nilai kosong.
Catatan: Secara default, dropna()metode mengembalikan DataFrame baru , dan tidak akan
mengubah aslinya.
Jika Anda ingin mengubah DataFrame asli, gunakan inplace = Trueargumen:
Contoh
Hapus semua baris dengan nilai NULL:
Contoh
Hitung MEDIAN, dan ganti nilai kosong apa pun dengannya:
Median = nilai di tengah, setelah Anda mengurutkan semua nilai secara menaik.
Contoh
Hitung MODE, dan ganti nilai kosong apa pun dengannya:
Seperti yang Anda lihat dari hasilnya, tanggal di baris 26 sudah diperbaiki, tetapi tanggal kosong
di baris 22 mendapat nilai NaT (Not a Time), dengan kata lain nilai kosong. Salah satu cara untuk
menangani nilai kosong adalah dengan menghapus seluruh baris.
Menghapus Baris
Hasil dari konversi pada contoh di atas memberi kita nilai NaT, yang dapat ditangani sebagai nilai
NULL, dan kita dapat menghapus baris dengan menggunakan dropna()metode.
Contoh
Hapus baris dengan nilai NULL di kolom "Tanggal":
Mengganti Nilai
Salah satu cara untuk memperbaiki nilai yang salah adalah dengan menggantinya dengan yang
lain.
Contoh
Tetapkan "Durasi" = 45 di baris 7:
Untuk kumpulan data kecil, Anda mungkin dapat mengganti data yang salah satu per satu, tetapi
tidak untuk kumpulan data besar.
Untuk mengganti data yang salah untuk kumpulan data yang lebih besar, Anda dapat membuat
beberapa aturan, misalnya menetapkan beberapa batasan untuk nilai legal, dan mengganti nilai
apa pun yang berada di luar batasan.
Contoh
Ulangi semua nilai di kolom "Durasi".
Jika nilainya lebih tinggi dari 120, atur ke 120:
Menghapus Baris
Cara lain untuk menangani data yang salah adalah dengan menghapus baris yang berisi data
yang salah.
Dengan cara ini Anda tidak perlu mencari tahu apa yang harus diganti, dan ada kemungkinan
besar Anda tidak membutuhkan mereka untuk melakukan analisis Anda.
Contoh
Hapus baris di mana "Durasi" lebih tinggi dari 120:
d. Menghapus Duplikat
Baris duplikat adalah baris yang telah didaftarkan lebih dari satu kali.
Untuk menemukan duplikat, kita dapat menggunakan duplicated()metode.
Metode duplicated()mengembalikan nilai Boolean untuk setiap baris:
Contoh
Pengembalian Trueuntuk setiap baris yang merupakan duplikat, jika tidak False:
Menghapus Duplikat
Untuk menghapus duplikat, gunakan drop_duplicates()metode.
Contoh
Hapus semua duplikat:
Ingat: Ini (inplace = True)akan memastikan bahwa metode TIDAK mengembalikan DataFrame
baru , tetapi akan menghapus semua duplikat dari DataFrame asli .
Hasil
Durasi Detak MakDetak Kalori
Durasi 1.000.000 -0.155408 0.009403 0.922721
Detak -0,155408 1.000000 0.786535 0.025120
MakDetak 0.009403 0.786535 1.000000 0.203814
Kalori 0.922721 0.025120 0.203814 1.000.000
Catatan: Metode corr()ini mengabaikan kolom "bukan numerik".
Hasil Dijelaskan
Hasil dari corr()metode ini adalah tabel dengan banyak angka yang mewakili seberapa baik
hubungan antara dua kolom.
1 berarti ada hubungan 1 banding 1 (korelasi sempurna), dan untuk kumpulan data ini, setiap
kali nilai naik di kolom pertama, nilai lainnya juga naik.
0,9 juga merupakan hubungan yang baik, dan jika Anda meningkatkan satu nilai, nilai lainnya
mungkin juga akan meningkat.
-0,9 akan sama baiknya dengan 0,9, tetapi jika Anda meningkatkan satu nilai, yang lain mungkin
akan turun.
0.2 berarti BUKAN hubungan yang baik, artinya jika salah satu nilai naik tidak berarti nilai yang lain
akan naik.
Apa itu korelasi yang baik? Itu tergantung pada penggunaannya, tetapi saya pikir aman untuk
mengatakan Anda harus memiliki setidaknya 0.6(atau -0.6) untuk menyebutnya korelasi yang baik.
Korelasi Sempurna:
Kita dapat melihat bahwa "Durasi" dan "Durasi" mendapat nomor 1.000000, yang masuk akal,
setiap kolom selalu memiliki hubungan yang sempurna dengan dirinya sendiri.
Korelasi kurang:
“Durasi” dan “Maxpulse” memiliki 0.009403 korelasi yang merupakan korelasi yang sangat buruk,
artinya kita tidak dapat memprediksi denyut nadi maksimal hanya dengan melihat durasi latihan,
begitu juga sebaliknya.
1.9 Plotting
Pandas menggunakan plot()metode untuk membuat diagram. Kita dapat menggunakan Pyplot,
sebuah submodul dari library Matplotlib untuk memvisualisasikan diagram di layar.
Contoh
Impor pyplot dari Matplotlib dan visualisasikan DataFrame kami:
Hasil
Ingat: Pada contoh sebelumnya, kita mengetahui bahwa korelasi antara "Durasi" dan "Kalori"
adalah 0.922721, dan kami menyimpulkan fakta bahwa durasi yang lebih tinggi berarti lebih
banyak kalori yang terbakar.
Mari kita buat scatterplot lain, di mana ada hubungan yang buruk antara kolom, seperti
"Duration" dan "Maxpulse", dengan korelasi 0.009403:
Contoh
Sebuah scatterplot di mana tidak ada hubungan antara kolom:
Hasil
Histogram
Gunakan kindargumen untuk menentukan bahwa Anda menginginkan histogram:
kind = 'hist'
Sebuah histogram hanya membutuhkan satu kolom.
Histogram menunjukkan frekuensi setiap interval, misalnya berapa banyak latihan yang
berlangsung antara 50 dan 60 menit?
Pada contoh di bawah ini kita akan menggunakan kolom "Duration" untuk membuat histogram:
Hasil