0% menganggap dokumen ini bermanfaat (0 suara)

34 tayangan43 halaman

09 Tutorial Python Missing Values

Dokumen ini membahas analisis data Titanic menggunakan Pandas dan Python. Dokumen ini menjelaskan cara membersihkan, mengeksplorasi, dan mempelajari pola dalam data Titanic.

Diunggah oleh

hendry ming

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

34 tayangan43 halaman

09 Tutorial Python Missing Values

Dokumen ini membahas analisis data Titanic menggunakan Pandas dan Python. Dokumen ini menjelaskan cara membersihkan, mengeksplorasi, dan mempelajari pola dalam data Titanic.

Diunggah oleh

hendry ming

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 43

Big Data

BIG DATA – TK13025

T1) Tampilkan data Titanic menggunakan
Pandas
import pandas as pd
import numpy as np

import seaborn as sns

import matplotlib.pyplot as plt

file = "titanicFull.csv"
df = pd.read_csv(file)
T2i) Cetak 4 baris pertama dari kumpulan data
df.head(4)
T2ii) Cetak 6 baris terakhir dari kumpulan data
df.iloc[-6:]
T3) Dapatkan info umum tentang kumpulan
data
df.info()
T4) Eksplorasi kumpulan data dan coba pahami arti
dari setiap variabel (kolom). Identifikasi variabel
mana yang kategoris dan mana yang numerik.
# Answer
# - Pclass: Passenger class (1=1st; 2=2nd; 3=3rd - Categorical - ordinal - transformed into 1,2,3))
# - Survived: Survival (0=No; 1=Yes - Categorical - nominal - transformed into 0 and 1)
# - Name: Passenger's name (Text)
# - Sex: Passenger's sex (Categorical - nominal)
# - Age: Passenger's age (Numerical - discrete)
# - SibSp: Number of Siblings/Spouses Aboard (Numerical - discrete)
# - Parch: Number of Parents/Children Aboard (Numerical - discrete)
# - Ticket: Ticket number (Text)
# - Fare: Passenger fare (Numerical - continuous)
# - Cabin: Cabin number (Categorical - nominal)
# - Embarked: Port of Embarkation (C = Cherbourg; Q = Queenstown; S = Southampton)
T5) Tampilkan bentuk data
df.shape
T6) Tampilkan nama kolom dataframe
df.columns
T7) Apakah menurut Anda kolom (variabel) perlu
lebih mudah untuk dibaca? Khususnya, yang sulit
dipahami pada T4
df.rename(index=str,
columns={"pclass":"ticketClass",
"sibsp":"siblingsSpouses",
"parch":"parentsChildren"}, inplace=True)
df.columns
T8) Apakah ada catatan duplikat?
duplicated = df.duplicated().sum()
print("There are %d duplicated records" %
(duplicated))
T9) Salin kumpulan data sehingga Anda
memanipulasi kumpulan data yang disalin dan
membiarkan yang asli tidak terpengaruh
Hint: Periksa dokumentasi panda untuk bantuan tentang cara menyalin
kerangka data

dff = df.copy()
T10) Membuat dataframe
• Missing variable (column) menunjukkan jumlah data yang hilang untuk setiap variabel
dalam kumpulan data titanic
• Percentage variable menunjukkan persentase data yang hilang di atas ukuran
kumpulan data titanic
# Tampilkan missing data and urutkan dalam urutan secara ascending (naik)
missingDataSummary = dff.isna().sum()
# Hitung persentase of missing data
missingDataPercentage = (dff.isnull().sum()/dff.shape[0])
# Gabungkan dua Seri
missingData = pd.concat([missingDataSummary,
missingDataPercentage], axis=1, keys=['Missing',
'Percentage'])
missingData.sort_values(ascending=False, by='Missing')
axis = 1  merge column

axis = 0  merge row

T11) Apa yang harus kita lakukan dengan variabel dengan jumlah data
hilang tertinggi. Pertimbangkan jumlah data yang hilang dibandingkan
dengan jumlah total data yang tersedia.
# Kita perlu membuang variabel Cabin karena data yang hilang adalah
77% dari total data
dffClean = dff.drop(columns='cabin')

dffClean.isna().sum().sort_values(ascending=False)
T12) Isi missing data yang memiliki tipe
categorical dengan mode
dffClean.info()
dff.isna().sum()
dffClean[dffClean['embarked'].isna()]

dffClean['embarked'] =
dffClean['embarked'].fillna(dffClean['embarked'].mode()[0])

dffClean.isna().sum().sort_values(ascending=False)
T13i) Plot histogram variabel numerik dengan jumlah data hilang
terbesar sehingga dapat ditentukan nilai terbaik untuk mengisi
data yang hilang.
• Tambahkan judul dan nama axis yang sesuai.
• Catatan: Gunakan visualisasi Panda, matplotlib atau seaborn.
#Menggunakan pandas
plt.figure(figsize=(4,3), dpi=100)
ax = dffClean['age'].hist(bins=20)
ax.set_title("Histogram for age variable",fontsize=16)
ax.set_xlabel('Age', fontsize=16) # set x label
ax.set_ylabel('Age (Count)', fontsize=16, rotation=90) # set y label
ax.grid(False)
#Menggunakan seaborn
plt.figure(figsize=(4,3), dpi=100)
g = sns.histplot(dffClean, x='age', kde=True, color='steelblue', bins=20)
g.set_title("Histogram for age variable",fontsize=16)
g.set_xlabel('Age', fontsize=16) # set x label
g.set_ylabel('Age (Count)', fontsize=16, rotation=90) # set y label
#Menggunakan matplotlib
plt.figure(figsize=(4,3), dpi=100)
plt.hist(dffClean['age'], bins=20, alpha=0.5, density=False,
histtype='stepfilled', color='steelblue', edgecolor='none')
# alpha=0.5 -> transparent level
plt.title("Histogram for age variable",fontsize=16)
plt.xlabel('Age',fontsize=16) # set x label
plt.ylabel('Age (Count)',fontsize=16,rotation=90) # set y label
T13ii) Isi missing values dengan nilai yang
sesuai
dffClean.info()
dff.isna().sum()
dffClean[dffClean['age'].isna()]

dffClean['age'] =
dffClean['age'].fillna(dffClean['age'].median())

dffClean.isna().sum().sort_values(ascending=False)
T13iii) Plot histogram lagi untuk variabel dari tugas T13 setelah imputasi dan amati
bagaimana distribusinya berubah.

#Using seaborn
plt.figure(figsize=(4,3), dpi=100)
g = sns.histplot(dffClean, x='age', kde=True, color='steelblue')
g.set_title("Histogram for age variable",fontsize=16)
g.set_xlabel('Age', fontsize=16) # set x label
g.set_ylabel('Age (Count))', fontsize=16, rotation=90) # set y label
T14) Apa yang harus Anda lakukan tentang nilai yang hilang dari variabel akhir?
Pilih strategi imputasi terbaik dan terapkan
dffClean[dffClean['fare'].isna()]

#Karena nilai yang hilang adalah tarif, kemungkinan tiket dari kelas yang sama
mewakili distribusi tarif yang lebih baik. Dengan demikian, kita dapat
menghitung nilai yang hilang dengan nilai rata-rata/median tarif tiket dari
kelas 3.
dffClean['ticketClass'].unique()
#Get the ticket class, i.e., 3
ticketClass = dffClean[dffClean['fare'].isna()]['ticketClass']

if (len(ticketClass)>0):
#Find the median fare of tickets from class 3
fareMedian =
dffClean[dffClean['ticketClass']==ticketClass[0]]['fare'].median()

#impute the value

dffClean['fare'] = dffClean['fare'].fillna(fareMedian)

dffClean.isna().sum().sort_values(ascending=False)
T15i) Simpan dataframe yang telah dibersihkan
sebagai file csv dengan nama "titanicClean.csv"
file = "titanicClean.csv"
dffClean.to_csv(file, index=False)
T15ii) Muat kumpulan data yang telah
dibersihkan ke dalam kerangka data baru
titanicClean = pd.read_csv(file)

titanicClean.info()
T16) Dapatkan beberapa statistik deskriptif untuk
kumpulan data yang hanya memilih variabel yang
statistik deskriptifnya masuk akal
#fungsi deskripsi akan memberikan statistik deskriptif untuk variabel
apa pun yang numerik
#termasuk TicketClass; Namun, variabel ini tidak memiliki arti apapun
#Oleh karena itu, mereka harus dimasukkan dalam kumpulan statistik
deskriptif

titanicClean[['survived', 'age', 'siblingsSpouses', 'parentsChildren', 'fare']].describe()

T17i) Untuk setiap penumpang, cari tahu berapa banyak
total anggota keluarganya dan simpan informasi ini
sebagai variabel baru dalam dataframe

titanicClean["familySize"] = titanicClean["siblingsSpouses"] +
titanicClean["parentsChildren"] + 1
T17ii) Cetak catatan untuk keluarga dengan nama
keluarga "Palsson" dan konfirmasikan bahwa hasil
dari tugas T17i benar
titanicClean[titanicClean['name'].str.contains("Palsson")]
T18): Cari tahu dan cetak detail informasi dari
keluarga yang memiliki jumlah terbesar
#Solution1
titanicClean[titanicClean['familySize']==max(titanicClean["familySize"])]

#Solution2
biggestfamily = np.where(titanicClean["familySize"] ==
max(titanicClean["familySize"]))

titanicClean.iloc[biggestfamily]
T19i) Bagaimana pembagian tarif tiket kelas 1? Buat
boxplot dan selidiki apakah ada informasi yang
menarik
#Using Pandas
plt.figure(figsize=(4,3), dpi=100)
ax =
titanicClean[titanicClean['ticketClass']==1].boxplot(column='fare')
ax.set_title("Boxplot for ticket fares of class 1")
ax.set_ylabel('Fare',fontsize=16,rotation=90) # set y label
ax.set_xlabel('Class 1',fontsize=16)
ax.grid(False)
#Using seaborn
d = titanicClean[titanicClean['ticketClass']==1]

plt.subplots(figsize=(4,3), dpi=100)
ax = sns.boxplot(y="fare", data=d)
ax.set_title("Boxplot for ticket fares of class 1")
ax.set_ylabel('Fare',fontsize=20,rotation=90) # set y label
ax.set_xlabel('Class 1',fontsize=20) # set x label
ax.grid(False)
T19ii) Apakah Anda melihat nilai tarif yang aneh?
Periksa apakah ada outlier untuk tarif tiket kelas 1
menggunakan metode standar deviasi.
Outliers:
Data (records) berbeda secara signifikan dari sebagian besar data
dalam kumpulan data (atau population).
T19ii) Apakah Anda melihat nilai tarif yang aneh?
Periksa apakah ada outlier untuk tarif tiket kelas 1
menggunakan metode standar deviasi.
fareClass1 = titanicClean[titanicClean['ticketClass']==1]['fare']

fareStd = np.std(fareClass1)
fareMean = np.mean(fareClass1)

fareOutliers = fareClass1[(fareClass1 > fareMean + 3 *fareStd) |

(fareClass1 < fareMean - 3 *fareStd)]

print("Mean=%.3f and standard deviation=%.3f of ticket fares for class 1" %

(fareMean, fareStd))

print("The following could be considered as outliers %s" % (fareOutliers))

T19iii) Cetak informasi untuk penumpang
tersebut
#Solution1
titanicClean[titanicClean['fare']==fareOutliers.iloc[0]]

#Solution2
titanicClean.loc[fareOutliers.index]
T20) Mengingat bahwa Titanic berhenti di tiga pelabuhan (C = Cherbourg, Q =
Queenstown, S = Southampton) sebelum berangkat dari Inggris, dapatkah kita
mengidentifikasi pola apa pun terkait pelabuhan tempat penumpang menaiki Titanic?
Buat bar plot untuk mengilustrasikan ini
#Using Pandas

# Pertama-tama kita perlu mengelompokkan dataframe berdasarkan variabel

embarked
embarked =
titanicClean.groupby('embarked').count()

#Buat dataframe berdasarkan grouping

embarkedDf = pd.DataFrame({'Port': embarked.index,
'Count':embarked['ticketClass']})
#Finally, we plot the barplot
plt.figure(figsize=(4,3), dpi=100)
ax = embarkedDf.plot.bar(x='Port', y='Count')
ax.set_title("Barplot based on embarked port", fontsize=16)
ax.set_ylabel('Count',fontsize=16,rotation=90) # set y label
ax.set_xlabel('Port', fontsize=16)
ax.grid(False)
#Using seaborn
plt.subplots(figsize=(4,3), dpi=100)
ax = sns.countplot(data=titanicClean, x='embarked')
ax.set_title("Barplot based on embarked port", fontsize=16)
ax.set_xlabel('Port',fontsize=16) # set x label
ax.set_ylabel('Embarked',fontsize=16,rotation=90) # set y label
ax.grid(False)
#Using matplotlib

#Pertama-tama kita perlu mengelompokkan item data bersama-sama

#semua entri data pada dataframe yang dihasilkan menghitung jumlah penumpang yang berangkat di setiap Pelabuhan
# embarked = titanicClean.groupby('embarked').count().iloc[:,1]
embarked = titanicClean.groupby('embarked').count()['ticketClass']

plt.figure(figsize=(4,3), dpi=100)

plt.bar(embarked.index, embarked)
plt.title("Barplot based on embarked port", fontsize=16)
plt.xlabel('Port',fontsize=16) # set x label
plt.ylabel('embarked',fontsize=16,rotation=90) # set y label
ax.grid(False)
• Buat kolom baru 'Title' yang menyertakan panggilan setiap
penumpang dan hanya memiliki entri berikut:
• Master, Miss, Mr, Mss
where
• Miss includes also Mlle and Ms
• Mme includes also Mrs
• all the remaining titles become Rare
sr = pd.Series(['New_York', 'Lisbon', 'Tokyo', 'Paris', 'Munich'])
sr.str.extract('([auieo])')
#sr.str.extract(pat = '([auieo])')

sr = pd.Series(['USA New_York', 'Portugal Lisbon', 'Japan Tokyo', 'France Paris',

'Germany Munich'])
sr.str.extract('([A-Za-z]+) ')
sr.str.extract(' ([A-Za-z]+)')
s = pd.Series(['Allen, Miss. Elisabeth Walton', 'Anderson, Mr. Harry',
'Astor, Col. John Jacob'])
s.str.extract('([A-Za-z,]+) ')

s.str.extract(' ([A-Za-z,]+) ')

s.str.extract(' ([A-Za-z]+)\. ')

s.str.extract(' ([A-Za-z]+)\. ',expand=False)

titanicClean['Title'] = titanicClean.name.str.extract(' ([A-Za-z]+)\.',
expand=False)

titanicClean['Title'] = titanicClean['Title'].replace('Mlle', 'Miss')

titanicClean['Title'] = titanicClean['Title'].replace('Ms', 'Miss')
titanicClean['Title'] = titanicClean['Title'].replace('Mme', 'Mrs')

titanicClean['Title'] = titanicClean['Title'].replace(['Lady',
'Countess','Capt', 'Col', 'Don', 'Dr', 'Major', 'Rev', 'Sir',
'Jonkheer', 'Dona'], 'Rare')

Anda mungkin juga menyukai

Jawaban UAS Algoritma Dan Pemrograman - Dataset Titanic
Belum ada peringkat
Jawaban UAS Algoritma Dan Pemrograman - Dataset Titanic
8 halaman
Uas - Nur Shella - 240112500049 - Alpro
Belum ada peringkat
Uas - Nur Shella - 240112500049 - Alpro
11 halaman
DM_M3_3124640048_Farhan
Belum ada peringkat
DM_M3_3124640048_Farhan
18 halaman
Uas Nur Shella 240112500049
Belum ada peringkat
Uas Nur Shella 240112500049
4 halaman
AIAI
Belum ada peringkat
AIAI
6 halaman
Ma'arif Parlika
Belum ada peringkat
Ma'arif Parlika
4 halaman
Pertemuan 2 Data Science
Belum ada peringkat
Pertemuan 2 Data Science
9 halaman
Hidup Dan Mati Penumpang Titanic
Belum ada peringkat
Hidup Dan Mati Penumpang Titanic
10 halaman
KBD m5 Rifqiirsyad 10123897
Belum ada peringkat
KBD m5 Rifqiirsyad 10123897
16 halaman
Langkah Orange Data Titanic
100% (1)
Langkah Orange Data Titanic
10 halaman
Langkah Orange Data Titanic Kelompok Uwu
Belum ada peringkat
Langkah Orange Data Titanic Kelompok Uwu
10 halaman
BAB 4 - Data Wrangling Python
Belum ada peringkat
BAB 4 - Data Wrangling Python
9 halaman
Muhammad Rasyid Hafidh
Belum ada peringkat
Muhammad Rasyid Hafidh
22 halaman
Exploratory Data Analysis Dengan Pandas - Part 2
Belum ada peringkat
Exploratory Data Analysis Dengan Pandas - Part 2
4 halaman
Arfino Yulian KBD Act Pert 5
Belum ada peringkat
Arfino Yulian KBD Act Pert 5
23 halaman
ML - Pertemuan 3
Belum ada peringkat
ML - Pertemuan 3
13 halaman
Module 2 - Data Preprocessing
Belum ada peringkat
Module 2 - Data Preprocessing
38 halaman
Tugas Data Analisis
Belum ada peringkat
Tugas Data Analisis
18 halaman
Praktikum5 - Wildan Supriatna - 11122471.ipynb - Colaboratory
Belum ada peringkat
Praktikum5 - Wildan Supriatna - 11122471.ipynb - Colaboratory
10 halaman
Tugas Laporan - 211045 WINDA PAGASING
Belum ada peringkat
Tugas Laporan - 211045 WINDA PAGASING
7 halaman
Praktikum V - Moda Hands On Data Cleaning Dan Encoding
Belum ada peringkat
Praktikum V - Moda Hands On Data Cleaning Dan Encoding
14 halaman
Data Wrangling
Belum ada peringkat
Data Wrangling
12 halaman
Laporan Tugas Besar 2 Kel-3
Belum ada peringkat
Laporan Tugas Besar 2 Kel-3
14 halaman
Exploratory Data Analysis
Belum ada peringkat
Exploratory Data Analysis
26 halaman
Rangkuman Coding Python
Belum ada peringkat
Rangkuman Coding Python
2 halaman
Data Analyst B - Imam Qori Mukminin - Home Fun 12 PDF
Belum ada peringkat
Data Analyst B - Imam Qori Mukminin - Home Fun 12 PDF
1 halaman
Irfan Rafli Syahputra - 119190071 - Tugas BFILL DAN FFILL
Belum ada peringkat
Irfan Rafli Syahputra - 119190071 - Tugas BFILL DAN FFILL
5 halaman
Claudia Dianelsa Adventin - Prak 0
Belum ada peringkat
Claudia Dianelsa Adventin - Prak 0
7 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
37 halaman
SVM Deskripsi Fix
Belum ada peringkat
SVM Deskripsi Fix
6 halaman
Laporan8 Ayung Alqadri LatihanDataCleaning
Belum ada peringkat
Laporan8 Ayung Alqadri LatihanDataCleaning
16 halaman
Praktikum Big Data M - 7
Belum ada peringkat
Praktikum Big Data M - 7
12 halaman
Latihan Exam Modul 2
Belum ada peringkat
Latihan Exam Modul 2
33 halaman
Task10 - Bagus Arimanu - Ipynb - Colaboratory
Belum ada peringkat
Task10 - Bagus Arimanu - Ipynb - Colaboratory
6 halaman
Laporan Tugas Minggu 2
Belum ada peringkat
Laporan Tugas Minggu 2
17 halaman
Laporan Tubes 2 PTI
100% (1)
Laporan Tubes 2 PTI
12 halaman
Otniel Dhamara Putra (10520777) - Praktikum M6
Belum ada peringkat
Otniel Dhamara Putra (10520777) - Praktikum M6
27 halaman
Kelompok Tomodachi
Belum ada peringkat
Kelompok Tomodachi
28 halaman
KU1102 TugasDABag1 K18 16521324
Belum ada peringkat
KU1102 TugasDABag1 K18 16521324
10 halaman
3 DataVisualization 1
Belum ada peringkat
3 DataVisualization 1
167 halaman
Dataset
Belum ada peringkat
Dataset
7 halaman
Tutorial Lab 1
Belum ada peringkat
Tutorial Lab 1
22 halaman
Customer Churn Prediction Using Machine Learning
Belum ada peringkat
Customer Churn Prediction Using Machine Learning
16 halaman
Tubes Komputasi 2
Belum ada peringkat
Tubes Komputasi 2
25 halaman
Modul 3
Belum ada peringkat
Modul 3
10 halaman
Tugas 4
Belum ada peringkat
Tugas 4
115 halaman
Explory Data Analys With Python
Belum ada peringkat
Explory Data Analys With Python
4 halaman
Muhammad Arif (22010049)
Belum ada peringkat
Muhammad Arif (22010049)
3 halaman
Visualisasi Data Dengan Matplotlib
Belum ada peringkat
Visualisasi Data Dengan Matplotlib
6 halaman
Pembelajaran Machine Learning
Belum ada peringkat
Pembelajaran Machine Learning
7 halaman
Laporan "Data Quality With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
Belum ada peringkat
Laporan "Data Quality With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
11 halaman
Pandas
Belum ada peringkat
Pandas
17 halaman
M12 Data Visualization - Matplotlib
Belum ada peringkat
M12 Data Visualization - Matplotlib
35 halaman
M10 Data Preparation - Outliers
Belum ada peringkat
M10 Data Preparation - Outliers
26 halaman
AD Modul 9. Visualisasi DGN Seaborn Lanjutan
Belum ada peringkat
AD Modul 9. Visualisasi DGN Seaborn Lanjutan
17 halaman
4TA04 Denny Maulana Sechan 10321082 Laporan Akhir
Belum ada peringkat
4TA04 Denny Maulana Sechan 10321082 Laporan Akhir
5 halaman
Dokumen Pengujian Perangkat Lunak
Belum ada peringkat
Dokumen Pengujian Perangkat Lunak
3 halaman
Tugas Akhir Praktikum Komputasi Statistika Kelompok 1
Belum ada peringkat
Tugas Akhir Praktikum Komputasi Statistika Kelompok 1
14 halaman
42327-Article Text-133975-3-10-20240104
Belum ada peringkat
42327-Article Text-133975-3-10-20240104
17 halaman
TM10 BasicGraph
Belum ada peringkat
TM10 BasicGraph
53 halaman
Teks Prosedur
Belum ada peringkat
Teks Prosedur
4 halaman
Laporan Praktikum Kimia
Belum ada peringkat
Laporan Praktikum Kimia
3 halaman
Alasan Jepang Ke Indonesia
Belum ada peringkat
Alasan Jepang Ke Indonesia
7 halaman