Modul Analisis Data (TM2)
Modul Analisis Data (TM2)
MODUL PERKULIAHAN
W542100001
– Analisis
Data
Sekilas Analisis Data
dengan Python
Abstrak Sub-CPMK
Anaconda3-5.2.0-Windows-x86_64.exe
Setelah mengunduh kumpulan data, Anda perlu membaca file .csv sebagai bingkai
data dengan Python. Anda dapat melakukan ini menggunakan perpustakaan Pandas. Jika
Anda belum menginstalnya, Anda dapat melakukannya dengan pip install pandas di
Command Prompt atau Power Shell. Jika Anda menghadapi kesulitan dalam penginstalan
atau hanya ingin mempelajari lebih lanjut tentang perpustakaan Pandas, Anda dapat
melihat dokumentasi tentang pandas di tautan ini.
df = pd.read_csv('diabetes.csv')
df.head()
pp.ProfileReport(df)
Laporan ini akan memberi Anda beberapa informasi statistik keseluruhan pada kumpulan
data, yang terlihat seperti ini:
Ini adalah informasi yang dihasilkan untuk variabel yang disebut " Kehamilan."
Sebagai seorang analis, laporan ini menghemat banyak waktu , karena kita tidak harus
melalui setiap variabel individu dan menjalankan terlalu banyak baris kode.
Dari sini, kita dapat melihat bahwa:
Variabel " Kehamilan" memiliki 17 nilai yang berbeda.
Jumlah kehamilan minimum yang dimiliki seseorang adalah 0, dan
maksimum adalah 17.
Plot di atas adalah matriks korelasi. Ini membantu kita mendapatkan pemahaman
yang lebih baik tentang korelasi antara variabel dalam dataset . Ada sedikit korelasi
positif antara variabel “ Usia ” dan “ Ketebalan Kulit ”, yang dapat dilihat lebih lanjut di
bagian visualisasi analisis. Karena tidak ada baris yang hilang atau duplikat dalam
bingkai data seperti yang terlihat di atas, kita tidak perlu melakukan pembersihan data
tambahan.
Visualisasi data
Sekarang setelah kita memiliki pemahaman dasar tentang setiap variabel, kita dapat
mencoba menemukan hubungan di antara mereka. Cara termudah dan tercepat untuk
melakukannya adalah dengan menghasilkan visualisasi.
Dalam modul ini, akan digunakan tiga library untuk menyelesaikan pekerjaan, yaitu
Matplotlib, Seaborn, dan Plotly. Jika Anda benar-benar pemula untuk Python, saya
sarankan untuk memulai dan membiasakan diri dengan Matplotlib dan Seaborn.
Berikut adalah dokumentasi untuk Matplotlib, dan di sini adalah satu untuk Seaborn.
Saya sangat menyarankan untuk meluangkan waktu membaca dokumentasi, dan
Ini dilakukan dengan perpustakaan Plotly, dan Anda akan mendapatkan bagan interaktif
yang terlihat seperti ini:
def df_to_plotly(df):
return {'z': df.values.tolist(),
'x': df.columns.tolist(),
'y': df.index.tolist() }
import plotly.graph_objects as go
dfNew = df.corr()
fig = go.Figure(data=go.Heatmap(df_to_plotly(dfNew)))
fig.show()
Kode-kode di atas akan menghasilkan matriks korelasi yang mirip dengan yang di atas:
Menjalankan kode di atas akan memberi Anda plot yang terlihat seperti berikut ini:
202
1 1 Analisis Data
Biro Bahan Ajar E-learning dan MKCU
202
1 1 Analisis Data
Biro Bahan Ajar E-learning dan MKCU
202
1 1 Analisis Data
Biro Bahan Ajar E-learning dan MKCU
Daftar Pustaka
https://towardsdatascience.com/a-beginners-guide-to-data-analysis-in-python-
188706df5447
202
1 1 Analisis Data
Biro Bahan Ajar E-learning dan MKCU