01-Introduction To Python For Data Analysis
01-Introduction To Python For Data Analysis
MODUL 2
Introduction to
Python for Data Analysis
Outline
• What is Data Analysis?
• Why Data Analysis using Python?
• Most Commonly used Libraries for Data Analysis
• Data Analysis using NumPy
• Data Analysis using Pandas
● Di materi ini kita akan mempelajari apa itu data analysis, mengapa data analysis perlu menggunakan Python, dan library yang sering digunakan untuk
data analysis.
● Selanjutnya kita pelajari gambaran penggunaan numpy dan pandas untuk data analysis.
Slide 3
● Data Analysis adalah cara untuk mengeksplorasi temuan-temuan penting dan mengkomunikasikan pola-pola yang ditemukan pada data.
● Khususnya di area yang kaya dengan informasi, Data Analysis dapat dilakukan dengan penggunaan keilmuan statistik, ilmu pemrograman komputer, dan
riset.
● Data Analysis sering kali juga menggunakan visualisasi data untuk mengkomunikasikan insight yang diperoleh.
● Singkatnya, Data Analysis adalah proses ilmiah yang mengubah data menjadi insight atau temuan berharga untuk pengambilan keputusan yang lebih
baik.
● Data Analysis bertujuan untuk mendapatkan insight atau temuan yang dapat ditindaklanjuti ke proses pengambilan keputusan untuk mendapatkan hasil
bisnis yang lebih baik.
Slide 5
● Python adalah bahasa pemrograman open source yang sudah terinterpretasi serta tergolong bahasa pemrograman tingkat tinggi.
● Python juga menyediakan pendekatan yang bagus untuk object-oriented programming.
● Python termasuk salah satu bahasa terbaik yang digunakan oleh Data Scientist untuk berbagai proyek atau aplikasi Data Science.
● Python juga menyediakan berbagai library untuk operasi matematika, statistik, scientific function, dan library yang mendukung penerapan Data Science.
● Salah satu alasan mengapa Python banyak digunakan dalam Data Analysis adalah kemudahaan pengunaan dan syntax-nya yang sederhana.
● Sehingga mudah untuk diadaptasi bagi orang-orang yang tidak memiliki latar belakang coding.
Slide 7
● Selanjutnya kita akan bahas library yang paling sering digunakan untuk Data Analysis.
Slide 8
NumPy Pandas
NumPy is Python library that provides Pandas is one of the most popular Python
mathematical function to handle large library for data manipulation and analysis.
dimension array.
● Library yang paling sering digunakan dalam Data Analysis adalah NumPy dan Pandas.
● Meskipun, sebenarnya banyak library di Python untuk Data Analysis seperti SciPy, Seaborn, dan Matplotlib.
● NumPy adalah library Python yang menyediakan fungsi-fungsi matematika untuk menangani array berdimensi yang besar.
● Lalu, Pandas adalah salah satu library paling terkenal di Python untuk data manipulation and analysis.
Slide 9
• NumPy provides various method/function for Array, Metrics, and linear algebra.
• NumPy stands for Numerical Python and provides lots of useful features for operations on
n-arrays and matrices in Python.
• This library provides vectorization of mathematical operations on the NumPy array type,
which enhance performance and speeds up the execution.
• It’s very easy to work with large multidimensional arrays and matrices using NumPy.
10
● NumPy menyediakan banyak fungsi untuk array, metrics dan aljabar linear.
● NumPy adalah Numerical Python library yang menyediakan banyak fitur untuk operasi pada array 1 dimensi, 2 dimensi atau 3 dimensi, serta matriks
dalam Python.
● Library ini menyediakan vektorisasi operasi matematika pada tipe array NumPy dimana hal ini akan meningkatkan kinerja dan mempercepat eksekusi
sebuah operasi Data Analysis.
● Dengan NumPy, sangat mudah untuk mengolah data matriks dan array multidimensi besar.
Slide 11
● Pandas memiliki metode atau fungsi paling memudahkan untuk Data Analysis, serta menyediakan fungsi untuk memanipulasi data terstruktur dalam
jumlah besar.
● Pandas adalah alat yang sempurna untuk data wrangling seperti pembersihan data serta dirancang untuk manipulasi, agregasi, dan visualisasi data yang
cepat dan mudah.
● Ada dua struktur data di Pandas, yaitu:
● Pertama, Pandas Series untuk mengolah dan menyimpan data satu dimensi.
● Kedua, Pandas DataFrame untuk mengolah dan menyimpan data dua dimensi.