0% menganggap dokumen ini bermanfaat (0 suara)
2 tayangan48 halaman

M12 DS25-Python Dan Library Data Science

Dokumen ini memberikan pengantar tentang penggunaan Python dalam data science dan big data, termasuk keunggulan bahasa pemrograman ini serta penerapannya dalam industri. Selain itu, dijelaskan juga tentang berbagai library Python yang penting seperti NumPy, Pandas, dan Matplotlib, serta cara instalasi dan penggunaan Jupyter Notebook dan Google Colaboratory untuk analisis data. Contoh penerapan data mining menggunakan Google Colab juga disertakan, menunjukkan langkah-langkah dalam mengelompokkan pelanggan berdasarkan perilaku belanja.

Diunggah oleh

bicisha
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
2 tayangan48 halaman

M12 DS25-Python Dan Library Data Science

Dokumen ini memberikan pengantar tentang penggunaan Python dalam data science dan big data, termasuk keunggulan bahasa pemrograman ini serta penerapannya dalam industri. Selain itu, dijelaskan juga tentang berbagai library Python yang penting seperti NumPy, Pandas, dan Matplotlib, serta cara instalasi dan penggunaan Jupyter Notebook dan Google Colaboratory untuk analisis data. Contoh penerapan data mining menggunakan Google Colab juga disertakan, menunjukkan langkah-langkah dalam mengelompokkan pelanggan berdasarkan perilaku belanja.

Diunggah oleh

bicisha
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 48

TE - UG

Team Teaching
PYTHON DAN DATA SCIENCE LIBRARY
SAINS DATA DAN ANALISIS BIG DATA

UNIVERSITAS GUNADARMA
Agenda
1) PENGENALAN PYTHON
2) DATA SCIENCE LIBRARY
3) JUPYTER NOTEBOOK DAN GOOGLE COLABORATORY
PENGENALAN PYTHON
SESSION 1
MENGAPA PYTHON?

Data Professional

• Bahasa pemrograman tingkat • Data Analyst • Cocok untuk pemula


tinggi • Data Engineer • Sederhana tapi powerful
• Penulisan kode/sintaks lebih • Data Scientist • High-demand skill
sederhana dan tersedia banyak • ML Engineer
library
• Bersifat open-source dan
cross- platform
• Diluncurkan oleh Guido Van
Rosum pada tahun 1991.
KEUNGGULAN PYTHON

• Readibility, Python mudah dibaca dan dipahami


• Efisien, memiliki library yang lengkap sehingga
penulisan coding dapat lebih sederhana
• Multifungsi, dengan menggunakan Python dapat
membuat website, aplikasi bidang robotika,
aplikasi bidang kecerdasan artifisial.
• Interoperabilitas, Python mampu berinteraksi
dengan Bahasa pemrograman lainnya
• Dukungan komunitas, Python merupakan
program open source, dan komunitas Python
sangat aktif dalam melakukan pengembangan
MENGAPA PYTHON?

Talenta digital

Data Professional
MENGAPA PYTHON?

Python Menjadi yang Pertama dalam Daftar Keahlian yang Paling Dibutuhkan
PYTHON PADA INDUSTRI

Python digunakan pada YouTube

“YouTube runs millions of lines of Python code. The


front-end server that drives youtube.com and
YouTubes APIs is primarily written in Python, and it
serves millions of requests per second!"
—Dylan Trotter, Youtube Engineer, 2017
PYTHON PADA INDUSTRI

Python digunakan pada Quora

“We decided that Python was fast enough for most of what
we need to do (since we push our performance-critical
code to backend servers written in C++ whenever
possible). As far as type checking, we ended up writing very
thorough unit tests which are worth writing and achieve
most of the same goals.”
— Adam D’Angelo, C E O Quora, 2014
PYTHON PADA INDUSTRI

Python Digunakan pada Beberapa Industri


PENERAPAN PYTHON PADA PROYEK DATA SCIENCE

Data • Scraping, crawling, data mining


Exploration • Coding, query

• Seleksi fitur, statistika deskriptif, class balancing,


Data Pre-
visualisasi data
Processing
• Transformasi fitur: Categorical encoding, binning

Data • Menangani nilai kosong (missing values), menghapus baris


Cleansing terduplikasi
• Data formating, menangani data pencilan (outliers)

Data
• Melatih data dengan algoritma machine learning
Modeling
• Melakukan klasifikasi, regresi, prediksi, klasterisasi
MEMULAI PYTHON

➢Python adalah bahasa interpreter, yang dapat mengurangi siklus edit-test-debug


karena tidak memerlukan langkah kompilasi
➢Untuk menjalankan Python, pengguna memerlukan runtime/interpreter
environment untuk mengeksekusi kode:
• Mode interaktif: Setiap perintah yang pengguna tulis akan langsung ditafsirkan dan segera
dieksekusi sehingga bisa langsung melihat hasilnya
• Mode skrip: Pengguna memasukkan satu set kode Python ke dalam format .py, program
dijalankan baris demi baris

.py
KONSEP IPYTHON: REPL ENVIRONMENT

Read • Proses membaca code

Eval • Proses evaluasi


(eksekusi) code

Print • Proses menampilkan


hasil (output)

Loop • Pengulangan proses R-E-P


INSTALISASI PYTHON

1. Buka website python.org


INSTALISASI PYTHON

2. Klik Downloads
3. Kemudian pilih Sistem
operasi yang digunakan
INSTALISASI PYTHON

4. Pilih windows 64-bit atau


32 -bit
INSTALISASI PYTHON

5. Buka program lalu pilih install now


6. Install selesai
INSTALASI PYTHON (WINDOWS)

1. Buka browser, kunjungi http://www.python.org/downloads/windows/ Tergantung


dari versi windows yang dipergunakan maka pilih versi stabil (stable version)
yang akan didownload python-3.9.6 atau python-3.8.10
2. Buka (dengan melakukan klik 2x) file installer python yang baru saja didownload
• Ikuti langkah instalasi sampai selesai
• Cek apakah python berhasil terpasang:
• Buka promp Command > Ketikkan python atau pyton3
• Jika terpasang maka akan ditampilkan versi pythonnya
DATA SCIENCE LIBRARY
SESSION 2
LIBRARY PADA PYTHON

• Library adalah kumpulan modul


yang berisi fungsi, class, dan objek
yang siap pakai yang dapat digunakan
untuk menyelesaikan tugas tertentu.
• Jenis library pada python:
1. Library bawaan
2. Library eksternal
INSTALASI LIBRARY PADA PYTHON

• Instalasi melalui pip pada command


prompt

• Contoh
• pip install numpy
• pip install scikit-learn
NUMPY

• Library NumPy (Numerical Python)


adalah pustaka Python yang In [6]: import numpy as np
digunakan untuk komputasi numerik In [7]: np_height = np.array(height)
dan ilmiah (https://numpy.org/) In [8]: np_height

• Jika library belum terpasang, tuliskan Out[8]: array([1.84, 1.79, 1.82, 1.9, 1.8])

In [9]: np_weight = np.array(weight)


perintah instalasi:
In [10]: np_weight
• pip install numpy Out[10]: array([66.5, 60.3, 64.7, 89.5, 69.8])

• Import numpy: In [11]: bmi = np_weight / np_height ** 2

• import numpy as np In [12]: bmi


Out[12]: array([19.64201323, 18.81963734,
19.53266514, 24.79224377, 21.54320988])
NUMPY

• NumPy juga dapat digunakan untuk


membuat array berdimensi-n In [13]: import numpy as np

In [14]: np_height = np.array([1.84, 1.79, 1.82, 1.9, 1.8])

In [15]: np_weight = np.array([66.5, 60.3, 64.7, 89.5, 69.8])

In [16]: type(np_height)
Out[16]: numpy.ndarray

In [16]: type(np_weight)
Out[16]: numpy.ndarray
In [17]: np_2d = np.array([[1, 2, 3, 4, 5],
[6, 7, 8, 9, 10]])

In [18]: np_2d
Out[18]: array([[ 1, 2, 3, 4, 5],
[ 6, 7, 8, 9, 10]])

In [19]: np_2d.shape
Out[19]: (2, 5)
SCIPY

• SciPy merupakan library yang bersifat open source dan tersedia di


https://www.scipy.org/
• SciPy dibangun untuk untuk bekerja dengan NumPy array dan menyediakan
kumpulan algoritma numerik, termasuk pemrosesan sinyal, optimasi, statistika,
dan library Matplotlib untuk visualisasi data.
• Jika library belum terpasang, tuliskan perintah instalasi:
• pip install scipy
PANDAS

• Pandas merupakan library di


Python yang digunakan untuk data
structure dan data analysis ➢ Data Wrangling / Data Munging
• Bersifat open source dan tersedia 1. Reshaping (mengubah bentuk data)
di https://pandas.pydata.org/ 2. Joining (menggabungkan data)
3. Splitting (pemisahan data)
• Instalasi pandas: 4. Time-series analysis (data berkala)
• pip install pandas
• Import pandas: ➢ Data Cleansing
1. Membersihkan data tidak lengkap (Error)
• import pandas as pd 2. Menangani data pencilan (outliers)
3. Menghapus data duplikat
REPRESENTASI DATA DI PANDAS

• Terdapat 2 data objects: Series dan


DataFrame

• Series : Data berbentuk 1 dimensi


In [13]: np.array([1, 2, 3, 4, 5])
Out[13]: array([1, 2, 3, 4, 5])

• DataFrame : Data berbentuk 2 dimensi


atau lebih
In [14]: np.array([[1, 2], [3, 4]])
Out[14]: array([[1, 2],
[3, 4]])
PANDAS

In [3]: import pandas as pd


• Pandas dapat mengimpor data dari
In [4]: Tab = pd.read_csv(“Tab.csv”)
berbagai format: comma-separated
value (CSV), file teks, Microsoft In [5]: Tab
Out[5]:
Excel, database SQL, dan format
HDF5
• CSV file : DataFrame
Tab.csv
Negara,Populasi,Area,Ibukota
IN,Indonesia,250,123456,Jakarta
MA,Malaysia,25,3456,KL In [6]: Tab[“Negara”] # akses kolom
SI,Singapura,15,456,Singapura Out[6]:
JP,Jepang,60,5678,Tokyo
TH,Thailand,45,678,Bangkok
MATPLOTLIB

• Matplotlib adalah library Python untuk


visualisasi data dengan dua dimensi
Bar chart
• Bersifat open source dan tersedia di
https://matplotlib.org/
• Matplotlib berkaitan dengan NumPy dan
Pandas
• Instalasi matplotlib Line chart
pip install matplotlib
• Kemudian impor
import matplotlib.pyplot as plt
Scatter plot
MATPLOTLIB

In [1]: import matplotlib.pyplot as plt

In [2]: year = [1980, 1990, 2000, 2010, 2020]

In [3]: price = [2.5, 7.6, 9.7, 15.8, 22.9]

In [4]: plt.plot(year, price)

In [5]: plt.show()
MATPLOTLIB

In [6]: plt.scatter(year, price) In [7]: plt.bar(year, price)


SEABORN

• Seaborn adalah library visualisasi data


Python (serupa dengan Matplotlib) yang Heatmap
menyediakan high- level interface untuk
menggambar grafik statistika yang
informatif
• Library ini bersifat open source dan
tersedia di https://seaborn.pydata.org/ Line chart
• Instalasi seabord
pip install seaborn
• Import Seaborn
import seaborn as sns Scatter plot
SCIKIT-LEARN

• Scikit-learn adalah library untuk ➢ Classification


mempraktikkan machine learning dan • Support Vector Machines
membuat model • Decision Tree
• Bersifat open source dan tersedia di • Random Forest Neural
• Network Network
https://scikit-learn.org/
• Nearest Neighbors
• Scikit-learn diawali dari project SciPy
(Scientific Python) yang berisi fungsi- ➢ Clustering
fungsi matematis • K-Means Clustering
• Hierarchical Clustering
• Instalasi scikit-learn:
pip install sklearn ➢ Model selection
• Import scikit-learn: • Cross validation
• Metrics
import sklearn
JUPYTER NOTEBOOK DAN GOOGLE
COLABORATORY
SESSION 3
JUPYTER NOTEBOOK

• Jupyter notbook merupakan Lingkungan


pemrograman interaktif berbasis web yang
mendukung berbagai bahasa pemrograman
termasuk Python
• Banyak digunakan oleh peneliti dan akademisi
untuk pemodelan matematika, machine learning,
analisis statistik, dan untuk pengajaran
pemrograman
INSTALASI JUPYTER NOTEBOOK

• Di command prompt > pip install jupyter

atau

• Jika sudah memiliki Anaconda Navigator,


bisa dilihat apakah status Launch / Install.
Jika install maka berarti belum terpasang,
klik satu kali untuk menginstall.
• Klik Launch untuk menjalankan/ mengaktif-
kan.
JUPYTER NOTEBOOK

• Setelah beberapa saat, jupyter akan membuka laman http://localhost:8888/ yang merupakan laman
depan dari Jupyter notebook (disebut laman Notebook Dashboard).

Klik tombol New → pilih Python 3


BAGIAN UTAMA PADA JUPYTER NOTEBOOK
JUPYTER NOTEBOOK

• Skrip dapat ditulis dalam bentuk:


• Code : Algoritma dan formula matematis
• Markdown/Heading : Teks deskripsi, penjelasan code
• Raw NBConvert : Konversi format yang berbeda
• Hasil dapat diketahui langsung setelah menjalankan perintah Run
GOOGLE COLABORATORY

• Google Colab adalah layanan berbasis cloud dari Google yang digunakan untuk menulis dan
menjalankan kode Python langsung dari browser, tanpa perlu instalasi lokal.
• Akses link https://colab.research.google.com di browser anda untuk mengakses google colab.
GOOGLE COLABORATORY

• Skrip dalam google colab dapat ditulis dalam bentuk:


1. Code : Algoritma dan formula matematis
2. Teks : Teks deskripsi, penjelasan code
CONTOH DATA MINING MENGGUNAKAN GOOGLE COLABORATORY

• Tujuan Data Mining: Mengelompokkan pelanggan berdasarkan perliaku belanja Menggunakan algoritma
Clustering (K-Means)
• Dataset: Online Retail Dataset (UCI Repository)
• Deskripsi Dataset: Dataset berisi transaksi penjualan dari perusahaan retail selama tahun 2010–2011
• Fitur dalam dataset: InvoiceNo, StockCode, Description, Quantity, InvoiceDate, UnitPrice, CustomerID,
Country.
LANGKAH IMPLEMENTASI

• Import Library
• Pandas
• Matloplib
• Seaborn
• KMeans
LANGKAH IMPLEMENTASI

➢ Membaca dataset online retail dari UCI Machine Learning Repository


➢ Menampilkan 5 baris pertama dari dataset df
LANGKAH IMPLEMENTASI

➢ Melakukan permbersihan data dengan hanya menampilkan data transaksi penjualan yang valid
➢ Menghapus baris Costumer ID yang kosong
LANGKAH IMPLEMENTASI

➢ Menghitung total belanja setiap


transaksi
➢ Menghitung ringkasan
pembelian setiap costumer
➢ Menampilkan data hasil
agregasi
LANGKAH IMPLEMENTASI

➢ Segmentasi pelanggan
berdasarkan pola belanja
menggunakan clustering
dengan algoritma Kmeans
➢ Visualisasi Cluster
LANGKAH IMPLEMENTASI

➢ Segmentasi pelanggan
berdasarkan pola belanja
menggunakan clustering
dengan algoritma Kmeans
➢ Visualisasi Cluster
LANGKAH IMPLEMENTASI

➢ Menghitung rata-rata setiap


cluster
➢ Visualisasi rata-rata setiap
cluster

Anda mungkin juga menyukai