0% menganggap dokumen ini bermanfaat (0 suara)
19 tayangan25 halaman

Webinar2 DataScienceforPredictiveModelling TessyBadriyah

Dokumen ini membahas tentang data science untuk pemodelan prediktif. Topik utama meliputi pendahuluan data science, pemodelan prediktif, dan workshop pemodelan prediktif menggunakan Python.

Diunggah oleh

BagasSamudra
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
19 tayangan25 halaman

Webinar2 DataScienceforPredictiveModelling TessyBadriyah

Dokumen ini membahas tentang data science untuk pemodelan prediktif. Topik utama meliputi pendahuluan data science, pemodelan prediktif, dan workshop pemodelan prediktif menggunakan Python.

Diunggah oleh

BagasSamudra
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 25

DATA SCIENCE FOR PREDICTIVE MODELING

Tessy Badriyah, PhD.


Politeknik Elektronika Negeri Surabaya (PENS), INDONESIA

Data Mining and Data Science


webinar series #2
25 Agustus 2020
OUTLINE

 Pendahuluan
 Data Science
 Predictive Modeling
 Workshop Predictive
Modeling dengan Python
Courtesy: https://docs.microsoft.com/en-us/azure/machine-learning/team-data-science-process/lifecycle
PENDAHULUAN
• Berbagai aktivitas kegiatan dalam kehidupan secara langsung maupun tidak
memerlukan pengelolaan data
• Contoh:
• Bank : menabung, transfer, deposit.
• Reservasi : hotel, pesawat, kereta api.
• Belanja : toko, mall, supermarket.
• Dan lain-lain.

DATA EVOLUTION

Pengetahuan/
Data Mentah Informasi Decision
Knowledge
DARI INFORMASI MENJADI PENGETAHUAN
Tahapan Data Mining

 Adanya ledakan data


dengan pertumbuhan
data secara eksponensial
BIG DATA
• Istilah Big Data muncul pertama kali pada sekitar tahun 2000-an, ketika
definisi Big Data dijelaskan dalam 3V oleh seorang analist bernama
Doug Laney
• Volume, data yang disimpan oleh suatu organisasi dalam jumlah yang besar
• Velocity, ada kebutuhan untuk dapat mengakses data besar tersebut dengan
cepat
• Variety, data berasal dari berbagi macam variasi format data.

FORMAT DATA
• Berikut ini 3 jenis Format data:
• Structured, relational database (RDBMS)
• Semi-Structured, XML, JSON
• Unstructured, document, jurnal, metadata, gambar, video, file teks, audio, ebooks,
email message, social media, dll.
BIG DATA AND DATA SCIENCE
• Bidang ilmu Data Science berkaitan dengan penyelesaian
permasalahan kompleks menggunakan data, tidak hanya data
terstruktur seperti SQL tapi juga data yang tidak terstruktur dan
semi-terstruktur dari era kemunculan Big Data.

• Data science adalah aplikasi dari proses data mining dan


menggunakan metode machine learning dalam domain yang
spesifik.

• Menurut survey, saat ini data science merupakan pekerjaan yang


paling banyak dicari, bisa disebut sebagai the sexiest job of the
twenty‐first century.
DATA SCIENCE
PREDICTIVE MODELING / PREDICTIVE ANALYTICS

• Menggunakan data historical untuk memprediksi kejadian yang


terjadi berikutnya.

• Data historical adalah data yang sudah diketahui atribut


outputnya => disebut dengan data training => digunakan untuk
men-generate model.

• Model yang dihasilkan kemudian diaplikasikan ke dalam data


testing (data testing = data yang terjadi berikutnya yang tidak
diketahui atribut output nya).
PYTHON PROGRAMMING
• Mengapa menggunakan Python?
• Karena kita perlu bekerja dengan pemrograman multipurpose,
simple, dengan Bahasa yang efisien
 Functional
 Imperative
 Object‐oriented
 Procedural
GOOGLE COLAB
• Dan untuk menjalankan pemrograman python kita gunakan google
colab yang dapat diakses pada : colab.research.google.com
• Sebelumnya, anda harus login dulu dengan akun googlemail.
PEMBELAJARAN SEDERHANA
• Loading data
• Training sebuah data
• Menampilkan hasilnya

• from sklearn.datasets import load_boston


• Boston=load_boston()
• X, y = Boston.data, Boston.target
• from sklearn.linear_model import LinearRegression
• hypothesis = Linearregression(normalize=True_
• hypothesis.fit(X,y)
• print(hypothesis.coef_)
PEMBELAJARAN SEDERHANA
WORKSHOP PREDICTIVE MODELING

• Berfokus pada sub bidang yang spesifik yaitu predictive


modeling.

• Bidang ini paling banyak digunakan dalam industry dan


merupakan bidang yang menggunakan banyak menggunakan
scikit-learn library yang ada di Python.

• Predictive modeling berfokus pada pengembangan model yang


membuat prediksi yang akurat
PREDICTIVE MODELING WORKFLOW
• Mendefinisikan masalah: melakukan investigasi dan mengkarakterisasi
persoalan dalam rangka memahami tujuan project.
• Menganalisa Data: Menggunakan descriptive statistics dan visualisasi untuk
bisa lebih memahami data yang digunakan.
• Mempersiapkan Data: Menggunakan transformasi data untuk mendapatkan
struktur data yang lebih baik dari persoalan prediksi dari algoritma
pemodelan.
• Mengevaluasi Algoritma: Mendesain pengujian yang dapat mengevaluasi
jumlah algoritma standart pada data dan memilih beberapa yang paling baik
untuk bisa diinvestigasi lebih lanjut.
• Meningkatkan hasil: Menggunakan algorithm tuning dan metode ensemble
untuk mendapatkan performansi yang lebih baik.
• Mempresentasikan hasil: Menyelesaikan model, membuat prediksi dan
mempresentasikan hasilnya.
LOAD CSV FILES DENGAN PANDAS

• # Load CSV using Pandas


• from pandas import read_csv
• filename = 'diabetes.csv'
• names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
• data = read_csv(filename, names=names)
• print(data.shape)
MELIHAT ISI DATA

• # Menampilkan 20 baris pertama


• from pandas import read_csv
• filename = "pima-indians-diabetes.data.csv"
• names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
• data = read_csv(filename, names=names)
• peek = data.head(20)
• print(peek)
DESCRIPTIVE STATISTICS
• # Menampilkan 20 baris pertama
• from pandas import read_csv
• # Ringkasan Statistik
• from pandas import read_csv
• from pandas import set_option
• filename = "pima-indians-diabetes.data.csv"
• names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
• data = read_csv(filename, names=names)
• set_option('display.width', 100)
• set_option('precision', 3)
• description = data.describe()
• print(description)
DISTRIBUSI CLASS (HANYA UNTUK KLASIFIKASI)

• # Distribusi Class
• from pandas import read_csv
• filename = "pima-indians-diabetes.data.csv"
• names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
• data = read_csv(filename, names=names)
Output :
• class_counts = data.groupby('class').size() class
0 500
• print(class_counts) 1 268
KORELASI DIANTARA ATRIBUT
• # Korelasi menggunakan Pairwise Pearson
• from pandas import read_csv
• from pandas import set_option
• filename = "pima-indians-diabetes.data.csv"
• names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
• data = read_csv(filename, names=names)
• set_option('display.width', 100)
• set_option('precision', 3)
• correlations = data.corr(method='pearson')
• print(correlations)
Pemodelan dengan Logistic Regression
Teknik sampling: train_test_split
 Evalusi menggunakan data training dan data testing
 from pandas import read_csv
 from sklearn.model_selection import train_test_split
 from sklearn.linear_model import LogisticRegression
 filename = 'pima-indians-diabetes.data.csv'
 names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
 dataframe = read_csv(filename, names=names)
array = dataframe.values

Output :
X = array[:,0:8]

Accuracy: 75.591%
 Y = array[:,8]
 test_size = 0.33
 seed = 7
 X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size,
 random_state=seed)
 model = LogisticRegression()
 model.fit(X_train, Y_train)
20
 result = model.score(X_test, Y_test)
 print("Accuracy: %.3f%%") % (result*100.0)
Teknik sampling :
k-fold Cross Validation
 # Evaluasi menggunakan Cross Validation
 from pandas import read_csv
 from sklearn.model_selection import KFold
 from sklearn.model_selection import cross_val_score
 from sklearn.linear_model import LogisticRegression
 filename = 'pima-indians-diabetes.data.csv'
 names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
 dataframe = read_csv(filename, names=names)
 array = dataframe.values
 X = array[:,0:8] Output :
 Y = array[:,8] Accuracy: 76.951% (4.841%)
 num_folds = 10
 seed = 7
 kfold = KFold(n_splits=num_folds, random_state=seed)
 model = LogisticRegression()
 results = cross_val_score(model, X, Y, cv=kfold)
21
 print("Accuracy: %.3f%% (%.3f%%)") % (results.mean()*100.0, results.std()*100.0)
Tuning Parameter pada Algoritma
Support Vector Machine (SVM)

22
Tuning Parameter pada Algoritma
Support Vector Machine (SVM)

23
PENUTUP
Telah diselesaikan, pembelajaran webinar series #2 dengan topik Data
Science for Predictive Modeling, dengan pembahasan topik sebagai
berikut:
• Pendahuluan
• Data Science
• Predictive Modeling
• Workshop Predictive Modeling dengan Python

Semoga ilmu yang dipelajari dapat bermanfaat, aamiin …


Mohon maaf atas segala kekurangan dan terima kasih.

Anda mungkin juga menyukai