0% menganggap dokumen ini bermanfaat (0 suara)

19 tayangan25 halaman

Webinar2 DataScienceforPredictiveModelling TessyBadriyah

Dokumen ini membahas tentang data science untuk pemodelan prediktif. Topik utama meliputi pendahuluan data science, pemodelan prediktif, dan workshop pemodelan prediktif menggunakan Python.

Diunggah oleh

BagasSamudra

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

19 tayangan25 halaman

Webinar2 DataScienceforPredictiveModelling TessyBadriyah

Dokumen ini membahas tentang data science untuk pemodelan prediktif. Topik utama meliputi pendahuluan data science, pemodelan prediktif, dan workshop pemodelan prediktif menggunakan Python.

Diunggah oleh

BagasSamudra

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 25

DATA SCIENCE FOR PREDICTIVE MODELING

Tessy Badriyah, PhD.

Politeknik Elektronika Negeri Surabaya (PENS), INDONESIA

Data Mining and Data Science

webinar series #2
25 Agustus 2020
OUTLINE

 Pendahuluan
 Data Science
 Predictive Modeling
 Workshop Predictive
Modeling dengan Python
Courtesy: https://docs.microsoft.com/en-us/azure/machine-learning/team-data-science-process/lifecycle
PENDAHULUAN
• Berbagai aktivitas kegiatan dalam kehidupan secara langsung maupun tidak
memerlukan pengelolaan data
• Contoh:
• Bank : menabung, transfer, deposit.
• Reservasi : hotel, pesawat, kereta api.
• Belanja : toko, mall, supermarket.
• Dan lain-lain.

DATA EVOLUTION

Pengetahuan/
Data Mentah Informasi Decision
Knowledge
DARI INFORMASI MENJADI PENGETAHUAN
Tahapan Data Mining

 Adanya ledakan data

dengan pertumbuhan
data secara eksponensial
BIG DATA
• Istilah Big Data muncul pertama kali pada sekitar tahun 2000-an, ketika
definisi Big Data dijelaskan dalam 3V oleh seorang analist bernama
Doug Laney
• Volume, data yang disimpan oleh suatu organisasi dalam jumlah yang besar
• Velocity, ada kebutuhan untuk dapat mengakses data besar tersebut dengan
cepat
• Variety, data berasal dari berbagi macam variasi format data.

FORMAT DATA
• Berikut ini 3 jenis Format data:
• Structured, relational database (RDBMS)
• Semi-Structured, XML, JSON
• Unstructured, document, jurnal, metadata, gambar, video, file teks, audio, ebooks,
email message, social media, dll.
BIG DATA AND DATA SCIENCE
• Bidang ilmu Data Science berkaitan dengan penyelesaian
permasalahan kompleks menggunakan data, tidak hanya data
terstruktur seperti SQL tapi juga data yang tidak terstruktur dan
semi-terstruktur dari era kemunculan Big Data.

• Data science adalah aplikasi dari proses data mining dan

menggunakan metode machine learning dalam domain yang
spesifik.

• Menurut survey, saat ini data science merupakan pekerjaan yang

paling banyak dicari, bisa disebut sebagai the sexiest job of the
twenty‐first century.
DATA SCIENCE
PREDICTIVE MODELING / PREDICTIVE ANALYTICS

• Menggunakan data historical untuk memprediksi kejadian yang

terjadi berikutnya.

• Data historical adalah data yang sudah diketahui atribut

outputnya => disebut dengan data training => digunakan untuk
men-generate model.

• Model yang dihasilkan kemudian diaplikasikan ke dalam data

testing (data testing = data yang terjadi berikutnya yang tidak
diketahui atribut output nya).
PYTHON PROGRAMMING
• Mengapa menggunakan Python?
• Karena kita perlu bekerja dengan pemrograman multipurpose,
simple, dengan Bahasa yang efisien
 Functional
 Imperative
 Object‐oriented
 Procedural
GOOGLE COLAB
• Dan untuk menjalankan pemrograman python kita gunakan google
colab yang dapat diakses pada : colab.research.google.com
• Sebelumnya, anda harus login dulu dengan akun googlemail.
PEMBELAJARAN SEDERHANA
• Loading data
• Training sebuah data
• Menampilkan hasilnya

• from sklearn.datasets import load_boston

• Boston=load_boston()
• X, y = Boston.data, Boston.target
• from sklearn.linear_model import LinearRegression
• hypothesis = Linearregression(normalize=True_
• hypothesis.fit(X,y)
• print(hypothesis.coef_)
PEMBELAJARAN SEDERHANA
WORKSHOP PREDICTIVE MODELING

• Berfokus pada sub bidang yang spesifik yaitu predictive

modeling.

• Bidang ini paling banyak digunakan dalam industry dan

merupakan bidang yang menggunakan banyak menggunakan
scikit-learn library yang ada di Python.

• Predictive modeling berfokus pada pengembangan model yang

membuat prediksi yang akurat
PREDICTIVE MODELING WORKFLOW
• Mendefinisikan masalah: melakukan investigasi dan mengkarakterisasi
persoalan dalam rangka memahami tujuan project.
• Menganalisa Data: Menggunakan descriptive statistics dan visualisasi untuk
bisa lebih memahami data yang digunakan.
• Mempersiapkan Data: Menggunakan transformasi data untuk mendapatkan
struktur data yang lebih baik dari persoalan prediksi dari algoritma
pemodelan.
• Mengevaluasi Algoritma: Mendesain pengujian yang dapat mengevaluasi
jumlah algoritma standart pada data dan memilih beberapa yang paling baik
untuk bisa diinvestigasi lebih lanjut.
• Meningkatkan hasil: Menggunakan algorithm tuning dan metode ensemble
untuk mendapatkan performansi yang lebih baik.
• Mempresentasikan hasil: Menyelesaikan model, membuat prediksi dan
mempresentasikan hasilnya.
LOAD CSV FILES DENGAN PANDAS

• # Load CSV using Pandas

• from pandas import read_csv
• filename = 'diabetes.csv'
• names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
• data = read_csv(filename, names=names)
• print(data.shape)
MELIHAT ISI DATA

• # Menampilkan 20 baris pertama

• from pandas import read_csv
• filename = "pima-indians-diabetes.data.csv"
• names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
• data = read_csv(filename, names=names)
• peek = data.head(20)
• print(peek)
DESCRIPTIVE STATISTICS
• # Menampilkan 20 baris pertama
• from pandas import read_csv
• # Ringkasan Statistik
• from pandas import read_csv
• from pandas import set_option
• filename = "pima-indians-diabetes.data.csv"
• names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
• data = read_csv(filename, names=names)
• set_option('display.width', 100)
• set_option('precision', 3)
• description = data.describe()
• print(description)
DISTRIBUSI CLASS (HANYA UNTUK KLASIFIKASI)

• # Distribusi Class
• from pandas import read_csv
• filename = "pima-indians-diabetes.data.csv"
• names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
• data = read_csv(filename, names=names)
Output :
• class_counts = data.groupby('class').size() class
0 500
• print(class_counts) 1 268
KORELASI DIANTARA ATRIBUT
• # Korelasi menggunakan Pairwise Pearson
• from pandas import read_csv
• from pandas import set_option
• filename = "pima-indians-diabetes.data.csv"
• names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
• data = read_csv(filename, names=names)
• set_option('display.width', 100)
• set_option('precision', 3)
• correlations = data.corr(method='pearson')
• print(correlations)
Pemodelan dengan Logistic Regression
Teknik sampling: train_test_split
 Evalusi menggunakan data training dan data testing
 from pandas import read_csv
 from sklearn.model_selection import train_test_split
 from sklearn.linear_model import LogisticRegression
 filename = 'pima-indians-diabetes.data.csv'
 names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
 dataframe = read_csv(filename, names=names)
array = dataframe.values

Output :
X = array[:,0:8]

Accuracy: 75.591%
 Y = array[:,8]
 test_size = 0.33
 seed = 7
 X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size,
 random_state=seed)
 model = LogisticRegression()
 model.fit(X_train, Y_train)
20
 result = model.score(X_test, Y_test)
 print("Accuracy: %.3f%%") % (result*100.0)
Teknik sampling :
k-fold Cross Validation
 # Evaluasi menggunakan Cross Validation
 from pandas import read_csv
 from sklearn.model_selection import KFold
 from sklearn.model_selection import cross_val_score
 from sklearn.linear_model import LogisticRegression
 filename = 'pima-indians-diabetes.data.csv'
 names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
 dataframe = read_csv(filename, names=names)
 array = dataframe.values
 X = array[:,0:8] Output :
 Y = array[:,8] Accuracy: 76.951% (4.841%)
 num_folds = 10
 seed = 7
 kfold = KFold(n_splits=num_folds, random_state=seed)
 model = LogisticRegression()
 results = cross_val_score(model, X, Y, cv=kfold)
21
 print("Accuracy: %.3f%% (%.3f%%)") % (results.mean()*100.0, results.std()*100.0)
Tuning Parameter pada Algoritma
Support Vector Machine (SVM)

22
Tuning Parameter pada Algoritma
Support Vector Machine (SVM)

23
PENUTUP
Telah diselesaikan, pembelajaran webinar series #2 dengan topik Data
Science for Predictive Modeling, dengan pembahasan topik sebagai
berikut:
• Pendahuluan
• Data Science
• Predictive Modeling
• Workshop Predictive Modeling dengan Python

Semoga ilmu yang dipelajari dapat bermanfaat, aamiin …

Mohon maaf atas segala kekurangan dan terima kasih.

Anda mungkin juga menyukai

Python For Data Analytics (Buku Ajar)
Belum ada peringkat
Python For Data Analytics (Buku Ajar)
7 halaman
Ebook Phytondatascience l2t1
Belum ada peringkat
Ebook Phytondatascience l2t1
21 halaman
Pemodelan Data
Belum ada peringkat
Pemodelan Data
131 halaman
Machine Learning Dengan Menggunakan Bahasa Python
Belum ada peringkat
Machine Learning Dengan Menggunakan Bahasa Python
11 halaman
P Roses Data Mining
Belum ada peringkat
P Roses Data Mining
40 halaman
Data Science With Python
100% (1)
Data Science With Python
27 halaman
Panduan Praktikum Data Mining Menggunakan Python 2020
100% (1)
Panduan Praktikum Data Mining Menggunakan Python 2020
63 halaman
Pendahuluan: Piramida Data
Belum ada peringkat
Pendahuluan: Piramida Data
148 halaman
Proyek Pemodelan Data Dengan Python
Belum ada peringkat
Proyek Pemodelan Data Dengan Python
28 halaman
Step by Step To Data Science Project
Belum ada peringkat
Step by Step To Data Science Project
14 halaman
DSF - Klasifikasi Dan Evaluasi
Belum ada peringkat
DSF - Klasifikasi Dan Evaluasi
51 halaman
Jobsheet 9 - Herlambang & Candra
Belum ada peringkat
Jobsheet 9 - Herlambang & Candra
30 halaman
Data Preprocessing PDF
Belum ada peringkat
Data Preprocessing PDF
12 halaman
Fundamental Data Analyst: Minggu Ke - 2
Belum ada peringkat
Fundamental Data Analyst: Minggu Ke - 2
19 halaman
Introduction and Basic Statistical With Python
Belum ada peringkat
Introduction and Basic Statistical With Python
16 halaman
Peran Python Dalam Prediksi Data
Belum ada peringkat
Peran Python Dalam Prediksi Data
21 halaman
MySkill X Lion Parcel - Short Class Data Science Fundamental
Belum ada peringkat
MySkill X Lion Parcel - Short Class Data Science Fundamental
8 halaman
MySkill X Lion Parcel - Short Class Data Science Fundamental
Belum ada peringkat
MySkill X Lion Parcel - Short Class Data Science Fundamental
8 halaman
Kelompok 4 - BDA C - Analisis Projek UTS
Belum ada peringkat
Kelompok 4 - BDA C - Analisis Projek UTS
47 halaman
Bab 2
Belum ada peringkat
Bab 2
11 halaman
Kelompok Tomodachi
Belum ada peringkat
Kelompok Tomodachi
28 halaman
Learning Progress Review Week 9
Belum ada peringkat
Learning Progress Review Week 9
35 halaman
Tool ML 3#2024
Belum ada peringkat
Tool ML 3#2024
48 halaman
LKS SMK Tingkat Provinsi Jawa Tengah
Belum ada peringkat
LKS SMK Tingkat Provinsi Jawa Tengah
24 halaman
UAS DATA MINING - Veronika Julien201230029 - Utin Rahmawati 221230014
Belum ada peringkat
UAS DATA MINING - Veronika Julien201230029 - Utin Rahmawati 221230014
16 halaman
Pertemuan 6 - Studi Kasus Model Regresi Linier Dan Implementasi Python-HDG
Belum ada peringkat
Pertemuan 6 - Studi Kasus Model Regresi Linier Dan Implementasi Python-HDG
24 halaman
Pertemuan 4 Ai
Belum ada peringkat
Pertemuan 4 Ai
31 halaman
Pertemuan-03-Membangun Skenario Pemodelan
Belum ada peringkat
Pertemuan-03-Membangun Skenario Pemodelan
19 halaman
Modul 3 - Klasifikasi
Belum ada peringkat
Modul 3 - Klasifikasi
17 halaman
Module 2 - Data Preprocessing
Belum ada peringkat
Module 2 - Data Preprocessing
38 halaman
G1F021020 - Alvin Indrawan - Laporan Tugas 2 CEI
Belum ada peringkat
G1F021020 - Alvin Indrawan - Laporan Tugas 2 CEI
13 halaman
Implementasi Model Data Mining Dalam Prediksi Diabetes Menggunakan Alforitma Random Forest Calssifier Dan Logistic Regression
Belum ada peringkat
Implementasi Model Data Mining Dalam Prediksi Diabetes Menggunakan Alforitma Random Forest Calssifier Dan Logistic Regression
13 halaman
G - L200200249 - Carissa Aprilia Pranowo - Modul8 Dan 9
Belum ada peringkat
G - L200200249 - Carissa Aprilia Pranowo - Modul8 Dan 9
15 halaman
Project Big Data
Belum ada peringkat
Project Big Data
17 halaman
G - L200200122 - Adi Mas Setiawan - Modul8 Dan 9
Belum ada peringkat
G - L200200122 - Adi Mas Setiawan - Modul8 Dan 9
17 halaman
TUGAS BESAR 1 PDM - Farrel Syach Zahran - 41520010125
Belum ada peringkat
TUGAS BESAR 1 PDM - Farrel Syach Zahran - 41520010125
12 halaman
Modul 1 - Exploratory Data Analysis
Belum ada peringkat
Modul 1 - Exploratory Data Analysis
12 halaman
5 Implementasi Machine Learning Menggunakan Bahasa Python
Belum ada peringkat
5 Implementasi Machine Learning Menggunakan Bahasa Python
22 halaman
Laporan Tugas
Belum ada peringkat
Laporan Tugas
12 halaman
Hello World ML
Belum ada peringkat
Hello World ML
5 halaman
TP1-W3-S5-R0-2502120462 - Ali Zaenal A.A
Belum ada peringkat
TP1-W3-S5-R0-2502120462 - Ali Zaenal A.A
9 halaman
Diabetes Prediction
Belum ada peringkat
Diabetes Prediction
6 halaman
Makalah Presentasi
Belum ada peringkat
Makalah Presentasi
7 halaman
9429 25824 1 PB
Belum ada peringkat
9429 25824 1 PB
7 halaman
Fadhlur Rahman Aulia Abdullah - IT-45-02 - SISCER
Belum ada peringkat
Fadhlur Rahman Aulia Abdullah - IT-45-02 - SISCER
24 halaman
Menggunakan Data Science Untuk Mengembangkan Bisnis Bagi Data Scientist
Belum ada peringkat
Menggunakan Data Science Untuk Mengembangkan Bisnis Bagi Data Scientist
11 halaman
5333-Article Text-15188-1-10-20220820
Belum ada peringkat
5333-Article Text-15188-1-10-20220820
6 halaman
Banknotes 0.py
Belum ada peringkat
Banknotes 0.py
4 halaman
Klasifikasi in Spark (Regresi Logistik)
Belum ada peringkat
Klasifikasi in Spark (Regresi Logistik)
5 halaman
Modul4 2
Belum ada peringkat
Modul4 2
5 halaman
UTS Data Science Ridhoghifari 2011010130
Belum ada peringkat
UTS Data Science Ridhoghifari 2011010130
4 halaman
Optimalisasi Sistem Prediksi Diabetes Menggunakan Random Forest Dan Evaluasi
Belum ada peringkat
Optimalisasi Sistem Prediksi Diabetes Menggunakan Random Forest Dan Evaluasi
5 halaman
Modul Mahasiswa Week 2 - Classification
Belum ada peringkat
Modul Mahasiswa Week 2 - Classification
16 halaman
Machine Learning With Python For Beginner
Belum ada peringkat
Machine Learning With Python For Beginner
6 halaman
BAB 3 Penalaran Dan Prediksi Berdasarkan Data
Belum ada peringkat
BAB 3 Penalaran Dan Prediksi Berdasarkan Data
6 halaman
Modelling Data
Belum ada peringkat
Modelling Data
2 halaman
(PUBLIC) (B2C) Data Science Milestone - Data Science
Belum ada peringkat
(PUBLIC) (B2C) Data Science Milestone - Data Science
1 halaman
Data Mining
Belum ada peringkat
Data Mining
8 halaman
BAB 2d Modulasi Digital MQAM
Belum ada peringkat
BAB 2d Modulasi Digital MQAM
35 halaman
01 Dasar Sistem Komunikasi
Belum ada peringkat
01 Dasar Sistem Komunikasi
40 halaman
BAB 2a Modulasi Digital ASK-FSK
Belum ada peringkat
BAB 2a Modulasi Digital ASK-FSK
21 halaman
BAB 2c Modulasi Digital QPSK Dan Offset QPSK
Belum ada peringkat
BAB 2c Modulasi Digital QPSK Dan Offset QPSK
31 halaman
Minggu 5. Transformasi Laplace
Belum ada peringkat
Minggu 5. Transformasi Laplace
32 halaman
05 Perc. 5. Low-Pass Dan High-Pass Filter
Belum ada peringkat
05 Perc. 5. Low-Pass Dan High-Pass Filter
4 halaman
Persamaan Diferensial
Belum ada peringkat
Persamaan Diferensial
28 halaman
Perulangan 2
Belum ada peringkat
Perulangan 2
22 halaman
Bab01 - Konsep Dasar Tentang Konvergensi Dan NGN
Belum ada peringkat
Bab01 - Konsep Dasar Tentang Konvergensi Dan NGN
18 halaman
Teori Comparator Op-Amp
Belum ada peringkat
Teori Comparator Op-Amp
15 halaman
Rencana Pembelajaran Semester Program Studi Sarjana Terapan Teknik Telekomunikasi Departemen Teknik Elektro
Belum ada peringkat
Rencana Pembelajaran Semester Program Studi Sarjana Terapan Teknik Telekomunikasi Departemen Teknik Elektro
4 halaman
04 Perc. 4. Band-Pass Filter Passive
Belum ada peringkat
04 Perc. 4. Band-Pass Filter Passive
5 halaman