Modul Data Analytics (2)
Modul Data Analytics (2)
THEORY
U LTA C H E N R I , S . KO M . , M . KO M
Y U Y U N U M A I D A H , S . KO M . , M . KO M
DATA ANALYTIC | 1
KATA PENGANTAR
DATA ANALYTIC | 2
DAFTAR ISI
DATA ANALYTIC | 3
KONSEP DATA ANALYTICS
"Without big data analytics, companies are blind and deaf, wandering out onto the web like deer
on a freeway."— Geoffrey Moore, management consultant and author of Crossing the Chasm
Salah satu keahlian yang wajib dimiliki oleh seorang praktisi data adalah Analisis data (Data
Analytics). Dalam melakukan proses analisis data dibutuhkan pemikiran yang kritis serta
kemampuan problem solving yang baik, karena kemampuan ini diperlukan agar dapat menentukan
metode analisis data yang tepat. Penggunaan metode analisis data yang tepat sangat berpengaruh
pada hasil analisis. Jika keliru memilih metode analisis data, bisa jadi hasil yang diinginkan tidak
tercapai sehingga tentu saja akan membuang waktu dan tenaga. Data Analyst dan Data Scientist
merupakan profesi di bidang data yang menuntut kemampuan analisis data yang baik. Kedua
profesi tersebut juga menjadi profesi yang banyak dicari di era big data seperti sekarang.
DATA ANALYTIC | 4
Dengan terjadinya perubahan kultur dan perilaku di masa boomingnya social media,
maka data yang dihasilkan oleh masing-masing pribadi itu akan sangat banyak, sebagai
perbandingan dibidang astronomi: Sloan Digital Sky Survey di New Mexico pada tahun 2000
berhasil mengumpulkan data sebanyak 140 TB selama 10 tahun, sedangkan Large Synoptic
Survey Telescope di Chile pada tahun 2016 mengumpulkan data sebanyak 140TB setiap 5
hari. Pada tahun 2025, diperkirakan sebanyal 75 milliar perangkat IoT dan sebanyak 463 EB
data akan dibuat setiap hari secara global dan itu setara dengan 212,765,957 DVD per hari.
Pada tahun 2030, diperkirakan sebanyak 90% dari populasi yang berusia diatas 6 tahun akan
melakukan aktifitas secara daring. Pada bidang web dan social networks, Google memproses
sebanyak 100PB data per hari, dengan 3 juta server, Facebook memiliki sebanyak 300PB data
user setiap hari, dan Youtube memiliki 1000PB penyimpanan video. Dan itu kemungkinan
besar akan terus bertambah.
Hirarki Pengetahuan:
Data
Fakta yang terekam dan tidak membawa arti
Informasi
Data yang telah diolah sedemikian rupa sehingga
memiliki makna tertentu bagi pengguna
Knowledge
Pola, rumus, aturan atau model yang muncul dari
data
Data harus kita olah menjadi pengetahuan supaya bisa bermanfaat bagi manusia, data yang
kita kumpulkan tidak akan berarti apa-apa tanpa adanya proses selanjutnya.
“You can have data without information, but you cannot have information without data.”
— Daniel Keys Moran
DATA ANALYTIC | 5
1.1.2. ANALYTIC
Analitik adalah istilah luas yang mencakup proses, teknologi, kerangka kerja, dan
algoritma untuk mengekstrak wawasan yang bermakna dari data. Data mentah itu sendiri tidak
memiliki makna sampai dikontekstualisasikan dan diolah menjadi informasi yang berguna.
Analisis adalah proses mengekstraksi dan membuat informasi dari data mentah ini dengan
memfilter, memproses, mengkategorikan, memadatkan, dan mengontekstualisasikan data.
Informasi yang diperoleh ini kemudian terorganisir dan terstruktur untuk menyimpulkan
pengetahuan tentang sistem dan/atau penggunanya, lingkungannya, dan operasi serta progress
untuk mencapai tujuan, sehingga membuat sistem lebih cerdas dan lebih efisien.
Pilihan teknologi, algoritma, dan kerangka kerja untuk analitik didorong oleh tujuan
analitik aplikasi. Tujuan analitik antara lain:
a) Memprediksi sesuatu (misalnya apakah suatu transaksi adalah penipuan atau bukan,
apakah akan hujan hari tertentu, atau apakah tumor jinak atau ganas),
b) Untuk menemukan pola dalam data (misalnya, menemukan 10 hari terdingin teratas
dalam setahun, menemukan halaman mana yang dikunjungi sebagian besar di situs web
tertentu, atau menemukan selebriti yang paling banyak dicari di tahun tertentu),
c) Menemukan hubungan dalam data (misalnya, menemukan artikel berita serupa,
menemukan yang serupa pasien dalam sistem catatan kesehatan elektronik, menemukan
produk terkait di eCommerce situs web, menemukan gambar serupa, atau menemukan
korelasi antara item berita dan harga saham).
DATA ANALYTIC | 6
Mapping between types of analytics and seven computational tasks or ‘giants’
1. Deskriptif
Menjelaskan keadaan bisnis saat ini melalui data historis. Contoh bisa data laba rugi
bulanan, data pelanggan. Memahami informasi demografi pada pelanggan mereka akan
dikategorikan sebagai “deskriptif analitik”. Memanfaatkan alat visualisasi yang efektif
meningkatkan pesan analisis deskriptif. Analisis deskriptif menjawab pertanyaan
tentang “apa yang terjadi” dengan merangkum data-data dari masa lalu, biasanya
dalam bentuk dashboard.
Di antara tujuh tugas komputasi seperti yang ditunjukkan pada Gambar diatas, tugas
seperti Basic Statistics and Linear Algebraic Computations dapat digunakan untuk
analitik deskriptif.
2. Diagnostik
Menjelaskan mengapa suatu masalah terjadi dengan melihat data historis. Jika, pada
analisis deskriptif dapat menjawab pertanyaan tentang “apa yang terjadi”, sedangkan
pada analisis diagnostik dapat menjawab tentang “mengapa itu terjadi”. Analisis
diagnostik mengambil wawasan yang ditemukan dari analisis deskriptif untuk
menemukan penyebab dari hasil tersebut. Organisasi memanfaatkan jenis analisis
diagnostik karena dapat menciptakan lebih banyak koneksi antara data dan
DATA ANALYTIC | 7
mengidentifikasi pola perilaku. Aspek penting dari analisis diagnostik adalah
menciptakan informasi terperinci.
Di antara tujuh tugas komputasi, tugas komputasi seperti Linear Algebraic
Computations, General N-Body Problems, and Graph-theoretic Computations dapat
digunakan untuk analitik diagnostik.
3. Prediktif
Memproyeksikan atau memprediksi hasil masa depan berdasarkan data historis.
Analisis prediktif berupaya menjawab pertanyaan “apa yang mungkin terjadi”. Jenis
analisis ini memanfaatkan data sebelumnya untuk membuat prediksi tentang hasil masa
depan. Jenis analisis prediktif adalah langkah lain dari analisis deskriptif dan diagnostik.
Analisis prediktif menggunakan data yang telah diringkas untuk membuat prediksi logis
dari hasil peristiwa. Analisis ini bergantung pada pemodelan statistik yang
membutuhkan teknologi tambahan dan sumber daya manusia untuk diperkirakan.
Di antara tujuh tugas komputasi, tugas-tugas seperti Linear Algebraic Computations,
General N-Body Problems, Graph-theoretic Computations, Integration and Alignment
Problems dapat digunakan untuk analitik prediktif.
4. Preskriptif
Sementara analitik prediktif menggunakan model prediksi untuk memprediksi
kemungkinan hasil dari suatu peristiwa, analitik preskriptif menggunakan beberapa
model prediksi untuk memprediksi berbagai hasil dan tindakan terbaik untuk setiap
hasil. Analisis preskriptif bertujuan untuk menjawab “Apa yang bisa kita lakukan
untuk mewujudkannya?” Analisis Preskriptif dapat memprediksi kemungkinan hasil
berdasarkan pilihan tindakan saat ini.
Di antara tujuh tugas komputasi, tugas-tugas seperti General N-Body Problems,
Graphtheoretic Computations, Optimization and Alignment Problems dapat digunakan
untuk preskriptif Analytics.
DATA ANALYTIC | 8
tahun terakhir, telah terjadi pertumbuhan eksponensial baik itu data terstruktur ataupun tidak
terstruktur yang dihasilkan oleh teknologi informasi, industri, perawatan kesehatan, Internet
of Things, dan sistem lainnya.
Big Data memiliki potensi untuk mendukung aplikasi pintar generasi berikutnya
yang akan memanfaatkan kekuatan data untuk membuat aplikasi cerdas. Aplikasi big data
mencakup berbagai domain seperti web, ritel dan pemasaran, perbankan dan
keuangan,industri, perawatan kesehatan, lingkungan, Internet of Things, dan sistem cyber-
fisik.
Beberapa contoh big data tercantum sebagai berikut:
a) Data yang dihasilkan oleh jejaring sosial termasuk data teks, gambar, audio dan video
b) Data click-stream yang dihasilkan oleh aplikasi web seperti e-Commerce untuk
menganalisis perilaku pengguna
c) Data sensor mesin yang dikumpulkan dari sensor yang tertanam dalam sistem industri
dan energi untuk memantau kinerja dari mesin dan mendeteksi kegagalan
d) Data healthcare yang dikumpulkan dalam sistem catatan kesehatan elektronik
e) Log yang dihasilkan oleh aplikasi web
f) Data pasar saham
g) Data transaksional yang dihasilkan oleh aplikasi perbankan dan keuangan
DATA ANALYTIC | 9
2. Velocity
Velocity (Kecepatan) data mengacu pada seberapa cepat data dihasilkan. Data yang
dihasilkan oleh sumber tertentu dapat tiba dengan kecepatan yang sangat cepat, misalnya,
data media sosial atau data sensor. Kecepatan adalah karakteristik penting lainnya dari
big data dan alasan utama untuk eksponensial dari pertumbuhan data. Kecepatan data
yang tinggi menghasilkan volume data yang terakumulasi menjadi sangat besar, dalam
rentang waktu yang singkat. Beberapa aplikasi dapat memiliki tenggat waktu yang ketat
untuk analisis data (seperti perdagangan atau deteksi penipuan online) dan data perlu
dianalisis secara real-time. Alat khusus diperlukan untuk menyerap data berkecepatan
tinggi tersebut ke dalam infrastruktur big data dan menganalisis data secara real-time.
3. Variety
Variety (Variasi) mengacu pada bentuk data. Big data hadir dalam berbagai bentuk seperti
terstruktur, tidak terstruktur atau semi-terstruktur, termasuk data teks, gambar, audio,
video, dan data sensor. Sistem Big Data harus cukup fleksibel untuk menangani berbagai
data tersebut.
4. Veracity
Veracity (Kebenaran) mengacu pada seberapa akurat data tersebut. Untuk mengekstrak
nilai dari data, data perlu dibersihkan untuk menghilangkan kebisingan. Aplikasi berbasis
data hanya dapat menuai manfaat dari big data ketika data bermakna dan akurat. Oleh
karena itu, pembersihan data penting agar data yang salah dan salah dapat disaring.
5. Value
Value (Nilai) data mengacu pada kegunaan data untuk tujuan yang dimaksudkan. Tujuan
akhir dari setiap sistem analitik big data adalah untuk mengekstrak nilai dari data. Nilai
data juga terkait dengan kebenaran atau keakuratan data. Untuk beberapa nilai aplikasi
juga tergantung pada seberapa cepat kita dapat memproses data.
DATA ANALYTIC | 10
1. Web
a. Web Analytics
Analisis web berkaitan dengan pengumpulan dan analisis data pada kunjungan
pengguna di situs web dan aplikasi cloud. Analisis data ini dapat memberikan
wawasan tentang keterlibatan pengguna dan melacak kinerja kampanye iklan online.
b. Performance Monitoring
Aplikasi web dan cloud multi-tier seperti e-Commerce, Business-to-Business,
Healthcare, Perbankan dan Keuangan, Ritel dan Aplikasi Jejaring Sosial, mengalami
perubahan beban kerja yang sangat cepat. Untuk memastikan kesiapan pasar dari
aplikasi tersebut, sumber daya yang memadai perlu disediakan sehingga aplikasi
dapat memenuhi tuntutan tingkat beban kerja yang ditentukan dan pada saat yang
sama memastikan bahwa layanan terpenuhi.
c. Ad Targeting & Analytics
Pencarian dan tampilan Iklan adalah dua pendekatan yang paling banyak digunakan
untuk iklan Internet. Dalam pencarian iklan, pengguna ditampilkan ("iklan"),
bersama dengan hasil pencarian, saat mereka mencari kata kunci tertentu pada mesin
pencari. Pengiklan dapat membuat iklan menggunakan iklan jaringan yang
disediakan oleh mesin pencari atau jaringan media sosial. Menampilkan iklan, adalah
bentuk lain dari iklan Internet, di mana iklan ditampilkan dalam situs web, video, dan
aplikasi seluler yang berpartisipasi dalam iklan jaringan. Iklan dapat berupa iklan
berbasis teks atau gambar.
d. Content Recommendation
Aplikasi yang menyajikan konten (seperti aplikasi streaming musik dan video),
mengumpulkan berbagai jenis data seperti pola pencarian pengguna dan riwayat
penelusuran, riwayat konten yang dikonsumsi, dan peringkat pengguna. Aplikasi
semacam itu dapat memanfaatkan sistem big data untuk merekomendasikan konten
baru ke pengguna berdasarkan preferensi dan minat pengguna. Sistem rekomendasi
menggunakan dua pendekatan kategori yaitu rekomendasi berbasis pengguna dan
rekomendasi berbasis item.
DATA ANALYTIC | 11
2. Financial
a. Credit Risk Modeling
Lembaga perbankan dan keuangan menggunakan pemodelan risiko kredit untuk
menilai aplikasi kredit dan memprediksi apakah peminjam akan gagal bayar atau
tidak di masa mendatang. Model risiko kredit dibuat dari data pelanggan yang
mencakup, skor kredit diperoleh dari biro kredit, riwayat kredit, data saldo akun,
transaksi akun data dan pola pengeluaran pelanggan.
b. Fraud Detection
Lembaga Perbankan dan Keuangan dapat memanfaatkan sistem big data untuk
mendeteksi penipuan seperti penipuan kartu kredit, pencucian uang, dan Penipuan
klaim asuransi. Kerangka kerja analitik big data real-time dapat membantu dalam
menganalisis data dari sumber yang berbeda dan transaksi label secara real-time.
Model pembelajaran mesin dapat dibangun untuk mendeteksi anomali dalam
transaksi dan mendeteksi aktivitas penipuan.
3. Healthcare
Ekosistem perawatan kesehatan terdiri dari banyak entitas termasuk penyedia layanan
Kesehatan (dokter perawatan primer, spesialis, atau rumah sakit), pembayar (pemerintah,
kesehatan swasta perusahaan asuransi, pengusaha), perusahaan farmasi, perangkat dan
layanan medis, TI perusahaan solusi dan layanan, dan pasien. Proses penyediaan layanan
kesehatan melibatkan data perawatan kesehatan besar-besaran yang ada dalam berbagai
bentuk (terstruktur atau tidak terstruktur), disimpan di sumber data yang berbeda (seperti
database relasional, atau server file) dan di banyak sumber data dengan format yang
berbeda. Beberapa contoh aplikasi perawatan kesehatan yang memperoleh manfaat dari
sistem big data, antara lain:
a. Epidemiological Surveillance
Sistem Surveilans Epidemiologis mempelajari distribusi dan penentu keadaan atau
peristiwa terkait kesehatan dalam populasi tertentu dan menerapkan studi ini untuk
diagnosis penyakit yang sedang diawasi di tingkat nasional untuk mengendalikan
masalah kesehatan.
b. Patient Similarity-based Decision Intelligence Application
DATA ANALYTIC | 12
Kerangka kerja big data dapat digunakan untuk menganalisis data kesehatan untuk
mengekstrak sekelompok catatan pasien yang paling mirip kepada pasien target
tertentu. Mengelompokkan catatan pasien juga dapat membantu dalam
mengembangkan aplikasi prognosis medis yang dapat memprediksi kemungkinan
hasil dari suatu penyakit pasien berdasarkan hasil pasien dengan penyakit serupa.
c. Adverse Drug Events Prediction
Kerangka kerja big data dapat digunakan untuk menganalisis Data kesehatan dan
prediksi pasien mana yang paling berisiko mengalami reaksi yang merugikan
terhadap obat tertentu berdasarkan reaksi obat yang merugikan dari pasien lain.
d. Detecting Claim Anomalies
Perusahaan asuransi kesehatan dapat memanfaatkan sistem Big Data untuk
menganalisis klaim asuransi kesehatan dalam mendeteksi penipuan,
penyalahgunaan, pemborosan, dan Kesalahan.
e. Evidence-based Medicine
Sistem big data dapat menggabungkan dan menganalisis data dari berbagai sumber,
termasuk hasil laboratorium tingkat individu, diagnostik, perawatan dan data
demografis, untuk mencocokkan perawatan dengan hasil, memprediksi pasien yang
berisiko terhadap sebuah penyakit.
f. Real-time health monitoring
Perangkat elektronik yang memungkinkan pemantauan terus menerus terhadap
parameter fisiologis. Perangkat ini mungkin dalam berbagai bentuk seperti ikat
pinggang dan gelang. Penyedia layanan kesehatan dapat menganalisis data perawatan
kesehatan yang dikumpulkan untuk menentukan kondisi ataupun anomali kesehatan.
Sistem Big Data dapat menganalisis data real-time yang digunakan untuk
menganalisis data dengan volume besar yang bergerak cepat dari perangkat-
perangkat yang terdapat di rumah sakit atau di rumah, untuk pemantauan kesehatan
pasien secara real-time dan prediksi kejadian yang tidak diinginkan.
4. Internet of Things
Internet of Things (IoT) mengacu pada hal-hal yang memiliki identitas unik dan
terhubung ke Internet. "Hal-hal" dalam IoT adalah perangkat yang dapat melakukan
DATA ANALYTIC | 13
penginderaan jauh, menggerakkan dan juga pemantauan. Perangkat IoT dapat bertukar
data dengan perangkat dan aplikasi lain yang terhubung (secara langsung atau tidak
langsung), atau mengumpulkan data dari perangkat lain dan memproses data baik secara
lokal maupun mengirimkan data ke server yang terpusat atau back-end aplikasi berbasis
cloud untuk memproses data, atau melakukan beberapa tugas secara lokal dan tugas lain
dalam infrastruktur IoT, berdasarkan pada batasan sementara dan ruang (yaitu, memori,
kemampuan pemrosesan, komunikasi latensi dan kecepatan, dan tenggat waktu). Sistem
IoT dapat memanfaatkan teknologi big data untuk penyimpanan dan analisis data. Berikut
ini adalah beberapa aplikasi IoT yang memperoleh manfaat dari sistem big data:
a. Intrusion Detection
Sistem deteksi penyusupan yang menggunakan kamera dan sensor keamanan (seperti
sensor PIR dan sensor pintu) untuk mendeteksi penyusupan dan meningkatkan
peringatan. Peringatan dapat berupa SMS atau email yang dikirimkan kepada
pengguna.
b. Smart Parking
Smart Parking membuat pencarian tempat parkir lebih mudah dan nyaman untuk
pengemudi. Smart Parking didukung oleh sistem IoT yang mendeteksi jumlah slot
parkir kosong dan mengirim informasi melalui Internet ke smart aplikasi parkir back-
end. Aplikasi ini dapat diakses oleh pengemudi dari ponsel pintar, tablet, dan sistem
navigasi dalam mobil.
c. Smart Roads
Smart Roads yang dilengkapi dengan sensor dapat memberikan informasi tentang
kondisi mengemudi, perkiraan waktu perjalanan dan peringatan jika kondisi
mengemudi yang buruk, lalu lintas kemacetan dan kecelakaan. Informasi tersebut
dapat membantu dalam membuat jalan lebih aman dan membantu mengurangi
kemacetan lalu lintas. Informasi yang dirasakan dari jalan dapat dikomunikasikan
melalui Internet ke aplikasi analitik big data berbasis cloud. Hasil analisis dapat
disebarluaskan kepada pengemudi yang berlangganan aplikasi tersebut atau melalui
sosial media.
DATA ANALYTIC | 14
d. Structural Health Monitoring
Sistem Pemantauan Kelayakan Struktur menggunakan jaringan sensor untuk
memantau tingkat getaran dalam struktur seperti jembatan dan bangunan. Data yang
dikumpulkan dari sensor ini dianalisis untuk menilai kesehatan struktur. Dengan
menganalisis data, dimungkinkan untuk mendeteksi retakan dan kerusakan mekanis,
menemukan kerusakan pada suatu struktur dan juga menghitung sisa umur struktur.
Dengan menggunakan sistem tersebut, peringatan lanjutan dapat diberikan dalam
kasus kegagalan yang mungkin akan segera terjadi.
Struktur.
e. Smart Irrigation
Sistem irigasi cerdas dapat meningkatkan hasil panen sekaligus menghemat Air.
Sistem irigasi pintar menggunakan perangkat IoT dengan sensor kelembaban tanah
untuk menentukan jumlah kelembaban di tanah dan melepaskan aliran air melalui
irigasi pipa hanya ketika tingkat kelembaban berada di bawah ambang batas yang
telah ditentukan. Sistem Irigasi pintar juga mengumpulkan pengukuran tingkat
kelembaban di cloud tempat sistem big data yang dapat digunakan untuk
menganalisis data untuk merencanakan jadwal penyiraman.
5. Environment
a. Weather Monitoring
Sistem pemantauan cuaca dapat mengumpulkan data dari sejumlah
sensor yang terpasang (seperti suhu, kelembaban, atau tekanan) dan mengirim data
ke aplikasi berbasis cloud dan backend analitik big data. Data ini kemudian dapat
dianalisis dan divisualisasikan untuk memantau cuaca dan menghasilkan peringatan
cuaca.
b. Air Pollution Monitoring
Sistem pemantauan polusi udara dapat memantau emisi gas berbahaya (CO2, CO,
NO, atau NO2) oleh pabrik dan mobil menggunakan sensor gas dan meteorologi.
Data yang dikumpulkan dapat dianalisis untuk membuat informasi keputusan tentang
pendekatan pengendalian polusi.
DATA ANALYTIC | 15
c. Noise Pollution Monitoring
Karena perkembangan perkotaan yang meningkat, tingkat kebisingan di kota-kota
telah meningkat dan bahkan menjadi sangat tinggi di beberapa kota. Polusi suara
dapat menyebabkan bahaya kesehatan bagi manusia karena gangguan tidur dan stres.
Pemantauan polusi suara dapat membantu dalam menghasilkan peta kebisingan
untuk kota- kota. Peta kebisingan perkotaan dapat membantu pembuat kebijakan
dalam perencanaan kota dan membuat kebijakan untuk mengendalikan tingkat
kebisingan di dekat daerah perumahan, sekolah dan taman.
d. Forest Fire Detection
Kebakaran hutan dapat menyebabkan kerusakan pada sumber daya alam, properti
dan kehidupan manusia. Mungkin ada berbagai penyebab kebakaran hutan termasuk
petir, kelalaian manusia, letusan gunung berapi dan percikan api dari batu jatuh.
Deteksi dini kebakaran hutan dapat membantu dalam meminimalkan kerusakan.
Sistem deteksi kebakaran hutan gunakan sejumlah node pemantauan yang disebarkan
di lokasi berbeda di hutan. Setiap node pemantauan mengumpulkan pengukuran pada
kondisi sekitar termasuk suhu, kelembaban, tingkat cahaya, misalnya.
e. River Floods Detection
Meluapnya air sungai dapat menyebabkan kerusakan luas pada alam dan sumber
daya manusia dan kehidupan manusia. Luapan sungai terjadi karena curah hujan
yang terus menerus yang menyebabkan permukaan sungai naik dan laju aliran
meningkat dengan cepat. Peringatan dini banjir dapat diberikan dengan memantau
ketinggian air dan laju aliran. Pemantauan luapan sungai sistem menggunakan
sejumlah node sensor yang memantau ketinggian air (menggunakan ultrasonic
sensor) dan laju aliran (menggunakan sensor kecepatan aliran).
f. Water Quality Monitoring
Pemantauan kualitas air dapat membantu untuk mengidentifikasi dan mengendalikan
pencemaran dan kontaminasi air akibat urbanisasi dan industrialisasi. Menjaga
kualitas air yang baik penting untuk menjaga Kesehatan kehidupan tumbuhan dan
hewan. Sistem pemantauan kualitas air menggunakan sensor untuk secara mandiri
dan terus memantau berbagai jenis kontaminasi dalam badan air (seperti kimia,
biologi, dan radioaktif).
DATA ANALYTIC | 16
6. Logistics & Transportation
a. Real-time Fleet Tracking
Sistem pelacakan armada kendaraan menggunakan teknologi GPS untuk melacak
lokasi kendaraan secara real-time. Sistem pelacakan armada berbasis cloud dapat
ditingkatkan sesuai permintaan untuk menangani sejumlah besar kendaraan.
Peringatan dapat dihasilkan di kasus penyimpangan dalam rute yang direncanakan
b. Shipment Monitoring
Solusi manajemen pengiriman untuk sistem transportasi memungkinkan pemantauan
kondisi di dalam kontainer. Misalnya, kontainer yang membawa produk makanan
segar dapat dipantau untuk mendeteksi pembusukan makanan. Sistem Pemantauan
pengiriman menggunakan sensor seperti suhu, tekanan, kelembaban, misalnya, untuk
memantau kondisi di dalam kontainer dan mengirim data ke cloud, di mana ia dapat
dianalisis untuk mendeteksi pembusukan makanan.
c. Remote Vehicle Diagnostics
Sistem diagnostik kendaraan jarak jauh dapat mendeteksi kesalahan di dalam
kendaraan atau memperingatkan kesalahan yang akan datang. Sistem diagnostik ini
menggunakan on-board perangkat untuk mengumpulkan data tentang operasi
kendaraan (seperti kecepatan, RPM mesin, pendingin suhu, atau nomor kode
kesalahan) dan status berbagai sub-sistem kendaraan.
d. Route Generation & Scheduling
Sistem transportasi modern didorong oleh data yang dikumpulkan dari berbagai
sumber yang diproses untuk memberikan layanan baru kepada pemangku
kepentingan. Dengan mengumpulkan data dalam jumlah besar dari berbagai sumber
dan pemrosesan data menjadi informasi yang berguna, sistem transportasi berbasis
data dapat memberikan yang baru layanan seperti panduan rute lanjutan, perutean
kendaraan dinamis, antisipasi permintaan pelanggan untuk masalah pengambilan dan
pengiriman. Pembuatan rute dan sistem penjadwalan dapat menghasilkan rute end-
to-end menggunakan kombinasi rute pola dan moda transportasi serta jadwal yang
layak berdasarkan ketersediaan Kendaraan.
DATA ANALYTIC | 17
e. Hyper-local Delivery
Platform pengiriman hiper-lokal semakin banyak digunakan oleh bisnis seperti
restoran dan toko kelontong untuk memperluas jangkauan mereka. Platform ini
memungkinkan pelanggan untuk memesan produk (seperti bahan makanan dan
makanan) menggunakan web dan aplikasi seluler dan produk bersumber dari toko
lokal (atau restoran). Karena platform ini ditingkatkan untuk melayani sejumlah
besar pelanggan (dengan ribuan transaksi setiap jam), mereka menghadapi berbagai
tantangan dalam memproses pesanan secara Real-time. Sistem analitik big data
secara real-time dapat digunakan oleh pengiriman hiper-lokal platform untuk
menentukan toko terdekat dari lokasi pesanan dan menemukan agen pengiriman di
dekat toko yang dapat mengambil pesanan dan mengirimkannya kepada pelanggan.
f. Cab/Taxi Aggregators
Agregator teknologi transportasi sesuai permintaan memungkinkan pelanggan untuk
memesan taksi menggunakan aplikasi web atau seluler dan permintaan dirutekan ke
taksi terdekat yang tersedia (kadang-kadang bahkan pengemudi pribadi yang
memilih mobil mereka sendiri untuk disewa). Platform agregasi menggunakan sistem
big data untuk pemrosesan permintaan secara real-time dan penetapan harga dinamis.
7. Industry
a. Machine Diagnosis & Prognosis
Prognosis mesin mengacu pada memprediksi kinerja mesin dengan menganalisis data
tentang kondisi operasi saat ini dan penyimpangan dari kondisi operasi normal.
Diagnosis mesin mengacu pada menentukan penyebab kesalahan mesin. Mesin
industri memiliki jumlah yang besar komponen yang harus berfungsi dengan benar
agar mesin dapat melakukan operasinya. Sensor pada mesin dapat memantau kondisi
pengoperasian seperti (suhu dan tingkat getaran).
b. Risk Analysis of Industrial Operations
Di banyak industri, ada persyaratan ketat pada kondisi lingkungan dan kondisi
peralatan kerja. Pemantauan kondisi kerja pekerja penting untuk memastikan
kesehatan dan keselamatan mereka. Gas berbahaya dan beracun seperti karbon
monoksida (CO), nitrogen monoksida (NO), Nitrogen Dioksida (NO2), misalnya,
DATA ANALYTIC | 18
dapat menyebabkan masalah kesehatan yang serius. Gas sistem monitoring dapat
membantu dalam memantau kualitas udara dalam ruangan menggunakan berbagai
gas Sensor.
c. Production Planning and Control
Perencanaan produksi dan sistem kontrol mengukur berbagai parameter proses
produksi dan mengontrol seluruh proses produksi secara real-time. Sistem ini
menggunakan berbagai sensor untuk mengumpulkan data tentang proses produksi.
Sistem big data dapat digunakan untuk menganalisis data ini untuk perencanaan
produksi dan mengidentifikasi potensi masalah.
8. Retail
a. Inventory Management
Manajemen inventaris untuk ritel menjadi semakin meningkat penting dalam
beberapa tahun terakhir dengan persaingan yang berkembang. Sementara over-
stocking dari produk dapat mengakibatkan biaya dan risiko penyimpanan tambahan
(jika terjadi mudah rusak), kurangnya stocking dapat menyebabkan hilangnya
pendapatan. Analisis data persediaan dapat membantu dalam mengoptimalkan
tingkat dan frekuensi stocking ulang berdasarkan permintaan.
b. Customer Recommendations
Sistem big data dapat digunakan untuk menganalisa data pelanggan (seperti data
demografis, riwayat belanja, atau umpan balik pelanggan) dan prediksi preferensi
pelanggan. Produk baru dapat direkomendasikan kepada pelanggan berbasis pada
preferensi pelanggan dan penawaran dan diskon yang dipersonalisasi dapat
diberikan.
c. Store Layout Optimization
Sistem big data dapat membantu dalam menganalisis data pada pola belanja
pelanggan dan umpan balik pelanggan untuk mengoptimalkan tata letak toko. Item
yang lebih mungkin dibeli bersama oleh pelanggan dapat ditempatkan di tempat yang
sama atau rak terdekat.
DATA ANALYTIC | 19
d. Forecasting Demand
Karena jumlah produk yang sangat banyak, variasi musiman dalam tuntutan dan
perubahan tren dan preferensi pelanggan, pengecer merasa sulit untuk perkiraan
permintaan dan volume penjualan. Sistem big data dapat digunakan untuk
menganalisis pola pembelian pelanggan dan memprediksi permintaan dan volume
penjualan.
DATA ANALYTIC | 20
Proses Data Analisis
DATA ANALYTIC | 21
a. Computer Science (Ilmu Komputer)
Pengetahuan tentang ilmu komputer adalah persyaratan dasar bagi setiap analis data.
Dengan memiliki pengetahuan dan pengalaman yang baik dalam ilmu komputer, maka
kita akan dapat mengelola alat yang diperlukan secara efisien untuk analisis data.
Faktanya, setiap langkah tentang analisis data melibatkan penggunaan perangkat lunak
perhitungan (seperti IDL, MATLAB, dll.) dan bahasa pemrograman (seperti C ++, Java,
dan Python). Pengetahuan tentang teknologi informasi diperlukan untuk mengetahui cara
menggunakan berbagai tools, seperti aplikasi dan bahasa pemrograman. Tools ini, pada
gilirannya, diperlukan untuk melakukan analisis data dan visualisasi data.
b. Mathematics and Statistics
Analisis data membutuhkan matematika yang sangat kompleks selama pemrosesan data,
hal ini diperlukan untuk memahami apa proses yang akan dilakukan. Pengetahuan utama
tentang konsep statistik juga diperlukan karena semua metode yang diterapkan dalam
analisis dan interpretasi data didasarkan pada konsep-konsep ini.
Teknik statistik yang paling umum digunakan dalam analisis data adalah Bayesian
methods, Regression dan Clustering.
c. Machine Learning and Artificial Intelligence
Salah satu tools analisis data yang digunakan adalah machine learning. Machine Learning
adalah disiplin ilmu yang menggunakan serangkaian prosedur dan algoritma yang
menganalisis data untuk mengenali pola, cluster, atau tren dan kemudian mengekstrak
informasi yang berguna untuk analisis data secara otomatis. Machine learning ini menjadi
tools dasar analisis data.
DATA ANALYTIC | 22
Namun, manfaat baru yang dibawa oleh analisis big data adalah kecepatan dan
efisiensi. Sementara beberapa tahun yang lalu sebuah bisnis akan mengumpulkan informasi,
menjalankan analitik, dan menggali informasi yang dapat digunakan untuk keputusan di masa
mendatang, kini bisnis dapat mengidentifikasi pengetahuan yang didapat sebagai dasar
pengambilan keputusan segera.
Big data didefinisikan sebagai kumpulan data yang berukuran sangat besar. Ukuran
big data bisa sebesar terabyte bahkan petabyte. Sama seperti data pada umumnya, big data
tetap membutuhkan analisis yang biasa disebut big data analytics. Saat ini, dunia sedang
memasuki masa perkembangan teknologi yang begitu pesat. Fenomena ini berbanding lurus
dengan produksi data yang semakin besar dari waktu ke waktu. Produksi data yang begitu
besar ini mendorong pengusaha untuk mengelola data agar dapat menghasilkan insight yang
akan bermanfaat untuk proses pengambilan keputusan bisnis. Hal ini didukung dengan
banyaknya sumber data yang gratis dan mudah diakses sehingga perusahaan tidak perlu
mengeluarkan banyak dana untuk membeli lisensi sumber data yang biasanya cukup mahal.
Pada dasarnya, big data dibagi menjadi tiga jenis, yaitu big data terstruktur, tidak
terstruktur dan semi terstruktur. Big data terstruktur terdiri dari data yang dapat digunakan
dalam bentuk aslinya. Contohnya catatan gaji karyawan. Sebagian besar komputer dan
aplikasi modern diprogram untuk menghasilkan data terstruktur dalam format preset agar
lebih mudah diproses. Big data tidak terstruktur merupakan data tanpa format yang tepat.
Contohnya teks manusia, hasil penelusuran Google, dan lain sebagainya. Big data tidak
terstruktur membutuhkan waktu dan tahapan analisis yang lebih banyak dibandingkan dengan
big data terstruktur karena data ini memerlukan proses untuk mengkonversi data tidak
terstruktur menjadi data terstruktur. Kumpulan data semi terstruktur adalah kombinasi data
terstruktur dan tidak terstruktur. Kumpulan data ini bisa jadi memiliki struktur yang tepat
namun tidak memiliki elemen penentu untuk filtering dan pemrosesan. Contohnya adalah data
RFID dan XML.
DATA ANALYTIC | 23
yang lebih tinggi, dan pelanggan yang lebih bahagia. Dalam laporannya Big Data in Big
Companies (Big Data dalam Perusahaan Besar), IIA Director of Research Tom Davenport
mewawancarai lebih dari 50 perusahaan untuk memahami bagaimana mereka menggunakan
big data. Ia menemukan bahwa keuntungan yang diperoleh perusahaan-perusahaan tersebut
antara lain:
a. Pengurangan biaya. Teknologi big data seperti Hadoop dan analitik berbasis cloud
membawa keuntungan biaya yang signifikan dalam hal menyimpan data dalam jumlah
besar dan mereka dapat mengidentifikasi cara-cara yang lebih efisien dalam melakukan
bisnis.
b. Pengambilan keputusan lebih cepat dan lebih baik. Dengan kecepatan Hadoop dan
analitik in-memory, dikombinasikan dengan kemampuan untuk menganalisis sumber
data baru, perusahaan dapat menganalisis informasi dengan segera dan mengambil
keputusan berdasarkan apa yang telah mereka pelajari.
c. Produk dan layanan baru. Dengan kemampuan untuk mengukur kebutuhan dan kepuasan
pelanggan melalui analitik, muncul kekuatan untuk memberikan apa yang diinginkan
pelanggan. Davenport menunjukkan bahwa dengan analitik big data, lebih banyak
perusahaan menciptakan produk baru untuk memenuhi kebutuhan pelanggan.
DATA ANALYTIC | 24
1.1.7. Analytics Flow for Big Data
Data Collection
Pengumpulan data adalah langkah pertama untuk aplikasi analitik apa pun. Sebelum data bisa
dianalisis, data harus dikumpulkan dan diserap ke dalam tumpukan (stack) Big Data. Pilihan tools
dan framework untuk pengumpulan data tergantung pada sumber data dan jenis data yang diserap.
Untuk pengumpulan data, berbagai jenis konektor dapat digunakan antara lain sebagai publish-
subscribe messaging frameworks, messaging queues, source-sink connectors, database connectors
dan custom connectors.
DATA ANALYTIC | 25
Data Preparation
Data seringkali bisa kotor dan dapat memiliki berbagai masalah yang harus diselesaikan sebelum
data dapat diproses, seperti catatan yang rusak, nilai yang hilang, duplikat, singkatan yang tidak
konsisten, unit yang tidak konsisten, kesalahan ketik, ejaan yang salah, dan pemformatan yang
salah. Langkah persiapan data melibatkan berbagai tugas seperti pembersihan data, data
wrangling, de-duplikasi, normalisasi, pengambilan sampel, dan penyaringan.
Analysis Types
Langkah selanjutnya dalam alur analisis adalah menentukan jenis analisis untuk aplikasi,
diantaranya adalah Basic Statistics, Regression, Recommendation, Graph Analytics,
Classification, Clustering, Time Series Analysis, Text Analysis, Pattern Mining.
Analysis Modes
Dengan adanya jenis analisis yang dipilih untuk sebuah aplikasi, langkah selanjutnya adalah
menentukan mode analisisnya, yang dapat berupa batch, real-time atau interaktif. Pilihan mode
tergantung pada persyaratan aplikasi. Jika aplikasi Anda menuntut hasil untuk diperbarui setelah
interval waktu yang singkat (katakanlah setiap beberapa detik), maka mode analisis real-time yang
dipilih, Namun jika aplikasi Anda hanya memerlukan hasil yang akan dihasilkan dan diperbarui
pada kurun waktu tertentu (katakanlah harian atau bulanan), maka mode batch dapat digunakan.
Jika aplikasi Anda menuntut fleksibilitas untuk mengkueri data sesuai permintaan, maka mode
interaktif berguna.
Visualizations
Visualisasi dapat bersifat statis, dinamis, atau interaktif. Statis visualisasi digunakan ketika Anda
memiliki hasil analisis yang disimpan dalam database dan Anda hanya ingin menampilkan
hasilnya. Namun, jika aplikasi Anda menuntut hasilnya untuk diperbarui secara berkala, maka
Anda akan memerlukan visualisasi dinamis (dengan widget langsung, plot, atau alat pengukur).
Jika Anda ingin aplikasi Anda menerima input dari pengguna dan menampilkan hasilnya, maka
Anda akan membutuhkan visualisasi yang interaktif.
DATA ANALYTIC | 26
1.2. Data Analytics dan Trend Teknologi Revolusi Industri 4.0
Pada saat ini, bahkan jauh sebelumnya, data menjadi pusat perhatian saat kita bergerak lebih
jauh tentang 'Revolusi industri keempat' atau 'Industri 4.0', dan beberapa mengatakan bahwa data,
dan produk sampingan dari pengumpulan dan analisis data adalah revolusi industri keempat.
Revolusi pertama berjudul Industrial Revolution (Revolusi Industri), yang menggunakan
tenaga uap untuk automise pabrik; revolusi kedua memperkenalkan listrik sebagai sarana untuk
mempercepat industri. Yang ketiga termasuk adopsi komputer, robotika dan internet. Industri 4.0,
atau revolusi keempat, melibatkan menambang informasi, yaitu. data, yang berasal dari sensor,
agregator, Cloud Computing (komputasi awan), dan Internet of Things, yang digunakan untuk
menciptakan lebih banyak keuntungan dan menjalankan perusahaan, pabrik, dan organisasi
dengan lebih efisien.
Teknologi lanjutan yang telah berevolusi karena revolusi industri keempat telah sangat
mambantu industri dan masyarakat dengan menghubungkan proses dan sistem yang sebelumnya
tidak terhubung, menciptakan wawasan dan inovasi baru, dan munculnya Artificial Intelligence
(kecerdasan buatan). Karena pentingnya dan sentralisasi data, bidang ilmu data science telah
berkembang pesat. Data scientists saat ini dapat mengandalkan model machine learning, algoritme
komputasi, dan visualisasi untuk mengekstrak pengetahuan dari kumpulan data besar (Big Data),
untuk lebih memahami informasi apa yang sebelumnya diperoleh dari sistem yang berbeda.
DATA ANALYTIC | 27
proporsi cukup besar akan terjadi untuk penggunaan teknologi lainnya di Revolusi Industri 4.0
seperti internet of things, machine learning, dan cloud computing.
Society 5.0
“The essence of Society 5.0 is that it will become possible to quickly elicit the most suitable
solution that meets the needs of each individual”. Shinzo Abe, Prime Minister of Japan
Seiring dengan perkembangan zaman, berbagai konsep teknologi pun turut berkembang
dengan pesat. Salah satunya adalah konsep society 5.0 yang pertama kali digagas oleh negara
Jepang. Konsep ini bertujuan untuk memudahkan kebutuhan manusia dengan penggunaan ilmu
pengetahuan berbasis teknologi modern. Society 5.0 adalah konsep dimana kita menggunakan
ilmu pengetahuan (IoT, big data, AI, robotik, dst) untuk "melayani" kebutuhan manusia. Society
5.0 adalah "super smart society" dimana inovasi yang dilakukan bukan semata hanya mengejar
inovasi teknologi melainkan melihat apa kebutuhan dari masyarakatnya.
Istilah Society 5.0 sendiri baru populer sejak 2 tahun yang lalu, tepatnya pada 21 Januari 2019,
yang diusulkan dalam Rencana Dasar Sains dan Teknologi ke-5 oleh mantan Perdana Menteri
Jepang Shinzo Abe. Istilah ini menjadi perkembangan atas revolusi industri 4.0 atau Society 4.0.
Inilah sebabnya kedua konsep tersebut tidak memiliki banyak perbedaan. Hanya saja, keduanya
memiliki fokus yang berbeda. Revolusi industry 4.0 cenderung menjadi konsep yang memudahkan
DATA ANALYTIC | 28
kehidupan manusia dengan adanya AI sebagai komponen utama. Sementara Society 5.0 adalah
pemanfaatan teknologi modern, namun masih mengandalkan manusia sebagai komponen
utamanya.
DATA ANALYTIC | 29
DATA SCIENCE METHODOLOGY
“An issue with current data science methodologies is that the impact of contextual awareness is
underestimated since the problem is much more complex. At times we incorrectly equate
correlation with causation based on incomplete data or lack of understanding sensitive
dependencies between data sets.” ― Tom Golway
Metodologi data science adalah langkah-langkah digunakan dalam proyek data science
agar dapat menghasilkan hasil yang optimal yang dapat menjawab pertanyaan dari suatu masalah
yang ingin diselesaikan. Metodologi ini tidak bergantung pada teknologi atau tools tertentu. Secara
umum terdapat dua kelompok metodologi, metodologi teknis dan metodologi bisnis.
Terdapat 2 jenis Metodologi didalam data science, yaitu metodologi kegiatan teknis dan
metodologi kegiatan bisnis (dan teknis) yang disebut juga metodologi lengkap. Dalam Metodologi
teknis ada 2 contoh diantaranya Metodologi Knowledge Discovery and data Mining (KDD) dan
Metodologi Sample, Emplore, Modify, Model dan Assess (SEMMA). Dan untuk metodologi
lengkap beberapa contoh diantaranya: Cross-Industry Standard Process for Data Mining (CRISP-
DM), IBM Data Science Methodology, Microsoft’s Team Data Science Process, dan Domino
DataLab Methodology.
DATA ANALYTIC | 30
Metodologi KDD
https://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf
KDD merupakan proses pemanfaatan metoda Data Mining untuk mengekstraksi pengetahuan
sesuai dengan ukuran atau threshold yang ditentukan. Proses dimulai dengan adanya sekumpulan
data (dataset) yang akan mengalami serangkaian proses sebagai berikut:
a. Selection: Pemilihan data (data target) yang akan menjadi sampel untuk proses selanjutnya.
b. Preprocessing data: Melakukan serangkaian proses untuk melengkapi data dan menjaga
konsistensi data.
c. Transformation: Mengubah representasi data untuk mempermudah dan memperbaiki agar
sesuai dengan Teknik data mining yang akan dipergunakan
d. Data Mining: Kegiatan pengembangan model untuk mencari pola dari data yang diberikan
e. Evaluation: Proses interpretasi dan evaluasi pola yang diperoleh apakah pola yang menarik,
berguna atau relevan.
SEMMA merupakan singkatan dari Sample, Emplore, Modify, Model, dan Assess. Metode
ini dapat ditemukan oleh SAS Institute yang dapat digunakan untuk memudahkan penggguna
untuk memprediksi tentang variable-variabel yang mengacu melakukan proses sebuah proyek data
mining. Proses data mining SEMMA dapat digunakan dengan mudah dan mudah dipahami proses
yang terkait dalam pemeliharaan proyek data mining. Proses data mining SEMMA memiliki 5
DATA ANALYTIC | 31
proses tahapan yaitu Sample, Explore, Modify, Model, dan Assess, dari masing-masing tersebut
memiliki peran sendiri dalam proses data mining dan memiliki manfaat dalam proses data mining
tersebut.
Metodologi SEMMA
Sementara metodologi SEMMA sesuai dengan namanya melakukan serangkaian kegiatan yang
bersifat siklik (berulang) yaitu:
a. Sample: Proses ekstraksi data untuk mendapatkan dataset yang cukup untuk mendapatkan
informasi signifikan namun tidak terlalu besar sehingga mudah untuk diproses selanjutnya.
b. Explore: Proses untuk mengeksplorasi data dengan mencari trend dan anomali untuk
mendapatkan pemahaman tentang data
c. Modify: Proses modifikasi data dengan membuat, memilih dan transformasi variable untuk
proses pemodelan
d. Model: Proses pemodelan dari data dengan mencari secara otomatis kombinasi data yang
dapat dipakai untuk prediksi
e. Assess: Mengevaluasi pola yang ditemukan apakah berguna dan cukup andal.
DATA ANALYTIC | 32
dan OHRA. Framework ini kemudian dikembangan oleh ratusan organisasi dan perusahaan di
Eropa untuk dijadikan methodology standard non-proprietary bagi data mining.
Tahapan proses dalam CRISP-DM ada 6 tahapan yang bersifat adaptif dan terurut. Dimana
output dari setiap tahapan yang ada dalam metode ini saling mempengaruhi satu sama lain, dalam
kata lain tahap sebelumnya akan mempengaruhi tahap selanjutnya yang ada dalam proses CRISP-
DM (Ginantara et al. 2021).
Metodologi CRISP-DM
1. Business Understanding: Kegiatan yang dilakukan antara lain: menentukan tujuan dan
persyaratan dengan jelas secara keseluruhan, menerjemahkan tujuan tersebut serta
menentukan pembatasan dalam perumusan masalah data mining, dan selanjutnya
mempersiapkan strategi awal untuk mencapai tujuan tersebut.
2. Data Understanding: Secara garis besar untuk memeriksa data, sehingga dapat
mengidentifikasi masalah dalam data. Tahap ini memberikan fondasi analitik untuk sebuah
penelitian dengan membuat ringkasaan (summary) dan mengidentifikasi potensi masalah
dalam data.
3. Data Preparation: Secara garis besar untuk memperbaiki masalah dalam data, kemudian
membuat variabel derived. Tahap sampling dapat dilakukan disini dan data secara umum
DATA ANALYTIC | 33
dibagi menjadi dua, data training dan data testing. Kegiatan yang dilakukan antara lain:
memilih kasus dan parameter yang akan dianalisis (Select Data), melakukan transformasi
terhadap parameter tertentu (Transformation), dan melakukan pembersihan data agar data siap
untuk tahap modeling (Cleaning).
4. Modeling: Secara garis besar untuk membuat model prediktif atau deskriptif. Pada tahap ini
dilakukan metode statistika dan Machine Learning untuk penentuan terhadap teknik data
mining, alat bantu data mining, dan algoritma data mining yang akan diterapkan. Lalu
selanjutnya adalah melakukan penerapan teknik dan algoritma data mining tersebut kepada
data dengan bantuan alat bantu. Jika diperlukan penyesuaian data terhadap teknik data mining
tertentu, dapat kembali ke tahap data preparation. Beberapa modeling yang biasa dilakukan
adalah classification, scoring, ranking, clustering, finding relation, dan characterization.
5. Evaluation: Melakukan interpretasi terhadap hasil dari data mining yang dihasilkan dalam
proses pemodelan pada tahap sebelumnya. Evaluasi dilakukan terhadap model yang
diterapkan pada tahap sebelumnya dengan tujuan agar model yang ditentukan dapat sesuai
dengan tujuan yang ingin dicapai dalam tahap pertama.
6. Deployment: Perencanaan untuk Deployment dimulai selama Business Understanding dan
harus menggabungkan tidak hanya bagaimana untuk menghasilkan nilai model, tetapi juga
bagaimana mengkonversi skor keputusan, dan bagaimana untuk menggabungkan keputusan
dalam sistem operasional.
DATA ANALYTIC | 34
IBM Data Science
DATA ANALYTIC | 35
tidak. Terkadang nilai yang hilang bisa berarti “0” atau “tidak” atau bahkan “tidak
diketahui”.
j. Data Preparation: melakukan pembersihan data dan pemilihan data.
k. Modelling: Pada tahap ini Data Scientist menentukan apakah data yang disiapkan sudah
sesuai atau membutuhkan lebih banyak finishing dan bumbu. Ilmuwan data memiliki
kesempatan untuk mengambil sampel data dan fokus pada pengembangan model deskriptif
atau prediktif.
l. Evaluation: Evaluasi model dilakukan selama proses pengembangan model. Di sini Data
Scientist memeriksa kualitas model apakah memenuhi persyaratan yang diberikan oleh
stakeholder atau tidak.
m. Deployment: Setelah Data Scientist mendapatkan model terbaik untuk pemecahan masalah
bisnis, akan bermanfaat jika stakeholder dapat menggunakannya. Oleh karena itu, tahap
setelah evaluasi adalah implementasi dan pengujian akhir. Pada tahap ini, Data Scientist akan
bekerja sama dengan para backend dan frontend engineer untuk mengimplementasikan
model yang telah dibuat agar mudah digunakan oleh para stakeholder.
n. Feedback: Setelah proses penyebaran model, stakeholder akan mendapatkan feedback
tentang kinerja model. Menganalisis umpan balik memungkinkan Data Scientist untuk
menyempurnakan model dan meningkatkan akurasi dan kegunaannya.
DATA ANALYTIC | 36
Metodologi Data science Life Cycle dari Microsoft
Metodologi lain adalah dari Microsoft. Sama dengan sebelumnya, proses diawali dengan kegiatan
Business Understanding. Daftar proses utamanya adalah sebagai berikut:
DATA ANALYTIC | 37
Domino Data Lab mengubah cara kerja tim ilmu data, menghadirkan Platform Ilmu Data
Perusahaan yang mempercepat penelitian dan meningkatkan kolaborasi. Ilmuwan data mendapat
manfaat dari akses ke sumber daya komputasi yang kuat, fitur untuk membuat pekerjaan mereka
lebih efisien, dan alat untuk mempublikasikan hasil dan menerapkan model dengan cepat untuk
orang lain. Tim ilmu data mendapatkan hub pusat untuk berkolaborasi dan berbagi, membangun
praktik terbaik, dan belajar dari satu sama lain. Berbasis di San Francisco, pelanggan Domino
berkisar dari perusahaan rintisan kecil hingga perusahaan Fortune 500.
Metodologi lainnya adalah Metodologi dari Domino (Domino DataLab Methodology). Proses
utama pada metodologi ini adalah:
a. Ideation adalah pemahaman terhadap masalah pada proses bisnis serta identifikasi objektif
bisnisnya. Langkah berikutnya adalah melakukan perhitungan terhadap objektif bisnis
tersebut beserta Cost-Benefit Analysis.
b. Data Acquisition and Preparation: Menentukan data yang diperlukan baik yang berasal dari
sistem internal ataupun eksternal. Setelah proses akuisisi dilakukan eksplorasi terhadap data
dan juga proses persiapan data.
c. Research and Development: Pemodelan dilakukan sebagai suatu kegiatan pembuktian
hipotesa dan pemodelan. Jika hasil sudah dianggap cukup maka dilakukan kegiatan berikutnya
sementara jika belum dilakukan perbaikan data atau perubahan hipotesa. Dalam proses
eksperimen, selaain metrik statistic dipergunhakan juga KPI organisasi.
d. Validation: Model yang sudah dibuat divalidasi dari sudut bisnis dan teknis sebelum dipasang
DATA ANALYTIC | 38
(deployment)
e. Delivery: Deployment yang dimulai dengan perencanaan, lalu pemasangan dan perawatan
sistem. Dalam proses ini juga dilakukan UAT (User Acceptance Testing).
Metodologi Domino juga dilengkapi daftar personal yang terlibat pada setiap langkah baik data
scientist, business people, dan petugas Information technology Division. Juga dilengkapi daftar
tools yang bisa dipergunakan dalam setiap langkah metodologi.
Hal yang perlu diperhatikan terkait dengan metodologi data science dalah adanya standard
kompetensi kerja nasional di bidang data science yaitu Standard Kompetensi Kerja Nasional
Indonesia (SKKNI): KepMen Ketenagakerjaan No 299 thn 2020. Di dalam SKKNI tersebut
terdapat 21 (dua puluh satu) unit kompetensi yang diperlukan dalam membuat aplikasi intelijen
menggunakan data science. SKKNI ini menjadi dsar pelatihan yang sekarang kita lakukan.
TUGAS:
DATA ANALYTIC | 39
3. Mendiskusikan faktor kesuksesan dan kegagalan pada tahapan generik metodologi data
science.
Memberikan contoh untuk ketujuh jenis task analitiks yang dapat diselesaikan dengan data science.
Misalnya untuk regresi dipilih satu permasalah, begitu pula untuk task yang lain. Pergunakan
konteks perusahaan/ organisasi tempat bekerja untuk memudahkan.
DATA ANALYTIC | 40
PYTHON FUNDAMENTAL FOR DATA SCIENCE
“In our world of Big Data, businesses are relying on data scientists to glean insight from their
large, ever-expanding, diverse set of data … while many people think of data science as a
profession, it’s better to think of data science as a way of thinking, a way to extract insights
using the scientific method.” — Bob E. Hayes
Pada tahun 2022 diprediksi bahwa setiap pengguna internet akan menghasilkan data
sebanyak 1,7megabyte setiap detik. Dalam setahun, akan ada 44 triliun gigabyte data yang
terakumulasi di seluruh dunia. Dimana data-data mentah tersebut perlu dianalisis yang nantinya
akan digunakan sebagai dasar dalam pengambilan keputusan. Dengan data yang sedemikian besar,
akan sangat sulit bagi data analyst ataupun bagi data scientist untuk menganalisa secara manual,
oleh karena itulah dibutukan tools yang bisa digunakan untuk membantu tugas dalam menganalisa
data-data tersebut sampai bisa dihasilkan pengetahuan-pengetahuan yang nantinya akan digunakan
sebagai dasar dalam pengambilan keputusan.
Ada beberapa tools yang bisa digunakan untuk proses data analytics, dari tools yang open
source sampai ke software yang komersial, diantaranya adalah python, R, SAS, Excel, Power BI,
Rapidminer, Tableau, Apache Spark, KNIME, Talend. Dalam modul ini tools yang akan kita
gunakan adalah Python, dimana python ini adalah Bahasa pemograman yang open source dan
memiliki fitur-fitur yang sangat mendukung dalam membantu proses data analytics, serta banyak
digunakan bukan hanya oleh kalangan akademisi, akan tetapi juga oleh Kalangan industry.
DATA ANALYTIC | 41
3.1. PENGANTAR PYTHON
P
ython merupakan Bahasa pemrograman tingkat tinggi
(high level language) yang diciptakan oleh Guido van
Rossum pada 1991 sebagai general-purpose language dan
bersifat open source. Seperti halnya Java yang
merupakan pengembangan dari C++, Python terinspirasi
dari Bahasa pemrograman ABC. Python juga bersifat cross-
platform, artinya bisa digunakan pada sistem operasi Windows,
Mac OS, dan Linux.
Python merupakan bahasa pemrograman populer yang memiliki
properti yang sangat baik untuk programmer pemula, sehingga
ideal untuk orang yang belum pernah memprogram sebelumnya.
Python termasuk jenis bahasa program yang dijalankan melalui interpreter, artinya ketika akan
menjalankannya tidak perlu
melakukan kompilasi terlebih dahulu, tidak seperti Pascal, Java, C/C++, dan sebagainya. Untuk
nama python sendiri tidaklah berasal dari nama ular, namun dikarenakan Guido sang pencipta
python adalah seorang penggemar grup komedi Inggris bernama Monty Python, oleh karena itu ia
kemudian menamai bahasa ciptaannya dengan nama Python.
Kelebihan:
1. Mudah dipelajari. Sintaksnya jelas dan mudah dibaca.
2. Simpel tapi powerful. Menulis kodingnya membutuhkan baris perintah yang lebih sedikit
dibanding bahasa pemrograman lain.
DATA ANALYTIC | 42
3. Serbaguna, disesuaikan dengan kebutuhan atau ketertarikan Anda. Python bisa dipakai untuk
membantu dalam proses data science, pemrograman dekstop maupun mobile, CLI, GUI, web,
otomatisasi, hacking, IoT, robotik, dan lain sebagainya.
4. Sangat populer. Rangking 1 di TIOBE index bulan juni tahun 2022, seperti yang terlihat pada
tabel TIOBE Index bulan Juni 2022 dibawah ini, dimana naik 1 peringkat dibandingkan tahun
2021.
TIOBE Index for June 2022
DATA ANALYTIC | 43
Perusahaan yang menggunakan Python
“Google run millions of lines of python code. The front-end server that drives
youtube.com and YouTube APIs is primarily written in Python, and it serves millions of
requests per second!” – Dylan Trotter, YouTube Engineer, 2017
6. Portable, bisa jalan di multi-platform, windows, linux, mac OS, Virtual Machine Java dan
.NET.
7. Modul (library) python sangat banyak (berlimpah) sehingga dapat memudahkan kita membuat
program tanpa harus menulis kode dari dasar.
8. Python adalah bahasa pemrograman yang ‘kekinian’ karena sedang naik daunnya bidang data
science dan cabangnya seperti AI, machine learning, dan big data. Python paling populer dan
banyak digunakan karena memiliki library yang lengkap untuk itu seperti sklearn, pytorch,
tensorflow, dan lain sebagainya.
9. Open source. Python akan terus berkembang karena didukung oleh komunitas yang besar dan
Lembaga Python Software Foundation (PSF) yang tiap tahunnya mengadakan konferensi
internasional.
10. Kode python bisa dijalankan secara interaktif (mode interactive) untuk testing, langsung
nampak hasilnya.
11. Multi paradigma, kita bisa menulis python dengan gaya pemrograman fungsional dan bisa
juga dengan OOP. OOP-nya lebih mudah dan sederhana daripada di bahasa seperti Java atau
C++.
DATA ANALYTIC | 44
12. Kode python bisa di-embed ke bahasa lain seperti C dan Java, atau sebaliknya, dari bahasa C
atau Java ke Python.
13. Python sangat cepat. Source code akan dikompile jadi bytecode, eksekusi file yang sama untuk
kedua kalinya akan lebih cepat.
14. Tutorial python tersedia melimpah, baik berbentuk buku cetak, e-book, artikel, video, dan
forum tanya jawab. Semua permasalahan hampir dipastikan akan ada penyelesaiannya di
internet.
Kekurangannya:
Dikarenakan Python adalah bahasa interpreter, maka kekurangan python dibanding bahasa lain
yang menggunakan kompiler adalah ‘sedikit’ lebih lambat pada saat dijalankan bila
dibandingkan bahasa C maupun C++. Tapi hal ini pun sangat bersifat relative, tergantung dari
besar ukuran program yang dibuat.
Dari kelebihan dan kekurangan yang telah dijabarkan diatas maka dapat terlihat alasan kenapa
harus menggunakan python dibandingkan Bahasa pemrograman lainnya. Berikut ini disajikan
beberapa fakta tambahan python. Terlihat pada gambar 3.3 yang merupakan sejarah perjalanan
beberapa Bahasa pemograman beberapa tahun yang lalu. Perhatikan bagaimana perjalanan
python.
Sejarah Perjalanan Bahasa Pemrograman
DATA ANALYTIC | 45
Programing Language Hall of Fame
DATA ANALYTIC | 46
Selain kelebihan dan kekurangan dari python sebagai sebuah Bahasa pemrogram seperti yang
telah dijabarkan diatas, pada saat ini terutama pada era society 5.0 yang memadukan antara IoT,
Big Data dan AI, yang membutuhkan talenta digital terutaman pada data professional maka python
menjadi salah satu Bahasa pemrograman yang banyak dicari.
Sumber: towardsdatascience.com
10 Most In-Demand Data Science Skills in 2021
SciPy (dibaca “Sigh Pie”) Library yang bersifat open source dan dibangun untuk bekerja
dengan NumPy array dan menyediakan kumpulan algoritma
numerik, termasuk pemrosesan sinyal, optimasi, statistika,
library Matplotlib untuk visualisasi data
MATPLOTLIB: Data Library Python untuk visualisasi data dengan dua dimensi,
Visualization bersifat open source
DATA ANALYTIC | 47
menggambarkan grafik statistika yang menarik dan
informatif, serta bersifat open source
SCIKIT-Learn: Machine Library untuk mempraktikkan machine learning dan
Learning in Python membuat model, bersifat open source. Scikit-learn diawali
dari proyek SciPy yang berisi fungsi-fungsi matematis
Python banyak digunakan pada proyek data science untuk tugas-tugas yang terkait dengan
pengolahan data, seperti eksplorasi data, pemrosesan data, pembersihan data, dan pemodelan data.
DATA ANALYTIC | 48
2. Buka (dengan melakukan klik 2x) file installer python yang baru saja didownload, selanjutnya
ikuti perintah instalasi.
DATA ANALYTIC | 49
Setelah anda melakukan instalasi Python, untuk selanjutnya bisa melakukan pengujian apakah
python berhasil terpasang melalui command prompt.
DATA ANALYTIC | 50
2) Klik dua kali file installer yang telah diunduh untuk menjalankannya
3) Tekan “I Agree” setelah membaca informasi tentang lisensi
4) Pilih instalasi tunggal (“Just Me”) dam tekan tombol Next
5) Pilih folder tujuan untuk instalasi
6) Pilih apakah akan menambahkan Anaconda ke dalam variable environment PATH.
DATA ANALYTIC | 51
10) Tampilan Anaconda
Bisa melalui command prompt pada windows atau melalui CMD.exe Prompt pada Anaconda
navigator (klik tombol launch)
DATA ANALYTIC | 52
Install Library NumPy
pip
conda
DATA ANALYTIC | 53
Install Library Pandas
DATA ANALYTIC | 54
Install Library Seaborn
DATA ANALYTIC | 55
Cek Library yang terinstall (melalui Anaconda Navigator)
Terdapat dua lingkungan yang akan dipergunakan yaitu google colab dan Jupyter Notebook.
1) Google Colab
Seperti layanan Google lainnya, Google Colab merupakan sebuah layanan cloud sehingga
untuk menggunakannya pengguna harus terhubung dengaan internet. Layanan ini dapat
dipergunakan untuk menulis dan mengeksekusi Python di browser anda tanpa mengkonfigurasi,
dapat menggunakan GPU, dan dapat di-share dengan rekan kerja. Pergunakan link
https://colab.research.google.com di browser anda untuk mengakses google colab.
DATA ANALYTIC | 56
2) Jupyter Notebook
Berbeda dengan Google Colab, Jupyter Notebook adalah lingkungan pengembangan local
sehingga dapat dipergunakan tanpa terhubung dengan internet. Akibatnya kemampuannya sangat
tergantung pada kemampuan peralatan computer pribadi yang dipergunakan. Jupyter notebook
juga dapat dipasang dengan berbagai cara. Dua di antaranya adalah melalui pip dan melalui
Anaconda. Jika menggunakan pip maka di command prompt lakukan perintah:
DATA ANALYTIC | 57
Tampilan Jupiter
DATA ANALYTIC | 58
VISUALIZATION
“Information graphics should be aesthetically pleasing but many designers think about
aesthetics before they think about structure, about the information itself, about the story the
graphic should tell” — Alberto Cairo
Visualisasi memegan peranan yang penting dalam bidang data science. Dengan visualisasi
yang baik dapat membantu kita untuk menafsirkan dan menginterpretasi suatu data serta
memahami informasi yang telah dihasilkan, serta penyajian data menjadi lebih informatif dan
komunikatif, dengan kata lain visualisasi dapat memudahkan kita memahami data lebih mudah
dan lebih baik daripada menggunakan kalimat. Dalam menganalisa data, sering kali menggunakan
visualisasi data untuk memahami karakteristik maupun trend di dalam data yang dimiliki. Oleh
karena itu visualisasi adalah salah satu jobdesc yang harus dikuasai oleh seorang Data Scientist.
Seorang Data Scientist akan bekerja sama dengan berbagai divisi atau bagian, dan salah satu tugas
dari seorang data scientist adalah dapat menjebatani antar masing-masing divisi tersebut. Dan
dikarenakan tidak semua bagian atau divisi memiliki pengetahuan teknis tentang Data, maka
diperlukanlah data visualisasi. Pada modul ini akan membahas beberapa teknik visualisasi yang
umum dengan menggunakan library Matplotlib’s Pyplot dan Seaborn.
DATA ANALYTIC | 59
a. Comparison (Perbandingan)
Visualisasi perbandingan ini digunakan untuk membandingkan besarnya nilai satu
sama lain dan dapat digunakan untuk dengan mudah menemukan nilai terendah dan
tertinggi dalam data. Dan juga dapat digunakan untuk membandingkan nilai saat ini
versus lama untuk melihat apakah nilainya meningkat atau menurun. Untuk data yang
terkait waktu, visualisasi yang digunakan biasanya berupa line-chart. Sedangkan untuk
data yang berupa kategorikal, maka lebih cocok menggunakan bar-chart. Contoh
pertanyaan umum yang sering ditanyakan adalah "produk apa yang paling laku" dan
"bagaimana penjualan kita dibandingkan dengan tahun lalu”.
b. Relationship (Keterhubungan/Relasi)
Visualisasi ini digunakan untuk melihat hubungan antara data dan dapat digunakan
untuk menemukan korelasi, outlier, dan klaster dari data. Misalnya ingin cek, jika
DATA ANALYTIC | 60
variabel A semakin tinggi, apakah variabel B juga semakin tinggi, atau justru lebih
rendah, atau tidak ada keterhubungannya. Contoh pertanyaan umum yang sering
ditanyakan adalah " bagaimana pengeluaran dan pendapatan bervariasi per wilayah
dan berapa nilai deviasinya”. Visualisasi yang biasa digunakan untuk tujuan ini adalah
scatter-plot.
c. Composition (Komposisi)
Visualisasi komposisi digunakan untuk melihat bagaimana suatu bagian dibandingkan
dengan keseluruhan dan bagaimana nilai total dapat dibagi menjadi beberapa bagian.
Visualisasi ini juga menunjukkan nilai relatif, tetapi beberapa bagan juga dapat
digunakan untuk menunjukkan perbedaan absolut. Perbedaannya adalah antara
melihat persentase total dan nilai total. Visualisasi juga sering digunakan untuk
melihat komposisi dari suatu variabel, jika di-breakdown terhadap suatu dimensi data.
Pertanyaan umum yang sering ditanyakan adalah "seberapa besar bagian dari pasar
yang kita miliki di suatu wilayah" atau " anggaran kita dibagi-bagi kemana saja".
Visualisasi yang biasa digunakan adalah stacked bar-chart untuk data kategorikal, atau
stacked line-chart untuk data terkait waktu.
d. Distribution (Distribusi)
Visualisasi distribusi ini digunakan untuk melihat bagaimana nilai kuantitatif
didistribusikan di sepanjang sumbu dari terendah ke tertinggi. Melihat bentuk data,
pengguna dapat mengidentifikasi karakteristik seperti rentang nilai, kecenderungan
sentral, bentuk, dan outlier. Ini dapat digunakan untuk menjawab pertanyaan seperti
"berapa jumlah pelanggan per kelompok umur" atau "berapa hari pembayaran kita
terlambat ". Untuk melihat distribusi di dua variabel, scatterplot juga bisa digunakan.
DATA ANALYTIC | 61
menghindari batasan ini, John mengembangkan versi berbasis MATLAB yang pada tahap
selanjutnya dilengkapi dengan antarmuka scripting untuk pembuatan grafik yang cepat dan mudah,
yang saat ini dikenal sebagai matplotlib. Matplotlib adalah Library Python yang mengkhususkan
diri dalam pengembangan grafik dua dimensi (termasuk grafik 3D). Dalam beberapa tahun
terakhir, telah banyak digunakan oleh peneliti ilmiah dan juga kalangan teknik.
Logo Matplotlib
Di antara semua fitur yang menjadikannya alat yang paling banyak digunakan dalam grafis
representasi data, ada beberapa fitur yang menonjol, diantaranya adalah:
a. Penggunaanya sangat sederhana,
b. Pengembangan bertahap dan visualisasi data interaktif
c. Ekspresi dan teks di LaTeX
d. Kontrol yang lebih besar atas elemen grafis
e. Ekspor ke banyak format, seperti PNG, PDF, SVG, dan EPS.
f. Pengolahan dataset (menggunakan library NumPy & Pandas).
g. Melakukan modifikasi komponen visualisasi, seperti axis, labels, title, dan legend.
h. Menyimpan plot visualisasi yang sudah dibuat
i. Open source
3.2.2. SEABORN
Seaborn diciptakan oleh Michael Waskom seorang
mahasiswa doctoral bidang Neurosains pada tahun 2014.
Pada awalnya Seaborn diciptakan untuk membantu
Waskom dalam menciptakan visualisasi data terhadap
hasil analisis jaringan syaraf yang sedang dikerjakannya.
Seaborn adalah perpustakaan untuk membuat grafik
statistik dengan Python yang dibangun di atas matplotlib Michael Waskom
DATA ANALYTIC | 62
dan terintegrasi erat dengan struktur data Pandas. Dengan kata lain, Seaborn adalah ‘ekstensi’ dari
Matplotlib. Seaborn bersifat open-source dengan lisensi Berkeley Software Distribution (BSD).
Seaborn menyediakan antarmuka tingkat tinggi untuk menggambar grafik statistik yang
menarik dan informatif. Seaborn membantu dalam menjelajahi dan memahami data. Fungsi
plotting-nya beroperasi pada dataframe dan array yang berisi seluruh himpunan data dan secara
internal melakukan pemetaan semantik yang diperlukan dan agregasi statistik untuk menghasilkan
plot informatif. API deklaratifnya yang berorientasi pada himpunan data memungkinkan untuk
fokus pada apa arti berbagai elemen plot, daripada pada detail cara menggambarnya.
Logo Seaborn
Fitur-fitur Seaborn:
a. Terintegrasi dengan struktur data berbasis library Numpy dan Pandas
b. Menyesuaikan dan memvisualisasikan model Regresi Linear
c. Memvisualisasikan data univariat dan bivariat
d. Memvisulisasikan data berupa time series
e. Mengkostumasi grafik Matplotlib menjadi lebih baik
DATA ANALYTIC | 63
b. Saat bekerja dengan Pandas, Matplotlib tidak berfungsi dengan baik saat berurusan dengan
DataFrames, sementara fungsi Seaborn benar-benar berfungsi pada DataFrames.
Berdasarkan di atas, kita dapat dengan mudah melihat bahwa vanilla dan chocolate adalah
rasa yang paling popular. Data dalam format diagram lingkaran juga dapat digunakan untuk
melihat informasi lain dengan mudah, seperti fakta bahwa kombinasi cokelat dan vanila mewakili
lebih dari setengah suara. Akan tetapi apabila kita hanya melihat dari pie chart diatas kita tidak
DATA ANALYTIC | 64
bisa melihat mana yang paling disukai karena besarannya hampir sama, kecuali kita melihat data
mentahnya. Untuk mengatasi hal tersebut kita harus dapat melihat informasi dari setiap rasa denga
menampilkan persentase sebenarnya. Jika kita ingin melihat berapa persen kontribusi masing-
masing rasa selai, kita bisa menggunakan argumen autopct. Untuk nilai argumen, ada beberapa
string format yang dapat digunakan untuk mengatur ketepatan tampilan data. Perhatikan penggalan
coding di bawah ini:
Sekarang kita dapat melihat persentase kontribusi setiap rasa selai secara keseluruhan.
Sebagai tambahan, kita dapat merubah warna dari setiap rasa selai Pie Chart. Matplotlib
memungkinkan Anda mengubah warna yang ditampilkan pada bagan dengan memasukkan nilai
warna. Anda dapat menggunakan shorcut yang telah diprogram seperti 'b' untuk biru dan 'r' untuk
merah atau kita juga bisa menggunakan pewarnaan html. Anda dapat menemukan custom warna
yang lebih banyak dengan mencari kata kunci 'kode warna html' pada search engine yang anda
gunakan.
DATA ANALYTIC | 65
Perhatikan contoh berikut ini:
DATA ANALYTIC | 66
Sekarang kita dapat memiliki Pie Chart yang menunjukkan semua rasa selai favorit dalam
sebuah survey! Ingat diagram lingkaran bagus untuk menunjukkan bagaimana distribusi kelas pada
data yang berbeda (dalam hal ini, rasa selai). Pie chart akan sangat efektif jika hanya ada beberapa
kelas yang terwakili. Bayangkan jika kita memiliki 200 rasa selai. Maka tampilan Pie Chart akan
sangat penuh dan akan sangat kesulitan bagi kita untuk memahaminya.
DATA ANALYTIC | 67
Pada contoh di bawah ini kita menambahkan label-y menggunakan metode ylabel () dan
judul grafik menggunakan metode title ().
Bagannya sudah terlihat cukup bagus. Tetapi bagaimana jika pertanyaan: Apa negara
dengan kasus terbanyak kedua di ASEAN? Anda mungkin harus sedikit menatap Brunei dan
Cambodia. Ini karena data diurutkan menurut abjad, yang bukan merupakan pengurutan yang
paling berguna untuk menjawab pertanyaan tentang data. Sayangnya Matplotlib tidak memiliki
penyortiran bawaan. Sebagai gantinya, Anda dapat mengimpor Panda dan menggunakannya untuk
mengurutkan data. Perhatikan contoh berikut ini:
DATA ANALYTIC | 68
Sekarang kita dapat dengan mudah melihat bahwa Indonesia adalah negara dengan jumlah
kasus Covid terbesar kedua, kita juga bisa memberikan daftar warna bar ke metode bar (), seperti
contoh di bawah ini:
DATA ANALYTIC | 69
3.3.3. LINE GRAPHS
Meskipun diagram lingkaran dan diagram batang berguna untuk menunjukkan bagaimana
kelas data saling terkait, diagram garis lebih berguna untuk menunjukkan bagaimana kemajuan
data selama beberapa periode (data time series). Sebagai contoh, grafik garis dapat berguna dalam
membuat grafik suhu dari waktu ke waktu, harga saham dari waktu ke waktu, berat menurut hari,
atau metrik berkelanjutan lainnya.
DATA ANALYTIC | 70
Kita akan menggunakan data penjualan perhari, dari sebuah toko ‘ABC’, perhatikan
penggalan program berikut ini:
Kita juga bisa menambahkan elemen bagan standar dari title (), ylabel (), dan xlabel ().
Perhatikan contoh berikut ini:
DATA ANALYTIC | 71
Kita bahkan dapat memiliki beberapa garis pada grafik yang sama. Misalnya, kita ingin
mengilustrasikan nilai penjualan yang aktual dan prediksi. Kita bisa memanggil plot () dua kali,
sekali dengan setiap kumpulan nilai. Perhatikan bahwa dalam panggilan kedua, kita menggunakan
argumen lain untuk plot (), linestyle = '-'. Hal ini menyebabkan garis prediksi terlihat seperti garis
putus-putus sedangkan nilai sebenarnya tetap solid. Perhatikan contoh berikut ini:
DATA ANALYTIC | 72
3.3.4. SCATTER PLOT
Scatter plot berfungsi baik untuk data dengan dua komponen numerik. Scatter plot dapat
memberikan informasi yang berguna terutama mengenai pola atau pencilan. Pada contoh di bawah
ini, kita memplot diameter dan berat sekumpulan lemon dan jeruk nipis agar dapat melihat apakah
kita dapat menentukan polanya
DATA ANALYTIC | 73
Diskusikan penggalan program berikut ini, bandingankan dengan program sebelumnya!
3.3.5. HEATMAP
Heatmap adalah jenis visualisasi yang menggunakan kode warna untuk mewakili nilai /
kepadatan relatif data di seluruh permukaan. Seringkali ini adalah bagan tabel, tetapi tidak harus
terbatas pada itu. Untuk data tabular, terdapat label pada sumbu x dan y. Nilai di persimpangan
label tersebut dipetakan ke warna. Warna-warna ini kemudian dapat digunakan untuk memeriksa
data secara visual guna menemukan kelompok dengan nilai serupa dan mendeteksi tren dalam
data. Kita akan bekerja dengan data tentang temperatur rata-rata setiap bulan untuk 12 kota terbesar
di dunia. Untuk membuat heatmap ini, kita akan menggunakan library Seaborn.
DATA ANALYTIC | 74
Bandingkan dengan penggalan program berikut ini – diskusikan!
DATA ANALYTIC | 75
DATA ANALYTIC | 76
DASHBOARD
"Data visualization is the language of decision making. Good charts effectively convey
information. Great charts enable, inform, and improve decision making." — Dante
Vitagliano
Memvisualisasikan data dan hasil dengan jelas dan ringkas merupakan langkah penting dalam
setiap proyek analitik data. Ini tentang seberapa baik kita dapat mengkomunikasikan hasil temuan
kepada orang lain untuk memfasilitasi dan meningkatkan proses pengambilan keputusan.
Keputusan bisnis yang penting memerlukan data pendukung untuk memastikan alternatif
terbaiklah yang dipilih, dan itu merupakan tanggung jawab seorang analis data untuk
menyediakannya.
Dasboard adalah antarmuka grafis yang menawarkan tampilan integratif dari beberapa
indikator utama yang relevan dengan fenomena atau bisnis tertentu. Tujuan utama dashboards
adalah membantu user untuk membuat keputusan yang tepat dan cepat berdasarkan dari data yang
ada. Di banyak perusahaan dashboards dibuat oleh data analis atau tim yang berfokus pada analisis
data.
Python, salah satu bahasa pemrograman paling populer saat ini di seluruh dunia, memiliki
beberapa pustaka (library) visualiasasi data yang open-source yang memungkinkan penggunanya
membangun dashboard yang interaktif dengan baris kode sederhana. Meskipun tidak mengikuti
pendekatan drag-and-drop seperti program visualisasi data lainnya, tingkat kompleksitasnya masih
cukup sederhana bagi programmer baru untuk belajar dengan cepat.
DATA ANALYTIC | 77
Latihan
Cek library yang akan digunakan, apabila belum terdapat library tersebut, lakukan instalasi library
tersebut, bisa dengan menggunakan perinta pip. Ketikkan coding berikut ini:
DATA ANALYTIC | 78
Apabila semua library yang dibutuhkan sudah tersedia ketikkan perintah untuk menbuat dataframe
dan data cache untuk meningkatkan kinerja dashboard
Perintah Mencetak dataset yang berasal dari dataframe dengan jumlah data
DATA ANALYTIC | 79
Menampilkan data untuk negara ‘North America’
DATA ANALYTIC | 80
Data Preprocessing (menangani missing values)
DATA ANALYTIC | 81
DATA ANALYTIC | 82
DATA ANALYTIC | 83
DATA ANALYTIC | 84
DATA ANALYTIC | 85
DATA ANALYTIC | 86
Membuat dashboard
DATA ANALYTIC | 87
pn.pane.Markdown("#### Carbon dioxide emissions are the primary driver of global
climate change. It’s widely recognised that to avoid the worst impacts of climate change, the
world needs to urgently reduce emissions. But how this responsibility is shared between
regions, countries, and individuals has been an endless point of contention in international
discussions.").
DATA ANALYTIC | 88
Maka akan tampil dashboard yang telah anda buat:
Tampilan Dark
DATA ANALYTIC | 89
TUGAS
Buatlah dashboard dengan dataset yang anda miliki.
DATA ANALYTIC | 90
DATA ANALYTIC | 91