0% menganggap dokumen ini bermanfaat (0 suara)

16 tayangan91 halaman

Modul Data Analytics

Dokumen ini membahas konsep dan pentingnya data analytics dalam era big data, menekankan keterampilan analisis yang diperlukan untuk profesi seperti Data Analyst dan Data Scientist. Big data didefinisikan sebagai kumpulan dataset besar yang sulit dikelola dengan alat tradisional, dan karakteristiknya termasuk volume, kecepatan, variasi, kebenaran, dan nilai. Berbagai jenis analitik, seperti deskriptif, diagnostik, prediktif, dan preskriptif, digunakan untuk mengekstrak wawasan dari data untuk mendukung pengambilan keputusan.

Diunggah oleh

Najmudin Fauji

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

16 tayangan91 halaman

Modul Data Analytics

Diunggah oleh

Najmudin Fauji

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 91

DATA ANALYTICS

THEORY

U LTA C H E N R I , S . KO M . , M . KO M
Y U Y U N U M A I D A H , S . KO M . , M . KO M

DATA ANALYTIC | 1
KATA PENGANTAR

DATA ANALYTIC | 2
DAFTAR ISI

DATA ANALYTIC | 3
KONSEP DATA ANALYTICS

"Without big data analytics, companies are blind and deaf, wandering out onto the web like deer
on a freeway."— Geoffrey Moore, management consultant and author of Crossing the Chasm

Salah satu keahlian yang wajib dimiliki oleh seorang praktisi data adalah Analisis data (Data
Analytics). Dalam melakukan proses analisis data dibutuhkan pemikiran yang kritis serta
kemampuan problem solving yang baik, karena kemampuan ini diperlukan agar dapat menentukan
metode analisis data yang tepat. Penggunaan metode analisis data yang tepat sangat berpengaruh
pada hasil analisis. Jika keliru memilih metode analisis data, bisa jadi hasil yang diinginkan tidak
tercapai sehingga tentu saja akan membuang waktu dan tenaga. Data Analyst dan Data Scientist
merupakan profesi di bidang data yang menuntut kemampuan analisis data yang baik. Kedua
profesi tersebut juga menjadi profesi yang banyak dicari di era big data seperti sekarang.

1.1. BIG DATA dan DATA ANALYTICS

1.1.1. DATA
Core dari data analytics adalah Data. Sadar atau tidak sadar, kita sebagai manusia
telah memberitakan data yang sangat banyak, bahkan dari sebelum kita dilahirkan.
Ukuran data

DATA ANALYTIC | 4
Dengan terjadinya perubahan kultur dan perilaku di masa boomingnya social media,
maka data yang dihasilkan oleh masing-masing pribadi itu akan sangat banyak, sebagai
perbandingan dibidang astronomi: Sloan Digital Sky Survey di New Mexico pada tahun 2000
berhasil mengumpulkan data sebanyak 140 TB selama 10 tahun, sedangkan Large Synoptic
Survey Telescope di Chile pada tahun 2016 mengumpulkan data sebanyak 140TB setiap 5
hari. Pada tahun 2025, diperkirakan sebanyal 75 milliar perangkat IoT dan sebanyak 463 EB
data akan dibuat setiap hari secara global dan itu setara dengan 212,765,957 DVD per hari.
Pada tahun 2030, diperkirakan sebanyak 90% dari populasi yang berusia diatas 6 tahun akan
melakukan aktifitas secara daring. Pada bidang web dan social networks, Google memproses
sebanyak 100PB data per hari, dengan 3 juta server, Facebook memiliki sebanyak 300PB data
user setiap hari, dan Youtube memiliki 1000PB penyimpanan video. Dan itu kemungkinan
besar akan terus bertambah.

Hirarki Pengetahuan:
Data
Fakta yang terekam dan tidak membawa arti
Informasi
Data yang telah diolah sedemikian rupa sehingga
memiliki makna tertentu bagi pengguna
Knowledge
Pola, rumus, aturan atau model yang muncul dari
data

Data harus kita olah menjadi pengetahuan supaya bisa bermanfaat bagi manusia, data yang
kita kumpulkan tidak akan berarti apa-apa tanpa adanya proses selanjutnya.

“You can have data without information, but you cannot have information without data.”
— Daniel Keys Moran

Dengan pengetahuan tersebut, manusia dapat (antara lain):

a. Melakukan estimasi dan prediksi apa yang terjadi di depan
b. Melakukan analisis tentang asosiasi, korelasi dan pengelompokan antar data dan atribut
c. Membantu pengambilan keputusan dan pembuatan kebijakan

DATA ANALYTIC | 5
1.1.2. ANALYTIC
Analitik adalah istilah luas yang mencakup proses, teknologi, kerangka kerja, dan
algoritma untuk mengekstrak wawasan yang bermakna dari data. Data mentah itu sendiri tidak
memiliki makna sampai dikontekstualisasikan dan diolah menjadi informasi yang berguna.
Analisis adalah proses mengekstraksi dan membuat informasi dari data mentah ini dengan
memfilter, memproses, mengkategorikan, memadatkan, dan mengontekstualisasikan data.
Informasi yang diperoleh ini kemudian terorganisir dan terstruktur untuk menyimpulkan
pengetahuan tentang sistem dan/atau penggunanya, lingkungannya, dan operasi serta progress
untuk mencapai tujuan, sehingga membuat sistem lebih cerdas dan lebih efisien.
Pilihan teknologi, algoritma, dan kerangka kerja untuk analitik didorong oleh tujuan
analitik aplikasi. Tujuan analitik antara lain:
a) Memprediksi sesuatu (misalnya apakah suatu transaksi adalah penipuan atau bukan,
apakah akan hujan hari tertentu, atau apakah tumor jinak atau ganas),
b) Untuk menemukan pola dalam data (misalnya, menemukan 10 hari terdingin teratas
dalam setahun, menemukan halaman mana yang dikunjungi sebagian besar di situs web
tertentu, atau menemukan selebriti yang paling banyak dicari di tahun tertentu),
c) Menemukan hubungan dalam data (misalnya, menemukan artikel berita serupa,
menemukan yang serupa pasien dalam sistem catatan kesehatan elektronik, menemukan
produk terkait di eCommerce situs web, menemukan gambar serupa, atau menemukan
korelasi antara item berita dan harga saham).

DATA ANALYTIC | 6
Mapping between types of analytics and seven computational tasks or ‘giants’

1. Deskriptif
Menjelaskan keadaan bisnis saat ini melalui data historis. Contoh bisa data laba rugi
bulanan, data pelanggan. Memahami informasi demografi pada pelanggan mereka akan
dikategorikan sebagai “deskriptif analitik”. Memanfaatkan alat visualisasi yang efektif
meningkatkan pesan analisis deskriptif. Analisis deskriptif menjawab pertanyaan
tentang “apa yang terjadi” dengan merangkum data-data dari masa lalu, biasanya
dalam bentuk dashboard.
Di antara tujuh tugas komputasi seperti yang ditunjukkan pada Gambar diatas, tugas
seperti Basic Statistics and Linear Algebraic Computations dapat digunakan untuk
analitik deskriptif.
2. Diagnostik
Menjelaskan mengapa suatu masalah terjadi dengan melihat data historis. Jika, pada
analisis deskriptif dapat menjawab pertanyaan tentang “apa yang terjadi”, sedangkan
pada analisis diagnostik dapat menjawab tentang “mengapa itu terjadi”. Analisis
diagnostik mengambil wawasan yang ditemukan dari analisis deskriptif untuk
menemukan penyebab dari hasil tersebut. Organisasi memanfaatkan jenis analisis
diagnostik karena dapat menciptakan lebih banyak koneksi antara data dan

DATA ANALYTIC | 7
mengidentifikasi pola perilaku. Aspek penting dari analisis diagnostik adalah
menciptakan informasi terperinci.
Di antara tujuh tugas komputasi, tugas komputasi seperti Linear Algebraic
Computations, General N-Body Problems, and Graph-theoretic Computations dapat
digunakan untuk analitik diagnostik.
3. Prediktif
Memproyeksikan atau memprediksi hasil masa depan berdasarkan data historis.
Analisis prediktif berupaya menjawab pertanyaan “apa yang mungkin terjadi”. Jenis
analisis ini memanfaatkan data sebelumnya untuk membuat prediksi tentang hasil masa
depan. Jenis analisis prediktif adalah langkah lain dari analisis deskriptif dan diagnostik.
Analisis prediktif menggunakan data yang telah diringkas untuk membuat prediksi logis
dari hasil peristiwa. Analisis ini bergantung pada pemodelan statistik yang
membutuhkan teknologi tambahan dan sumber daya manusia untuk diperkirakan.
Di antara tujuh tugas komputasi, tugas-tugas seperti Linear Algebraic Computations,
General N-Body Problems, Graph-theoretic Computations, Integration and Alignment
Problems dapat digunakan untuk analitik prediktif.
4. Preskriptif
Sementara analitik prediktif menggunakan model prediksi untuk memprediksi
kemungkinan hasil dari suatu peristiwa, analitik preskriptif menggunakan beberapa
model prediksi untuk memprediksi berbagai hasil dan tindakan terbaik untuk setiap
hasil. Analisis preskriptif bertujuan untuk menjawab “Apa yang bisa kita lakukan
untuk mewujudkannya?” Analisis Preskriptif dapat memprediksi kemungkinan hasil
berdasarkan pilihan tindakan saat ini.
Di antara tujuh tugas komputasi, tugas-tugas seperti General N-Body Problems,
Graphtheoretic Computations, Optimization and Alignment Problems dapat digunakan
untuk preskriptif Analytics.

1.1.3. BIG DATA

Big data didefinisikan sebagai kumpulan dataset yang memiliki volume, kecepatan,
atau variasinya sangat besar sehingga sulit untuk menyimpan, mengelola, memproses, dan
menganalisis data menggunakan basis data tradisional dan alat pengolah data. Dalam beberapa

DATA ANALYTIC | 8
tahun terakhir, telah terjadi pertumbuhan eksponensial baik itu data terstruktur ataupun tidak
terstruktur yang dihasilkan oleh teknologi informasi, industri, perawatan kesehatan, Internet
of Things, dan sistem lainnya.
Big Data memiliki potensi untuk mendukung aplikasi pintar generasi berikutnya
yang akan memanfaatkan kekuatan data untuk membuat aplikasi cerdas. Aplikasi big data
mencakup berbagai domain seperti web, ritel dan pemasaran, perbankan dan
keuangan,industri, perawatan kesehatan, lingkungan, Internet of Things, dan sistem cyber-
fisik.
Beberapa contoh big data tercantum sebagai berikut:
a) Data yang dihasilkan oleh jejaring sosial termasuk data teks, gambar, audio dan video
b) Data click-stream yang dihasilkan oleh aplikasi web seperti e-Commerce untuk
menganalisis perilaku pengguna
c) Data sensor mesin yang dikumpulkan dari sensor yang tertanam dalam sistem industri
dan energi untuk memantau kinerja dari mesin dan mendeteksi kegagalan
d) Data healthcare yang dikumpulkan dalam sistem catatan kesehatan elektronik
e) Log yang dihasilkan oleh aplikasi web
f) Data pasar saham
g) Data transaksional yang dihasilkan oleh aplikasi perbankan dan keuangan

Karakteristik Big Data 5V:

1. Volume
Big data adalah bentuk data yang volumenya sangat besar sehingga tidak muat pada satu
mesin oleh karena itu alat dan kerangka kerja khusus diperlukan untuk menyimpan proses
dan menganalisis data tersebut. Misalnya, aplikasi media sosial memproses miliaran
pesan sehari-hari, industri, dan sistem energi dapat menghasilkan terabyte data sensor
setiap hari, aplikasi penjualan yang memproses jutaan transaksi dalam sehari, dll.
Meskipun tidak ada ambang batas tetap untuk volume data yang akan dianggap sebagai
big data, namun, biasanya, istilah big data digunakan untuk data dengan skala masif yang
sulit untuk menyimpan, mengelola, dan memproses menggunakan database tradisional
dan arsitektur pemrosesan data.

DATA ANALYTIC | 9
2. Velocity
Velocity (Kecepatan) data mengacu pada seberapa cepat data dihasilkan. Data yang
dihasilkan oleh sumber tertentu dapat tiba dengan kecepatan yang sangat cepat, misalnya,
data media sosial atau data sensor. Kecepatan adalah karakteristik penting lainnya dari
big data dan alasan utama untuk eksponensial dari pertumbuhan data. Kecepatan data
yang tinggi menghasilkan volume data yang terakumulasi menjadi sangat besar, dalam
rentang waktu yang singkat. Beberapa aplikasi dapat memiliki tenggat waktu yang ketat
untuk analisis data (seperti perdagangan atau deteksi penipuan online) dan data perlu
dianalisis secara real-time. Alat khusus diperlukan untuk menyerap data berkecepatan
tinggi tersebut ke dalam infrastruktur big data dan menganalisis data secara real-time.
3. Variety
Variety (Variasi) mengacu pada bentuk data. Big data hadir dalam berbagai bentuk seperti
terstruktur, tidak terstruktur atau semi-terstruktur, termasuk data teks, gambar, audio,
video, dan data sensor. Sistem Big Data harus cukup fleksibel untuk menangani berbagai
data tersebut.
4. Veracity
Veracity (Kebenaran) mengacu pada seberapa akurat data tersebut. Untuk mengekstrak
nilai dari data, data perlu dibersihkan untuk menghilangkan kebisingan. Aplikasi berbasis
data hanya dapat menuai manfaat dari big data ketika data bermakna dan akurat. Oleh
karena itu, pembersihan data penting agar data yang salah dan salah dapat disaring.
5. Value
Value (Nilai) data mengacu pada kegunaan data untuk tujuan yang dimaksudkan. Tujuan
akhir dari setiap sistem analitik big data adalah untuk mengekstrak nilai dari data. Nilai
data juga terkait dengan kebenaran atau keakuratan data. Untuk beberapa nilai aplikasi
juga tergantung pada seberapa cepat kita dapat memproses data.

Contoh Domain Spesifik Big Data

Aplikasi big data mencakup berbagai domain termasuk (tetapi tidak terbatas pada) rumah,
kota, lingkungan, sistem energi, ritel, logistik, industri, pertanian, Internet of Things, dan
healthcare. Berikut ini adalah gambaran umum tentang berbagai aplikasi Big Data untuk
masing-masing domain.

DATA ANALYTIC | 10
1. Web
a. Web Analytics
Analisis web berkaitan dengan pengumpulan dan analisis data pada kunjungan
pengguna di situs web dan aplikasi cloud. Analisis data ini dapat memberikan
wawasan tentang keterlibatan pengguna dan melacak kinerja kampanye iklan online.
b. Performance Monitoring
Aplikasi web dan cloud multi-tier seperti e-Commerce, Business-to-Business,
Healthcare, Perbankan dan Keuangan, Ritel dan Aplikasi Jejaring Sosial, mengalami
perubahan beban kerja yang sangat cepat. Untuk memastikan kesiapan pasar dari
aplikasi tersebut, sumber daya yang memadai perlu disediakan sehingga aplikasi
dapat memenuhi tuntutan tingkat beban kerja yang ditentukan dan pada saat yang
sama memastikan bahwa layanan terpenuhi.
c. Ad Targeting & Analytics
Pencarian dan tampilan Iklan adalah dua pendekatan yang paling banyak digunakan
untuk iklan Internet. Dalam pencarian iklan, pengguna ditampilkan ("iklan"),
bersama dengan hasil pencarian, saat mereka mencari kata kunci tertentu pada mesin
pencari. Pengiklan dapat membuat iklan menggunakan iklan jaringan yang
disediakan oleh mesin pencari atau jaringan media sosial. Menampilkan iklan, adalah
bentuk lain dari iklan Internet, di mana iklan ditampilkan dalam situs web, video, dan
aplikasi seluler yang berpartisipasi dalam iklan jaringan. Iklan dapat berupa iklan
berbasis teks atau gambar.
d. Content Recommendation
Aplikasi yang menyajikan konten (seperti aplikasi streaming musik dan video),
mengumpulkan berbagai jenis data seperti pola pencarian pengguna dan riwayat
penelusuran, riwayat konten yang dikonsumsi, dan peringkat pengguna. Aplikasi
semacam itu dapat memanfaatkan sistem big data untuk merekomendasikan konten
baru ke pengguna berdasarkan preferensi dan minat pengguna. Sistem rekomendasi
menggunakan dua pendekatan kategori yaitu rekomendasi berbasis pengguna dan
rekomendasi berbasis item.

DATA ANALYTIC | 11
2. Financial
a. Credit Risk Modeling
Lembaga perbankan dan keuangan menggunakan pemodelan risiko kredit untuk
menilai aplikasi kredit dan memprediksi apakah peminjam akan gagal bayar atau
tidak di masa mendatang. Model risiko kredit dibuat dari data pelanggan yang
mencakup, skor kredit diperoleh dari biro kredit, riwayat kredit, data saldo akun,
transaksi akun data dan pola pengeluaran pelanggan.
b. Fraud Detection
Lembaga Perbankan dan Keuangan dapat memanfaatkan sistem big data untuk
mendeteksi penipuan seperti penipuan kartu kredit, pencucian uang, dan Penipuan
klaim asuransi. Kerangka kerja analitik big data real-time dapat membantu dalam
menganalisis data dari sumber yang berbeda dan transaksi label secara real-time.
Model pembelajaran mesin dapat dibangun untuk mendeteksi anomali dalam
transaksi dan mendeteksi aktivitas penipuan.

3. Healthcare
Ekosistem perawatan kesehatan terdiri dari banyak entitas termasuk penyedia layanan
Kesehatan (dokter perawatan primer, spesialis, atau rumah sakit), pembayar (pemerintah,
kesehatan swasta perusahaan asuransi, pengusaha), perusahaan farmasi, perangkat dan
layanan medis, TI perusahaan solusi dan layanan, dan pasien. Proses penyediaan layanan
kesehatan melibatkan data perawatan kesehatan besar-besaran yang ada dalam berbagai
bentuk (terstruktur atau tidak terstruktur), disimpan di sumber data yang berbeda (seperti
database relasional, atau server file) dan di banyak sumber data dengan format yang
berbeda. Beberapa contoh aplikasi perawatan kesehatan yang memperoleh manfaat dari
sistem big data, antara lain:
a. Epidemiological Surveillance
Sistem Surveilans Epidemiologis mempelajari distribusi dan penentu keadaan atau
peristiwa terkait kesehatan dalam populasi tertentu dan menerapkan studi ini untuk
diagnosis penyakit yang sedang diawasi di tingkat nasional untuk mengendalikan
masalah kesehatan.
b. Patient Similarity-based Decision Intelligence Application

DATA ANALYTIC | 12
Kerangka kerja big data dapat digunakan untuk menganalisis data kesehatan untuk
mengekstrak sekelompok catatan pasien yang paling mirip kepada pasien target
tertentu. Mengelompokkan catatan pasien juga dapat membantu dalam
mengembangkan aplikasi prognosis medis yang dapat memprediksi kemungkinan
hasil dari suatu penyakit pasien berdasarkan hasil pasien dengan penyakit serupa.
c. Adverse Drug Events Prediction
Kerangka kerja big data dapat digunakan untuk menganalisis Data kesehatan dan
prediksi pasien mana yang paling berisiko mengalami reaksi yang merugikan
terhadap obat tertentu berdasarkan reaksi obat yang merugikan dari pasien lain.
d. Detecting Claim Anomalies
Perusahaan asuransi kesehatan dapat memanfaatkan sistem Big Data untuk
menganalisis klaim asuransi kesehatan dalam mendeteksi penipuan,
penyalahgunaan, pemborosan, dan Kesalahan.
e. Evidence-based Medicine
Sistem big data dapat menggabungkan dan menganalisis data dari berbagai sumber,
termasuk hasil laboratorium tingkat individu, diagnostik, perawatan dan data
demografis, untuk mencocokkan perawatan dengan hasil, memprediksi pasien yang
berisiko terhadap sebuah penyakit.
f. Real-time health monitoring
Perangkat elektronik yang memungkinkan pemantauan terus menerus terhadap
parameter fisiologis. Perangkat ini mungkin dalam berbagai bentuk seperti ikat
pinggang dan gelang. Penyedia layanan kesehatan dapat menganalisis data perawatan
kesehatan yang dikumpulkan untuk menentukan kondisi ataupun anomali kesehatan.
Sistem Big Data dapat menganalisis data real-time yang digunakan untuk
menganalisis data dengan volume besar yang bergerak cepat dari perangkat-
perangkat yang terdapat di rumah sakit atau di rumah, untuk pemantauan kesehatan
pasien secara real-time dan prediksi kejadian yang tidak diinginkan.

4. Internet of Things
Internet of Things (IoT) mengacu pada hal-hal yang memiliki identitas unik dan
terhubung ke Internet. "Hal-hal" dalam IoT adalah perangkat yang dapat melakukan

DATA ANALYTIC | 13
penginderaan jauh, menggerakkan dan juga pemantauan. Perangkat IoT dapat bertukar
data dengan perangkat dan aplikasi lain yang terhubung (secara langsung atau tidak
langsung), atau mengumpulkan data dari perangkat lain dan memproses data baik secara
lokal maupun mengirimkan data ke server yang terpusat atau back-end aplikasi berbasis
cloud untuk memproses data, atau melakukan beberapa tugas secara lokal dan tugas lain
dalam infrastruktur IoT, berdasarkan pada batasan sementara dan ruang (yaitu, memori,
kemampuan pemrosesan, komunikasi latensi dan kecepatan, dan tenggat waktu). Sistem
IoT dapat memanfaatkan teknologi big data untuk penyimpanan dan analisis data. Berikut
ini adalah beberapa aplikasi IoT yang memperoleh manfaat dari sistem big data:
a. Intrusion Detection
Sistem deteksi penyusupan yang menggunakan kamera dan sensor keamanan (seperti
sensor PIR dan sensor pintu) untuk mendeteksi penyusupan dan meningkatkan
peringatan. Peringatan dapat berupa SMS atau email yang dikirimkan kepada
pengguna.
b. Smart Parking
Smart Parking membuat pencarian tempat parkir lebih mudah dan nyaman untuk
pengemudi. Smart Parking didukung oleh sistem IoT yang mendeteksi jumlah slot
parkir kosong dan mengirim informasi melalui Internet ke smart aplikasi parkir back-
end. Aplikasi ini dapat diakses oleh pengemudi dari ponsel pintar, tablet, dan sistem
navigasi dalam mobil.
c. Smart Roads
Smart Roads yang dilengkapi dengan sensor dapat memberikan informasi tentang
kondisi mengemudi, perkiraan waktu perjalanan dan peringatan jika kondisi
mengemudi yang buruk, lalu lintas kemacetan dan kecelakaan. Informasi tersebut
dapat membantu dalam membuat jalan lebih aman dan membantu mengurangi
kemacetan lalu lintas. Informasi yang dirasakan dari jalan dapat dikomunikasikan
melalui Internet ke aplikasi analitik big data berbasis cloud. Hasil analisis dapat
disebarluaskan kepada pengemudi yang berlangganan aplikasi tersebut atau melalui
sosial media.

DATA ANALYTIC | 14
d. Structural Health Monitoring
Sistem Pemantauan Kelayakan Struktur menggunakan jaringan sensor untuk
memantau tingkat getaran dalam struktur seperti jembatan dan bangunan. Data yang
dikumpulkan dari sensor ini dianalisis untuk menilai kesehatan struktur. Dengan
menganalisis data, dimungkinkan untuk mendeteksi retakan dan kerusakan mekanis,
menemukan kerusakan pada suatu struktur dan juga menghitung sisa umur struktur.
Dengan menggunakan sistem tersebut, peringatan lanjutan dapat diberikan dalam
kasus kegagalan yang mungkin akan segera terjadi.
Struktur.
e. Smart Irrigation
Sistem irigasi cerdas dapat meningkatkan hasil panen sekaligus menghemat Air.
Sistem irigasi pintar menggunakan perangkat IoT dengan sensor kelembaban tanah
untuk menentukan jumlah kelembaban di tanah dan melepaskan aliran air melalui
irigasi pipa hanya ketika tingkat kelembaban berada di bawah ambang batas yang
telah ditentukan. Sistem Irigasi pintar juga mengumpulkan pengukuran tingkat
kelembaban di cloud tempat sistem big data yang dapat digunakan untuk
menganalisis data untuk merencanakan jadwal penyiraman.

5. Environment
a. Weather Monitoring
Sistem pemantauan cuaca dapat mengumpulkan data dari sejumlah
sensor yang terpasang (seperti suhu, kelembaban, atau tekanan) dan mengirim data
ke aplikasi berbasis cloud dan backend analitik big data. Data ini kemudian dapat
dianalisis dan divisualisasikan untuk memantau cuaca dan menghasilkan peringatan
cuaca.
b. Air Pollution Monitoring
Sistem pemantauan polusi udara dapat memantau emisi gas berbahaya (CO2, CO,
NO, atau NO2) oleh pabrik dan mobil menggunakan sensor gas dan meteorologi.
Data yang dikumpulkan dapat dianalisis untuk membuat informasi keputusan tentang
pendekatan pengendalian polusi.

DATA ANALYTIC | 15
c. Noise Pollution Monitoring
Karena perkembangan perkotaan yang meningkat, tingkat kebisingan di kota-kota
telah meningkat dan bahkan menjadi sangat tinggi di beberapa kota. Polusi suara
dapat menyebabkan bahaya kesehatan bagi manusia karena gangguan tidur dan stres.
Pemantauan polusi suara dapat membantu dalam menghasilkan peta kebisingan
untuk kota- kota. Peta kebisingan perkotaan dapat membantu pembuat kebijakan
dalam perencanaan kota dan membuat kebijakan untuk mengendalikan tingkat
kebisingan di dekat daerah perumahan, sekolah dan taman.
d. Forest Fire Detection
Kebakaran hutan dapat menyebabkan kerusakan pada sumber daya alam, properti
dan kehidupan manusia. Mungkin ada berbagai penyebab kebakaran hutan termasuk
petir, kelalaian manusia, letusan gunung berapi dan percikan api dari batu jatuh.
Deteksi dini kebakaran hutan dapat membantu dalam meminimalkan kerusakan.
Sistem deteksi kebakaran hutan gunakan sejumlah node pemantauan yang disebarkan
di lokasi berbeda di hutan. Setiap node pemantauan mengumpulkan pengukuran pada
kondisi sekitar termasuk suhu, kelembaban, tingkat cahaya, misalnya.
e. River Floods Detection
Meluapnya air sungai dapat menyebabkan kerusakan luas pada alam dan sumber
daya manusia dan kehidupan manusia. Luapan sungai terjadi karena curah hujan
yang terus menerus yang menyebabkan permukaan sungai naik dan laju aliran
meningkat dengan cepat. Peringatan dini banjir dapat diberikan dengan memantau
ketinggian air dan laju aliran. Pemantauan luapan sungai sistem menggunakan
sejumlah node sensor yang memantau ketinggian air (menggunakan ultrasonic
sensor) dan laju aliran (menggunakan sensor kecepatan aliran).
f. Water Quality Monitoring
Pemantauan kualitas air dapat membantu untuk mengidentifikasi dan mengendalikan
pencemaran dan kontaminasi air akibat urbanisasi dan industrialisasi. Menjaga
kualitas air yang baik penting untuk menjaga Kesehatan kehidupan tumbuhan dan
hewan. Sistem pemantauan kualitas air menggunakan sensor untuk secara mandiri
dan terus memantau berbagai jenis kontaminasi dalam badan air (seperti kimia,
biologi, dan radioaktif).

DATA ANALYTIC | 16
6. Logistics & Transportation
a. Real-time Fleet Tracking
Sistem pelacakan armada kendaraan menggunakan teknologi GPS untuk melacak
lokasi kendaraan secara real-time. Sistem pelacakan armada berbasis cloud dapat
ditingkatkan sesuai permintaan untuk menangani sejumlah besar kendaraan.
Peringatan dapat dihasilkan di kasus penyimpangan dalam rute yang direncanakan
b. Shipment Monitoring
Solusi manajemen pengiriman untuk sistem transportasi memungkinkan pemantauan
kondisi di dalam kontainer. Misalnya, kontainer yang membawa produk makanan
segar dapat dipantau untuk mendeteksi pembusukan makanan. Sistem Pemantauan
pengiriman menggunakan sensor seperti suhu, tekanan, kelembaban, misalnya, untuk
memantau kondisi di dalam kontainer dan mengirim data ke cloud, di mana ia dapat
dianalisis untuk mendeteksi pembusukan makanan.
c. Remote Vehicle Diagnostics
Sistem diagnostik kendaraan jarak jauh dapat mendeteksi kesalahan di dalam
kendaraan atau memperingatkan kesalahan yang akan datang. Sistem diagnostik ini
menggunakan on-board perangkat untuk mengumpulkan data tentang operasi
kendaraan (seperti kecepatan, RPM mesin, pendingin suhu, atau nomor kode
kesalahan) dan status berbagai sub-sistem kendaraan.
d. Route Generation & Scheduling
Sistem transportasi modern didorong oleh data yang dikumpulkan dari berbagai
sumber yang diproses untuk memberikan layanan baru kepada pemangku
kepentingan. Dengan mengumpulkan data dalam jumlah besar dari berbagai sumber
dan pemrosesan data menjadi informasi yang berguna, sistem transportasi berbasis
data dapat memberikan yang baru layanan seperti panduan rute lanjutan, perutean
kendaraan dinamis, antisipasi permintaan pelanggan untuk masalah pengambilan dan
pengiriman. Pembuatan rute dan sistem penjadwalan dapat menghasilkan rute end-
to-end menggunakan kombinasi rute pola dan moda transportasi serta jadwal yang
layak berdasarkan ketersediaan Kendaraan.

DATA ANALYTIC | 17
e. Hyper-local Delivery
Platform pengiriman hiper-lokal semakin banyak digunakan oleh bisnis seperti
restoran dan toko kelontong untuk memperluas jangkauan mereka. Platform ini
memungkinkan pelanggan untuk memesan produk (seperti bahan makanan dan
makanan) menggunakan web dan aplikasi seluler dan produk bersumber dari toko
lokal (atau restoran). Karena platform ini ditingkatkan untuk melayani sejumlah
besar pelanggan (dengan ribuan transaksi setiap jam), mereka menghadapi berbagai
tantangan dalam memproses pesanan secara Real-time. Sistem analitik big data
secara real-time dapat digunakan oleh pengiriman hiper-lokal platform untuk
menentukan toko terdekat dari lokasi pesanan dan menemukan agen pengiriman di
dekat toko yang dapat mengambil pesanan dan mengirimkannya kepada pelanggan.
f. Cab/Taxi Aggregators
Agregator teknologi transportasi sesuai permintaan memungkinkan pelanggan untuk
memesan taksi menggunakan aplikasi web atau seluler dan permintaan dirutekan ke
taksi terdekat yang tersedia (kadang-kadang bahkan pengemudi pribadi yang
memilih mobil mereka sendiri untuk disewa). Platform agregasi menggunakan sistem
big data untuk pemrosesan permintaan secara real-time dan penetapan harga dinamis.

7. Industry
a. Machine Diagnosis & Prognosis
Prognosis mesin mengacu pada memprediksi kinerja mesin dengan menganalisis data
tentang kondisi operasi saat ini dan penyimpangan dari kondisi operasi normal.
Diagnosis mesin mengacu pada menentukan penyebab kesalahan mesin. Mesin
industri memiliki jumlah yang besar komponen yang harus berfungsi dengan benar
agar mesin dapat melakukan operasinya. Sensor pada mesin dapat memantau kondisi
pengoperasian seperti (suhu dan tingkat getaran).
b. Risk Analysis of Industrial Operations
Di banyak industri, ada persyaratan ketat pada kondisi lingkungan dan kondisi
peralatan kerja. Pemantauan kondisi kerja pekerja penting untuk memastikan
kesehatan dan keselamatan mereka. Gas berbahaya dan beracun seperti karbon
monoksida (CO), nitrogen monoksida (NO), Nitrogen Dioksida (NO2), misalnya,

DATA ANALYTIC | 18
dapat menyebabkan masalah kesehatan yang serius. Gas sistem monitoring dapat
membantu dalam memantau kualitas udara dalam ruangan menggunakan berbagai
gas Sensor.
c. Production Planning and Control
Perencanaan produksi dan sistem kontrol mengukur berbagai parameter proses
produksi dan mengontrol seluruh proses produksi secara real-time. Sistem ini
menggunakan berbagai sensor untuk mengumpulkan data tentang proses produksi.
Sistem big data dapat digunakan untuk menganalisis data ini untuk perencanaan
produksi dan mengidentifikasi potensi masalah.

8. Retail
a. Inventory Management
Manajemen inventaris untuk ritel menjadi semakin meningkat penting dalam
beberapa tahun terakhir dengan persaingan yang berkembang. Sementara over-
stocking dari produk dapat mengakibatkan biaya dan risiko penyimpanan tambahan
(jika terjadi mudah rusak), kurangnya stocking dapat menyebabkan hilangnya
pendapatan. Analisis data persediaan dapat membantu dalam mengoptimalkan
tingkat dan frekuensi stocking ulang berdasarkan permintaan.
b. Customer Recommendations
Sistem big data dapat digunakan untuk menganalisa data pelanggan (seperti data
demografis, riwayat belanja, atau umpan balik pelanggan) dan prediksi preferensi
pelanggan. Produk baru dapat direkomendasikan kepada pelanggan berbasis pada
preferensi pelanggan dan penawaran dan diskon yang dipersonalisasi dapat
diberikan.
c. Store Layout Optimization
Sistem big data dapat membantu dalam menganalisis data pada pola belanja
pelanggan dan umpan balik pelanggan untuk mengoptimalkan tata letak toko. Item
yang lebih mungkin dibeli bersama oleh pelanggan dapat ditempatkan di tempat yang
sama atau rak terdekat.

DATA ANALYTIC | 19
d. Forecasting Demand
Karena jumlah produk yang sangat banyak, variasi musiman dalam tuntutan dan
perubahan tren dan preferensi pelanggan, pengecer merasa sulit untuk perkiraan
permintaan dan volume penjualan. Sistem big data dapat digunakan untuk
menganalisis pola pembelian pelanggan dan memprediksi permintaan dan volume
penjualan.

1.1.4. ANALISIS DATA

Analisis data adalah proses pengolahan data dengan tujuan untuk menemukan
informasi yang berguna yang dapat dijadikan dasar dalam pengambilan keputusan untuk
solusi suatu permasalahan. Proses analisis ini meliputi kegiatan pengelompokkan data
berdasarkan karakteristiknya, melakukan pembersihan data, mentransformasi data, membuat
model data untuk menemukan informasi penting dari data tersebut. Tak lupa data yang sudah
melalui proses tersebut harus disajikan dalam bentuk yang menarik dan mudah dipahami oleh
orang lain biasanya dalam bentuk grafik atau plot.
Penggunaan teknologi sekarang hampir menyentuh segala aktivitas kita. Teknologi
ini tentu berhubungan dengan data dimana akan terus bertambah setiap waktu. Jika data
dibiarkan menumpuk, maka data hanya akan menjadi hal yang sia-sia. Padahal data bisa diolah
dan dimanfaatkan untuk mendapatkan informasi yang berguna. Oleh sebab itu, analisis data
merupakan langkah dalam pengolahan data yang sangat penting.
Adapun analisis data memiliki berbagai macam pendekatan atau teknik yang dapat
digunakan. Dalam melakukan analisis data tentu ada prosedur atau langkah-langkah yang
harus dilakukan. Langkah pertama tentunya mengumpulkan data yang dibutuhkan untuk
penelitian. Pastikan data yang digunakan sudah lengkap dan memiliki sumber yang jelas.
Selanjutnya lakukan identifikasi data dan kelompokkan berdasarkan karakteristiknya.
Lakukan juga normalisasi data agar data dalam bentuk yang sama untuk memudahkan proses
analisis. Lalu lakukan analisis data tersebut menggunakan metode atau teknik yang sesuai.
Hasil analisis data kemudian disajikan dalam bentuk yang menarik dan mudah dipahami.
Analisis data direpresentasikan sebagai rantai proses yang terdiri dari urutan tahapan
berikut:

DATA ANALYTIC | 20
Proses Data Analisis

1.1.5. Domain Pengetahuan Analis Data

Analisis data pada dasarnya adalah disiplin yang cocok untuk mempelajari masalah
yang mungkin terjadi di beberapa bidang aplikasi. Selain itu, analisis data mencakup banyak
alat dan metodologi yang membutuhkan pengetahuan yang baik tentang komputasi,
matematika, dan statistik.
Seorang analis data yang baik harus dapat bergerak dan bertindak dalam banyak
disiplin yang berbeda area (multidisiplin). Banyak dari disiplin ilmu ini adalah dasar dari
metode analisis data, dan kemahiran di dalamnya hampir diperlukan. Pengetahuan tentang
disiplin ilmu lain diperlukan tergantung pada bidang aplikasi dan studi proyek analisis data
tertentu, dan secara umum, pengalaman yang cukup di bidang-bidang ini dapat membantu
dalam lebih memahami masalah dan jenis data yang dibutuhkan.
Seringkali, masalah utama analisis data, perlu untuk memiliki tim ahli
interdisipliner yang dapat berkontribusi dengan cara terbaik sesuai dengan bidang kompetensi
masing-masing. Singkatnya, analis harus bisa tahu cara mencari tidak hanya data, tetapi juga
informasi bagaimana cara menangani data tersebut.

DATA ANALYTIC | 21
a. Computer Science (Ilmu Komputer)
Pengetahuan tentang ilmu komputer adalah persyaratan dasar bagi setiap analis data.
Dengan memiliki pengetahuan dan pengalaman yang baik dalam ilmu komputer, maka
kita akan dapat mengelola alat yang diperlukan secara efisien untuk analisis data.
Faktanya, setiap langkah tentang analisis data melibatkan penggunaan perangkat lunak
perhitungan (seperti IDL, MATLAB, dll.) dan bahasa pemrograman (seperti C ++, Java,
dan Python). Pengetahuan tentang teknologi informasi diperlukan untuk mengetahui cara
menggunakan berbagai tools, seperti aplikasi dan bahasa pemrograman. Tools ini, pada
gilirannya, diperlukan untuk melakukan analisis data dan visualisasi data.
b. Mathematics and Statistics
Analisis data membutuhkan matematika yang sangat kompleks selama pemrosesan data,
hal ini diperlukan untuk memahami apa proses yang akan dilakukan. Pengetahuan utama
tentang konsep statistik juga diperlukan karena semua metode yang diterapkan dalam
analisis dan interpretasi data didasarkan pada konsep-konsep ini.
Teknik statistik yang paling umum digunakan dalam analisis data adalah Bayesian
methods, Regression dan Clustering.
c. Machine Learning and Artificial Intelligence
Salah satu tools analisis data yang digunakan adalah machine learning. Machine Learning
adalah disiplin ilmu yang menggunakan serangkaian prosedur dan algoritma yang
menganalisis data untuk mengenali pola, cluster, atau tren dan kemudian mengekstrak
informasi yang berguna untuk analisis data secara otomatis. Machine learning ini menjadi
tools dasar analisis data.

1.1.6. Big Data Analisis

Konsep big data telah ada selama bertahun-tahun; sebagian besar organisasi pada saat
ini mengerti bahwa jika mereka bisa menggunakan data yang terdapat di bisnis mereka,
mereka dapat menerapkan analitik dan mendapatkan nilai manfaat yang signifikan dari data
tersebut. Bahkan di tahun 1950-an, beberapa dekade sebelum istilah "big data" muncul, bisnis
menggunakan analitik dasar (pada dasarnya angka dalam spreadsheet yang dikaji secara
manual) untuk mengungkap wawasan dan tren.

DATA ANALYTIC | 22
Namun, manfaat baru yang dibawa oleh analisis big data adalah kecepatan dan
efisiensi. Sementara beberapa tahun yang lalu sebuah bisnis akan mengumpulkan informasi,
menjalankan analitik, dan menggali informasi yang dapat digunakan untuk keputusan di masa
mendatang, kini bisnis dapat mengidentifikasi pengetahuan yang didapat sebagai dasar
pengambilan keputusan segera.
Big data didefinisikan sebagai kumpulan data yang berukuran sangat besar. Ukuran
big data bisa sebesar terabyte bahkan petabyte. Sama seperti data pada umumnya, big data
tetap membutuhkan analisis yang biasa disebut big data analytics. Saat ini, dunia sedang
memasuki masa perkembangan teknologi yang begitu pesat. Fenomena ini berbanding lurus
dengan produksi data yang semakin besar dari waktu ke waktu. Produksi data yang begitu
besar ini mendorong pengusaha untuk mengelola data agar dapat menghasilkan insight yang
akan bermanfaat untuk proses pengambilan keputusan bisnis. Hal ini didukung dengan
banyaknya sumber data yang gratis dan mudah diakses sehingga perusahaan tidak perlu
mengeluarkan banyak dana untuk membeli lisensi sumber data yang biasanya cukup mahal.
Pada dasarnya, big data dibagi menjadi tiga jenis, yaitu big data terstruktur, tidak
terstruktur dan semi terstruktur. Big data terstruktur terdiri dari data yang dapat digunakan
dalam bentuk aslinya. Contohnya catatan gaji karyawan. Sebagian besar komputer dan
aplikasi modern diprogram untuk menghasilkan data terstruktur dalam format preset agar
lebih mudah diproses. Big data tidak terstruktur merupakan data tanpa format yang tepat.
Contohnya teks manusia, hasil penelusuran Google, dan lain sebagainya. Big data tidak
terstruktur membutuhkan waktu dan tahapan analisis yang lebih banyak dibandingkan dengan
big data terstruktur karena data ini memerlukan proses untuk mengkonversi data tidak
terstruktur menjadi data terstruktur. Kumpulan data semi terstruktur adalah kombinasi data
terstruktur dan tidak terstruktur. Kumpulan data ini bisa jadi memiliki struktur yang tepat
namun tidak memiliki elemen penentu untuk filtering dan pemrosesan. Contohnya adalah data
RFID dan XML.

Kegunaan Big Data Analytics untuk Perkembangan Bisnis

Analitik big data memiliki peranan yang penting, dimana Analitik big data membantu
organisasi memanfaatkan data mereka dan menggunakannya untuk mengidentifikasi peluang
baru, mengarah kepada pergerakan bisnis yang lebih cerdas, operasi yang lebih efisien, laba

DATA ANALYTIC | 23
yang lebih tinggi, dan pelanggan yang lebih bahagia. Dalam laporannya Big Data in Big
Companies (Big Data dalam Perusahaan Besar), IIA Director of Research Tom Davenport
mewawancarai lebih dari 50 perusahaan untuk memahami bagaimana mereka menggunakan
big data. Ia menemukan bahwa keuntungan yang diperoleh perusahaan-perusahaan tersebut
antara lain:
a. Pengurangan biaya. Teknologi big data seperti Hadoop dan analitik berbasis cloud
membawa keuntungan biaya yang signifikan dalam hal menyimpan data dalam jumlah
besar dan mereka dapat mengidentifikasi cara-cara yang lebih efisien dalam melakukan
bisnis.
b. Pengambilan keputusan lebih cepat dan lebih baik. Dengan kecepatan Hadoop dan
analitik in-memory, dikombinasikan dengan kemampuan untuk menganalisis sumber
data baru, perusahaan dapat menganalisis informasi dengan segera dan mengambil
keputusan berdasarkan apa yang telah mereka pelajari.
c. Produk dan layanan baru. Dengan kemampuan untuk mengukur kebutuhan dan kepuasan
pelanggan melalui analitik, muncul kekuatan untuk memberikan apa yang diinginkan
pelanggan. Davenport menunjukkan bahwa dengan analitik big data, lebih banyak
perusahaan menciptakan produk baru untuk memenuhi kebutuhan pelanggan.

DATA ANALYTIC | 24
1.1.7. Analytics Flow for Big Data

Big Data Analytics Flow

Data Collection
Pengumpulan data adalah langkah pertama untuk aplikasi analitik apa pun. Sebelum data bisa
dianalisis, data harus dikumpulkan dan diserap ke dalam tumpukan (stack) Big Data. Pilihan tools
dan framework untuk pengumpulan data tergantung pada sumber data dan jenis data yang diserap.
Untuk pengumpulan data, berbagai jenis konektor dapat digunakan antara lain sebagai publish-
subscribe messaging frameworks, messaging queues, source-sink connectors, database connectors
dan custom connectors.

DATA ANALYTIC | 25
Data Preparation
Data seringkali bisa kotor dan dapat memiliki berbagai masalah yang harus diselesaikan sebelum
data dapat diproses, seperti catatan yang rusak, nilai yang hilang, duplikat, singkatan yang tidak
konsisten, unit yang tidak konsisten, kesalahan ketik, ejaan yang salah, dan pemformatan yang
salah. Langkah persiapan data melibatkan berbagai tugas seperti pembersihan data, data
wrangling, de-duplikasi, normalisasi, pengambilan sampel, dan penyaringan.

Analysis Types
Langkah selanjutnya dalam alur analisis adalah menentukan jenis analisis untuk aplikasi,
diantaranya adalah Basic Statistics, Regression, Recommendation, Graph Analytics,
Classification, Clustering, Time Series Analysis, Text Analysis, Pattern Mining.

Analysis Modes
Dengan adanya jenis analisis yang dipilih untuk sebuah aplikasi, langkah selanjutnya adalah
menentukan mode analisisnya, yang dapat berupa batch, real-time atau interaktif. Pilihan mode
tergantung pada persyaratan aplikasi. Jika aplikasi Anda menuntut hasil untuk diperbarui setelah
interval waktu yang singkat (katakanlah setiap beberapa detik), maka mode analisis real-time yang
dipilih, Namun jika aplikasi Anda hanya memerlukan hasil yang akan dihasilkan dan diperbarui
pada kurun waktu tertentu (katakanlah harian atau bulanan), maka mode batch dapat digunakan.
Jika aplikasi Anda menuntut fleksibilitas untuk mengkueri data sesuai permintaan, maka mode
interaktif berguna.

Visualizations
Visualisasi dapat bersifat statis, dinamis, atau interaktif. Statis visualisasi digunakan ketika Anda
memiliki hasil analisis yang disimpan dalam database dan Anda hanya ingin menampilkan
hasilnya. Namun, jika aplikasi Anda menuntut hasilnya untuk diperbarui secara berkala, maka
Anda akan memerlukan visualisasi dinamis (dengan widget langsung, plot, atau alat pengukur).
Jika Anda ingin aplikasi Anda menerima input dari pengguna dan menampilkan hasilnya, maka
Anda akan membutuhkan visualisasi yang interaktif.

DATA ANALYTIC | 26
1.2. Data Analytics dan Trend Teknologi Revolusi Industri 4.0
Pada saat ini, bahkan jauh sebelumnya, data menjadi pusat perhatian saat kita bergerak lebih
jauh tentang 'Revolusi industri keempat' atau 'Industri 4.0', dan beberapa mengatakan bahwa data,
dan produk sampingan dari pengumpulan dan analisis data adalah revolusi industri keempat.
Revolusi pertama berjudul Industrial Revolution (Revolusi Industri), yang menggunakan
tenaga uap untuk automise pabrik; revolusi kedua memperkenalkan listrik sebagai sarana untuk
mempercepat industri. Yang ketiga termasuk adopsi komputer, robotika dan internet. Industri 4.0,
atau revolusi keempat, melibatkan menambang informasi, yaitu. data, yang berasal dari sensor,
agregator, Cloud Computing (komputasi awan), dan Internet of Things, yang digunakan untuk
menciptakan lebih banyak keuntungan dan menjalankan perusahaan, pabrik, dan organisasi
dengan lebih efisien.
Teknologi lanjutan yang telah berevolusi karena revolusi industri keempat telah sangat
mambantu industri dan masyarakat dengan menghubungkan proses dan sistem yang sebelumnya
tidak terhubung, menciptakan wawasan dan inovasi baru, dan munculnya Artificial Intelligence
(kecerdasan buatan). Karena pentingnya dan sentralisasi data, bidang ilmu data science telah
berkembang pesat. Data scientists saat ini dapat mengandalkan model machine learning, algoritme
komputasi, dan visualisasi untuk mengekstrak pengetahuan dari kumpulan data besar (Big Data),
untuk lebih memahami informasi apa yang sebelumnya diperoleh dari sistem yang berbeda.

Pengaruh Revolusi Industri 4.0 Terhadap Bisnis Perusahaan

Sejalan dengan perkembangan Revolusi Industri 4.0 tersebut, perusahaan membutuhkan
pekerja dengan keterampilan baru, yang mungkin tidak ada sebelumnya. Beberapa bidang
pekerjaan akan mengalami peluang untuk berkembang pesat, sementara bidang pekerjaan yang
lain mungkin akan menurun.
Dalam survei yang diadakan oleh World Economic Forum (Future of Jobs Survey 2018)
diketahui bahwa ada 4 teknologi yang akan mendominasi pada tahun 2018-2022 yaitu: high-speed
mobile internet, artificial intelligence, big data analytics, dan cloud technology. Keempat teknologi
tersebut diyakini akan banyak mempengaruhi perkembangan bisnis perusahaan.
Sampai tahun 2022, erdasarkan survey tersebut, 92% perusahaan di Indonesia akan
mengadopsi penggunaan big data analytics sebagai salah satu teknologi utama. Demikian pula,

DATA ANALYTIC | 27
proporsi cukup besar akan terjadi untuk penggunaan teknologi lainnya di Revolusi Industri 4.0
seperti internet of things, machine learning, dan cloud computing.

Society 5.0
“The essence of Society 5.0 is that it will become possible to quickly elicit the most suitable
solution that meets the needs of each individual”. Shinzo Abe, Prime Minister of Japan

Seiring dengan perkembangan zaman, berbagai konsep teknologi pun turut berkembang
dengan pesat. Salah satunya adalah konsep society 5.0 yang pertama kali digagas oleh negara
Jepang. Konsep ini bertujuan untuk memudahkan kebutuhan manusia dengan penggunaan ilmu
pengetahuan berbasis teknologi modern. Society 5.0 adalah konsep dimana kita menggunakan
ilmu pengetahuan (IoT, big data, AI, robotik, dst) untuk "melayani" kebutuhan manusia. Society
5.0 adalah "super smart society" dimana inovasi yang dilakukan bukan semata hanya mengejar
inovasi teknologi melainkan melihat apa kebutuhan dari masyarakatnya.
Istilah Society 5.0 sendiri baru populer sejak 2 tahun yang lalu, tepatnya pada 21 Januari 2019,
yang diusulkan dalam Rencana Dasar Sains dan Teknologi ke-5 oleh mantan Perdana Menteri
Jepang Shinzo Abe. Istilah ini menjadi perkembangan atas revolusi industri 4.0 atau Society 4.0.
Inilah sebabnya kedua konsep tersebut tidak memiliki banyak perbedaan. Hanya saja, keduanya
memiliki fokus yang berbeda. Revolusi industry 4.0 cenderung menjadi konsep yang memudahkan

DATA ANALYTIC | 28
kehidupan manusia dengan adanya AI sebagai komponen utama. Sementara Society 5.0 adalah
pemanfaatan teknologi modern, namun masih mengandalkan manusia sebagai komponen
utamanya.

DATA ANALYTIC | 29
DATA SCIENCE METHODOLOGY

“An issue with current data science methodologies is that the impact of contextual awareness is
underestimated since the problem is much more complex. At times we incorrectly equate
correlation with causation based on incomplete data or lack of understanding sensitive
dependencies between data sets.” ― Tom Golway

Metodologi data science adalah langkah-langkah digunakan dalam proyek data science
agar dapat menghasilkan hasil yang optimal yang dapat menjawab pertanyaan dari suatu masalah
yang ingin diselesaikan. Metodologi ini tidak bergantung pada teknologi atau tools tertentu. Secara
umum terdapat dua kelompok metodologi, metodologi teknis dan metodologi bisnis.

1. Berbagai Metodologi Data Science

Terdapat 2 jenis Metodologi didalam data science, yaitu metodologi kegiatan teknis dan
metodologi kegiatan bisnis (dan teknis) yang disebut juga metodologi lengkap. Dalam Metodologi
teknis ada 2 contoh diantaranya Metodologi Knowledge Discovery and data Mining (KDD) dan
Metodologi Sample, Emplore, Modify, Model dan Assess (SEMMA). Dan untuk metodologi
lengkap beberapa contoh diantaranya: Cross-Industry Standard Process for Data Mining (CRISP-
DM), IBM Data Science Methodology, Microsoft’s Team Data Science Process, dan Domino
DataLab Methodology.

1. Knowledge Discovery dan Data Mining (KDD)

Knowledge Discovery in Database Process (KDD) adalah salah satu metode yang bisa digunakan
dalam melakukan data mining. Fayyed et al. (1996) mendefinisikan KDD sebagai proses dari
menggunakan metode data mining untuk mencari informasi-informasi yang berharga, pola yang
ada di dalam data, yang melibatkan algoritma untuk mengidentifikasi pola pada data.

DATA ANALYTIC | 30
Metodologi KDD
https://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf
KDD merupakan proses pemanfaatan metoda Data Mining untuk mengekstraksi pengetahuan
sesuai dengan ukuran atau threshold yang ditentukan. Proses dimulai dengan adanya sekumpulan
data (dataset) yang akan mengalami serangkaian proses sebagai berikut:
a. Selection: Pemilihan data (data target) yang akan menjadi sampel untuk proses selanjutnya.
b. Preprocessing data: Melakukan serangkaian proses untuk melengkapi data dan menjaga
konsistensi data.
c. Transformation: Mengubah representasi data untuk mempermudah dan memperbaiki agar
sesuai dengan Teknik data mining yang akan dipergunakan
d. Data Mining: Kegiatan pengembangan model untuk mencari pola dari data yang diberikan
e. Evaluation: Proses interpretasi dan evaluasi pola yang diperoleh apakah pola yang menarik,
berguna atau relevan.

2. Sample, Emplore, Modify, Model dan Assess (SEMMA)

SEMMA merupakan singkatan dari Sample, Emplore, Modify, Model, dan Assess. Metode
ini dapat ditemukan oleh SAS Institute yang dapat digunakan untuk memudahkan penggguna
untuk memprediksi tentang variable-variabel yang mengacu melakukan proses sebuah proyek data
mining. Proses data mining SEMMA dapat digunakan dengan mudah dan mudah dipahami proses
yang terkait dalam pemeliharaan proyek data mining. Proses data mining SEMMA memiliki 5

DATA ANALYTIC | 31
proses tahapan yaitu Sample, Explore, Modify, Model, dan Assess, dari masing-masing tersebut
memiliki peran sendiri dalam proses data mining dan memiliki manfaat dalam proses data mining
tersebut.

Metodologi SEMMA

Sementara metodologi SEMMA sesuai dengan namanya melakukan serangkaian kegiatan yang
bersifat siklik (berulang) yaitu:
a. Sample: Proses ekstraksi data untuk mendapatkan dataset yang cukup untuk mendapatkan
informasi signifikan namun tidak terlalu besar sehingga mudah untuk diproses selanjutnya.
b. Explore: Proses untuk mengeksplorasi data dengan mencari trend dan anomali untuk
mendapatkan pemahaman tentang data
c. Modify: Proses modifikasi data dengan membuat, memilih dan transformasi variable untuk
proses pemodelan
d. Model: Proses pemodelan dari data dengan mencari secara otomatis kombinasi data yang
dapat dipakai untuk prediksi
e. Assess: Mengevaluasi pola yang ditemukan apakah berguna dan cukup andal.

2. Cross-Industry Standard Process for Data Mining (CRISP-DM)

Cross-Industry Standard Process for Data Mining atau CRISP-DM adalah salah satu
model proses datamining (datamining framework) yang awalnya (1996) dibangun oleh 5
perusahaan yaitu Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation

DATA ANALYTIC | 32
dan OHRA. Framework ini kemudian dikembangan oleh ratusan organisasi dan perusahaan di
Eropa untuk dijadikan methodology standard non-proprietary bagi data mining.
Tahapan proses dalam CRISP-DM ada 6 tahapan yang bersifat adaptif dan terurut. Dimana
output dari setiap tahapan yang ada dalam metode ini saling mempengaruhi satu sama lain, dalam
kata lain tahap sebelumnya akan mempengaruhi tahap selanjutnya yang ada dalam proses CRISP-
DM (Ginantara et al. 2021).

Metodologi CRISP-DM

Masing-masing tahapan CRISP-DM tersebut dijelaskan sebagai berikut:

1. Business Understanding: Kegiatan yang dilakukan antara lain: menentukan tujuan dan
persyaratan dengan jelas secara keseluruhan, menerjemahkan tujuan tersebut serta
menentukan pembatasan dalam perumusan masalah data mining, dan selanjutnya
mempersiapkan strategi awal untuk mencapai tujuan tersebut.
2. Data Understanding: Secara garis besar untuk memeriksa data, sehingga dapat
mengidentifikasi masalah dalam data. Tahap ini memberikan fondasi analitik untuk sebuah
penelitian dengan membuat ringkasaan (summary) dan mengidentifikasi potensi masalah
dalam data.
3. Data Preparation: Secara garis besar untuk memperbaiki masalah dalam data, kemudian
membuat variabel derived. Tahap sampling dapat dilakukan disini dan data secara umum

DATA ANALYTIC | 33
dibagi menjadi dua, data training dan data testing. Kegiatan yang dilakukan antara lain:
memilih kasus dan parameter yang akan dianalisis (Select Data), melakukan transformasi
terhadap parameter tertentu (Transformation), dan melakukan pembersihan data agar data siap
untuk tahap modeling (Cleaning).
4. Modeling: Secara garis besar untuk membuat model prediktif atau deskriptif. Pada tahap ini
dilakukan metode statistika dan Machine Learning untuk penentuan terhadap teknik data
mining, alat bantu data mining, dan algoritma data mining yang akan diterapkan. Lalu
selanjutnya adalah melakukan penerapan teknik dan algoritma data mining tersebut kepada
data dengan bantuan alat bantu. Jika diperlukan penyesuaian data terhadap teknik data mining
tertentu, dapat kembali ke tahap data preparation. Beberapa modeling yang biasa dilakukan
adalah classification, scoring, ranking, clustering, finding relation, dan characterization.
5. Evaluation: Melakukan interpretasi terhadap hasil dari data mining yang dihasilkan dalam
proses pemodelan pada tahap sebelumnya. Evaluasi dilakukan terhadap model yang
diterapkan pada tahap sebelumnya dengan tujuan agar model yang ditentukan dapat sesuai
dengan tujuan yang ingin dicapai dalam tahap pertama.
6. Deployment: Perencanaan untuk Deployment dimulai selama Business Understanding dan
harus menggabungkan tidak hanya bagaimana untuk menghasilkan nilai model, tetapi juga
bagaimana mengkonversi skor keputusan, dan bagaimana untuk menggabungkan keputusan
dalam sistem operasional.

3. IBM Data Science

Tujuan dari metodologi data science adalah untuk berbagi metodologi yang dapat
digunakan dalam data science, untuk memastikan bahwa data yang digunakan dalam pemecahan
masalah adalah relevan dan dimanipulasi dengan benar untuk menjawab pertanyaan.

DATA ANALYTIC | 34
IBM Data Science

Alur kerja dari Data Scientist adalah sebagai berikut:

a. Business Understanding: memahami apakah tujuan bisnis untuk meningkatkan efisiensi

kegiatan atau untuk menambah jenis kegiatan. Setelah tujuan diklarifikasi, langkah
selanjutnya adalah mencari tahu kira-kira apa saja yang bisa mendukung tujuan.
b. Analytic Understanding: Berdasarkan pemahaman bisnis sebelumnya, kita harus
memutuskan pendekatan analitis mana yang harus diikuti, yaitu:
c. Deskriptif → status saat ini dan informasi yang diberikan.
d. Diagnostik → analisis statistik, apa yang terjadi dan mengapa itu terjadi.
e. Prediktif → meramalkan tren atau kemungkinan kejadian di masa depan.
f. Preskriptif → bagaimana masalah harus diselesaikan
g. Data Requirements: Metode analisis yang telah dipilih sebelumnya menunjukkan isi,
format, dan sumber data yang diperlukan untuk dikumpulkan. Selama proses kebutuhan data,
kita harus menemukan jawaban atas pertanyaan-pertanyaan seperti apa, dimana, kapan,
mengapa, bagaimana, siapa.
h. Data Collenction: Data yang dikumpulkan dapat diperoleh dalam format acak, selanjutnya
data yang dikumpulkan harus divalidasi. Dengan demikian, jika diperlukan, seseorang dapat
mengumpulkan lebih banyak data atau membuang data yang tidak relevan.
i. Data Understanding: mengumpulkan data berdasarkan masalah yang akan
dipecahkan. Statistik perlu digunakan untuk memastikan apakah ada nilai yang hilang atau

DATA ANALYTIC | 35
tidak. Terkadang nilai yang hilang bisa berarti “0” atau “tidak” atau bahkan “tidak
diketahui”.
j. Data Preparation: melakukan pembersihan data dan pemilihan data.
k. Modelling: Pada tahap ini Data Scientist menentukan apakah data yang disiapkan sudah
sesuai atau membutuhkan lebih banyak finishing dan bumbu. Ilmuwan data memiliki
kesempatan untuk mengambil sampel data dan fokus pada pengembangan model deskriptif
atau prediktif.
l. Evaluation: Evaluasi model dilakukan selama proses pengembangan model. Di sini Data
Scientist memeriksa kualitas model apakah memenuhi persyaratan yang diberikan oleh
stakeholder atau tidak.
m. Deployment: Setelah Data Scientist mendapatkan model terbaik untuk pemecahan masalah
bisnis, akan bermanfaat jika stakeholder dapat menggunakannya. Oleh karena itu, tahap
setelah evaluasi adalah implementasi dan pengujian akhir. Pada tahap ini, Data Scientist akan
bekerja sama dengan para backend dan frontend engineer untuk mengimplementasikan
model yang telah dibuat agar mudah digunakan oleh para stakeholder.
n. Feedback: Setelah proses penyebaran model, stakeholder akan mendapatkan feedback
tentang kinerja model. Menganalisis umpan balik memungkinkan Data Scientist untuk
menyempurnakan model dan meningkatkan akurasi dan kegunaannya.

4. Microsoft’s Team Data Science Process

Proses Data Science Tim (TDSP) adalah metodologi data science yang tangkas dan
berulang untuk memberikan solusi analisis prediktif dan aplikasi cerdas secara efisien. TDSP
membantu meningkatkan kolaborasi dan pembelajaran tim dengan menyarankan bagaimana
peran-peran tim dapat bekerja bersama dengan semaksimal mungkin. TDSP mencakup praktik dan
struktur terbaik dari Microsoft dan para pemimpin industri lainnya untuk membantu keberhasilan
implementasi inisiatif data science. Tujuannya adalah untuk membantu perusahaan sepenuhnya
mendapatkan manfaat dari program analitik mereka.

DATA ANALYTIC | 36
Metodologi Data science Life Cycle dari Microsoft

Metodologi lain adalah dari Microsoft. Sama dengan sebelumnya, proses diawali dengan kegiatan
Business Understanding. Daftar proses utamanya adalah sebagai berikut:

a. Business Understanding: Kegiatan untuk memahami masalah yang dihadapi

b. Data Acquisition and Understanding: Kegiatan yang meliputi proses pengumpuilan dan
eksplorasi data. Data bisa diambil dari data internal (on promise) ataupun dari cloud dan
bisa berupa database ataupun file flat. Proses dilakukan melalui pipeline, yang dapat berupa
proses batch atau streaming. Eksplorasi (data wrangling) meliputi pembersihan data,
validasi dan visualisasi.
c. Modeling: Pengembangan model yang meliputi feature engineering, model fitting, dan
model evaluation.
d. Deployment: Pemasangan model ke dalam aplikasi intelijen, suatu web service atau objek
pada model store. Proses diakhiri dengan UAT (Customer Acceptance)
e. Domino DataLab

DATA ANALYTIC | 37
Domino Data Lab mengubah cara kerja tim ilmu data, menghadirkan Platform Ilmu Data
Perusahaan yang mempercepat penelitian dan meningkatkan kolaborasi. Ilmuwan data mendapat
manfaat dari akses ke sumber daya komputasi yang kuat, fitur untuk membuat pekerjaan mereka
lebih efisien, dan alat untuk mempublikasikan hasil dan menerapkan model dengan cepat untuk
orang lain. Tim ilmu data mendapatkan hub pusat untuk berkolaborasi dan berbagi, membangun
praktik terbaik, dan belajar dari satu sama lain. Berbasis di San Francisco, pelanggan Domino
berkisar dari perusahaan rintisan kecil hingga perusahaan Fortune 500.

Metodologi Domino DataLab

Metodologi lainnya adalah Metodologi dari Domino (Domino DataLab Methodology). Proses
utama pada metodologi ini adalah:
a. Ideation adalah pemahaman terhadap masalah pada proses bisnis serta identifikasi objektif
bisnisnya. Langkah berikutnya adalah melakukan perhitungan terhadap objektif bisnis
tersebut beserta Cost-Benefit Analysis.
b. Data Acquisition and Preparation: Menentukan data yang diperlukan baik yang berasal dari
sistem internal ataupun eksternal. Setelah proses akuisisi dilakukan eksplorasi terhadap data
dan juga proses persiapan data.
c. Research and Development: Pemodelan dilakukan sebagai suatu kegiatan pembuktian
hipotesa dan pemodelan. Jika hasil sudah dianggap cukup maka dilakukan kegiatan berikutnya
sementara jika belum dilakukan perbaikan data atau perubahan hipotesa. Dalam proses
eksperimen, selaain metrik statistic dipergunhakan juga KPI organisasi.
d. Validation: Model yang sudah dibuat divalidasi dari sudut bisnis dan teknis sebelum dipasang

DATA ANALYTIC | 38
(deployment)
e. Delivery: Deployment yang dimulai dengan perencanaan, lalu pemasangan dan perawatan
sistem. Dalam proses ini juga dilakukan UAT (User Acceptance Testing).

Metodologi Domino juga dilengkapi daftar personal yang terlibat pada setiap langkah baik data
scientist, business people, dan petugas Information technology Division. Juga dilengkapi daftar
tools yang bisa dipergunakan dalam setiap langkah metodologi.

2. Standard kompetensi kerja nasional bidang data science di Indonesia

Hal yang perlu diperhatikan terkait dengan metodologi data science dalah adanya standard
kompetensi kerja nasional di bidang data science yaitu Standard Kompetensi Kerja Nasional
Indonesia (SKKNI): KepMen Ketenagakerjaan No 299 thn 2020. Di dalam SKKNI tersebut
terdapat 21 (dua puluh satu) unit kompetensi yang diperlukan dalam membuat aplikasi intelijen
menggunakan data science. SKKNI ini menjadi dsar pelatihan yang sekarang kita lakukan.

Unit Kompetensi Data science sesuai SKKNI No 299 tahun 2020

TUGAS:

1. Membaca detil berbagai metodologi pengembangan data science

2. Melakukan proses pembandingan langkah antara berbagai metodologi yang sudah diibahas

DATA ANALYTIC | 39
3. Mendiskusikan faktor kesuksesan dan kegagalan pada tahapan generik metodologi data
science.
Memberikan contoh untuk ketujuh jenis task analitiks yang dapat diselesaikan dengan data science.
Misalnya untuk regresi dipilih satu permasalah, begitu pula untuk task yang lain. Pergunakan
konteks perusahaan/ organisasi tempat bekerja untuk memudahkan.

DATA ANALYTIC | 40
PYTHON FUNDAMENTAL FOR DATA SCIENCE

“In our world of Big Data, businesses are relying on data scientists to glean insight from their
large, ever-expanding, diverse set of data … while many people think of data science as a
profession, it’s better to think of data science as a way of thinking, a way to extract insights
using the scientific method.” — Bob E. Hayes

Pada tahun 2022 diprediksi bahwa setiap pengguna internet akan menghasilkan data
sebanyak 1,7megabyte setiap detik. Dalam setahun, akan ada 44 triliun gigabyte data yang
terakumulasi di seluruh dunia. Dimana data-data mentah tersebut perlu dianalisis yang nantinya
akan digunakan sebagai dasar dalam pengambilan keputusan. Dengan data yang sedemikian besar,
akan sangat sulit bagi data analyst ataupun bagi data scientist untuk menganalisa secara manual,
oleh karena itulah dibutukan tools yang bisa digunakan untuk membantu tugas dalam menganalisa
data-data tersebut sampai bisa dihasilkan pengetahuan-pengetahuan yang nantinya akan digunakan
sebagai dasar dalam pengambilan keputusan.
Ada beberapa tools yang bisa digunakan untuk proses data analytics, dari tools yang open
source sampai ke software yang komersial, diantaranya adalah python, R, SAS, Excel, Power BI,
Rapidminer, Tableau, Apache Spark, KNIME, Talend. Dalam modul ini tools yang akan kita
gunakan adalah Python, dimana python ini adalah Bahasa pemograman yang open source dan
memiliki fitur-fitur yang sangat mendukung dalam membantu proses data analytics, serta banyak
digunakan bukan hanya oleh kalangan akademisi, akan tetapi juga oleh Kalangan industry.

DATA ANALYTIC | 41
3.1. PENGANTAR PYTHON

P
ython merupakan Bahasa pemrograman tingkat tinggi
(high level language) yang diciptakan oleh Guido van
Rossum pada 1991 sebagai general-purpose language dan
bersifat open source. Seperti halnya Java yang
merupakan pengembangan dari C++, Python terinspirasi
dari Bahasa pemrograman ABC. Python juga bersifat cross-
platform, artinya bisa digunakan pada sistem operasi Windows,
Mac OS, dan Linux.
Python merupakan bahasa pemrograman populer yang memiliki
properti yang sangat baik untuk programmer pemula, sehingga
ideal untuk orang yang belum pernah memprogram sebelumnya.
Python termasuk jenis bahasa program yang dijalankan melalui interpreter, artinya ketika akan
menjalankannya tidak perlu
melakukan kompilasi terlebih dahulu, tidak seperti Pascal, Java, C/C++, dan sebagainya. Untuk
nama python sendiri tidaklah berasal dari nama ular, namun dikarenakan Guido sang pencipta
python adalah seorang penggemar grup komedi Inggris bernama Monty Python, oleh karena itu ia
kemudian menamai bahasa ciptaannya dengan nama Python.

3.2. MENGAPA PYTHON?

Setiap Bahasa pemrograman pastilah ada kelebihan dan kekurangannya masing-masing. Dan
mengapa kita harus menggunakan python dibandingkan tools yang lain? Marilah kita lihat
kelebihan dan kekurangan dari python.

Kelebihan:
1. Mudah dipelajari. Sintaksnya jelas dan mudah dibaca.
2. Simpel tapi powerful. Menulis kodingnya membutuhkan baris perintah yang lebih sedikit
dibanding bahasa pemrograman lain.

DATA ANALYTIC | 42
3. Serbaguna, disesuaikan dengan kebutuhan atau ketertarikan Anda. Python bisa dipakai untuk
membantu dalam proses data science, pemrograman dekstop maupun mobile, CLI, GUI, web,
otomatisasi, hacking, IoT, robotik, dan lain sebagainya.
4. Sangat populer. Rangking 1 di TIOBE index bulan juni tahun 2022, seperti yang terlihat pada
tabel TIOBE Index bulan Juni 2022 dibawah ini, dimana naik 1 peringkat dibandingkan tahun
2021.
TIOBE Index for June 2022

Sumber: TIOBE Index - TIOBE

5. Python banyak dipakai perusahaan-perusahaan besar dan top di dunia. Google

menggunakannya di mesin pencarinya, di youtube dan lain-lain, microsoft, dropbox,
instagram, pinterest, dan lain-lain.

DATA ANALYTIC | 43
Perusahaan yang menggunakan Python

“Google run millions of lines of python code. The front-end server that drives
youtube.com and YouTube APIs is primarily written in Python, and it serves millions of
requests per second!” – Dylan Trotter, YouTube Engineer, 2017

6. Portable, bisa jalan di multi-platform, windows, linux, mac OS, Virtual Machine Java dan
.NET.
7. Modul (library) python sangat banyak (berlimpah) sehingga dapat memudahkan kita membuat
program tanpa harus menulis kode dari dasar.
8. Python adalah bahasa pemrograman yang ‘kekinian’ karena sedang naik daunnya bidang data
science dan cabangnya seperti AI, machine learning, dan big data. Python paling populer dan
banyak digunakan karena memiliki library yang lengkap untuk itu seperti sklearn, pytorch,
tensorflow, dan lain sebagainya.
9. Open source. Python akan terus berkembang karena didukung oleh komunitas yang besar dan
Lembaga Python Software Foundation (PSF) yang tiap tahunnya mengadakan konferensi
internasional.
10. Kode python bisa dijalankan secara interaktif (mode interactive) untuk testing, langsung
nampak hasilnya.
11. Multi paradigma, kita bisa menulis python dengan gaya pemrograman fungsional dan bisa
juga dengan OOP. OOP-nya lebih mudah dan sederhana daripada di bahasa seperti Java atau
C++.

DATA ANALYTIC | 44
12. Kode python bisa di-embed ke bahasa lain seperti C dan Java, atau sebaliknya, dari bahasa C
atau Java ke Python.
13. Python sangat cepat. Source code akan dikompile jadi bytecode, eksekusi file yang sama untuk
kedua kalinya akan lebih cepat.
14. Tutorial python tersedia melimpah, baik berbentuk buku cetak, e-book, artikel, video, dan
forum tanya jawab. Semua permasalahan hampir dipastikan akan ada penyelesaiannya di
internet.

Kekurangannya:
Dikarenakan Python adalah bahasa interpreter, maka kekurangan python dibanding bahasa lain
yang menggunakan kompiler adalah ‘sedikit’ lebih lambat pada saat dijalankan bila
dibandingkan bahasa C maupun C++. Tapi hal ini pun sangat bersifat relative, tergantung dari
besar ukuran program yang dibuat.

Dari kelebihan dan kekurangan yang telah dijabarkan diatas maka dapat terlihat alasan kenapa
harus menggunakan python dibandingkan Bahasa pemrograman lainnya. Berikut ini disajikan
beberapa fakta tambahan python. Terlihat pada gambar 3.3 yang merupakan sejarah perjalanan
beberapa Bahasa pemograman beberapa tahun yang lalu. Perhatikan bagaimana perjalanan
python.
Sejarah Perjalanan Bahasa Pemrograman

Sumber : TIOBE Index - TIOBE

DATA ANALYTIC | 45
Programing Language Hall of Fame

Sumber : TIOBE Index - TIOBE

Python and Society 5.0

DATA ANALYTIC | 46
Selain kelebihan dan kekurangan dari python sebagai sebuah Bahasa pemrogram seperti yang
telah dijabarkan diatas, pada saat ini terutama pada era society 5.0 yang memadukan antara IoT,
Big Data dan AI, yang membutuhkan talenta digital terutaman pada data professional maka python
menjadi salah satu Bahasa pemrograman yang banyak dicari.

Sumber: towardsdatascience.com
10 Most In-Demand Data Science Skills in 2021

3.3. LIBRARY DASAR PYTHON UNTUK DATA SCIENCE

Library dasar Data Science pada Python

Library Keterangan
Pandas (Panel Data): Library popular di Python yang digunakan untuk data
Python Data Analysis structure dan data analysis yang bersifat open source. Pandas
Library dapat mengimpor data dari berbagai format: CSV, file teks,
Ms.Excel, database SQL,dan format HDF5
NumPy Library dasar untuk perhitungan saintifik (scientific
computing) dengan Python yang bersifat open source

SciPy (dibaca “Sigh Pie”) Library yang bersifat open source dan dibangun untuk bekerja
dengan NumPy array dan menyediakan kumpulan algoritma
numerik, termasuk pemrosesan sinyal, optimasi, statistika,
library Matplotlib untuk visualisasi data
MATPLOTLIB: Data Library Python untuk visualisasi data dengan dua dimensi,
Visualization bersifat open source

Seaborn: Data Library visualisasi data Python (serupa dengan matplotlib)

Visualization yang menyediakan high-level interface untuk

DATA ANALYTIC | 47
menggambarkan grafik statistika yang menarik dan
informatif, serta bersifat open source
SCIKIT-Learn: Machine Library untuk mempraktikkan machine learning dan
Learning in Python membuat model, bersifat open source. Scikit-learn diawali
dari proyek SciPy yang berisi fungsi-fungsi matematis

Python banyak digunakan pada proyek data science untuk tugas-tugas yang terkait dengan
pengolahan data, seperti eksplorasi data, pemrosesan data, pembersihan data, dan pemodelan data.

3.4. Pemasangan Tools yang Diperlukan dalam Pembelajaran

Beberapa tools yang akan dipergunakan selama pembelajaran adalah sebagai berikut:
1. Python
2. Development Environment:
a. Google Colab (https://colab.research.google.com/).
b. Jupyter Notebook (https://jupyter.org/)
3. Library python seperti NumPy, SciPy, Pandas, Matplotlib, Seaborn, Scikit-learn

3.5. INSTALASI PYTHON

Interpreter bahasa python dapat didownload sesuai dengan sistem operasi yang dipergunakan
di situs http://www.python.org/downloads/windows/ Untuk sistem Windows, tergantung dari
versi windows yang dipergunakan.
1. Pilih versi stabil (stable version) yang akan didownload, yaitu: python-3.9.6 atau python-
3.8.10.

DATA ANALYTIC | 48
2. Buka (dengan melakukan klik 2x) file installer python yang baru saja didownload, selanjutnya
ikuti perintah instalasi.

DATA ANALYTIC | 49
Setelah anda melakukan instalasi Python, untuk selanjutnya bisa melakukan pengujian apakah
python berhasil terpasang melalui command prompt.

3.6. INSTALASI LINGKUNGAN PENGEMBANG (DEVELOPMENT ENVIRONMENT)

– ANACONDA
Anaconda dapat didownload dari situs https://docs.anaconda.com/anaconda/install/windows/.
Lakukan instalasi sesuai urutan di bawaah ini:
1) Unduh Anaconda Installer dari situs tersebut

DATA ANALYTIC | 50
2) Klik dua kali file installer yang telah diunduh untuk menjalankannya
3) Tekan “I Agree” setelah membaca informasi tentang lisensi
4) Pilih instalasi tunggal (“Just Me”) dam tekan tombol Next
5) Pilih folder tujuan untuk instalasi
6) Pilih apakah akan menambahkan Anaconda ke dalam variable environment PATH.

7) Pilih apakah akan menjadikan Anaconda sebagai default

8) Tekan tombol Install dan tekan Next
9) Jika sudah terpasang dengan baik akan ditampilkan boks dialog sebagai berikut.

DATA ANALYTIC | 51
10) Tampilan Anaconda

3.7. INSTALASI LIBRARY PYTHON

Ada 2 cara untuk install library di python:
1) Menggunakan PIP
2) Menggunakan CONDA

Bisa melalui command prompt pada windows atau melalui CMD.exe Prompt pada Anaconda
navigator (klik tombol launch)

DATA ANALYTIC | 52
Install Library NumPy
pip

conda

Install Library SciPy

DATA ANALYTIC | 53
Install Library Pandas

Install Library Matplotlib

Install Library Scikit-learn

DATA ANALYTIC | 54
Install Library Seaborn

Cek Library yang terinstall (melalui command prompt)

DATA ANALYTIC | 55
Cek Library yang terinstall (melalui Anaconda Navigator)

3.8. INSTALASI LINGKUNGAN PENGEMBANGAN

Terdapat dua lingkungan yang akan dipergunakan yaitu google colab dan Jupyter Notebook.
1) Google Colab
Seperti layanan Google lainnya, Google Colab merupakan sebuah layanan cloud sehingga
untuk menggunakannya pengguna harus terhubung dengaan internet. Layanan ini dapat
dipergunakan untuk menulis dan mengeksekusi Python di browser anda tanpa mengkonfigurasi,
dapat menggunakan GPU, dan dapat di-share dengan rekan kerja. Pergunakan link
https://colab.research.google.com di browser anda untuk mengakses google colab.

DATA ANALYTIC | 56
2) Jupyter Notebook
Berbeda dengan Google Colab, Jupyter Notebook adalah lingkungan pengembangan local
sehingga dapat dipergunakan tanpa terhubung dengan internet. Akibatnya kemampuannya sangat
tergantung pada kemampuan peralatan computer pribadi yang dipergunakan. Jupyter notebook
juga dapat dipasang dengan berbagai cara. Dua di antaranya adalah melalui pip dan melalui
Anaconda. Jika menggunakan pip maka di command prompt lakukan perintah:

pip install jupyter

Melalui Anaconda Navigator -> klik launch pada jupiter notebook

DATA ANALYTIC | 57
Tampilan Jupiter

Python dapat dipergunakan dengan memilih tombol New – Python 3

DATA ANALYTIC | 58
VISUALIZATION

“Information graphics should be aesthetically pleasing but many designers think about
aesthetics before they think about structure, about the information itself, about the story the
graphic should tell” — Alberto Cairo

Visualisasi memegan peranan yang penting dalam bidang data science. Dengan visualisasi
yang baik dapat membantu kita untuk menafsirkan dan menginterpretasi suatu data serta
memahami informasi yang telah dihasilkan, serta penyajian data menjadi lebih informatif dan
komunikatif, dengan kata lain visualisasi dapat memudahkan kita memahami data lebih mudah
dan lebih baik daripada menggunakan kalimat. Dalam menganalisa data, sering kali menggunakan
visualisasi data untuk memahami karakteristik maupun trend di dalam data yang dimiliki. Oleh
karena itu visualisasi adalah salah satu jobdesc yang harus dikuasai oleh seorang Data Scientist.
Seorang Data Scientist akan bekerja sama dengan berbagai divisi atau bagian, dan salah satu tugas
dari seorang data scientist adalah dapat menjebatani antar masing-masing divisi tersebut. Dan
dikarenakan tidak semua bagian atau divisi memiliki pengetahuan teknis tentang Data, maka
diperlukanlah data visualisasi. Pada modul ini akan membahas beberapa teknik visualisasi yang
umum dengan menggunakan library Matplotlib’s Pyplot dan Seaborn.

3.1. TUJUAN VISUALISASI

Dalam membuat visualisasi data haruslah terlihat menarik secara estetika. Tentunya agar
pengguna kita dapat dengan mudah menginterpretasikan hasil analisis kita. Ada banyak sekali jenis
visualisasi data, dari yang sederhana hingga yang kompleks. Setiap jenis visualisasi biasanya lebih
tepat digunakan untuk suatu tujuan tertentuSecara garis besar, ada empat tujuan visualisasi yang
disampaikan oleh Andrew Abela, yaitu Comparison (Perbandingan), Relationship
(Keterhubungan/Relasi), Composition (Komposisi), Distribution (Distribusi). Seperti yang terlihat
pada gambar berikut ini:

DATA ANALYTIC | 59
a. Comparison (Perbandingan)
Visualisasi perbandingan ini digunakan untuk membandingkan besarnya nilai satu
sama lain dan dapat digunakan untuk dengan mudah menemukan nilai terendah dan
tertinggi dalam data. Dan juga dapat digunakan untuk membandingkan nilai saat ini
versus lama untuk melihat apakah nilainya meningkat atau menurun. Untuk data yang
terkait waktu, visualisasi yang digunakan biasanya berupa line-chart. Sedangkan untuk
data yang berupa kategorikal, maka lebih cocok menggunakan bar-chart. Contoh
pertanyaan umum yang sering ditanyakan adalah "produk apa yang paling laku" dan
"bagaimana penjualan kita dibandingkan dengan tahun lalu”.
b. Relationship (Keterhubungan/Relasi)
Visualisasi ini digunakan untuk melihat hubungan antara data dan dapat digunakan
untuk menemukan korelasi, outlier, dan klaster dari data. Misalnya ingin cek, jika

DATA ANALYTIC | 60
variabel A semakin tinggi, apakah variabel B juga semakin tinggi, atau justru lebih
rendah, atau tidak ada keterhubungannya. Contoh pertanyaan umum yang sering
ditanyakan adalah " bagaimana pengeluaran dan pendapatan bervariasi per wilayah
dan berapa nilai deviasinya”. Visualisasi yang biasa digunakan untuk tujuan ini adalah
scatter-plot.
c. Composition (Komposisi)
Visualisasi komposisi digunakan untuk melihat bagaimana suatu bagian dibandingkan
dengan keseluruhan dan bagaimana nilai total dapat dibagi menjadi beberapa bagian.
Visualisasi ini juga menunjukkan nilai relatif, tetapi beberapa bagan juga dapat
digunakan untuk menunjukkan perbedaan absolut. Perbedaannya adalah antara
melihat persentase total dan nilai total. Visualisasi juga sering digunakan untuk
melihat komposisi dari suatu variabel, jika di-breakdown terhadap suatu dimensi data.
Pertanyaan umum yang sering ditanyakan adalah "seberapa besar bagian dari pasar
yang kita miliki di suatu wilayah" atau " anggaran kita dibagi-bagi kemana saja".
Visualisasi yang biasa digunakan adalah stacked bar-chart untuk data kategorikal, atau
stacked line-chart untuk data terkait waktu.
d. Distribution (Distribusi)
Visualisasi distribusi ini digunakan untuk melihat bagaimana nilai kuantitatif
didistribusikan di sepanjang sumbu dari terendah ke tertinggi. Melihat bentuk data,
pengguna dapat mengidentifikasi karakteristik seperti rentang nilai, kecenderungan
sentral, bentuk, dan outlier. Ini dapat digunakan untuk menjawab pertanyaan seperti
"berapa jumlah pelanggan per kelompok umur" atau "berapa hari pembayaran kita
terlambat ". Untuk melihat distribusi di dua variabel, scatterplot juga bisa digunakan.

3.2. LIBRARY VISUALISASI

3.2.1. MATPLOTLIB
Matplotlib diciptakan oleh John D. Hunter (1968 – 2012),
seorang ahli saraf dan merupakan bagian dari tim peneliti yang
menganalisis sinyal elektrokortikografi (ECOG). Timnya memiliki
akses ke versi berlisensi dari perangkat lunak berpemilik untuk analisis
dan hanya dapat menggunakannya secara bergiliran. Untuk
John D. Hunter

DATA ANALYTIC | 61
menghindari batasan ini, John mengembangkan versi berbasis MATLAB yang pada tahap
selanjutnya dilengkapi dengan antarmuka scripting untuk pembuatan grafik yang cepat dan mudah,
yang saat ini dikenal sebagai matplotlib. Matplotlib adalah Library Python yang mengkhususkan
diri dalam pengembangan grafik dua dimensi (termasuk grafik 3D). Dalam beberapa tahun
terakhir, telah banyak digunakan oleh peneliti ilmiah dan juga kalangan teknik.

Logo Matplotlib

Di antara semua fitur yang menjadikannya alat yang paling banyak digunakan dalam grafis
representasi data, ada beberapa fitur yang menonjol, diantaranya adalah:
a. Penggunaanya sangat sederhana,
b. Pengembangan bertahap dan visualisasi data interaktif
c. Ekspresi dan teks di LaTeX
d. Kontrol yang lebih besar atas elemen grafis
e. Ekspor ke banyak format, seperti PNG, PDF, SVG, dan EPS.
f. Pengolahan dataset (menggunakan library NumPy & Pandas).
g. Melakukan modifikasi komponen visualisasi, seperti axis, labels, title, dan legend.
h. Menyimpan plot visualisasi yang sudah dibuat
i. Open source

3.2.2. SEABORN
Seaborn diciptakan oleh Michael Waskom seorang
mahasiswa doctoral bidang Neurosains pada tahun 2014.
Pada awalnya Seaborn diciptakan untuk membantu
Waskom dalam menciptakan visualisasi data terhadap
hasil analisis jaringan syaraf yang sedang dikerjakannya.
Seaborn adalah perpustakaan untuk membuat grafik
statistik dengan Python yang dibangun di atas matplotlib Michael Waskom

DATA ANALYTIC | 62
dan terintegrasi erat dengan struktur data Pandas. Dengan kata lain, Seaborn adalah ‘ekstensi’ dari
Matplotlib. Seaborn bersifat open-source dengan lisensi Berkeley Software Distribution (BSD).
Seaborn menyediakan antarmuka tingkat tinggi untuk menggambar grafik statistik yang
menarik dan informatif. Seaborn membantu dalam menjelajahi dan memahami data. Fungsi
plotting-nya beroperasi pada dataframe dan array yang berisi seluruh himpunan data dan secara
internal melakukan pemetaan semantik yang diperlukan dan agregasi statistik untuk menghasilkan
plot informatif. API deklaratifnya yang berorientasi pada himpunan data memungkinkan untuk
fokus pada apa arti berbagai elemen plot, daripada pada detail cara menggambarnya.

Logo Seaborn

Fitur-fitur Seaborn:
a. Terintegrasi dengan struktur data berbasis library Numpy dan Pandas
b. Menyesuaikan dan memvisualisasikan model Regresi Linear
c. Memvisualisasikan data univariat dan bivariat
d. Memvisulisasikan data berupa time series
e. Mengkostumasi grafik Matplotlib menjadi lebih baik

3.2.3. MATPLOTLIB VS SEABORN

“Jika Matplotlib“mencoba membuat hal-hal mudah menjadi mudah dan hal-hal sulit
menjadi mungkin ”, seaborn mencoba membuat serangkaian hal sulit yang terdefinisi dengan baik
juga mudah”.
Pada dasarnya ada dua kekurangan Matplotlib yang diperbaiki Seaborn:
a. Matplotlib dapat dipersonalisasi tetapi sulit untuk mengetahui setelan apa yang diperlukan
untuk membuat plot lebih menarik. Di sisi lain, Seaborn hadir dengan banyak tema yang
disesuaikan dan antarmuka tingkat tinggi untuk mengatasi masalah ini.

DATA ANALYTIC | 63
b. Saat bekerja dengan Pandas, Matplotlib tidak berfungsi dengan baik saat berurusan dengan
DataFrames, sementara fungsi Seaborn benar-benar berfungsi pada DataFrames.

3.3. VISUALISASI VARIABEL

3.3.1. PIE CHART
Pie Chart (Diagram lingkaran) adalah grafik statistic yang melingkar, yang dibagi menjadi
beberapa irisan untuk mengilustrasikan proporsi numerik. Dalam bagan pai, panjang busur setiap
irisan sebanding dengan kuantitas yang diwakilinya. Dengan menggunakan Pie chart kita dapat
mengetahui seberapa banyak dari setiap jenis kategoti dalam dataset berbanding dengan
keseluruhan. Pie Chart adalah cara populer untuk mewakili hasil jajak pendapat. Pada bagian ini
kita akan membuat diagram lingkaran menggunakan kumpulan data sampel. Variabel label berisi
tupel rasa selai. Variabel voting berisi tupel voting. Data tersebut mewakili jumlah voting rase
selai favorit. Kita dapat membuat grafik menggunakan library Pyplot Matplotlib. Method plt.pie()
digunakan untuk membuat interface pie chart berdasarkan data rasa selai dan jumlah voting .

Berdasarkan di atas, kita dapat dengan mudah melihat bahwa vanilla dan chocolate adalah
rasa yang paling popular. Data dalam format diagram lingkaran juga dapat digunakan untuk
melihat informasi lain dengan mudah, seperti fakta bahwa kombinasi cokelat dan vanila mewakili
lebih dari setengah suara. Akan tetapi apabila kita hanya melihat dari pie chart diatas kita tidak

DATA ANALYTIC | 64
bisa melihat mana yang paling disukai karena besarannya hampir sama, kecuali kita melihat data
mentahnya. Untuk mengatasi hal tersebut kita harus dapat melihat informasi dari setiap rasa denga
menampilkan persentase sebenarnya. Jika kita ingin melihat berapa persen kontribusi masing-
masing rasa selai, kita bisa menggunakan argumen autopct. Untuk nilai argumen, ada beberapa
string format yang dapat digunakan untuk mengatur ketepatan tampilan data. Perhatikan penggalan
coding di bawah ini:

Sekarang kita dapat melihat persentase kontribusi setiap rasa selai secara keseluruhan.
Sebagai tambahan, kita dapat merubah warna dari setiap rasa selai Pie Chart. Matplotlib
memungkinkan Anda mengubah warna yang ditampilkan pada bagan dengan memasukkan nilai
warna. Anda dapat menggunakan shorcut yang telah diprogram seperti 'b' untuk biru dan 'r' untuk
merah atau kita juga bisa menggunakan pewarnaan html. Anda dapat menemukan custom warna
yang lebih banyak dengan mencari kata kunci 'kode warna html' pada search engine yang anda
gunakan.

DATA ANALYTIC | 65
Perhatikan contoh berikut ini:

Diskusikan contoh penggalan di bawah ini!

DATA ANALYTIC | 66
Sekarang kita dapat memiliki Pie Chart yang menunjukkan semua rasa selai favorit dalam
sebuah survey! Ingat diagram lingkaran bagus untuk menunjukkan bagaimana distribusi kelas pada
data yang berbeda (dalam hal ini, rasa selai). Pie chart akan sangat efektif jika hanya ada beberapa
kelas yang terwakili. Bayangkan jika kita memiliki 200 rasa selai. Maka tampilan Pie Chart akan
sangat penuh dan akan sangat kesulitan bagi kita untuk memahaminya.

3.3.2. BAR CHARTS

Untuk membandingkan data yang berupa kategorikal, kita bisa menggunakan Bar Charts
sebgai tools visualisasi. Mirip dengan Pie Chart, diagram ini dapat digunakan untuk
membandingkan kategori satu dengan yang lainnya. Akan tetapi, Pie Charts sangat spesifik untuk
melihat bagaimana satu kategori data dibandingkan dengan keseluruhan. Dengan kata lain untuk
kategori yang tidak terlalu banyak. Untuk kategori yang banyak kita bisa menggunakan Bar Charts
yang dapat menampilkan lebih banyak kategori data daripada diagram lingkaran.
Perhatikan contoh di bawah ini:

DATA ANALYTIC | 67
Pada contoh di bawah ini kita menambahkan label-y menggunakan metode ylabel () dan
judul grafik menggunakan metode title ().

Bagannya sudah terlihat cukup bagus. Tetapi bagaimana jika pertanyaan: Apa negara
dengan kasus terbanyak kedua di ASEAN? Anda mungkin harus sedikit menatap Brunei dan
Cambodia. Ini karena data diurutkan menurut abjad, yang bukan merupakan pengurutan yang
paling berguna untuk menjawab pertanyaan tentang data. Sayangnya Matplotlib tidak memiliki
penyortiran bawaan. Sebagai gantinya, Anda dapat mengimpor Panda dan menggunakannya untuk
mengurutkan data. Perhatikan contoh berikut ini:

DATA ANALYTIC | 68
Sekarang kita dapat dengan mudah melihat bahwa Indonesia adalah negara dengan jumlah
kasus Covid terbesar kedua, kita juga bisa memberikan daftar warna bar ke metode bar (), seperti
contoh di bawah ini:

DATA ANALYTIC | 69
3.3.3. LINE GRAPHS
Meskipun diagram lingkaran dan diagram batang berguna untuk menunjukkan bagaimana
kelas data saling terkait, diagram garis lebih berguna untuk menunjukkan bagaimana kemajuan
data selama beberapa periode (data time series). Sebagai contoh, grafik garis dapat berguna dalam
membuat grafik suhu dari waktu ke waktu, harga saham dari waktu ke waktu, berat menurut hari,
atau metrik berkelanjutan lainnya.

DATA ANALYTIC | 70
Kita akan menggunakan data penjualan perhari, dari sebuah toko ‘ABC’, perhatikan
penggalan program berikut ini:

Kita juga bisa menambahkan elemen bagan standar dari title (), ylabel (), dan xlabel ().
Perhatikan contoh berikut ini:

DATA ANALYTIC | 71
Kita bahkan dapat memiliki beberapa garis pada grafik yang sama. Misalnya, kita ingin
mengilustrasikan nilai penjualan yang aktual dan prediksi. Kita bisa memanggil plot () dua kali,
sekali dengan setiap kumpulan nilai. Perhatikan bahwa dalam panggilan kedua, kita menggunakan
argumen lain untuk plot (), linestyle = '-'. Hal ini menyebabkan garis prediksi terlihat seperti garis
putus-putus sedangkan nilai sebenarnya tetap solid. Perhatikan contoh berikut ini:

DATA ANALYTIC | 72
3.3.4. SCATTER PLOT
Scatter plot berfungsi baik untuk data dengan dua komponen numerik. Scatter plot dapat
memberikan informasi yang berguna terutama mengenai pola atau pencilan. Pada contoh di bawah
ini, kita memplot diameter dan berat sekumpulan lemon dan jeruk nipis agar dapat melihat apakah
kita dapat menentukan polanya

DATA ANALYTIC | 73
Diskusikan penggalan program berikut ini, bandingankan dengan program sebelumnya!

3.3.5. HEATMAP
Heatmap adalah jenis visualisasi yang menggunakan kode warna untuk mewakili nilai /
kepadatan relatif data di seluruh permukaan. Seringkali ini adalah bagan tabel, tetapi tidak harus
terbatas pada itu. Untuk data tabular, terdapat label pada sumbu x dan y. Nilai di persimpangan
label tersebut dipetakan ke warna. Warna-warna ini kemudian dapat digunakan untuk memeriksa
data secara visual guna menemukan kelompok dengan nilai serupa dan mendeteksi tren dalam
data. Kita akan bekerja dengan data tentang temperatur rata-rata setiap bulan untuk 12 kota terbesar
di dunia. Untuk membuat heatmap ini, kita akan menggunakan library Seaborn.

DATA ANALYTIC | 74
Bandingkan dengan penggalan program berikut ini – diskusikan!

DATA ANALYTIC | 75
DATA ANALYTIC | 76
DASHBOARD

"Data visualization is the language of decision making. Good charts effectively convey
information. Great charts enable, inform, and improve decision making." — Dante
Vitagliano

Memvisualisasikan data dan hasil dengan jelas dan ringkas merupakan langkah penting dalam
setiap proyek analitik data. Ini tentang seberapa baik kita dapat mengkomunikasikan hasil temuan
kepada orang lain untuk memfasilitasi dan meningkatkan proses pengambilan keputusan.
Keputusan bisnis yang penting memerlukan data pendukung untuk memastikan alternatif
terbaiklah yang dipilih, dan itu merupakan tanggung jawab seorang analis data untuk
menyediakannya.
Dasboard adalah antarmuka grafis yang menawarkan tampilan integratif dari beberapa
indikator utama yang relevan dengan fenomena atau bisnis tertentu. Tujuan utama dashboards
adalah membantu user untuk membuat keputusan yang tepat dan cepat berdasarkan dari data yang
ada. Di banyak perusahaan dashboards dibuat oleh data analis atau tim yang berfokus pada analisis
data.
Python, salah satu bahasa pemrograman paling populer saat ini di seluruh dunia, memiliki
beberapa pustaka (library) visualiasasi data yang open-source yang memungkinkan penggunanya
membangun dashboard yang interaktif dengan baris kode sederhana. Meskipun tidak mengikuti
pendekatan drag-and-drop seperti program visualisasi data lainnya, tingkat kompleksitasnya masih
cukup sederhana bagi programmer baru untuk belajar dengan cepat.

1.1. PEMBUATAN DASHBOARD

Kita akan membuat dashboard tentang emisi CO2 dan juga perubahan cuaca, yang dapat di
tampilkan dalam sebuah dashboard dengan menggunakan python. Dataset yang akan digunakan
adalah “owid-co2-data.csv”. Tampilan dashboard yang akan dibuat adalah seperti berikut ini:

DATA ANALYTIC | 77
Latihan
Cek library yang akan digunakan, apabila belum terdapat library tersebut, lakukan instalasi library
tersebut, bisa dengan menggunakan perinta pip. Ketikkan coding berikut ini:

DATA ANALYTIC | 78
Apabila semua library yang dibutuhkan sudah tersedia ketikkan perintah untuk menbuat dataframe
dan data cache untuk meningkatkan kinerja dashboard

Perintah Mencetak dataset yang berasal dari dataframe dengan jumlah data

DATA ANALYTIC | 79
Menampilkan data untuk negara ‘North America’

Menampilkan data untuk negara ‘World’

DATA ANALYTIC | 80
Data Preprocessing (menangani missing values)

Membuat panel widgets (slider berdasarkan tahun)

DATA ANALYTIC | 87
pn.pane.Markdown("#### Carbon dioxide emissions are the primary driver of global
climate change. It’s widely recognised that to avoid the worst impacts of climate change, the
world needs to urgently reduce emissions. But how this responsibility is shared between
regions, countries, and individuals has been an endless point of contention in international
discussions.").

Menampilkan dashboard melalui terminal pada Jupiter

Lalu ketikkan perintah: panel serve nama_file_ipynb

Panel serve Interactive_dashboard.ipynb

Klik link ini

DATA ANALYTIC | 88
Maka akan tampil dashboard yang telah anda buat:

Tampilan Dark

DATA ANALYTIC | 89
TUGAS
Buatlah dashboard dengan dataset yang anda miliki.

DATA ANALYTIC | 90
DATA ANALYTIC | 91

Anda mungkin juga menyukai

Modul 2 Pengantar Analitika Data
Belum ada peringkat
Modul 2 Pengantar Analitika Data
15 halaman
Modul Data Analytics - 01122023 - R2
Belum ada peringkat
Modul Data Analytics - 01122023 - R2
17 halaman
The Fundamental of Data Analysis
Belum ada peringkat
The Fundamental of Data Analysis
17 halaman
Makalah Analitika Data
Belum ada peringkat
Makalah Analitika Data
11 halaman
Dasar-Dasar Analitik Data
Belum ada peringkat
Dasar-Dasar Analitik Data
44 halaman
Jenis Analisis Data
Belum ada peringkat
Jenis Analisis Data
2 halaman
Tugas BIG DATA ANALYTIC Merangkum Henry Susanto 825190085
Belum ada peringkat
Tugas BIG DATA ANALYTIC Merangkum Henry Susanto 825190085
11 halaman
Dafa Kelompok 1
Belum ada peringkat
Dafa Kelompok 1
34 halaman
Ds5 19841017 Badruz Zamanil Charis
Belum ada peringkat
Ds5 19841017 Badruz Zamanil Charis
9 halaman
Kel 6 Data Analitik
Belum ada peringkat
Kel 6 Data Analitik
20 halaman
Big Data
Belum ada peringkat
Big Data
12 halaman
Data Analytics in Accounting and Business
100% (1)
Data Analytics in Accounting and Business
16 halaman
LN06
Belum ada peringkat
LN06
13 halaman
Data Analysis Fundamental
Belum ada peringkat
Data Analysis Fundamental
9 halaman
Sesi 1 - Berkarier Sebagai Data Analyst & Business Problem Concept
Belum ada peringkat
Sesi 1 - Berkarier Sebagai Data Analyst & Business Problem Concept
62 halaman
Wahipin - TSI D - Kuis Pert 12-14 - Tsi
Belum ada peringkat
Wahipin - TSI D - Kuis Pert 12-14 - Tsi
35 halaman
PMK 1 Pengantar Data Analitik
Belum ada peringkat
PMK 1 Pengantar Data Analitik
19 halaman
Apa Itu Data Analytics? Arti, Kegunaan
Belum ada peringkat
Apa Itu Data Analytics? Arti, Kegunaan
4 halaman
Materi Kuliah X
Belum ada peringkat
Materi Kuliah X
10 halaman
Data Analitik
Belum ada peringkat
Data Analitik
18 halaman
3 Kategori Analisis Data
100% (1)
3 Kategori Analisis Data
5 halaman
MuhammadFathurRohman 09011181823020 Indralaya
Belum ada peringkat
MuhammadFathurRohman 09011181823020 Indralaya
2 halaman
Data Analytics Big Data: Types of Analitics
Belum ada peringkat
Data Analytics Big Data: Types of Analitics
3 halaman
Data Analyst
Belum ada peringkat
Data Analyst
50 halaman
Session 1 - Intro To Data Analytics
Belum ada peringkat
Session 1 - Intro To Data Analytics
39 halaman
Lecture Notes: Analytical Information System
Belum ada peringkat
Lecture Notes: Analytical Information System
9 halaman
Data Analitik Untuk Better Business Decisions
Belum ada peringkat
Data Analitik Untuk Better Business Decisions
22 halaman
Modul Introduction To Data Analytics
Belum ada peringkat
Modul Introduction To Data Analytics
21 halaman
Data Analytics (2023)
Belum ada peringkat
Data Analytics (2023)
7 halaman
Apa Itu Data Analyst - Pengertian, Tanggung Jawab, Skill Dan Jenjang Kariernya
Belum ada peringkat
Apa Itu Data Analyst - Pengertian, Tanggung Jawab, Skill Dan Jenjang Kariernya
9 halaman
LN07-Big Data Analytics
Belum ada peringkat
LN07-Big Data Analytics
21 halaman
Eriyanto Mukti Raharjo - 23262010082
Belum ada peringkat
Eriyanto Mukti Raharjo - 23262010082
3 halaman
Jenyta Rachmawati - Konsep Dan Penerapan Data Analytics
Belum ada peringkat
Jenyta Rachmawati - Konsep Dan Penerapan Data Analytics
2 halaman
Data Analytics For Communication and Business
Belum ada peringkat
Data Analytics For Communication and Business
44 halaman
Kisi Kuis Analitik
Belum ada peringkat
Kisi Kuis Analitik
2 halaman
Mengenal Data Analyst
Belum ada peringkat
Mengenal Data Analyst
3 halaman
Analisis Data
Belum ada peringkat
Analisis Data
8 halaman
PPT BAB 6b - Big Data Analytic BHB
Belum ada peringkat
PPT BAB 6b - Big Data Analytic BHB
30 halaman
Terserah
Belum ada peringkat
Terserah
2 halaman
Panduan Lengkap Data Analytics Di Asia Tenggara Bagi Pemula
Belum ada peringkat
Panduan Lengkap Data Analytics Di Asia Tenggara Bagi Pemula
37 halaman
PSSI - Chapter 6
Belum ada peringkat
PSSI - Chapter 6
58 halaman
Data Analytics Intro
Belum ada peringkat
Data Analytics Intro
31 halaman
Panduan Lengkap Data Analytics Di Asia Tenggara Ba
Belum ada peringkat
Panduan Lengkap Data Analytics Di Asia Tenggara Ba
30 halaman
Pengantar Data Analytics v1.2
Belum ada peringkat
Pengantar Data Analytics v1.2
17 halaman
Data Analis
Belum ada peringkat
Data Analis
29 halaman
Big Data Analysis
Belum ada peringkat
Big Data Analysis
9 halaman
(DATIK) Rangkuman UTS
Belum ada peringkat
(DATIK) Rangkuman UTS
37 halaman
Modul - Business Big Data - Sesi 6
Belum ada peringkat
Modul - Business Big Data - Sesi 6
7 halaman
MODUL 3 Data Analytic
Belum ada peringkat
MODUL 3 Data Analytic
18 halaman
Materi Week 1 Day 2
Belum ada peringkat
Materi Week 1 Day 2
10 halaman
The Fundamental of Data Analysis
Belum ada peringkat
The Fundamental of Data Analysis
5 halaman
Panduan Lengkap Data Analytics Di Asia Tenggara Bagi Pemula
Belum ada peringkat
Panduan Lengkap Data Analytics Di Asia Tenggara Bagi Pemula
19 halaman
Tugas 3
Belum ada peringkat
Tugas 3
14 halaman
Data Analitik - Kelompok 3
Belum ada peringkat
Data Analitik - Kelompok 3
15 halaman
Bruh
Belum ada peringkat
Bruh
6 halaman
Bahan Ajar Slide
Belum ada peringkat
Bahan Ajar Slide
12 halaman
Tugas 1
Belum ada peringkat
Tugas 1
15 halaman
Arta Marisa - 00696 - RMK MG KE 2
Belum ada peringkat
Arta Marisa - 00696 - RMK MG KE 2
6 halaman
Aathifah Teta Fitranti - 195020307111072 - Tugas Resume Pekan Ke 9
Belum ada peringkat
Aathifah Teta Fitranti - 195020307111072 - Tugas Resume Pekan Ke 9
3 halaman
Strategi Meningkatkan Kinerja Guru
Dari Everand
Strategi Meningkatkan Kinerja Guru
Andi Sulistiadi
5/5 (1)