Worksheets 3 - Big Data Stack
NIM / NAMA : ……………………………………………………………………………….
Contoh studi kasus :
Analisis Data Cuaca : Studi kasus ini memberikan contoh penggunaan big data stack pada
analisis data cuaca, yang bertujuan untuk mendapatkan pilihan tools dan framework dari
big data stack yang dapat digunakan untuk analisis data cuaca. Hal pertama yang
dilakukan adalah membuat alur analisis untuk aplikasi tersebut seperti yang ditunjukkan
pada Gambar 1.
Gambar 1. Alur analisis
Data Collection
Asumsikan, terdapat beberapa stasiun pemantau cuaca atau node akhir yang
dilengkapi dengan sensor suhu, kelembaban, angin, dan tekanan. Untuk mengumpulkan
dan mengambil data sensor secara streaming yang dihasilkan oleh stasiun pemantau
cuaca, maka dapat menggunakan framework publish-subscribe messaging untuk mengambil
data untuk analisis real-time dalam Big Data Stack dan konektor Source-Sink untuk
mengambil data ke dalam sistem file terdistribusi untuk analisis batch.
Data Preparation
Oleh karena data cuaca yang diterima dari stasiun pemantau yang berbeda, maka
dimungkinkan memiliki missing values, menggunakan unit yang berbeda dan memiliki
BIG DATA 2021 1
format yang berbeda, maka perlu menyiapkan data sebelum dianalisis dengan melakukan
cleaning, wrangling, normalizing, dan filtering data terlebih daehulu.
Analysis Types
Pilihan tipe analisis apa yang akan dikerjakan didasarkan pada kebutuhan/
requirements dari aplikasi tersebut. Sebagai contoh, aplikasi analisis cuaca dapat
mengumpulkan data pada berbagai skala waktu (menit, jam, harian atau bulanan) untuk
menentukan rata-rata, pembacaan maksimum dan minimum suhu, kelembaban, angin
dan tekanan.
Selain itu, user ingin aplikasi tersebut mendukung kueri secara interaktif untuk
explore data, misalnya kueri untuk menampilkan hari dengan suhu terendah di setiap
bulan dalam setahun, menampilkan 10 hari paling panas/kering dalam setahun,
misalnya. Jenis analisis ini termasuk dalam kategori statistik dasar.
Selanjutnya, jika menginginkan aplikasi tersebut dapat membuat prediksi cuaca
tertentu, misalnya, memprediksi terjadinya kabut. Untuk analisis seperti itu, maka akan
membutuhkan model klasifikasi. Selain itu, jika ingin memprediksi nilai (seperti jumlah
curah hujan), maka memerlukan model regresi.
Analysis Modes
Berdasarkan tipe analisis yang ditentukan pada langkah sebelumnya, maka dapat
ditentukan mode analisis yang diperlukan untuk aplikasi tersebut bersifat batch, real-
time, dan interaktif.
Visualizations
Pada front-end aplikasi akan memvisualisasikan hasil analisis, maka dapat
dimodelkan secara dinamis dan interaktif.
Mapping Analysis Flow to Big Data Stack
Setelah menentukan alur analitik untuk aplikasi, maka selanjutnya melakukan
pemetaan pilihan di setiap langkah ke Big Data Stack. Gambar 2 menunjukkan subset
komponen dari big data stack berdasarkan alur analitiknya. Untuk mengumpulkan dan
mengambil data sensor secara streaming yang dihasilkan oleh stasiun pemantauan cuaca,
maka dapat menggunakan framework publish-subscribe messaging seperti Apache Kafka
(untuk analisis real-time dalam Big Data Stack). Setiap stasiun pemantau cuaca publishes
data sensor ke Kafka. Framework analisis real time seperti Storm dan Spark Streaming
dapat menerima data dari Kafka untuk diproses.
Untuk batch analisis, dapat menggunakan konektor source-sink seperti Flume untuk
memindahkan data ke HDFS. Setelah data dalam HDFS, selanjutnya dapat menggunakan
framework pemrosesan batch seperti Hadoop-MapReduce, juga dapat menggunakan Spark
untuk transformasi Map dan Reduce tersebut.
BIG DATA 2021 2
Framework pemrosesan batch dan real-time berguna ketika kebutuhan dan tujuan
analisis diketahui di awal, tools untuk interactive querying dapat berguna untuk exploring
data. Spark SQL dapat digunakan sebagai framework untuk interactive querying.
Untuk menampilkan hasil analisis batch dan real-time, database NoSQL seperti
DynamoDB dapat digunakan sebagai serving database. Untuk mengembangkan aplikasi
web dan menampilkan hasil analisis, dapat menggunakan framework web seperti Django.
Gambar 2. Big data stack (beserta komponennya) berdasarkan alur analitiknya
Referensi : Big Data Analytics A Hands-On Approach by Arshdeep Bahga, Vijay
Madisetti.
Latihan :
Tentukan alur analitik dan gambarkan big data stack pada masing-masing studi kasus
yang anda angkat sebelumnya pada tugas yang lalu. Selanjutnya jelaskan komponen-
komponen yang ada pada big data stack studi kasus anda.
BIG DATA 2021 3