Introduction To Apache Spark 2
Introduction To Apache Spark 2
Streaming, GraphX
Medisa Aris Ginanjar, S.T., M.M.
Apache Spark Modularity
MLlib GraphX
Spark SQL Streaming Machine Graph
Learning Computation
2
BAGIAN 1: Streaming
Analogi: Teknologi Streaming untuk Video membuat kita tidak perlu
mendownload keseluruhan file untuk menikmati file tersebut.
4
Data Batch vs Data Stream
Contoh: Data Batching
Data dari DB
Data dari CSV
Data dari
internet
100% 75%
…
Input Batch # 1 Batch # 2
…
secara otomatis.
Append, complete
7
8
Contoh 2
Program koneksi ke soket dan menampilkan data ke
layar menggunakan batch per n detik.
builder
2. Koneksi ke soket dan menunggu data masuk
2
menjadi data stream.
3. Setiap 7 detik, data yang masuk akan
dituliskan ke layar.
3 Menggunakan trigger
10
Studi Kasus
Alert System
1. Sistem memberikan
informasi pertumbuhan
pengguna per koneksi.
11
BAGIAN 2: GraphX
Graph merupakan kumpulan dari node (vertex) dan relasinya
(edge) yang menggambarkan hubungan tertentu.
https://adatis.co.uk/graphframes/
13
Representasi Node dan Edge
14
Contoh 3
Contoh mencari teman dari seseorang.
1
builder
2. Membuat Vertex
3. Membuat Edges
4. Membuat Graph 3
5. Mencari teman dari seseorang
15
Algoritma Pregel
merupakan model komputasi berbasis node, yang melakukan proses dari satu node, ke node yang memiliki relasi dengan node awal,
dan berulang selanjutnya sampai tidak ada node yang berelasi.
16
Contoh Kasus
Seberapa jauh dari Alice ke teman-temannya?
2
Bob
2
1
1 3
Alice Charlie
4
1,5
4
David
17
Contoh 4
Seberapa jauh dari Alice
ke teman-temannya?
18
Output Contoh 4
Seberapa jauh dari Alice ke teman-temannya?
19
Algoritma Lainnya
PageRank
Connected Component
Triangle Counting
20
GraphFrames
Library untuk komputasi graph pada Apache Spark.
Berbasis DataFrame.
Dapat diunduh di https://
graphframes.github.io/graphframes
21
Contoh 5 1
Siapa teman David?
1. Ambil data semua nomor telp yang menggunakan BTS di dekat stadion.
2. Ambil data komunikasi telp call detail records (CDR) antar nomor tersebut.
3. Gunakan Graph untuk melakukan analisa berapa banyak group yang datang
ke event tersebut.
24
Referensi
Jules S. Damji – Learning Spark
https://intellipaat.com/blog/tutorial/spark-tutorial/machine-le
arning-with-pyspark-tutorial
/
https://sparkbyexamples.com/spark/spark-rdd-vs-datafram
e-vs-dataset/#
h-3-spark-dataset
https://spark.apache.org/docs/latest/ml-pipeline.html
https://graphframes.github.io/graphframes/docs/_
25