0% menganggap dokumen ini bermanfaat (0 suara)
56 tayangan25 halaman

Introduction To Apache Spark 2

Dokumen ini membahas tentang Apache Spark dan dua modulnya yaitu Streaming dan GraphX. Streaming digunakan untuk memproses data secara berkelanjutan dari sumber seperti socket dan GraphX digunakan untuk menganalisis data dalam bentuk graf dengan node dan edge. Kedua modul ini memberikan kemampuan baru untuk Spark dalam memproses dan menganalisis data secara real-time maupun graf. "

Diunggah oleh

Rahma Sephia Putri
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
56 tayangan25 halaman

Introduction To Apache Spark 2

Dokumen ini membahas tentang Apache Spark dan dua modulnya yaitu Streaming dan GraphX. Streaming digunakan untuk memproses data secara berkelanjutan dari sumber seperti socket dan GraphX digunakan untuk menganalisis data dalam bentuk graf dengan node dan edge. Kedua modul ini memberikan kemampuan baru untuk Spark dalam memproses dan menganalisis data secara real-time maupun graf. "

Diunggah oleh

Rahma Sephia Putri
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 25

INTRODUCTION TO APACHE SPARK

Streaming, GraphX
Medisa Aris Ginanjar, S.T., M.M.
Apache Spark Modularity

MLlib GraphX
Spark SQL Streaming Machine Graph
Learning Computation

Spark Core API

R SQL Python Scala Java

2
BAGIAN 1: Streaming
Analogi: Teknologi Streaming untuk Video membuat kita tidak perlu
mendownload keseluruhan file untuk menikmati file tersebut.

C. Not yet loaded


A. Current Position Video B. Buffer
(Already loaded content)

4
Data Batch vs Data Stream
Contoh: Data Batching

 Data dari DB
 Data dari CSV
 Data dari
internet
100% 75%

Input Batch # 1 Batch # 2

Contoh: Data Streaming

 Data lokasi GPS


 Data payment
 Data dari

sensor Micro batch
Processing
#1 5
Beberapa skenario yang membutuhkan Data Streaming
Folder

HDFS Folder  Spark akan memantau


file baru di folder tsb.
 File baru akan dibaca


secara otomatis.

Socket Server  Spark membuka Micro batch


koneksi socket pada Processing
server.
Event Streaming  Setiap data/ event
Server yang terdapat dalam
server tsb akan dibaca
secara otomatis.
6
Contoh 1
Program koneksi ke soket dan 1
menampilkan data ke layar.

1. Inisiasi spark app dengan spark session


builder
2. Koneksi ke soket dan menunggu data masuk
2
menjadi data stream. socket, kafka, csv, json, text, delta, eventhubs, cloudfiles, s3
3. Setiap data yang masuk akan ditulis di layar.

Append, complete

7
8
Contoh 2
Program koneksi ke soket dan menampilkan data ke
layar menggunakan batch per n detik.

1. Inisiasi spark app dengan spark session 1

builder
2. Koneksi ke soket dan menunggu data masuk
2
menjadi data stream.
3. Setiap 7 detik, data yang masuk akan
dituliskan ke layar.

3 Menggunakan trigger
10
Studi Kasus

Alert System
1. Sistem memberikan
informasi pertumbuhan
pengguna per koneksi.

2. Alert system mempelajari


pertumbuhan pengguna dan
meningkatkan kapasitas BTS.

3. Alert system berkordinasi


dengan mobile BTS untuk
melakukan reroute signal.

11
BAGIAN 2: GraphX
Graph merupakan kumpulan dari node (vertex) dan relasinya
(edge) yang menggambarkan hubungan tertentu.

https://adatis.co.uk/graphframes/

13
Representasi Node dan Edge

14
Contoh 3
Contoh mencari teman dari seseorang.
1

1. Inisiasi spark app dengan spark session 2

builder
2. Membuat Vertex
3. Membuat Edges
4. Membuat Graph 3
5. Mencari teman dari seseorang

15
Algoritma Pregel
merupakan model komputasi berbasis node, yang melakukan proses dari satu node, ke node yang memiliki relasi dengan node awal,
dan berulang selanjutnya sampai tidak ada node yang berelasi.

16
Contoh Kasus
Seberapa jauh dari Alice ke teman-temannya?

2
Bob

2
1
1 3
Alice Charlie
4

1,5
4
David
17
Contoh 4
Seberapa jauh dari Alice
ke teman-temannya?

18
Output Contoh 4
Seberapa jauh dari Alice ke teman-temannya?

19
Algoritma Lainnya
 PageRank
 Connected Component
 Triangle Counting

20
GraphFrames
 Library untuk komputasi graph pada Apache Spark.
 Berbasis DataFrame.
 Dapat diunduh di https://
graphframes.github.io/graphframes

21
Contoh 5 1
Siapa teman David?

1. Inisiasi spark app dengan spark session


builder
2. Membuat Vertex
3. Membuat Edges
4. Membuat Graph 5
5. Mencari teman David
22
23
Studi Kasus

1. Ambil data semua nomor telp yang menggunakan BTS di dekat stadion.
2. Ambil data komunikasi telp call detail records (CDR) antar nomor tersebut.
3. Gunakan Graph untuk melakukan analisa berapa banyak group yang datang
ke event tersebut.

24
Referensi
 Jules S. Damji – Learning Spark
 https://intellipaat.com/blog/tutorial/spark-tutorial/machine-le
arning-with-pyspark-tutorial
/
 https://sparkbyexamples.com/spark/spark-rdd-vs-datafram
e-vs-dataset/#
h-3-spark-dataset
 https://spark.apache.org/docs/latest/ml-pipeline.html
https://graphframes.github.io/graphframes/docs/_
25

Anda mungkin juga menyukai