0% menganggap dokumen ini bermanfaat (0 suara)

108 tayangan3 halaman

Apache Spark Untuk Pemrosesan Big Data

Apache Spark adalah framework terbuka sumber terbuka untuk memproses dan menganalisis Big Data secara paralel dengan kecepatan tinggi karena menggunakan penyimpanan data in-memory. Framework ini memiliki berbagai library seperti Spark SQL, MLlib, dan GraphX untuk memproses dan menganalisis data relasional, melakukan machine learning, serta mengolah grafik secara paralel.

Diunggah oleh

Said achmad

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

108 tayangan3 halaman

Apache Spark Untuk Pemrosesan Big Data

Diunggah oleh

Said achmad

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 3

Apache Spark untuk Pemrosesan Big Data.

Apa itu Apache Spark?

Pada dasarnya Apache Spark merupakan sebuah framework atau environtment yang dapat
digunakan untuk mengakses data dari berbagai sumber berbeda, kemudian mengolah data
tersebut, kemudian menyimpannya kedalam penyimpanan data untuk dianalisis. Fitur yang
dimiliki oleh Apache Spark memungkinkan para data engineer untuk membangun sebuah
aplikasi pipa pemrosesan Big Data. Terdapat beberapa definisi mengenai apa itu Apache
Spark sebagai berikut,
 Menurut Wikipedia:
Apache Spark adalah framework komputasi cluster terdistribusi yang open source. Spark
menyediakan antarmuka untuk memprogram seluruh cluster dengan paralelisme data
implisit dan toleransi kesalahan.
 Menurut website resmi Apache:
Apache Spark adalah framework yang digunakan untuk memproses, menanyakan, dan
menganalisis Big Data. Apache Spark melakukan pemrosesan data melalui in-memory,
sehingga waktu pemrosesan lebih cepat daripada framework sejenis seperti MapReduce
dan lainnya. Perkembangan data dalam tingkat terabyte data diproduksi setiap hari,
menjadikan kebutuhan akan solusi yang dapat memberikan real time analysis dengan
kecepatan tinggi.

Fitur yang ada pada Apache Spark,

1. Performa lebih cepat dibandingkan framework pemrosesan data tradisional.
2. Mudah digunakan, aplikasi pengolahan data yang dibangun dengan Spark dapat
dituliskan dalam bahasa pemrograman Python, R, Java, dan Scala.
3. Dilengkapi dengan SQL Library, Streaming, dan Graph Analysis yang memudahkan
proses pengolahan dan alnalisis data.
Apache Spark memiliki beberapa komponen dan dukungan dari berbagai bahasa
pemrograman, ilustrasi mengenai komponen yang ada pada Apache Spark tedapat pada
Gambar 1.
Gambar 1. Komponen Apache Spark.
 Spark Core
Spark Core adalah mesin dasar untuk pemrosesan data paralel dan terdistribusi skala
besar. Library tambahan dapat dibangun di atas Spark Core sehingga memungkinkan
beragam pemrosesan seperti untuk streaming, SQL, dan Macine Learning untuk
mendukung berbagai aktivitas pemrosesan data. Komponen ini berisi fungsionalitas
dasar Spark seperti penjadwalan tugas, manajemen memori, interaksi dengan sitem
penyimpanan, dll. Tanpa Spark Core berbagai library Spark lainnya tidak dapat
dijalankan pada suatu mesin atau server.
 Spark SQL
Spark SQL adalah library yang mengintegrasikan pemrosesan data relasional dengan
Spark functional programming API. Library ini mendukung pengolahan data
menggunakan kueri, baik melalui SQL atau melalui Bahasa Kueri Hive. Spark SQL
menggunakan antarmuka seperti SQL untuk berinteraksi dengan data dari berbagai
format seperti CSV, JSON, Parket, hingga ke berbagai database engine seperti MySQL
dan SQL Server.
 MLlib
MLlib adalah library yang berisi berbagai macam Algoritma Machine Learning yang
ditawarkan oleh Spark. MLib menyediakan berbagai function yang dapat dipanggil untuk
melakukan pembelajaran Supervised maupun Un-supervised, Regression maupun
Classification. Library ini dapat memenuhi kebutuhan analisis untuk melihat pola
tersembunyi dari data yang ada, setelah data dari berbagai sumber didapatkan dan diolah.
 GraphX
Library ini adalah API Apache Spark untuk menjalankan komputasi grafik secara paralel.
Library ini dapat mengolah data yang tersimpan dalam format RDD (Resilient
Distributed Dataset), kemudian membuat grafik yang memiliki arah pada setiap vertex
dan edge. Setiap vertex dan edge dapat memiliki properties seperti nama, cost atau jarak,
arah, dan menyimpan informasi lainnya yang dibutuhkan.

Anda mungkin juga menyukai

(00.B) Modul Menggunakan Tools Data Science (RapidMiner)
Belum ada peringkat
(00.B) Modul Menggunakan Tools Data Science (RapidMiner)
26 halaman
Pandas Cheatsheet
Belum ada peringkat
Pandas Cheatsheet
144 halaman
Pertemuan 1 (Pengantar Big Data)
100% (1)
Pertemuan 1 (Pengantar Big Data)
28 halaman
silabus-RPS Big Data Analytics - SI - SI34003 - (Pak Dedi)
Belum ada peringkat
silabus-RPS Big Data Analytics - SI - SI34003 - (Pak Dedi)
6 halaman
Modul Pengenalan Google Colabs
100% (1)
Modul Pengenalan Google Colabs
9 halaman
Manajemen Data
Belum ada peringkat
Manajemen Data
14 halaman
Instalasi Scala, Apache Spark, Pyspark
Belum ada peringkat
Instalasi Scala, Apache Spark, Pyspark
14 halaman
TP2 Dian Rahmad Dermawan
Belum ada peringkat
TP2 Dian Rahmad Dermawan
6 halaman
Py Spark
Belum ada peringkat
Py Spark
13 halaman
UTS SI - Big Data
Belum ada peringkat
UTS SI - Big Data
2 halaman
Modul Praktikum1 2 3 4
Belum ada peringkat
Modul Praktikum1 2 3 4
19 halaman
Silabus Big Data
Belum ada peringkat
Silabus Big Data
2 halaman
RPS NLP
Belum ada peringkat
RPS NLP
11 halaman
Topik 4 Analisis Prediktif Metode Linier Regresi
100% (1)
Topik 4 Analisis Prediktif Metode Linier Regresi
31 halaman
Pengenalan Pemodelan Data
Belum ada peringkat
Pengenalan Pemodelan Data
15 halaman
Peran AI Dalam Data Mining
100% (1)
Peran AI Dalam Data Mining
15 halaman
Big Data Pertemuan 3
Belum ada peringkat
Big Data Pertemuan 3
6 halaman
Supervised Learning - Klasifikasi
Belum ada peringkat
Supervised Learning - Klasifikasi
18 halaman
Latihan Soal Uas SBD Lanjut (Jawaban)
Belum ada peringkat
Latihan Soal Uas SBD Lanjut (Jawaban)
10 halaman
Pertemuan 2 Pengantar Big Data - Sumber Data, Cara Kerja Dan Peranan Big Data
Belum ada peringkat
Pertemuan 2 Pengantar Big Data - Sumber Data, Cara Kerja Dan Peranan Big Data
21 halaman
Modul Praktik Perancangan Big Data - Ridwan Ramadhan - 2291476560
Belum ada peringkat
Modul Praktik Perancangan Big Data - Ridwan Ramadhan - 2291476560
46 halaman
Konsep Data, Database, Operasional Data, Dan Big Data
Belum ada peringkat
Konsep Data, Database, Operasional Data, Dan Big Data
29 halaman
Modul 13 - Clustering - v2 - MLK
Belum ada peringkat
Modul 13 - Clustering - v2 - MLK
87 halaman
Data Visualization With Python Matplotlib For Beginner
Belum ada peringkat
Data Visualization With Python Matplotlib For Beginner
10 halaman
UTS-Deep Learning
Belum ada peringkat
UTS-Deep Learning
3 halaman
3-Optimasi Query Terdistribusi
Belum ada peringkat
3-Optimasi Query Terdistribusi
17 halaman
Numpy Dan Contoh
Belum ada peringkat
Numpy Dan Contoh
4 halaman
Presentasi Big Data - Web Crawler
Belum ada peringkat
Presentasi Big Data - Web Crawler
10 halaman
UTS Basis Data 2
0% (1)
UTS Basis Data 2
2 halaman
Modul II-Model Information Retrieval
Belum ada peringkat
Modul II-Model Information Retrieval
42 halaman
Modul Pengantar Python & IDE - Mahasiswa
Belum ada peringkat
Modul Pengantar Python & IDE - Mahasiswa
10 halaman
Algoritam Machine Learning Dan Implementasi
Belum ada peringkat
Algoritam Machine Learning Dan Implementasi
8 halaman
Komputasi DescriptiveAnalyticsStatistics
Belum ada peringkat
Komputasi DescriptiveAnalyticsStatistics
29 halaman
Algoritma Hebb Rule - Jaringan Syaraf Tiruan
Belum ada peringkat
Algoritma Hebb Rule - Jaringan Syaraf Tiruan
11 halaman
Lis Adesna - 6h Reg Malam - Uas JST
Belum ada peringkat
Lis Adesna - 6h Reg Malam - Uas JST
11 halaman
RPL Pertemuan 2
Belum ada peringkat
RPL Pertemuan 2
16 halaman
Modul TA - DTS2021 - Model ANN 14 Juli 2021-V2
Belum ada peringkat
Modul TA - DTS2021 - Model ANN 14 Juli 2021-V2
30 halaman
199 - Sistem Pakar (HRR) PDF
Belum ada peringkat
199 - Sistem Pakar (HRR) PDF
162 halaman
Jenis Jenis Database
Belum ada peringkat
Jenis Jenis Database
3 halaman
Basis Data Terdistribusi
Belum ada peringkat
Basis Data Terdistribusi
31 halaman
1-Silabus Dan Pengantar Big Data
100% (1)
1-Silabus Dan Pengantar Big Data
18 halaman
Pemrosesan Query Terdistribusi
Belum ada peringkat
Pemrosesan Query Terdistribusi
38 halaman
Real Time Big Data Analytics
Belum ada peringkat
Real Time Big Data Analytics
9 halaman
Crawling Data Dan Sentiment Analysis Twitter-10
Belum ada peringkat
Crawling Data Dan Sentiment Analysis Twitter-10
22 halaman
Machine Learning Models
100% (1)
Machine Learning Models
8 halaman
Model Hebb
Belum ada peringkat
Model Hebb
15 halaman
Implementasi Metaheuristik Dengan MATLAB
Belum ada peringkat
Implementasi Metaheuristik Dengan MATLAB
31 halaman
Soal - UTS - IF20A - 2023-2024 - Pengolahan Data Terdistribusi - Khoirun Nisak - 0102523720
Belum ada peringkat
Soal - UTS - IF20A - 2023-2024 - Pengolahan Data Terdistribusi - Khoirun Nisak - 0102523720
5 halaman
Big Data Fundamental
Belum ada peringkat
Big Data Fundamental
53 halaman
PPT-Data Mining-Pertemuan 2
Belum ada peringkat
PPT-Data Mining-Pertemuan 2
44 halaman
Topik 5.1 - Principal Component Analysis (PCA) .En - Id
Belum ada peringkat
Topik 5.1 - Principal Component Analysis (PCA) .En - Id
35 halaman
Modul 4 - Representasi Pengetahuan
Belum ada peringkat
Modul 4 - Representasi Pengetahuan
47 halaman
Apa Itu Model Bahasa Besar (LLM) - Kasus Penggunaan Teratas, Kumpulan Data, Masa Depan
Belum ada peringkat
Apa Itu Model Bahasa Besar (LLM) - Kasus Penggunaan Teratas, Kumpulan Data, Masa Depan
26 halaman
UEU Data Mining Pertemuan 1
Belum ada peringkat
UEU Data Mining Pertemuan 1
37 halaman
0 - Data Science Big Data and Artificial Aptikom PDF
100% (1)
0 - Data Science Big Data and Artificial Aptikom PDF
26 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
39 halaman
Management Big Data
Belum ada peringkat
Management Big Data
7 halaman
RPS - OBE - Metoda Pemrograman Modern
Belum ada peringkat
RPS - OBE - Metoda Pemrograman Modern
5 halaman
Big Data
Belum ada peringkat
Big Data
17 halaman
Tugas Kelompok 1 - Big Data - Apache Spark - Apriadi Noor - Akmal Marup - M. Nur Rahmi - Akmal Marup 2020
Belum ada peringkat
Tugas Kelompok 1 - Big Data - Apache Spark - Apriadi Noor - Akmal Marup - M. Nur Rahmi - Akmal Marup 2020
5 halaman