0% menganggap dokumen ini bermanfaat (0 suara)
108 tayangan3 halaman

Apache Spark Untuk Pemrosesan Big Data

Apache Spark adalah framework terbuka sumber terbuka untuk memproses dan menganalisis Big Data secara paralel dengan kecepatan tinggi karena menggunakan penyimpanan data in-memory. Framework ini memiliki berbagai library seperti Spark SQL, MLlib, dan GraphX untuk memproses dan menganalisis data relasional, melakukan machine learning, serta mengolah grafik secara paralel.

Diunggah oleh

Said achmad
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
108 tayangan3 halaman

Apache Spark Untuk Pemrosesan Big Data

Apache Spark adalah framework terbuka sumber terbuka untuk memproses dan menganalisis Big Data secara paralel dengan kecepatan tinggi karena menggunakan penyimpanan data in-memory. Framework ini memiliki berbagai library seperti Spark SQL, MLlib, dan GraphX untuk memproses dan menganalisis data relasional, melakukan machine learning, serta mengolah grafik secara paralel.

Diunggah oleh

Said achmad
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 3

Apache Spark untuk Pemrosesan Big Data.

Apa itu Apache Spark?


Pada dasarnya Apache Spark merupakan sebuah framework atau environtment yang dapat
digunakan untuk mengakses data dari berbagai sumber berbeda, kemudian mengolah data
tersebut, kemudian menyimpannya kedalam penyimpanan data untuk dianalisis. Fitur yang
dimiliki oleh Apache Spark memungkinkan para data engineer untuk membangun sebuah
aplikasi pipa pemrosesan Big Data. Terdapat beberapa definisi mengenai apa itu Apache
Spark sebagai berikut,
 Menurut Wikipedia:
Apache Spark adalah framework komputasi cluster terdistribusi yang open source. Spark
menyediakan antarmuka untuk memprogram seluruh cluster dengan paralelisme data
implisit dan toleransi kesalahan.
 Menurut website resmi Apache:
Apache Spark adalah framework yang digunakan untuk memproses, menanyakan, dan
menganalisis Big Data. Apache Spark melakukan pemrosesan data melalui in-memory,
sehingga waktu pemrosesan lebih cepat daripada framework sejenis seperti MapReduce
dan lainnya. Perkembangan data dalam tingkat terabyte data diproduksi setiap hari,
menjadikan kebutuhan akan solusi yang dapat memberikan real time analysis dengan
kecepatan tinggi.

Fitur yang ada pada Apache Spark,


1. Performa lebih cepat dibandingkan framework pemrosesan data tradisional.
2. Mudah digunakan, aplikasi pengolahan data yang dibangun dengan Spark dapat
dituliskan dalam bahasa pemrograman Python, R, Java, dan Scala.
3. Dilengkapi dengan SQL Library, Streaming, dan Graph Analysis yang memudahkan
proses pengolahan dan alnalisis data.
Apache Spark memiliki beberapa komponen dan dukungan dari berbagai bahasa
pemrograman, ilustrasi mengenai komponen yang ada pada Apache Spark tedapat pada
Gambar 1.
Gambar 1. Komponen Apache Spark.
 Spark Core
Spark Core adalah mesin dasar untuk pemrosesan data paralel dan terdistribusi skala
besar. Library tambahan dapat dibangun di atas Spark Core sehingga memungkinkan
beragam pemrosesan seperti untuk streaming, SQL, dan Macine Learning untuk
mendukung berbagai aktivitas pemrosesan data. Komponen ini berisi fungsionalitas
dasar Spark seperti penjadwalan tugas, manajemen memori, interaksi dengan sitem
penyimpanan, dll. Tanpa Spark Core berbagai library Spark lainnya tidak dapat
dijalankan pada suatu mesin atau server.
 Spark SQL
Spark SQL adalah library yang mengintegrasikan pemrosesan data relasional dengan
Spark functional programming API. Library ini mendukung pengolahan data
menggunakan kueri, baik melalui SQL atau melalui Bahasa Kueri Hive. Spark SQL
menggunakan antarmuka seperti SQL untuk berinteraksi dengan data dari berbagai
format seperti CSV, JSON, Parket, hingga ke berbagai database engine seperti MySQL
dan SQL Server.
 MLlib
MLlib adalah library yang berisi berbagai macam Algoritma Machine Learning yang
ditawarkan oleh Spark. MLib menyediakan berbagai function yang dapat dipanggil untuk
melakukan pembelajaran Supervised maupun Un-supervised, Regression maupun
Classification. Library ini dapat memenuhi kebutuhan analisis untuk melihat pola
tersembunyi dari data yang ada, setelah data dari berbagai sumber didapatkan dan diolah.
 GraphX
Library ini adalah API Apache Spark untuk menjalankan komputasi grafik secara paralel.
Library ini dapat mengolah data yang tersimpan dalam format RDD (Resilient
Distributed Dataset), kemudian membuat grafik yang memiliki arah pada setiap vertex
dan edge. Setiap vertex dan edge dapat memiliki properties seperti nama, cost atau jarak,
arah, dan menyimpan informasi lainnya yang dibutuhkan.

Anda mungkin juga menyukai