0% menganggap dokumen ini bermanfaat (0 suara)
48 tayangan13 halaman

Py Spark

Diunggah oleh

kartas.mi2024
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
48 tayangan13 halaman

Py Spark

Diunggah oleh

kartas.mi2024
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 13

Contents Description Assignments Grading Materials Absences

Command
PySpark
framework untuk pengolahan big data

Start Here
Contents Description Assignments Grading Materials Absences

Penjelasan

PySpark adalah framework komputasi cluster


yang sangat cepat dan umum digunakan
untuk pemrosesan data besar. Spark
menyediakan antarmuka pemrograman yang
mudah untuk bekerja dengan berbagai koleksi
data yang besar dan mendukung berbagai
Kemampuan PySpark:
bahasa pemrograman seperti Java, Scala,
Python, dan R.
● Memproses data dalam skala besar (Big Data)
● Mendukung berbagai jenis pemrosesan
batch, streaming data real-time, dan analitik
interaktif
● Menyediakan struktur data yang fleksibel
(DataFrame)
● Memiliki kemampuan Machine Learning
Contents Description Assignments Grading Materials Absences

Instalasi

Langkah-langkah Instalasi PySpark di Windows:


1. Menginstal Java
https://www.java.com/en/download/help/download_options.html
2. SetUp Environment Variables
https://medium.com/@ishaqlanaa17/cara-install-java-dan-setup-
environment-variables-di-windows-a300dbab3b8a
3. Buka Terminal (CMD)
4. Instalasi PySpark
pip install pyspark
Contents Description Assignments Grading Materials Absences

Modul Utama
1. pyspark.sql
Modul ini digunakan untuk bekerja dengan DataFrame
dan SQL. Ini adalah salah satu modul paling umum
4. pyspark.mllib
digunakan dalam PySpark.
Modul ini adalah API RDD-based untuk pembelajaran
mesin (MLlib). Meski sebagian besar fitur ML telah
2. pyspark.ml dipindahkan ke pyspark.ml, modul ini masih digunakan
Modul ini digunakan untuk machine learning (ML) dalam dalam beberapa kasus.
Spark. Modul ini mencakup berbagai algoritma dan
utilitas untuk pembelajaran mesin.
5. pyspark.rdd
Modul ini digunakan untuk bekerja langsung dengan RDD
3. pyspark.streaming (Resilient Distributed Dataset), struktur data dasar dalam
Modul ini digunakan untuk pemrosesan data streaming Spark.
secara real-time
Contents Description Assignments Grading Materials Absences

Inisialisasi

Modul Fungsi

Blok kode yang dapat dipanggil


File yang berisi kode Python(fungsi, kelas,
dengan nama tertentu dan dapat
dan variabel) yang dapat diimpor dan
menerima parameter serta
digunakan dalam program lain.
mengembalikan nilai.
Contents Description Assignments Grading Materials Absences

Perintah–Perintah PySpark

Pembuatan Data Frame di Spark,


SparkSession.builder digunakan
mengkonfigurasi dan menginisialisasi
Name Age
sesi Spark dengan parameter yang
diperlukan, seperti konfigurasi Spark, Adi 10
master URL, nama aplikasi, dan
sebagainya Budi 11
Cici 12
Contents Description Assignments Grading Materials Absences

Perintah–Perintah PySpark

Pembuatan
koleksi data

Informasi
Dasar
Contents Description Assignments Grading Materials Absences

Perintah–Perintah PySpark
Pembuatan
koleksi data

Ringkasan
Data
Contents Description Assignments Grading Materials Absences

Perintah–Perintah PySpark

Penerapan
Pada Fungsi
Contents Description Assignments Grading Materials Absences

Perintah–Perintah PySpark

Perintah
Melihat
Data
(SELECT)
Contents Description Assignments Grading Materials Absences

Perintah–Perintah PySpark

Perintah
Membuat Kritera
(Filtering, Group, Aggregate )
Contents Description Assignments Grading Materials Absences

Sumber Referensi
https://chatgpt.com/
https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/index.html
https://medium.com/analytics-vidhya/ultimate-guide-for-setting-up-pyspark-in-google-
colab-7637f697daf1
https://halovina.com/berkenalan-dengan-library-python-pyspark/
https://aws.amazon.com/id/what-is/apache-spark/
https://www.pngwing.com/
https://carbon.now.sh/
Contents Description Assignments Grading Materials Absences

Terimakasih
Telah Membaca
Semoga informasi yang saya berikan dapat
bermanfaat dan memotivasi Anda

Donna Setiawan
[email protected]

Anda mungkin juga menyukai