Pemrograman Python Untuk Big Data
Pemrograman Python Untuk Big Data
M. YAHYA UBAIDILLAH
Pengenalan Python
untuk Big Data
Python adalah bahasa pemrograman yang sangat populer di dunia data science dan big data. Alasan utama
Python digunakan untuk big data adalah kemudahan dalam penulisan kode, pustaka yang kaya, dan kemampuan
untuk menangani data dalam jumlah besar.
Fungsi umum:
read_csv(), head(), info(), groupby(), merge(), dropna()
Pustaka 2 – NumPy
Deskripsi:
Digunakan untuk komputasi numerik dan operasi array multidimensi.
Efisien dalam operasi vektor/matriks skala besar.
Dasar dari pustaka lain seperti Pandas dan Scikit-learn.
Pustaka 3 – Matplotlib &
Seaborn
Deskripsi:
Matplotlib: visualisasi dasar (garis, batang, scatter).
Seaborn: visualisasi statistik yang estetik dan mudah digunakan.
Pustaka 4 – Dask
Deskripsi:
Alternatif Pandas untuk data yang lebih besar dari memori (out-of-core).
Mendukung paralelisasi dan lazy computation.
Interface mirip Pandas → mudah migrasi.
Pustaka 5 – PySpark
Deskripsi:
API Python untuk Apache Spark.
Cocok untuk pemrosesan data dalam skala besar (terdistribusi).
Mendukung SQL, MLlib (Machine Learning), dan Streaming.
Praktik Google Colab
BORCELLE
TERIMA
KASIH