0% menganggap dokumen ini bermanfaat (0 suara)
53 tayangan37 halaman

Part 7 - EDA Dan Visualisasi Data

Diunggah oleh

erika.analytic
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
53 tayangan37 halaman

Part 7 - EDA Dan Visualisasi Data

Diunggah oleh

erika.analytic
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 37

EDA dengan

Visualisasi
Data

DQLab LiveClass
Key
Takeaways What ?
Missing Values kondisi di mana suatu
variable tidak memiliki nilai.

Missing Values dapat mempengaruhi hasil


Why ? analisa/pengolahan data

1. Metode Delesi
How ? a. Delesi Baris
b. Delesi Kolom
2. Metode Imputasi
a. General
• Non Time-Series Data -> Central
Tendency, Constant Value
• Time-Series Data -> BackFill,
FrontFIll
b. Advance
Outline
Apa itu EDA Hands On
• Definisi EDA • Pandas untuk
1st • Sejarah pengolahan data
• EDA vs CDA • Visualisasi Data
seaborn

Proses EDA Finish


• 5 Langkah proses EDA • Conclusion
• Pivot Table • QnA /
• Visualisasi data Discussion
Seaborn
Apa itu Exploratory Data Analysis?
Exploratory Data Analysis (EDA)

Sebuah proses dalam melakukan investigasi awal pada


data dengan cara mengeksplorasi Menjelajahi data untuk
mendapatkan pola, tren, struktur dasar, penyimpangan dari tren,
anomali, dan struktur aneh.
Exploratory Data Analysis (1977)

● Berdasarkan insight syang dikembangkan di


Bel Labs pada tahun 60an.
● Teknik untuk memvisualisasi dan
mennyimpulkan suatu data
● Apa yg diceritakan dari suatu data ? (Bukan
mengkonfirmasi)

John W Tukey
American mathematician and statistician,
Exploratory vs Confirmatory Data Analysis

EDA CDA
• No hypothesis at first • Start with hypothesis

• Generate hypothesis • Test the null hypothesis

• Uses graphical methods (mostly) • Uses statistical models


Proses Exploratory Data Analysis
STEP 1 Lakukan Business Understanding

STEP 2 Develop Research Question


Langkah
5 Exploratory
Data Analysis
STEP 3

STEP 4
Summari & persiapkan Data

Visualisasikan Data

STEP 5 Ambil Kesimpulan


STEP 1 Lakukan Business Understanding

STEP 2 Lakukan Data Understanding


Langkah
5 Exploratory
Data Analysis
STEP 3

STEP 4
Summari & persiapkan Data

Visualisasikan Data

STEP 5 Ambil Kesimpulan


STEP 1 Lakukan Business Understanding

STEP 2 Lakukan Data Understanding

Langkah
5 Exploratory
Data Analysis
STEP 3

STEP 4
Summari & persiapkan Data

Visualisasikan Data

STEP 5 Ambil Kesimpulan


Pivot Table
● Sebelum membuat visualisasi, kita
harus membuat beberapa summary
dari data
● Summary data digunakan untuk
mencari informasi sebanyak mungkin
serta menguji beberapa hipotesis
● Summary data membantu kita memilah
informasi mana yang penting dan
menjawab permasalahan
● Metode yang umum dalam membuat
summary data adalah pivot table
Komponen pivot table
Syntax:
Komponen Deskripsi
pd.pivot_table(
Data Data yang akan data=df,
dibuat summarynya index=’kolom_a’,
columns=’kolom_b’,
Index/Row & Columns Baris dan kolom values=’kolom_c’,
aggfunc=<nama_fungsi>
untuk menentukan
)
bagaimana data
ditampilkan

Values Nilai yang akan Fungsi agregat yang sering digunakan:


dihitung sum, mean, min, max, count

Aggregate Functions Fungsi hitung


Contoh pivot table (1)

Jumlah pendapatan (sales) berdasarkan kategori


produk yang dijual
Contoh pivot table (2)

Jumlah pendapatan berdasarkan


kategori produk dan wilayah
Contoh pivot table (3)

Index atau kolom dapat dibuat bertingkat dengan memasukkan nama variable ke dalam list
STEP 1 Lakukan Business Understanding

STEP 2 Lakukan Data Understanding

Langkah
5 STEP 3 Prepare your Data
Exploratory
STEP 4 Visualisasikan Data
Data Analysis
STEP 5 Ambil Kesimpulan
Perhatikan data berikut
Bulan Diterima Diproses
Januari 160 160
Februari 184 184
Maret 241 237
Sebuah perusahaan penjualan tiket merilis
April 149 148
Mei 181 180
rekapan transaksi yang berisi jumlah
Juni 161 150 permintaan tiket yang diterima dan yang
Juli 132 123 berhasil diproses setiap bulannya.
Agustus 202 156
September 160 126 Insight apa yang kamu dapatkan?
Oktober 139 104
November 149 124
Desember 177 140
Sekarang perhatikan chart di berikut

Insight apa yang kamu dapatkan?


Apa bedanya dengan melihat angka-angka pada tabel?
Konsep visualisasi data dan Storytelling

Menyederhanakan data Mengenali kejadian berulang Mendapatkan informasi


yang membingungkan (pattern) untuk digunakan dalam penting (insights)
forecasting

Simplifying complex information into engaging story and presenting it


visually enables decision-makers to make informed and effective
decisions quickly and accurately.
Chart berdasarkan Goals
Chart to select based on what kind of data you need to show

The graph guide breaks up your


options into 4 paths:
1. Comparison
2. Relationship
3. Distribution
4. Composition

Every data visualization project or


initiative is slightly different,
which means that different data
visualization chart types will suit
varying goals, aims, or topics.
Visualisasi data dengan Seaborn

● Seaborn adalah salah satu library python


yang berfokus pada visualisasi data
● Seaborn dibangun di atas matplotlib
sekaligus menyederhanakan syntax
matplotlib
● import seaborn as sns untuk
menggunakan seaborn
Line chart
● Line chart biasanya digunakan untuk melihat trend atau perubahan
dari waktu ke waktu
● Sumbu x pada line chart biasanya adalah kolom dengan tipe data
yang memiliki urutan, contohnya: tanggal
● Syntax:

sns.lineplot(data, sumbu_x, sumbu_y)


Contoh: Line Chart Single
Multiple line chart
● Untuk membuat multiple line chart, siapkan satu kolom yang
menunjukkan pembagian line chart
● Masukkan kolom tersebut ke dalam parameter hue pada fungsi
sns.linechart
● Syntax

sns.lineplot(data, x, y, hue)
Contoh: Multiple Line Chart
Bar chart
● Bar chart digunakan untuk membandingkan nilai antar variabel
● Sumbu x pada bar chart tidak perlu merupakan variabel dengan
urutan
● Syntax:

sns.barplot(data, sumbu_x, sumbu_y)


Cluster Bar Chart
● Selain membuat barchart sederhana, kita juga dapat membuat
breakdown dari barchart ke dalam komponennya
● Masukkan variabel yang akan menjadi komponennya ke dalam
parameter hue
● Syntax:

sns.barplot(data, sumbu_x, sumbu_y, hue)


Cluster Bar Chart
Scatterplot
● Scatterplot digunakan untuk melihat
korelasi atau hubungan antar dua variabel
numerik
● Syntax

sns.scatterplot(data, x, y)

● Atau

sns.scatterplot(data, x, y, hue)
Displot
● Displot digunakan untuk
menampilkan distribusi dari
series numerik
● Secara default displot akan
menampilkan histogram
● Syntax:
sns.displot(<series>)

Menampilkan distribusi dari Sales dengan sales di bawah 1000


Heatmap
● Heatmap memudahkan
pembacaan tabel dengan
cara memberikan warna pada
cell berdasarkan nilai pada cell
tersebut
● Syntax: sns.heatmap(tabel)
STEP 1 Lakukan Business Understanding

STEP 2 Lakukan Data Understanding

Langkah
5 STEP 3 Summari & persiapkan Data
Exploratory Visualisasikan Data
STEP 4
Data Analysis
STEP 5 Ambil Kesimpulan
Hands On Session
Dataset Python Code

Dataset menggunakan data SuperStore Platform menggunakan Google Collabs

Link download untuk dataset Link akses


Terimakasih!

Anda mungkin juga menyukai