0% menganggap dokumen ini bermanfaat (0 suara)
61 tayangan13 halaman

Data Profiling

Data profiling digunakan untuk memahami dataset dengan menggunakan statistik deskriptif. Beberapa statistik yang dihitung meliputi panjang kolom, jumlah pengamatan, nilai minimum, maksimum, rata-rata, median, modus, dan deviasi standar untuk melihat distribusi data. Korelasi antar variabel juga dihitung untuk melihat hubungan antar kolom. Hasil profiling ini berguna untuk menganalisis data lebih lanjut.

Diunggah oleh

Yudi Supardi
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
61 tayangan13 halaman

Data Profiling

Data profiling digunakan untuk memahami dataset dengan menggunakan statistik deskriptif. Beberapa statistik yang dihitung meliputi panjang kolom, jumlah pengamatan, nilai minimum, maksimum, rata-rata, median, modus, dan deviasi standar untuk melihat distribusi data. Korelasi antar variabel juga dihitung untuk melihat hubungan antar kolom. Hasil profiling ini berguna untuk menganalisis data lebih lanjut.

Diunggah oleh

Yudi Supardi
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 13

Data Profiling

• Data profiling adalah kegiatan merangkum dataset menggunakan


statistik deskriptif. Tujuan dari pembuatan data profiling adalah untuk
memiliki pemahaman yang kuat tentang data sehingga dapat mulai
menyusun framework analisis  dan memvisualisasikan data.
Statistik Deskriptive 1
• Kolom dari data anda sebgai berikut :

• order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price

• Contoh data terlampir

• Apa yang bisa anda lakukan?


• Melihat tipe masing-masing kolom
• Melihat panjang kolom
Import data anda
import pandas as pd
import numpy as np
import io
import pandas_profiling
retail_raw = pd.read_csv(‘nama file')
Melihat tipe data (inspeksi data)
• import pandas as pd
• import numpy as np
• import io
• import pandas_profiling
• retail_raw = pd.read_csv(‘file data')
• print(retail_raw.dtypes)
Length
• Fungsi len menghitung jumlah pengamatan dalam suatu
series/column. Fungsi len akan menghitung semua pengamatan,
terlepas dari apakah ada null-value atau tidak (include missing value).
import pandas as pd
import numpy as np
import io
import pandas_profiling
retail_raw = pd.read_csv(‘file data.csv')

# Kolom city
length_city = len(retail_raw['city'])
print('Length kolom city:', length_city)

# Tugas Praktek: Kolom product_id


length_product_id = len(retail_raw['product_id'])
print('Length kolom product_id:', length_product_id)
Count
• Fungsi count menghitung jumlah pengamatan non-NA/non-null dalam
suatu series/column. Di lain pihak, fungsi len akan hanya menghitung
jumlah elemen dari kolom baik kolom bersangkutan memiliki atau
tidak memiliki missing value (include missing value).

• count_city = retail_raw['city'].count()
• print('Count kolom count_city:',count_city)

count_city = retail_raw['city'].count()
print('Count kolom count_city:',count_city)
Missing Value
• Dengan Length dan Count, sekarang
dapat menghitung jumlah missing-value.
Jumlah nilai yang hilang adalah
perbedaan antara Length dan Count
import pandas as pd
import numpy as np
import io
import pandas_profiling
retail_raw = pd.read_csv(‘file_data')

# Kolom city
length_city = len(retail_raw['city'])
count_city = retail_raw['city'].count()
# Kolom product id
length_product_id = len(retail_raw['product_id'])
count_product_id = retail_raw['product_id'].count()

# Missing value pada kolom city


number_of_missing_value_city=length_city - count_city
float_of_missing_values_city=float(number_of_missing_value_city/length_city)
pct_of_missing_values_city='{0:.1f}%'.format(float_of_missing_values_city*100)
print('Persentase missing value kolom city:',pct_of_missing_values_city)
Maximum dan Minimum
• Fungsi max dan min digunakan untuk mport pandas as pd
import numpy as np
mengetahui elemen terbesar dan import io
import pandas_profiling
terkecil dari suatu kolom di dataframe. retail_raw = pd.read_csv(‘file_Data')

Mean, Median, Modus dan Standard # Deskriptif statistics kolom quantity


print('Kolom quantity')
Deviasi print('Minimum value: ', retail_raw['quantity'].min())
print('Maximum value: ', retail_raw['quantity'].max())
• Fungsi mean, median, modus dan print('Mean value: ', retail_raw['quantity'].mean())
print('Mode value: ', retail_raw['quantity'].mode())
standard deviasi digunakan untuk print('Median value: ', retail_raw['quantity'].median())

mengetahui pemusatan data dan print('Standard Deviation value: ', retail_raw['quantity'].std())

persebarannya. # Tugas praktek: Deskriptif statistics kolom item_price


print('')
print('Kolom item_price')
print('Minimum value: ', retail_raw['item_price'].min())
print('Maximum value: ',retail_raw['item_price'].max())
print('Mean value: ', retail_raw['item_price'].mean())
print('Median value: ', retail_raw['item_price'].mode())
print('Standard Deviation value: ', retail_raw['item_price'].std())
Quantile Statistics
• Quantiles adalah titik potong
yang membagi distribusi dalam import pandas as pd
ukuran yang sama. Jika akan import numpy as np
import io
membagi distribusi menjadi import pandas_profiling
empat grup yang sama, kuantil retail_raw = pd.read_csv(‘file_data')
yang dibuat dinamai quartile. Jika
# Quantile statistics kolom quantity
dibagi kedalam 10 sepuluh grup print('Kolom quantity:')
yang sama dinamakan percentile. print(retail_raw['quantity'].quantile([0.25, 0.5 , 0.75]))
Dalam kasus di bawah ini, ingin
# Tugas praktek: Quantile statistics kolom item_price
membagi distribusi menjadi print('')
empat grup atau quartile. print('Kolom item_price:')
print(retail_raw['item_price'].quantile([0.25, 0.5 , 0.75]))
Correlation

• Korelasi adalah cara yang tepat import pandas as pd


import numpy as np
untuk menemukan hubungan import io
antara variabel numerik. import pandas_profiling
retail_raw = pd.read_csv(‘file_Data')
Koefisien korelasi berkisar antara
-1 hingga 1. Korelasi 1 adalah print('Korelasi quantity dengan item_price')
korelasi positif total, korelasi -1 print(retail_raw[['quantity', 'item_price']].corr())

adalah korelasi negatif total dan


korelasi 0 adalah korelasi non-
linear.
Profiling
Silahkan mempelajari sendiri untuk profiling ini :
1. Install
!pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

2. Restart
3. Jalankan kode berikut

import pandas as pd
import matplotlib.pyplot as plt
from pandas_profiling import ProfileReport
%matplotlib inline
pd.set_option('display.max_colwidth', None)
df = pd.read_csv(‘file_data')
profile = ProfileReport(df, title=‘Data retail', explorative=True)
profile.to_notebook_iframe()
profile.to_file('analisis_Sigit.html')

Anda mungkin juga menyukai