Statistic - With Python PDF
Statistic - With Python PDF
In [12]:
import pandas as pd
import numpy as np
import scipy.stats as st
from scipy import stats
import statsmodels.stats.proportion as sp
## Library visualisasi
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
In [13]:
df = pd.read_csv('train.csv')
Basic
### Modus
Modus = x.mode()[0]
print ('Modus: ',Modus)
### Percentil
Percentile_90 = x.quantile(0.9)
print (Percentile_90)
### Quartile
#### Q1, Q2, dan Q3
Q1 = x.quantile(0.25)
Q2 = np.quantile(x,0.5)
Q3 = np.percentile(x,75)
print ('Quartile_1 :', Q1)
print ('Quartile_2 :', Q2)
print ('Quartile_3 :', Q3)
### Variance
variance = x.var()
print ('Variance :', variance)
### Range
maks = x.max()
mini = x.min()
Range = maks - mini
print ('Jangkauan :', Range)
### Boxplot
plt.figure(figsize = (5,7))
sns.boxplot(data = x)
Rata-rata : 180921.19589041095
Median : 163000.0
Modus: 140000
278000.0
Quartile_1 : 129975.0
Quartile_2 : 163000.0
Quartile_3 : 214000.0
Variance : 6311111264.297451
Standard Deviasion : 79442.50288288663
Jangkauan : 720100
Inter Quartile Range (IQR): 84025.0
Out[14]:
<matplotlib.axes._subplots.AxesSubplot at 0x1c007666370>
In [16]:
Out[16]:
Out[17]:
In [18]:
Out[18]:
In [19]:
Out[19]:
In [20]:
Out[20]:
Advanced
Penjelasan distribusi harga rumah
Hint: dapat ditunjukan melalui distribusi data
In [21]:
print('Rata-rata : ',df['SalePrice'].mean())
print('Median : ',df['SalePrice'].median())
plt.figure(figsize = (7,4))
sns.distplot(df['SalePrice'])
plt.show()
plt.tight_layout()
plt.figure(figsize = (5,7))
sns.boxplot(data = df['SalePrice'])
plt.show()
plt.tight_layout()
Rata-rata : 180921.19589041095
Median : 163000.0
Dari grafik diatas menunjukkan distribusi negarif skewd dimana nilai median lebih kecil dari nilai mean/rata-
ratanya. sehingga dalam analisa pada data ini nilai penggunaan nilai median cenderung lebih representaif
dibandingkan dengan pengguanaan mean
In [22]:
##Langkah 1
tahun_2008 = df[df['YrSold'] == 2008]
tahun_2009 = df[df['YrSold'] == 2009]
###Langkah 2
print('Rata-rata Tahun 2008 : ',tahun_2008['SalePrice'].mean())
print('Rata-rata Tahun 2009 : ',tahun_2009['SalePrice'].mean())
###Langkah 3
#### Masukkan data kedalam fungsi Ttest
ttest = st.ttest_ind(a = tahun_2008['SalePrice'], b=tahun_2009['SalePrice'])
p_value = ttest.pvalue
Define an Experiment
Nama Eksperimen
Pengujian tampilan baru snapchats
Mendefinisikan Hipotesis
desain tampilan baru snapchat meningkatkan intensitas membuka aplikasi
Participant
Semua User Snapchats
Microconversions
Upload photo profile
Vanity Metrics
intensitas chat/lama waktu membuka aplikasi
Analisis Berkala
Dilakukan analisis berkala dengan
80:20 (desain baru ditetapkan pada 20 % pengguna) kemudian dilihat effeknya
selanjutnya
50:50 (new design diterapkan pada 50 % penguna) kemudian dilihat effeknya
Post Test
dilakukan T test untuk melihat apakah desain baru menaikkan tingkat user mngunjungi aplikasi