0% menganggap dokumen ini bermanfaat (0 suara)
39 tayangan9 halaman

Untitled 4

1. Analisis univariate menunjukkan distribusi usia dan jam kerja per minggu serta rata-rata usia tertinggi untuk kelompok pendapatan 30-40 tahun. 2. Analisis bivariate menunjukkan rerata usia kelompok pendapatan <=US$50K lebih rendah dibanding >US$50K dan uji t menolak hipotesis nol. 3. Kesimpulannya, usia berperan dalam membedakan kelompok pendapatan.
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
39 tayangan9 halaman

Untitled 4

1. Analisis univariate menunjukkan distribusi usia dan jam kerja per minggu serta rata-rata usia tertinggi untuk kelompok pendapatan 30-40 tahun. 2. Analisis bivariate menunjukkan rerata usia kelompok pendapatan <=US$50K lebih rendah dibanding >US$50K dan uji t menolak hipotesis nol. 3. Kesimpulannya, usia berperan dalam membedakan kelompok pendapatan.
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 9

import packages

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import warnings
warnings.filterwarnings("ignore")
from scipy.stats import ttest_ind, ttest_rel
from scipy import stats

import data
data = pd.read_csv("https://gitlab.com/andreass.bayu/file-
directory/-/raw/main/adult.csv")
data.head(10)

age workclass fnlwgt education educational-num \


0 25 Private 226802 11th 7
1 38 Private 89814 HS-grad 9
2 28 Local-gov 336951 Assoc-acdm 12
3 44 Private 160323 Some-college 10
4 18 ? 103497 Some-college 10
5 34 Private 198693 10th 6
6 29 ? 227026 HS-grad 9
7 63 Self-emp-not-inc 104626 Prof-school 15
8 24 Private 369667 Some-college 10
9 55 Private 104996 7th-8th 4

marital-status occupation relationship race gender


\
0 Never-married Machine-op-inspct Own-child Black Male

1 Married-civ-spouse Farming-fishing Husband White Male

2 Married-civ-spouse Protective-serv Husband White Male

3 Married-civ-spouse Machine-op-inspct Husband Black Male

4 Never-married ? Own-child White Female

5 Never-married Other-service Not-in-family White Male

6 Never-married ? Unmarried Black Male

7 Married-civ-spouse Prof-specialty Husband White Male

8 Never-married Other-service Unmarried White Female


9 Married-civ-spouse Craft-repair Husband White Male

capital-gain capital-loss hours-per-week native-country income


0 0 0 40 United-States <=50K
1 0 0 50 United-States <=50K
2 0 0 40 United-States >50K
3 7688 0 40 United-States >50K
4 0 0 30 United-States <=50K
5 0 0 30 United-States <=50K
6 0 0 40 United-States <=50K
7 3103 0 32 United-States >50K
8 0 0 40 United-States <=50K
9 0 0 10 United-States <=50K

Age
i. distribusi
data['age'].hist(figsize=(8,8))
plt.show()
ii. deskripsi
data[data["age"]>70].shape

(868, 15)

Income
i. distribusi
plt.figure(figsize=(7,7))
total = float(len(data) )

ax = sns.countplot(x="income", data=data)
for p in ax.patches:
height = p.get_height()
ax.text(p.get_x()+p.get_width()/2.,
height + 3,
'{:1.2f}'.format((height/total)*100),
ha="center")
plt.show()

ii. deskripsi Distribusi di atas menjelaskan bahwa :


Dataset ini tidak seimbang, yaitu 23,93% di antaranya termasuk dalam kelompok
pendapatan 1 (yang berpenghasilan lebih dari $50K) dan 76% termasuk dalam kelompok
pendapatan 0 (yang berpenghasilan kurang dari $50K).
Age - Income
i. Boxplot
fig = plt.figure(figsize=(10,10))
sns.boxplot(x="income", y="age", data=data)
plt.show()
data[['income', 'age']].groupby(['income'],
as_index=False).mean().sort_values(by='age', ascending=False)

income age
1 >50K 44.275178
0 <=50K 36.872184

ii. Deskripsi Bivariate boxplot di atas menjelaskan bahwa :


Rata-rata "usia" untuk kelompok Penghasilan (<= $50K) adalah 36,8 tahun. Dan untuk
kelompok Penghasilan (> $50K) adalah 44,2 tahun Kelompok pendapatan(<=50K)
memiliki median "usia"(34 tahun) lebih rendah daripada kelompok Pendapatan(>50K)
yang memiliki median "usia"(42 tahun).
iii. uji hipotesis
import random
data = data[(np.abs(stats.zscore(data["age"])) < 3)]

income_1 = data[data['income']=='<=50K']['age']
income_0 = data[data['income']=='>50K']['age']

income_0 = income_0.values.tolist()
income_0 = random.sample(income_0, 100)
income_1 = income_1.values.tolist()
income_1 = random.sample(income_1, 100)

from scipy.stats import ttest_ind


ttest,pval = ttest_ind(income_1,income_0,equal_var = False)
print("ttest",ttest)
print('p value',pval)

if pval <0.05:
print("null hypothesis ditolak")
else:
print("null hypothesis diterima")

ttest -3.690070133020414
p value 0.00029878818647073786
null hypothesis ditolak

iv. Kesimpulan akhir Menggunakan analisis statistik,


Dapat disimpulkan bahwa terdapat perbedaan yang signifikan pada rerata usia kelompok
berpenghasilan >50K dan kelompok berpenghasilan <=50K. Hal Ini membuktikan bahwa
usia memiliki peranan dalam membedakan kelompok pendapatan.
1. Univariate analysis
i. Distribusi
data['hours-per-week'].hist(figsize=(8,8))
plt.show()
ii. deskripsi
# Untuk usia 30-40 tahun mendapatkan upah paling tertinggi yaitu
>25.000

Income
i. Distribusi
plt.figure(figsize=(7,7))
total = float(len(data) )

ax = sns.countplot(x="income", data=data)
for p in ax.patches:
height = p.get_height()
ax.text(p.get_x()+p.get_width()/2.,
height + 3,
'{:1.2f}'.format((height/total)*100),
ha="center")
plt.show()

ii. deskripsi
# Berdasarkan diagram diatas tidak seimbang, sekitar 23,96% masuk ke
dalam kelompok pendapatan lebih dari 50.000 dolar dan sekitar 76%
masuk ke dalam kelompok pendapatan kurang ari 50.000 dolar.

Bivariate analysis
fig = plt.figure(figsize=(10,10))
sns.boxplot(x="income", y="hours-per-week", data=data)
plt.show()
ii. deskripsi
# Rata - rata usia untuk kelompok kurang dari 50.000 dolar adalah 36,8
tahun dengan median 34 dan untuk kelompok diatas 50.000 dolar adalah
44,2 tahun dengan median 42.

iii. Uji Hipotesis


# Alternate Hypothesis :- ada perbedaan Rerata kelompok pendapatan
>50k dan kelompok pendapatan <=50k.

iv. Kesimpulan akhir


# Kesimpulannya, usia membuktikan adanya perbedaan dalam pendapatan.

Anda mungkin juga menyukai