0% menganggap dokumen ini bermanfaat (0 suara)
367 tayangan

Tugas Data Preprocessing

Dokumen tersebut memberikan instruksi untuk melakukan input data, preprocessing data, dan membuat atribut baru pada aplikasi Python. Langkah-langkah input data meliputi import file Excel ke Python, membersihkan data dengan formatting, replacing, dan menghapus nilai missing, serta membuat atribut golongan pendapatan berdasarkan kategori gaji.

Diunggah oleh

nrrzqh 99
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
367 tayangan

Tugas Data Preprocessing

Dokumen tersebut memberikan instruksi untuk melakukan input data, preprocessing data, dan membuat atribut baru pada aplikasi Python. Langkah-langkah input data meliputi import file Excel ke Python, membersihkan data dengan formatting, replacing, dan menghapus nilai missing, serta membuat atribut golongan pendapatan berdasarkan kategori gaji.

Diunggah oleh

nrrzqh 99
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 2

Nur Rezqi Handhiningsari

1201174123
TUGAS WEEK 3 DATA ANALITIK

1. Cara untuk melakukan input data kedalam aplikasi phyton:


• Pertama, melakukan proses input manual data tersebut melalui Ms. Excel,
data dapat disimpan dengan format .xlsx atau .csv
• Kedua, file excel tersebut diimport ke dalam aplikasi phyton
• Ketiga, memasukan syntax phyton untuk melakukan import
Syntax:
import numpy as np
import pandas as pd
mydata = 'tugas3.xlsx'
df = pd.read_excel (mydata)
print (df)
Screenshoot hasil running di Google Colab

2. Melakukan data preprocessing

• Data preprocessing yang perlu dilakukan adalah cleaning data. Hal pertama
ialah melakukan formatting data dengan syntax sebagai berikut:
df['Usia'][3] = 35
df['Lama Kerja(tahun)'][7] = 9.167

• Selanjutnya dilakukan replacing data dengan syntax sebagai berikut:


df['Gender']=df['Gender'].replace(("2Wanita"),("Pere
mpuan"))
df['Lama Kerja(tahun)']=df['Lama Kerja(tahun)'].repl
ace(("Tiga koma delapan"),(3.8))

• Terakhir, menghilangkan drop missing value yang ada dengan syntax sebagai
berikut:
df.dropna()
Screenshot Hasil Running Cleaning Data Menggunakan Google Colab

3. Membuat atribut baru dengan nama golongan_pendapatan (<3 kategori rendah, 3-5
kategori sedang, dan >5 juta kategori tinggi)

• Perlu untuk melakukan binning, yaitu mengelompokkan value kepada “bins”.


Berikut program python untuk membuat atribut dengan nama
golongan_pendapatan dan kelompok gaji <3 kategori rendah, 3-5 kategori sedang,
dan >5 juta kategori tinggi

Syntax
bins =[0,3,5,7]
group_names=["Rendah","Sedang","Tinggi"]
df['golongan_pendapatan']=pd.cut(df["Gaji (juta)"], bins,
labels = group_names)
df
df.dropna()

Screenshot Hasil Running Di Google Colab

***

Anda mungkin juga menyukai