0% menganggap dokumen ini bermanfaat (0 suara)

126 tayangan18 halaman

Tugas Data Analisis

Tugas ini membahas analisis data keuangan perusahaan penjualan yang berisi 711 baris dan 16 kolom. Ringkasan utamanya adalah membersihkan data yang kotor seperti nilai negatif pada kolom penjualan dan potongan harga serta nilai nol pada kolom harga dan biaya produksi.

Diunggah oleh

Najmi Az-Zahra F

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

126 tayangan18 halaman

Tugas Data Analisis

Diunggah oleh

Najmi Az-Zahra F

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 18

Tugas Analisis Data

Najmi Az-Zahra Feryputri (16521044)

Tanggal : 15 November 2011

Kode/Mata Kuliah : KU1102/Pengenalan Komputasi

Dosen Pengampu:

1. Dr. Fazat Nur Azizah, S.T., M.Sc.

2. Dr. Widyawardana Adiprawita, S.T, M.T.

Latihan soal dari slide
Latihan 2

Latihan 2-1

Soal: Tampilkan negara(-negara) dengan perolehan perunggu terbanyak!

 Deskripsi:
Program menampilkan negara dengan perunggu(“bronze”) terbanyak
 Program
#Latihan 2-1

imin = df3["bronze"].idxmax()

df3[imin : imin+1]
 Output

Latihan 2-2
Soal: Tampilkan negara(-negara) dengan perolehan perunggu sedikit, tapi total perolehan medali > 0!

 Deskripsi
Program menampilkan negara dengan perolehan perunggu (“bronze”) terkecil tetapi perolehan
medali (“total”) >0
 Program
min = df3["bronze"].min() #mencari nilai bronze minimum

df3.loc[ (df3["bronze"] == min) & (df3["total"] > 0) ]

 Output

Latihan 3

Soal: Sort data perolehan medali terurut menurun berdasarkan kolom gold dan terurut menaik
berdasarkan kolom silver

 Deskripsi
Program menampilkan data dengan urutan berdasarkan kolom gold dan silver. Urutan menurun
untuk kolom gold, serta urutan menaik untuk kolom silver.
 Program
df3.sort_values(["gold","silver"], ascending=[0,1])
 Output

dan seterusnya hingga index terakhir (saya tidak menampilkan semua)

Latihan 4

Soal: Buatlah distribusi frekuensi untuk total perolehan medali.

 Deskripsi
Program menampilkan distribusi frekuensi total medali.
 Program
df3["total"].value_counts()
 Output
Latihan 5

Soal: Hitung dan analisis-lah korelasi antara data-data berikut!

a. Gold vs Silver

 Program
df3["gold"].corr(df3["silver"])
 Output

 Analisis:
Perolehan medali emas dan perolehan medali perak berhubungan kuat karena corr tidak
mendekati 0, yaitu berbanding lurus karena corr mendekati 1.

b. Silver vs Bronze

 Program
df3["silver"].corr(df3["bronze"])
 Output

 Analisis
Perolehan medali perak dan perolehan medali perunggu berhubungan kuat karena corr tidak
mendekati 0, yaitu berbanding lurus karena corr mendekati 1.
c. Gold vs Bronze

 Program
df3["gold"].corr(df3["bronze"])
 Output

 Analisis
Perolehan medali emas dan perolehan medali perunggu berhubungan kuat karena corr tidak
mendekati 0, yaitu berbanding lurus karena corr mendekati 1.

d. Silver vs Total

 Program
df3["silver"].corr(df3["total"])
 Output

 Analisis
Perolehan medali perak dan perolehan total medali berhubungan kuat karena corr tidak
mendekati 0, yaitu berbanding lurus karena corr mendekati 1.

e. Bronze vs Total

 Program
df3["bronze"].corr(df3["total"])
 Output

 Analisis
Perolehan medali perunggu dan perolehan total berhubungan kuat karena corr tidak
mendekati 0, yaitu berbanding lurus karena corr mendekati 1.

Kesimpulan:
Karena setiap corr memiliki nilai dekat 1, setiap perolehan medali saling berbanding lurus satu sama
lain. Jika suatu negara memperoleh banyak medali emas, maka negara tersebut cenderung juga akan
memperoleh banyak medali perak serta perunggu, sehingga total perolehan medalinya juga banyak.
Begitu pula sebaliknya, jika suatu negara memperoleh sedikit medali emas, maka negara tersebut
cenderung juga akan memperoleh sedikit medali perak serta perunggu, sehingga total perolehan
medalinya sedikit.
Latihan soal (Tool : Python)
A. Import Data

Program
Saya sudah mencoba berkali-kali, tetapi saya tetap tidak bisa mengimpor file .csv ke dalam
notebook saya. Oleh karena itu, saya mengganti file.csv menjadi .xlsx. Saya berhasil mengimpor
tabel dengan baik dengan file .xlsx. Berikut programnya:

import pandas as pd

dffin = pd.read_excel('D:/PENGKOM-materi/financial.xlsx', sheet_name='financial')

dffin

Output

B. Data Understanding

1) Ada Ada berapa banyak baris data sales?

 Ada 710 indeks atau 711 baris.

2) Ada berapa kolom dan apa saja Namanya

 Ada 16 kolom, yaitu:
Segment Country Product DiscountBand UnitsSold ManufacturingPrice SalePrice GrossSales Discounts Sales COGS Profit Date MonthNumber MonthName Year
3) Apa tipe data tiap kolom : numerik ? teks ? kuantitatif ?
Program:

dffin.dtypes

Output:

Kolom Tipe data

Teks (Categorical-nominal)
Segment
Teks (Categorical-nominal)
Country
Teks (Categorical-nominal)
Product
Teks (Categorical-Ordinal)
DiscountBand
Kuantitatif (Quantitative – Discrete)
UnitsSold
Numerik (Quantitative – Continues)
Manufacturing
Price
Numerik (Quantitative – Continues)
SalePrice
Numerik (Quantitative – Continues)
GrossSales
Numerik (Quantitative – Continues)
Discounts
Numerik (Quantitative – Continues)
Sales
Numerik (Quantitative – Continues)
COGS
Numerik (Quantitative – Continues)
Profit
Kuantitatif (Quantitative – Discrete)
Date
Kuantitatif (Quantitative – Discrete)
MonthNumber
Teks (Categorical-nominal)
MonthName
Kuantitatif (Quantitative – Discrete)
Year

4) Perhatikan data pada tiap kolom

 Nilai nilai apa saja yang terdefinisi untuk atribut bertipe ordinal
 Low, Medium, High

 Range untuk tiap atribut numerik

Untuk menentukan range, terlebih dahulu kita harus menentukan nilai maksimum dan
minimum setiap data pada kolom numerik. Dalam hal ini, agar lebih cepat, saya langsung
mencari nilai maksimum dan minimum untuk seluruh data, sebagai berikut:
a) Program
Nilai maksimum:

maximum = dffin.max()

print(maximum)

Nilai minimum:

minimum = dffin.min()

print(minimum)
b) Output
Nilai maksimum:

Nilai minimum:

Berdasarkan output diatas, Range untuk tiap atribut numerik:

Atribut Numerik Range (nilai minimum−nilai maksimum)

0−260
Manufacturing Price
0−350
SalePrice
-355500 −103808250
GrossSales
-49770 − 14967750
Discounts
-305730 − 103808250
Sales
0 − 2246250
COGS
0 − 18640750
Profit

5) Apakah ada data yang “ kotor?

 Data kosong?
Ada, data kosong ditampilkan sebagai “NaN”, “NaT”, serta “None” pada DiscountBand

Banyak elemen kosong pada seluruh data:

Program:

dffin.isnull().sum()

Output (jumlah elemen kosong pada data):

 Data berisi nilai yang “ aneh”?

Ada. Pada no. 4, saat mencari range, nilai minimum GrossSales, Discounts, dan
Sales bernilai negatif. Padahal, hal ini tidak mungkin mengingat GrossSales adalah total
penjualan, Discounts adalah potongan harga, dan Sales adalah penjualan.

 Apa yang perlu dilakukan terhadap data kotor ? Diberikan nilai ? Dibiarkan?
Menurut saya, karena data ini adalah data finansial yang melibatkan kalkulasi cukup rumit
untuk mendapatkan data, daripada dibuat-buat, alangkah lebih baik bila data ini
“dibersihkan”. Berikut tahapan membersihkan data yang saya usahakan:
1. Mengecek Range (sudah dilakukan di no. 4)
Kesimpulan yang didapat:
Nilai minimum GrossSales, Discounts, dan Sales bernilai negatif. Padahal, hal ini
tidak mungkin mengingat GrossSales adalah total penjualan, Discounts adalah
potongan harga, dan Sales adalah penjualan.

2. Menghapus baris yang mengandung data negative untuk kolom tertentu

Program:

indexNames = dffin.loc[ (dffin["GrossSales"] < 0) &

(dffin["Discounts"] < 0) & (dffin["Sales"] < 0 ) ].index

dffin.drop(indexNames , inplace=True)

dffin

Output:

dapat dilihat pada output diatas, jumlah rows yang tadinya 710 berkurang menjadi
709, berarti ada pengurangan rows (baris) yang mengandung data bernilai negative.

3. Mengecek nilai maksimum dan minimum lagi untuk memastikan.

Program:
minimum maksimum

minimum = dffin.min() maximum = dffin.max()

print(minimum) print(maximum)
Output:
Minimum:

Maksimum

Analisis:
Untuk atribut numerik, dari UnitsSold hingga profit, nilai minimum sebesar 0. Nilai
0 mungkin saja untuk UnitsSold dan Profit. Akan tetapi, untuk atribut yang
berhubungan dengan harga dan penjualan (ManufacturingPrice-COGS) nilai 0 tidak
mungkin. Ketika saya melihat sekilas data di excel, kolom GrossSales-COGS
memiliki data yang berkisar pada nilai ribuan dan ratusan, sehingga tidak mungkin
jika terdapat data 0.
Kesimpulan:
Saya akan menghapus baris yang mengndung nilai 0 untuk kolom
ManufacturingPrice-COGS.
4. Menghapus baris yang mengandung data tidak sesuai / beda sendiri
Saya akan menghapus baris yang mengndung nilai 0 untuk kolom
ManufacturingPrice-COGS.
Program:

indexNames1 = dffin.loc[(dffin["ManufacturingPrice"]==0) &

(dffin["SalePrice"]==0) & (dffin["GrossSales"]==0) &
(dffin["Discounts"]==0) & (dffin["Sales"]==0) &
(dffin["COGS"]==0)].index

dffin.drop(indexNames1 , inplace=True)

dffin

program lebih jelas:

Output:

dapat dilihat pada output diatas, jumlah rows yang tadinya 709 berkurang menjadi
708, berarti ada pengurangan rows (baris) yang mengandung nilai tidak sesuai.

5. Menghapus baris yang mengandung elemen kosong

Program:
Menghapus baris yang mengandung elemen kosong pada 16 kolom:

dffin1 = dffin.dropna(thresh = 16)

dffin1
Output, merupakan data final yang akan diolah:

dapat dilihat pada output diatas, jumlah rows yang tadinya 708 berkurang menjadi
643, berarti ada pengurangan rows (baris) yang mengandung nilai tidak sesuai.

C. Statistics

Amati dan jelaskan statistik untuk data tiap atribut numerik: Nilai ekstrim: minimum, maksimum ;
Nilai rata-rata (mean) dan deviasi standar ; Percentile 25%, 50%, 75% .

Untuk menganalisis ini, saya menggunakan DataFrame yang sudah dibersihkan (dffin1)

Program:

dffin1.describe()

Output:

Analisis:

Untuk nilai maksimum serta minimum, dapat kita lihat, data pada dffin1 yaitu data frame yang
sudah dibersihkan ini berbeda dari data sebelum dibersihkan. Untuk nilai minimum, tidak ada yang
ganji. Akan tetapi, terdapat keganjilan pada nilai maksimum. Ada atribut yang memiliki nilai
maksimum tidak wajar, yaitu UnitsSold. Nilai 90000000-an diantara nilai puluhan dan ratusan tentu
tidak wajar. Nilai ini tentu mempengaruhi Rata-rata serta Standar Deviasi dari kolom UnitsSold.
D. Data Exploration

1. Tampilkan data pada MonthName December Year 2014

Program:

#Program menampilkan data pada MonthNameDecember Year 2014

dffin1.loc[ (dffin1["MonthName"] == "December") & (dffin1["Year"] == 2014) ]

Output:

2. Tampilkan data untuk Product Paseo dengan UnitsSold> 1000

Program:

#Program menampilkan data Product Paseo dengan UnitsSold> 1000

dffin1.loc[ (dffin1["Product"] == "Paseo") & (dffin1["UnitsSold"] > 1000) ]

Output:
3. Tampilkan 10 data dengan nilai kolom Sales tertinggi!
Program:

#Program menampilkan 10 data dengan nilai kolom Sales tertinggi

SalesMax = dffin1.sort_values(["Sales"], ascending=[0])

SalesMax[0:10]

Output:

4. Tampilkan data Country dengan total Profit

Program:

#Program menampilkan data country dengan total profit

dffin1.groupby("Country")["Profit"].sum()

Output:
5. Tampilkan frekuensi data per Segment pada tahun 2013
Program:

#Program menghitung frekuensi data per Segment pada tahun 2013

year = dffin1.loc[dffin1["Year"] == 2013]
year["Segment"].value_counts()

Output:

6. Tampilkan data terurut berdasarkan Year dan MonthNumber

Program:

#Program menampilkan data terurut berdasarkan Year dan MonthNumber

#Asumsi: Year dan MonthNumber diurutkan dari paling kecil ke paling besar

dffin1.sort_values(["Year", "MonthNumber"], ascending=[1,1])

Output:
7. Tampilkan data terurut berdasarkan Product
Program:

#Program menampilkan data terurut berdasarkan Product

#Asumsi: Product diurutkan dari paling kecil ke paling besar

dffin1.sort_values(["Product"], ascending=[1])

Output:

Anda mungkin juga menyukai

Review Jurnal DB
Belum ada peringkat
Review Jurnal DB
2 halaman
Latihan Elektrokimia
Belum ada peringkat
Latihan Elektrokimia
5 halaman
Proposal DAESANG
Belum ada peringkat
Proposal DAESANG
21 halaman
Kurva Titrasi, KSP, Indikator
Belum ada peringkat
Kurva Titrasi, KSP, Indikator
10 halaman
Modul Pembelajaran Hukum-Hukum Dasar Kimia - Removed
Belum ada peringkat
Modul Pembelajaran Hukum-Hukum Dasar Kimia - Removed
8 halaman
Penentuan Kadar Sulfat
Belum ada peringkat
Penentuan Kadar Sulfat
15 halaman
Makalah Kalkulus Penerapan Integral
Belum ada peringkat
Makalah Kalkulus Penerapan Integral
20 halaman
Praktikum Kalorimeter Dan Titrasi
Belum ada peringkat
Praktikum Kalorimeter Dan Titrasi
10 halaman
5 Hukum I Termodinamika Pada Sistem Tertutup
Belum ada peringkat
5 Hukum I Termodinamika Pada Sistem Tertutup
65 halaman
Diktat UTS Semester 2 Tekkim Biop 2016
Belum ada peringkat
Diktat UTS Semester 2 Tekkim Biop 2016
69 halaman
7 - Termodinamika Kimia
Belum ada peringkat
7 - Termodinamika Kimia
75 halaman
Karya Tulis Ilmiah
Belum ada peringkat
Karya Tulis Ilmiah
28 halaman
Gangguan Kesehatan Penyakit Kerja Akibat Etanol
Belum ada peringkat
Gangguan Kesehatan Penyakit Kerja Akibat Etanol
23 halaman
Laporan KP
Belum ada peringkat
Laporan KP
83 halaman
Pertemuan 2 Data Science
Belum ada peringkat
Pertemuan 2 Data Science
9 halaman
Esensi Berhimpun
Belum ada peringkat
Esensi Berhimpun
1 halaman
740 - Proposal Makrab 18
Belum ada peringkat
740 - Proposal Makrab 18
17 halaman
Larutan Asam Basa
Belum ada peringkat
Larutan Asam Basa
11 halaman
Laprak 3
Belum ada peringkat
Laprak 3
9 halaman
IONIK
Belum ada peringkat
IONIK
18 halaman
Modul Kimia Organik Teknik Kimia - Rev1
Belum ada peringkat
Modul Kimia Organik Teknik Kimia - Rev1
27 halaman
Bab 1
Belum ada peringkat
Bab 1
43 halaman
Thermo Gravimetric Analyzer (TGA) - Material Cerdas Indonesia
Belum ada peringkat
Thermo Gravimetric Analyzer (TGA) - Material Cerdas Indonesia
5 halaman
KU1102 TugasDABag1 K18 16521324
Belum ada peringkat
KU1102 TugasDABag1 K18 16521324
10 halaman
Dme Process Dymethyl Ether
Belum ada peringkat
Dme Process Dymethyl Ether
25 halaman
Hidrolisa Pati (Repaired)
Belum ada peringkat
Hidrolisa Pati (Repaired)
14 halaman
Neraca Massa
Belum ada peringkat
Neraca Massa
17 halaman
Materi Koloid
Belum ada peringkat
Materi Koloid
8 halaman
Perhitungan Kimia Stoikiometri
Belum ada peringkat
Perhitungan Kimia Stoikiometri
15 halaman
Tugas Besar Pms Kelompok 3 TPB C
0% (1)
Tugas Besar Pms Kelompok 3 TPB C
26 halaman
Review Jurnal Lab Rancob Dima
Belum ada peringkat
Review Jurnal Lab Rancob Dima
5 halaman
Format Laporan RBL
Belum ada peringkat
Format Laporan RBL
4 halaman
18-20.aplikasi Integral
Belum ada peringkat
18-20.aplikasi Integral
8 halaman
Visualisasi Data (Fix)
Belum ada peringkat
Visualisasi Data (Fix)
3 halaman
Template Logbook RBL Fisika Dasar Gasal 2021-2022
Belum ada peringkat
Template Logbook RBL Fisika Dasar Gasal 2021-2022
3 halaman
Laporan Tubes 1
Belum ada peringkat
Laporan Tubes 1
17 halaman
Laporan Tugas Besar
Belum ada peringkat
Laporan Tugas Besar
6 halaman
766 1676 1 SM
Belum ada peringkat
766 1676 1 SM
10 halaman
PENGERTIAN FASA - Presentasi
Belum ada peringkat
PENGERTIAN FASA - Presentasi
10 halaman
Korosi & Elektrolisis
Belum ada peringkat
Korosi & Elektrolisis
8 halaman
El2102 02 13221086
Belum ada peringkat
El2102 02 13221086
11 halaman
Kelompok 5 Korosi
Belum ada peringkat
Kelompok 5 Korosi
20 halaman
Materi Pertemuan - 9 - Bilangan Kompleks
Belum ada peringkat
Materi Pertemuan - 9 - Bilangan Kompleks
10 halaman
Laporan Praktikum Alkalimetri (Dmoesti N.P. 20200410300017) PDF
Belum ada peringkat
Laporan Praktikum Alkalimetri (Dmoesti N.P. 20200410300017) PDF
17 halaman
Soal UTS Gasal 2021-2022 Anor 4 KA Dan KB - Kelas Reguler
Belum ada peringkat
Soal UTS Gasal 2021-2022 Anor 4 KA Dan KB - Kelas Reguler
1 halaman
Solusi Persamaan Diferensial Biasa
Belum ada peringkat
Solusi Persamaan Diferensial Biasa
2 halaman
Tugas Kimia Fisika Dela (8196142008)
Belum ada peringkat
Tugas Kimia Fisika Dela (8196142008)
31 halaman
Resume B.INDO Najmi 12 MIA 1
Belum ada peringkat
Resume B.INDO Najmi 12 MIA 1
14 halaman
Soal Redoks
Belum ada peringkat
Soal Redoks
2 halaman
Soal-Soal Larutan KI1201
100% (2)
Soal-Soal Larutan KI1201
4 halaman
Sel Galvanik Fix Banget
Belum ada peringkat
Sel Galvanik Fix Banget
13 halaman
Proses Faraday Dan Faktor Yang Mempengaruhi Reaksi Elektroda
Belum ada peringkat
Proses Faraday Dan Faktor Yang Mempengaruhi Reaksi Elektroda
4 halaman
El2205 01 13221086
Belum ada peringkat
El2205 01 13221086
10 halaman
El3215 03 13221086
Belum ada peringkat
El3215 03 13221086
20 halaman
El2208 08 13221086
Belum ada peringkat
El2208 08 13221086
9 halaman
Ekstraksi Cair Cair Perhitungan
Belum ada peringkat
Ekstraksi Cair Cair Perhitungan
7 halaman
El2102 03 13221086
Belum ada peringkat
El2102 03 13221086
10 halaman
Analisis Derajat Kebebasan Pada Proses Steady State
Belum ada peringkat
Analisis Derajat Kebebasan Pada Proses Steady State
22 halaman
El2102 01 13221086
Belum ada peringkat
El2102 01 13221086
9 halaman
El2205 05 13221086
Belum ada peringkat
El2205 05 13221086
12 halaman
El2101 02 13221086
Belum ada peringkat
El2101 02 13221086
8 halaman
(KC) Casing HP Anti Radiasi Dari Karbon Aktif Arang Bambu
Belum ada peringkat
(KC) Casing HP Anti Radiasi Dari Karbon Aktif Arang Bambu
9 halaman
Laporan Praktikum Kimia Fisik N1
Belum ada peringkat
Laporan Praktikum Kimia Fisik N1
17 halaman
Laporan Praktikum Kimia - Daya Desak Logam Dan Elektrolisis KI
Belum ada peringkat
Laporan Praktikum Kimia - Daya Desak Logam Dan Elektrolisis KI
5 halaman
TP Modul 1
Belum ada peringkat
TP Modul 1
3 halaman
Kinetika Kimia
Belum ada peringkat
Kinetika Kimia
2 halaman
Elektrolisis
Belum ada peringkat
Elektrolisis
8 halaman
TP Modul 5
Belum ada peringkat
TP Modul 5
2 halaman
BAB 4 Mat Peminatan
Belum ada peringkat
BAB 4 Mat Peminatan
3 halaman
Studi Kasus Ral
Belum ada peringkat
Studi Kasus Ral
3 halaman
Rafly Nomor 13
Belum ada peringkat
Rafly Nomor 13
1 halaman