0% menganggap dokumen ini bermanfaat (0 suara)

173 tayangan22 halaman

Tutorial Lab 1

Lab 1 memperkenalkan konsep dasar data science dan analisis data menggunakan bahasa pemrograman Python. Terdapat instruksi untuk mengerjakan soal-soal yang melibatkan penggunaan library NumPy untuk operasi array dan Pandas untuk manipulasi dataset.

Diunggah oleh

LuthfiArif

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

173 tayangan22 halaman

Tutorial Lab 1

Diunggah oleh

LuthfiArif

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 22

Lab 1 Data Science & Analysis

Bagian 1

Petunjuk:

1. Anda diharuskan mencoba sendiri setiap materi yang diberikan.

2. Kerjakan semua (6) soal yang terdapat pada tutorial.
3. Setelah sesi lab berakhir akan ada tugas yang diberikan pada dokumen yang berbeda.

Lab ini menggunakan Bahasa Pemrograman Python yang mengacu pada buku pedomanyang
digunakan di kelas. Anda bebas untuk menggunakan software apapun untuk mengerjakan
(Jupyter Notebook, JupyterLab, Google Colab, Spyder, Kaggle).

A. Numpy

import numpy as np

1. Konversi List ke Numpy Array

Numpy memiliki beberapa fungsi built-in untuk membuat array baru, tetapi jika anda
belum terbiasa dengan numpy, anda selalu dapat membuat numpy array (1D) dari
python list.

risuto = [8, 777, 6, 4, 114514, 7, 21, 42, 888]
numpy_array = np.array(risuto)

print('ini adalah list biasa :', risuto, type(risuto))

print('ini adalah numpy array :', numpy_array, type(numpy_array))

Output:
ini adalah list biasa : [8, 777, 6, 4, 114514, 7, 21, 42, 888]
<class 'list'>
ini adalah numpy array : [8 777 6 4 114514 7 21 42 888]
<class 'numpy.ndarray'>
2. Operasi Dasar Numpy Array

# mengakses element dengan index 3

print('elemen ke-3 :', numpy_array[3])

# menambahkan elemen ke dalam list, dan mengembalikan list

tersebut
appended_array = np.append(numpy_array, 9999)
print('original array :', numpy_array)
print('appended array :', appended_array)

Output:
elemen ke-3 : 4
original array : [8 777 6 4 114514 7 21 42 888]
appended array : [8 777 6 4 114514 7 21 42 888
9999]

3. Mengambil Nilai Statistik dari Array

Numpy memiliki beberapa fungsi built-in untuk mempermudah pengambilan nilai-nilai

statistik.

print('rata-rata dari array:', numpy_array.mean())

print('nilai maksimum dari array:', numpy_array.max())

Output:
rata-rata dari array: 12918.555555555555
nilai maksimum dari array: 114514

Soal 1

Cari dan tampilkan nilai median, minimum, standar deviasi, variance, dan jumlah dari
array np_risuto!
4. Sort Numpy Array

sorted_array = np.sort(numpy_array)
print(sorted_array)

Output:
[ 4 6 7 8 21 42 777 888 114514]

5. Elementwise Operation antar 2 Numpy Array

a = np.array([1, 6, 21])

b = np.array([0.1, 0.2, 0.3])
print('hasil penjumlahan:', np.add(a, b))
print('hasil perkalian:', np.multiply(a, b))

Output:
hasil penjumlahan: [ 1.1 6.2 21.3 ]
hasil perkalian: [ 0.1 1.2 6.3 ]

Soal 2

Carilah dan print array hasil elementwise substraction dan elementwise division dari
array a dan b di atas!

6. Menampilkan Nilai Unik dari Array

jo_array = np.array(['johnny', 'johnny', 'johnny', 'jolyne',

'johnny', 'joseph', 'jonathan', 'jolyne',
'jolyne', 'joseph', 'johnny', 'johnny',
'jolyne','johnny', 'jolyne', 'jolyne'])

# nilai unik dari array

unique = np.unique(jo_array)
print(unique)

Output:
['johnny' 'jolyne' 'jonathan' 'joseph']

# nilai unik beserta jumlahnya

unique, counts = np.unique(jo_array, return_counts=True)
nilai_unik = dict(zip(unique, counts))
print(nilai_unik)

Output:
{'johnny': 7, 'jolyne': 6, 'jonathan': 1, 'joseph': 2}

7. Membuat Matriks dengan Numpy

matrix_a = np.matrix(
[[1, 2, 3],
[4, 5, 6],
[7, 8, 9]]
)
matrix_b = np.matrix(
[[1, 4, 3],
[2, 6, 6],
[7, 0, 9]]
)

8. Operasi Dasar Matriks

# Transpose
transposed_matrix = np.transpose(matrix_a)
print('transposed:')
print(transposed_matrix)

# Invers
inversed_matrix = np.linalg.inv(matrix_b)
print('inversed:')
print(inversed_matrix)

Output:
transposed:
[[1 4 7]
[2 5 8]
[3 6 9]]
inversed:
[[ 2.25000000e+00 -1.50000000e+00 2.50000000e-01]
[ 1.00000000e+00 -5.00000000e-01 9.25185854e-18]
[-1.75000000e+00 1.16666667e+00 -8.33333333e-02]]

9. Operasi Dua Matriks

# dot product
print(np.dot(matrix_a , matrix_b))

# penjumlahan
print(np.add(matrix_a , matrix_b))

# pengurangan
print(np.subtract(matrix_a , matrix_b))

Output:
[[ 26 16 42]
[ 56 46 96]
[ 86 76 150]]
[[ 2 6 6]
[ 6 11 12]
[14 8 18]]
[[ 0 -2 0]
[ 2 -1 0]
[ 0 8 0]]

B. Pandas

import pandas as pd

1. Membaca Dataset

# Membaca dataset dari url

cancer_df = pd.read_csv(
'https://archive.ics.uci.edu/ml/machine-learning-databases/breast-
cancer-wisconsin/breast-cancer-wisconsin.data',header=None)

# Membaca dataset dari lokal

drinks = pd.read_csv('drinks.csv')
display(drinks)

Output:

Perhatikan bahwa index data dimulai dari 0 bukan 1. Untuk mengetahui dimensi data,
gunakan fungsi variabel name.shape

print('shape dataset:', drinks.shape)

print('artinya, dataset terdiri dari {} baris dan {}
kolom'.format(drinks.shape[0], drinks.shape[1]))

Output:
shape dataset: (193, 6)
artinya, dataset terdiri dari 193 baris dan 6 kolom
2. Menampilkan Tipe data dari tiap kolom

drinks.dtypes

Output:
country object
beer_servings int64
spirit_servings float64
wine_servings int64
total_litres_of_pure_alcohol float64
continent object
dtype: object

3. Menampilkan Nilai-Nilai Statistik dari Setiap Kolom Numerikal

Gunakan fungsi describe() untuk menampilkan gambaran statistik singkat dari

keseluruhan data atau kolom/fitur tertentu dari data.

drinks.describe()

Output:

Fungsi describe() akan menampilkan statistik standar (mean, std, min, max) untuk
kolom/atribut bertipe kuantitatif sedangkan untuk kolom bertipe kualitatif maka informasi
yang akan ditampilkan berupa:

1. count: Jumlah filled in/ row yang terisi

2. unique: Berapa banyak nilai unik/level
3. top: Nama item yang paling banyak muncul
4. dataFreq: Seberapa sering top item umum muncul dalam data

Perhatikan perbedaan output describe() dari kedua kolom berikut:

drinks['continent'].describe()

Output:
count 170
unique 5
top AF
freq 53
Name: continent, dtype: object

drinks['beer_servings'].describe()

Output:
count 193.000000
mean 106.160622
std 101.143103
min 0.000000
25% 20.000000
50% 76.000000
75% 188.000000
max 376.000000
Name: beer_servings, dtype: float64

4. Menampilkan Pearson Correlation dari DataFrame

drinks.corr(method='pearson')

Output:
5. Menghitung Jumlah Elemen

Pada contoh dibawah terlihat bahwa terdapat kolom dengan jumlah elemen kurang dari
jumlah baris, artinya kolom tersebut memiliki missing value.

# Menghitung jumlah elemen tidak null

drinks.count()

Output:
country 193
beer_servings 193
spirit_servings 189
wine_servings 193
total_litres_of_pure_alcohol 193
continent 170
dtype: int64

6. Missing Values

Missing values adalah informasi yang tidak tersedia untuk sebuah objek (kasus). Missing
value terjadi karena informasi untuk sesuatu tentang objek tidak diberikan, sulit dicari,
atau memang informasi tersebut tidak ada. Missing Value biasanya ditandai dengan
“NA” atau “NaN” dalam sebuah data.

Beberapa cara mengatasi missing values (disesuaikan dengan kebutuhan) seperti:

menghapus tuple data yang tidak lengkap, menghapus variable (kolom data), mengisi
missing value dengan mean/median/mode, mengisi missing value dengan nilai
prediction. Silahkan dipelajari lebih lanjut.

# Menghitung jumlah missing values dengan

drinks.isnull().sum()

Output:
country 0
beer_servings 0
spirit_servings 4
wine_servings 0
total_litres_of_pure_alcohol 0
continent 23
dtype: int64

Berikut kita adalah contoh menangani missing value dengan mengganti NA/NaN dengan
nilai rata-rata atau nilai tertentu. Misalnya semua nilai NA/NaN pada kolom continent
akan diganti dengan nilai yang paling sering muncul yaitu “AF” dan semua nilai NaN
pada kolom spirit serving akan diganti dengan nilai rata-rata dari kolom tersebut.
Silahkan pelajari lebih lanjut pada link berikut:

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.dropna.htm
l

filled_drinks = drinks.copy()
average_spirit = filled_drinks['spirit_servings'].mean()
filled_drinks['spirit_servings'].fillna(average_spirit, inplace =
True)
filled_drinks['continent'].fillna('AF', inplace = True)

print('before fill:')
display(drinks.iloc[[192]])

print('after fill:')
display(filled_drinks.iloc[[192]])

Output:

Soal 3

- Buat dan tampilkan DataFrame baru yang dihasilkan dari dataset drinks
dengan mendrop row yang berisi missing value (minimal satu). hint: bisa
dilakukan dengan satu baris

- Tampilkan shape, count, dan isnull().sum() dari DataFrame baru tersebut

7. Sorting DataFrame

Contoh di bawah melakukan sort DataFrame berdasarkan nilai kolom beer_servings,

secara ascending. Artinya baris teratas adalah negara dengan beer servings paling
kecil.

drinks_sorted_by_beer_servings =
drinks.sort_values('beer_servings')
display(drinks_sorted_by_beer_servings)

Output:

8. Query pada DataFrame

Terdapat beberapa aliran untuk melakukan query pada DataFrame. Pada lab ini
digunakan query.

# dataframe dengan beer servings lebih dari 20

high_beer = drinks.query('beer_servings > 200')
display(high_beer)

Output:
Soal 4

Tampilkan baris-baris pada dataset drinks dimana beer_servings nya 0 dan continent
nya AS.

9. Menampilkan Beberapa Baris dan kolom

# menampilkan baris 0-2, baris 1-4

drinks_subset = drinks.iloc [0:3, 1:5]
display(drinks_subset)

Output:

# dataframe yang hanya berisi column country

countries = drinks[['country']]
display(countries)

Output:

# pandas series yang berisi column country

countries_pandas_series = drinks['country']
type(countries_pandas_series)
print('ini pandas series', countries_pandas_series)

print()

# numpy array yang berisi column country

countries_numpy_array = countries_pandas_series.values
type(countries_numpy_array)
print('ini numpy array', countries_numpy_array)

Output:
# Mengambil Row 2
row_2 = drinks.iloc[2]
display(row_2)

Output:
country Algeria
beer_servings 25
spirit_servings 0
wine_servings 14
total_litres_of_pure_alcohol 0.7
continent AF
Name: 2, dtype: object

# Mengubah row menjadi python dictionary

row_2.to_dict()

Output:
{'beer_servings': 25,
'continent': 'AF',
'country': 'Algeria',
'spirit_servings': 0.0,
'total_litres_of_pure_alcohol': 0.7,
'wine_servings': 14}

C. Plotting
Untuk memahami data dan memperoleh informasi yang terkandung dalam data, kita
perlu untuk menganalisis data tersebut. Salah satu bentuk analisis data adalah melihat
visualisasi data dalam bentuk graph, plot, dan lain-lain. Visualisasi data tersebut
dilakukan dengan tujuan:

● Presentasi,
● Sarana untuk mengkomunikasikan data,
● Melihat keterhubungan antar data,
● Memahami data dengan cepat.

Berikut ini berbagai bentuk visualisasi data yang dapat dibuat di Python. Anda dapat
menggunakan library pandas, numpy, matplotlib.pyplot, dan seaborn untuk melakukan
visualisasi data. Untuk tutorial ini Anda akan menggunakan tips dataset.

import pandas as pd

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
tips = sns.load_dataset('tips')
tips.head()

Output:
1. Scatter Plot

Goal: Untuk melihat keterhubungan antar dua variabel. Anda akan melakukan plotting
terhadap variabel total_bil dan tip menggunakan lmplot().

sns.lmplot(x='total_bill', y='tip', data=tips, fit_reg = False)

plt.show()

Output:

# menggambarkan scatter plot sekaligus garis regresi

sns.lmplot(x='total_bill', y='tip', data=tips)
plt.show()

Output:
Selanjutnya, kita dapat melihat keterhubungan antara variabel total_bil dan tip
berdasarkan faktor jenis kelamin menggunakan hue = (nama_variabel).

# scatterplot yang warnanya dibedakan berdasarkan suatu nilai,

dibawah ini
# dibedakan dengan sex
sns.lmplot(x='total_bill', y='tip', data=tips, hue='sex',
fit_reg=False,
palette='Set1')
plt.show()

Output:

2. Line Graphs

Goal: Melihat perubahan suatu variabel dalam jangka waktu tertentu. Anda akan
melakukan plotting pada variabel tip dan numb menggunakan plt.plot()

tips['numb'] = range(1,245)
x = tips['numb']
y = tips['tip']
# normal plot
plt.plot(x,y)
# plot with data point marker
plt.plot(x,y, marker='o', color='purple', linewidth=0.1)
plt.show()
Output:

3. Bar Charts

Goal: Membandingkan variabel di berbagai kelompok. Anda akan melakukan ploting

terhadap variabel tip dan day menggunakan barplot() untuk melihat seberapa banyak tip
yang diperoleh pada setiap harinya.

sns.set_style("whitegrid")
tips = sns.load_dataset("tips")
sns.barplot(x="day", y="total_bill", data=tips)
plt.show()

Output:

# Bar plot dipisah berdasarkan gender.

sns.barplot(x="day", y="total_bill", hue="sex", data=tips)
plt.show()
Output:

Soal 5

Tampilkan barplot yang menampilkan beer_servings dari 5 negara dengan nilai

beer_servings terbesar, diurutkan dari yang paling besar (kiri = besar).

4. Histograms

Goal: Menampilkan distribusi frekuensi dari satu variabel kuantitatif dengan memisahkan
data berdasarkan range. Anda akan melakukan plotting terhadap variabel total_bil
menggunakan hist().

tips['tip_pct'] = 100 * tips['tip']

tips['tip_pct'].hist(bins=20)
plt.show()

Output:
Soal 6

Tampilkan histogram plot wine servings dari negara di EU, dari dataset drinks.

5. Box Plots

Goal: Melihat distribusi suatu nilai.

● Nilai minimum
● Nilai Q1
● Nilai median / Q2
● Nilai Q3
● Nilai maksimum

Anda akan melakukan plotting pada variabel day dan tip menggunakan boxplot().

Selain itu anda juga dapat memperoleh informasi mengenai data outlier. Seperti pada
gambar di bawah ini, terdapat titik-titik kecil hitam yang merupakan data outlier.

sns.boxplot(x='day', y='tip', data=tips)

plt.ylabel('tip ($)')
plt.show()

sns.boxplot(x='sex', y='tip', data=tips)

plt.ylabel('tip ($)')
plt.show()

Output:
6. Plotting Dimensi Tinggi

Untuk melakukan plotting dimensi tinggi (lebih dari 4), kita dapat menggunakan
scatterplot matrix. Plot dibawah menunjukan scatter plot 2D dari setiap pasangan atribut.

import plotly.express as px

df = px.data.iris()
display(df)
fig = px.scatter_matrix(df,
dimensions=["sepal_width", "sepal_length", "petal_width",
"petal_length"],
color="species")
fig.show()

Output:

Anda mungkin juga menyukai

Pemrograman Berorientasi Objek dengan Visual C#
Dari Everand
Pemrograman Berorientasi Objek dengan Visual C#
Risal
3.5/5 (6)
Data Manipultion Pandas 1
Belum ada peringkat
Data Manipultion Pandas 1
82 halaman
Analisis Bayesian 4 Reg Kuantil
Belum ada peringkat
Analisis Bayesian 4 Reg Kuantil
13 halaman
Peramalan Beban Listrik Kota Ambon Tahun 2016 - 2022, No Issn 2302-9579
Belum ada peringkat
Peramalan Beban Listrik Kota Ambon Tahun 2016 - 2022, No Issn 2302-9579
6 halaman
SOAL FACTORIAL DESIGN-regresi
Belum ada peringkat
SOAL FACTORIAL DESIGN-regresi
1 halaman
Analisis Diskriminan
Belum ada peringkat
Analisis Diskriminan
8 halaman
Syarifah Raihannatul Jannah - 1908108010051 - Laporan 5 Anreg
Belum ada peringkat
Syarifah Raihannatul Jannah - 1908108010051 - Laporan 5 Anreg
8 halaman
Praktikum - Analisis Diskriminan - 140610170041
Belum ada peringkat
Praktikum - Analisis Diskriminan - 140610170041
8 halaman
UJIAN AKHIR SEMESTER - Statistika Komputasi
Belum ada peringkat
UJIAN AKHIR SEMESTER - Statistika Komputasi
2 halaman
Kelompok 9 2001 2011 2032 2120 2106 Paper Simulasi Model Non Linear
Belum ada peringkat
Kelompok 9 2001 2011 2032 2120 2106 Paper Simulasi Model Non Linear
13 halaman
Modul Python 2
100% (1)
Modul Python 2
211 halaman
Tugas Statistika Nonparametrik
Belum ada peringkat
Tugas Statistika Nonparametrik
68 halaman
Notebook Mesin Agrotek
Belum ada peringkat
Notebook Mesin Agrotek
11 halaman
05 Ukuran Statistik
Belum ada peringkat
05 Ukuran Statistik
65 halaman
P7 - Penduga Kekar Ukuran Pemusatan dan Penyebaran
Belum ada peringkat
P7 - Penduga Kekar Ukuran Pemusatan dan Penyebaran
34 halaman
Latihan Normalisasi Data
Belum ada peringkat
Latihan Normalisasi Data
32 halaman
Makalah Data Mining
Belum ada peringkat
Makalah Data Mining
9 halaman
Estimasi Parameter Regresi Linear Sederhana
Belum ada peringkat
Estimasi Parameter Regresi Linear Sederhana
12 halaman
Makalah: Statistika Pendidikan Matematika "Regresi Linear Berganda"
Belum ada peringkat
Makalah: Statistika Pendidikan Matematika "Regresi Linear Berganda"
18 halaman
Praktikum5 - Wildan Supriatna - 11122471.ipynb - Colaboratory
Belum ada peringkat
Praktikum5 - Wildan Supriatna - 11122471.ipynb - Colaboratory
10 halaman
Multiple Regression Imputation - Perbandingan Metode Imputasi Ganda
Belum ada peringkat
Multiple Regression Imputation - Perbandingan Metode Imputasi Ganda
10 halaman
Materi REGLOG
Belum ada peringkat
Materi REGLOG
20 halaman
Pr1 Metode Statistika Ilkom
Belum ada peringkat
Pr1 Metode Statistika Ilkom
2 halaman
Random Forest
Belum ada peringkat
Random Forest
1 halaman
Teknik Sampling
Belum ada peringkat
Teknik Sampling
27 halaman
Evan Purnama Ramdan - Statistika Lanjut - 2pa07, 2pa10, 2pa15, 2pa16
Belum ada peringkat
Evan Purnama Ramdan - Statistika Lanjut - 2pa07, 2pa10, 2pa15, 2pa16
1 halaman
Materi 4-Manova
Belum ada peringkat
Materi 4-Manova
20 halaman
Bootstrapping Dengan R
Belum ada peringkat
Bootstrapping Dengan R
12 halaman
Uji Tanda Satu Sampel
Belum ada peringkat
Uji Tanda Satu Sampel
7 halaman
Syifa Fitra Gina
100% (1)
Syifa Fitra Gina
29 halaman
Forward, Backward, Stepwise - Regression Analysis - ITS
Belum ada peringkat
Forward, Backward, Stepwise - Regression Analysis - ITS
61 halaman
Jurnal ...
Belum ada peringkat
Jurnal ...
12 halaman
C Chart
Belum ada peringkat
C Chart
17 halaman
Soal Seleksi Data Science Academy COMPFEST 15
Belum ada peringkat
Soal Seleksi Data Science Academy COMPFEST 15
6 halaman
Soal
Belum ada peringkat
Soal
10 halaman
Sebaran Probabilitas Kontinu
Belum ada peringkat
Sebaran Probabilitas Kontinu
11 halaman
Laporan Praktikum Data Mining - Maghfirani Amalia - 064002000015
Belum ada peringkat
Laporan Praktikum Data Mining - Maghfirani Amalia - 064002000015
13 halaman
Kelompok 3 Multivariat - Mds
Belum ada peringkat
Kelompok 3 Multivariat - Mds
31 halaman
6 - SD211105 - RPS Pengantar Sains Data-OBE-PjBL
Belum ada peringkat
6 - SD211105 - RPS Pengantar Sains Data-OBE-PjBL
29 halaman
Eps2 - Data Understanding
Belum ada peringkat
Eps2 - Data Understanding
8 halaman
Pertemuan Ke-10 Bab 6-2 SPSS Statistik-Deskriptif
Belum ada peringkat
Pertemuan Ke-10 Bab 6-2 SPSS Statistik-Deskriptif
16 halaman
Statistik Dasar Untuk Data Scientist
100% (2)
Statistik Dasar Untuk Data Scientist
20 halaman
Data Mining REGRESSION
Belum ada peringkat
Data Mining REGRESSION
16 halaman
Quiz Manova
Belum ada peringkat
Quiz Manova
2 halaman
Pengantar Sains Data Dan Big Data
Belum ada peringkat
Pengantar Sains Data Dan Big Data
12 halaman
Korelasi Dan Regresi (Lely Kinanti Ak-2E)
Belum ada peringkat
Korelasi Dan Regresi (Lely Kinanti Ak-2E)
18 halaman
BAB 3 Flowchart
Belum ada peringkat
BAB 3 Flowchart
15 halaman
Buku Pengantar Simulasi Statistik
100% (1)
Buku Pengantar Simulasi Statistik
79 halaman
Penurunan Rumus Metode Kuadrat Terkecil
Belum ada peringkat
Penurunan Rumus Metode Kuadrat Terkecil
7 halaman
Analisis Data Kategorik 1
Belum ada peringkat
Analisis Data Kategorik 1
6 halaman
Analisis Faktor Konfirmatori Melalui Program EXCEL
Belum ada peringkat
Analisis Faktor Konfirmatori Melalui Program EXCEL
12 halaman
Uji Chi Kuadrat
Belum ada peringkat
Uji Chi Kuadrat
14 halaman
LPR Minggu Ke 4
Belum ada peringkat
LPR Minggu Ke 4
43 halaman
Laporan "Data Quality With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
Belum ada peringkat
Laporan "Data Quality With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
11 halaman
Tugas Data Analisis
Belum ada peringkat
Tugas Data Analisis
18 halaman
Rangkuman Coding Python
Belum ada peringkat
Rangkuman Coding Python
2 halaman
Tugas Laporan - 211045 WINDA PAGASING
Belum ada peringkat
Tugas Laporan - 211045 WINDA PAGASING
7 halaman
Laporan8 Ayung Alqadri LatihanDataCleaning
Belum ada peringkat
Laporan8 Ayung Alqadri LatihanDataCleaning
16 halaman
BAB 4 - Data Wrangling Python
Belum ada peringkat
BAB 4 - Data Wrangling Python
9 halaman
LAPORAN
Belum ada peringkat
LAPORAN
11 halaman

Tutorial Lab 1

Diunggah oleh

Tutorial Lab 1

Diunggah oleh

Lab 1 Data Science & Analysis

1. Anda diharuskan mencoba sendiri setiap materi yang diberikan.

import​ numpy ​as​ np

1. Konversi List ke Numpy Array

print​(​'ini adalah list biasa :'​, risuto, ​type​(risuto))

# mengakses element dengan index 3

# menambahkan elemen ke dalam list, dan mengembalikan list

3. Mengambil Nilai Statistik dari Array

Numpy memiliki beberapa fungsi built-in untuk mempermudah pengambilan nilai-nilai

print​(​'rata-rata dari array:'​, numpy_array.mean())

5. Elementwise Operation​ antar 2 Numpy Array

a = np.array([​1​, ​6​, ​21​])

6. Menampilkan Nilai Unik dari Array

jo_array = np.array([​'johnny'​, ​'johnny'​, ​'johnny'​, ​'jolyne'​,

# nilai unik dari array

# nilai unik beserta jumlahnya

7. Membuat Matriks dengan Numpy

8. Operasi Dasar Matriks

9. Operasi Dua Matriks

import​ pandas ​as​ pd

# Membaca dataset dari url

# Membaca dataset dari lokal

print​(​'shape dataset:'​, drinks.shape)

3. Menampilkan Nilai-Nilai Statistik dari Setiap Kolom Numerikal

Gunakan fungsi describe() untuk menampilkan gambaran statistik singkat dari

1. count: Jumlah filled in/ row yang terisi

Perhatikan perbedaan output describe() dari kedua kolom berikut:

4. Menampilkan ​Pearson Correlation​ dari ​DataFrame

# Menghitung jumlah elemen tidak null

Beberapa cara mengatasi missing values (disesuaikan dengan kebutuhan) seperti:

# Menghitung jumlah missing values dengan

- Tampilkan shape, count, dan isnull().sum() dari DataFrame baru tersebut

Contoh di bawah melakukan sort DataFrame berdasarkan nilai kolom ​beer_servings​,

8. Query pada DataFrame

# dataframe dengan beer servings lebih dari 20

9. Menampilkan Beberapa Baris dan kolom

# menampilkan baris 0-2, baris 1-4

# dataframe yang hanya berisi column country

# pandas series yang berisi column country

# numpy array yang berisi column country

# Mengubah row menjadi python dictionary

import​ pandas ​as​ pd

sns.lmplot(x=​'total_bill'​, y=​'tip'​, data=tips, fit_reg = ​False​)

# menggambarkan scatter plot sekaligus garis regresi

# scatterplot yang warnanya dibedakan berdasarkan suatu nilai,

Goal: Membandingkan variabel di berbagai kelompok. Anda akan melakukan ploting

# Bar plot dipisah berdasarkan gender.

Tampilkan barplot yang menampilkan beer_servings dari 5 negara dengan nilai

tips[​'tip_pct'​] = ​100​ * tips[​'tip'​]

Goal: Melihat distribusi suatu nilai.

sns.boxplot(x=​'day'​, y=​'tip'​, data=tips)

sns.boxplot(x=​'sex'​, y=​'tip'​, data=tips)

import​ plotly.express ​as​ px

Anda mungkin juga menyukai

import numpy as np

print('ini adalah list biasa :', risuto, type(risuto))

print('rata-rata dari array:', numpy_array.mean())

5. Elementwise Operation antar 2 Numpy Array

a = np.array([1, 6, 21])

jo_array = np.array(['johnny', 'johnny', 'johnny', 'jolyne',

import pandas as pd

print('shape dataset:', drinks.shape)

4. Menampilkan Pearson Correlation dari DataFrame

Contoh di bawah melakukan sort DataFrame berdasarkan nilai kolom beer_servings,

import pandas as pd

sns.lmplot(x='total_bill', y='tip', data=tips, fit_reg = False)

tips['tip_pct'] = 100 * tips['tip']

sns.boxplot(x='day', y='tip', data=tips)

sns.boxplot(x='sex', y='tip', data=tips)

import plotly.express as px