Makalah Algo
Makalah Algo
Tim Penyusun :
FADILAH MARDOTILAH(19232045)
KATA PENGANTAR
MAKALAH ini guna memenuhi tugas kelompok untuk mata kuliah Algoritma Data
Science dengan judul “Analisis Data Statistik Kumpulan Mobil Dari Berbagai
Kriteria”.
Kami menyadari bahwa dalam penulisan makalah ini tidak terlepas dari bantuan
banyak pihak yang dengan tulus memberikan doa, saran dan kritik sehingga makalah
Kami menyadari sepenuh nya bahwa makalah ini masih jauh dari sempurna
membangun dari berbagai pihak. Akhirnya kami berharap semoga makalah ini dapat
Kelompok VI
ii
iii
DAFTAR ISI
KATA PENGANTAR...................................................................................................i
DAFTAR ISI.................................................................................................................ii
BAB I.............................................................................................................................1
1.1.4 Kaggle.com......................................................................................................4
Sumber Data.............................................................................................................7
BAB II............................................................................................................................8
2.2.4 Pengecekan Nama Variabel yang Tidak Relevan dan Sulit Dipahami.........12
ii
BAB III........................................................................................................................14
BAB IV........................................................................................................................21
PENUTUP...................................................................................................................21
DAFTAR PUSTAKA.................................................................................................23
iii
DAFTAR GAMBAR
Gambar 1 4 Kaggle.com........................................................................................................4
Gambar 2 6 Mengecekan Nma Variabel yang Tidak Relevan dan Sulit Dipahami......12
1
BAB I
Untuk analisis ini, kami menggunakan bahasa pemrograman Python karena librarynya
yang luas, dan sintaksnya secara garis besar mudah untuk dipahami.
2
Gambar 1 2 Visual Studio Code 1.89.1 (user setup)
Kami menggunakan IDE Visual Studio Code karena fiturnya yang dapat disesuaikan
dengan keinginan, dan mendukung kolaborasi real-time sehingga cocok untuk proyek
kelompok ini.
Piranti ini dapat menampilkan dan menjalankan setiap blok kode secara independen,
yang mana merupakan alasan utama kami menggunakan extension ini dalam proyek
analisis.
1.1.4 Kaggle.com
Kaggle adalah salah satu situs yang terkenal di dunia Data Science dan Machine
Learning yang terdiri dari lebih dari 6000 dataset yang dapat diunduh dalam format CSV,
file excel, maupun gambar. (A Rahmat, M Syafiih, M Faid, 2023).
3
Gambar 1 4 Kaggle.com
Kami menggunakan data sekunder dari Kaggle karena kami bisa mendapatkan akses ke
dataset yang luas dan akurat tanpa memakan waktu dan biaya. Berikut adalah link direct ke
dataset yang kami gunakan dalam analisis paper ini:Automobile Dataset (kaggle.com)
Kami menggunakan Pandas karena library ini cocok untuk data berbentuk excel
spreadsheet/CSV.
4
Gambar 1 6 Numpy 1.25.2
Seaborn dapat memodifikasi skema warna dan gaya plotting default dari matplotlib
untuk meningkatkan keterbacaan dan estetika (A Vegari & S Budi, 2020).
5
1.3 Sumber Data
Nama Dataset : Automobile dataset
6
BAB II
9
Gambar 2 4 Menghitung Nilai yang Hilang (isnull)
10
Gambar 2 5 Pengurangan Data
2.2.4 Pengecekan Nama Variabel yang Tidak Relevan dan Sulit Dipahami
Setelah itu, kami melakukan pengecekan sekali lagi untuk mencari duplikat
data atau yang isinya sulit ditelusuri. Langkah ini dilakukan dengan menggunakan
fungsi unique dan nunique. Setelah pengecekan, terlihat tidak ada variabel yang
salah pada setiap record, jadi kami tidak melakukan pembersihan data lagi pada
tahap ini.
11
12
13
Gambar 2 6 Mengecekan Nma Variabel yang Tidak Relevan dan Sulit Dipahami
BAB III
14
Langkah pertama yang dilakukan pada tahap ADE adalah menghitung
ringkasan statistik. Ringkasan statistik sendiri dapat menampilkan deskripsi data
dalam 2 kategori, yaitu numerik dan object dengan memanfaatkan fungsi-fungsi
seperti describe (menghitung ringkasan), include=all (menampilkan numerik dan
object), dan T (menampilkan secara diagonal).
15
‘compression-ratio’, ‘horsepower’, ‘pake-rpm’, ‘city-mpg’, ‘highway-mpg’, ‘price’,
dan variabel kategorikal, yaitu ‘make’, ‘fuel-type’, ‘aspiraton’, ‘num-of-doors’,
‘drive-wheels’, ‘engine-type’, ‘num-of-cylinders’, ‘engine-size’, dan ‘fuel-system’.
Setelah mengetahui tipe data variabel, kami memisahkan data numerik dan
object untuk menjadi variabel yang mandiri dan bisa dipanggil sesuai kategorinya.
Pemisahan variabel ini dilakukan dengan mengimpor library numpy dan
menggunakan fungsi select_dtypes (memanggil kolom yang ada di DataFrame),
include (memasukkan nama variabel), columns (menjadikan variabel menjadi
kolom kategori), dan tolist (merapikan urutan).
16
Kami memilih format histogram dan boxplot untuk data numerik karena
lebih mudah dibaca. Beberapa fungsi yang digunakan adalah for (pengulangan),
skew (kemiringan distribusi data), dan figure (mengubah ukuran).
17
18
Gambar 3 4 Visualisasi Data Numerik
Di atas ada gambar yang menunjukkan distribusi dua variabel, wheel-base dan length,
menggunakan histogram dan boxplot.
Di sebelah kiri atas adalah histogram dari variabel wheel-base. Histogram ini menunjukkan
bahwa data tersebut dikeluarkan ke kanan, yang berarti ada lebih banyak mobil dengan
wheel base pendek daripada yang panjang.
Di sebelah kanan atas adalah boxplot dari variabel wheel-base. Boxplot ini menunjukkan
informasi yang sama dengan histogram, tetapi dengan cara yang berbeda. Kotak mewakili
rentang interquartil (IQR), yaitu 50% tengah data. Whiskers menggambarkan rentang antara
kotak dan data yang paling jauh. Titik bulat mewakili outlier, yaitu data yang jauh dari
kotak.
Di sebelah kiri bawah adalah histogram dari variabel length. Histogram ini menunjukkan
19
bahwa data sedikit dikeluarkan ke kiri.
Di sebelah kanan bawah adalah boxplot dari variabel length. Boxplot ini menunjukkan
informasi yang sama dengan histogram, tetapi dengan cara yang berbeda. Kotak mewakili
IQR, whiskers menggambarkan rentang antara kotak dan data yang paling jauh, dan titik
bulat mewakili outlier.
Gambar ini dapat digunakan untuk memahami distribusi data dan mengidentifikasi potensial
outlier. Outlier dapat disebabkan oleh kesalahan dalam proses pengumpulan data atau oleh
observasi yang tidak biasa. Menginvestigasi outlier adalah penting untuk menentukan
apakah mereka valid atau tidak.
20
Gambar 3 5 Visualisasi Data Kategorial
21
BAB IV
PENUTUP
4.1 Kesimpulan
Dalam makalah ini, kami telah menganalisis dataset otomotif menggunakan berbagai
teknik dalam ilmu data dan pemrograman Python. Beberapa poin utama dari analisis kami
adalah sebagai berikut:
22
4.2 Saran
Berdasarkan analisis yang telah kami lakukan, beberapa saran yang dapat kami berikan
adalah sebagai berikut:
Dengan demikian, kami berharap bahwa analisis dan rekomendasi yang kami berikan dapat
memberikan manfaat bagi perkembangan ilmu data dan aplikasinya dalam industri otomotif.
Semoga makalah ini juga dapat menjadi referensi yang berguna bagi para mahasiswa dan
praktisi di bidang ilmu data.
23
DAFTAR PUSTAKA
Syahrudin, A. N., & Kurniawan, T. (2018). Input dan output pada bahasa pemrograman
python. Jurnal Dasar Pemograman Python STMIK, 20, 1-7.
Speight, A. (2021). Visual Studio Code for Python Programmers. John Wiley & Sons.
Hendri, R. (2022). Pembuatan Kode Program Dan Simulasi Skema Masakan ACD
Menggunakan Jupyter Notebook Pada Pemrograman Python Anaconda (Doctoral
dissertation, Politeknik LPP Yogyakarta).
Rahmat, A., Syafiih, M., & Faid, M. (2023). Implementasi Klasifikasi Potensi Penyakit
Jantung Dengan Menggunakan Metode C4. 5 Berbasis Website (Studi Kasus Kaggle. Com).
INFOTECH journal, 9(2), 393-400.
Setiawan, H., Utami, E., & Al Fatta, H. (2020). Penerapan Arima Dan Artificial Neural
Network Untuk Prediksi Penderita DBD Di Kabupaten Sragen. Majalah Ilmiah Bahari
Jogja, 18(2), 64-78.
Vegari, A., & Budi, S. (2020). Implementasi Exploratory Data Analysis Pada Dataset Video
Trending Harian YouTube. Jurnal STRATEGI-Jurnal Maranatha, 2(2), 397-411.
24
25
26
27