Tugas Data Set
Tugas Data Set
Musa
Nim : A03421017
1. Import Libraries
import pandas as pd
Pandas adalah pustaka Python yang digunakan untuk manipulasi dan analisis data. Ini menyediakan
struktur data yang mudah digunakan dan kuat, seperti DataFrame dan Series, yang memungkinkan
pengguna untuk melakukan operasi seperti indexing, filtering, grouping, dan banyak lagi dengan
mudah.
import numpy as np
NumPy adalah pustaka dasar untuk komputasi numerik dalam Python. Ini menyediakan objek array
multidimensi yang efisien, bersama dengan berbagai fungsi untuk bekerja pada array ini. NumPy
sangat penting dalam analisis data karena banyak pustaka lain, seperti pandas, seaborn, dan
matplotlib, bergantung padanya.
Matplotlib adalah pustaka untuk visualisasi data di Python. pyplot adalah modul di matplotlib yang
memberikan antarmuka serupa dengan MATLAB untuk membuat plot. Ini digunakan di sini untuk
membuat berbagai jenis plot, seperti plot 2D dan 3D.
Ini adalah bagian dari Matplotlib yang menyediakan alat untuk membuat plot 3D. Dalam kasus ini,
kita akan menggunakan fungsi dari modul ini untuk membuat plot 3D.
Seaborn adalah pustaka Python untuk membuat visualisasi statistik yang menarik dan informatif. Ini
dibangun di atas matplotlib dan menawarkan antarmuka yang lebih mudah digunakan untuk
membuat plot yang lebih kaya secara visual.
from sklearn.preprocessing import scale
Ini adalah bagian dari scikit-learn (sklearn), pustaka yang populer untuk machine learning di Python.
Modul preprocessing digunakan di sini untuk melakukan pra-pemrosesan data, seperti
penskalaan fitur.
Ini adalah bagian dari scikit-learn yang menyediakan berbagai model regresi linear dan algoritma
terkait untuk machine learning.
Ini adalah modul di scikit-learn yang berisi berbagai metrik evaluasi untuk mengukur kinerja model
machine learning, seperti mean squared error (MSE) dan coefficient of determination (R-squared).
import statsmodels.api as sm
Statsmodels adalah pustaka Python yang digunakan untuk melakukan analisis data dan estimasi
model statistik. Ini menyediakan alat untuk analisis regresi, pemodelan linear, pengujian hipotesis,
dan banyak lagi.
Ini adalah bagian dari statsmodels yang menyediakan antarmuka tingkat tinggi untuk membangun
model menggunakan formula ala R-style.
%matplotlib inline
Ini adalah perintah khusus yang digunakan dalam lingkungan Jupyter Notebook atau IPython untuk
menampilkan plot secara langsung di notebook, tepat di bawah sel kode yang menghasilkannya.
Tanpa perintah ini, Anda mungkin perlu memanggil plt.show() secara eksplisit setelah membuat
plot untuk melihatnya. Dengan menggunakan %matplotlib inline, plot akan ditampilkan secara
otomatis di dalam notebook.
plt.style.use('seaborn-white')
Ini adalah perintah untuk mengatur gaya visualisasi default yang digunakan oleh Matplotlib. Di sini,
kita mengatur gaya plot menjadi 'seaborn-white', yang merupakan salah satu gaya bawaan yang
disediakan oleh Seaborn. Gaya ini biasanya menghasilkan plot dengan latar belakang putih dan tata
letak yang bersih, membuatnya lebih mudah dipahami dan lebih estetis. Anda dapat mengganti
'seaborn-white' dengan gaya lain yang tersedia dalam Matplotlib atau Seaborn sesuai kebutuhan.
2. Load Data
ini membaca data dari file 'Advertising.csv' dan hanya mengambil kolom 1-4. info() memberikan
informasi tentang dataset, seperti jumlah baris, nama kolom, dan tipe data.
print(credit.shape)
Ini membaca data dari file 'Credit.csv' dan mengambil semua kolom kecuali yang pertama. shape
memberikan dimensi dari dataset, yaitu jumlah baris dan kolom.
Di sini, kita mengubah nilai pada kolom 'Student' menjadi 0 untuk 'No' dan 1 untuk 'Yes'. head(3)
menunjukkan tiga baris pertama dari dataset 'credit'.