0% found this document useful (0 votes)
32 views8 pages

Dataset Development

The document discusses linear regression and its application in various fields. It describes how to implement linear regression using Python. Specifically, it discusses using the Iris flower dataset, which contains measurements of Iris flowers, to create a linear regression model. The dataset is loaded and explored using Python libraries like Numpy, Matplotlib and Pandas. Then, a linear regression model is fitted to the dataset to predict Iris petal length based on sepal length.

Uploaded by

Suddin Lipung
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
32 views8 pages

Dataset Development

The document discusses linear regression and its application in various fields. It describes how to implement linear regression using Python. Specifically, it discusses using the Iris flower dataset, which contains measurements of Iris flowers, to create a linear regression model. The dataset is loaded and explored using Python libraries like Numpy, Matplotlib and Pandas. Then, a linear regression model is fitted to the dataset to predict Iris petal length based on sepal length.

Uploaded by

Suddin Lipung
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 8

MAKALAH DATASET DEVELOPMENT

“REGRESI LINIER”

Disusun Oleh :

Atam Rifai Sujiwanto 201931108


Nabila Fadhilah S 202031281

TEKNIK INFORMATIKA
FAKULTAS TELEMATIKA ENERGI
INSTITUT TEKNOLOGI PLN JAKARTA
JAKARTA BARAT
2023/2024
A. Latar Belakang
1. Regresi Linier
Regresi linier adalah sebuah teknik analisis statistik yang digunakan
untuk mempelajari hubungan antara dua variabel, yaitu variabel
independen (X) dan variabel dependen (Y). Regresi linier menghasilkan
suatu model matematis yang dapat digunakan untuk memprediksi nilai
variabel dependen (Y) berdasarkan nilai variabel independen (X).

Model regresi linier memiliki bentuk persamaan matematika y = mx + b,


di mana y adalah variabel dependen, x adalah variabel independen, m
adalah kemiringan garis regresi (slope), dan b adalah konstanta (intersep)
garis regresi. Tujuan dari regresi linier adalah untuk menemukan nilai m
dan b yang meminimalkan jumlah kesalahan prediksi (error) antara nilai
aktual dan nilai yang diprediksi oleh model regresi.

Regresi linier dapat digunakan untuk berbagai macam aplikasi, seperti


prediksi harga saham berdasarkan data historis, prediksi suhu berdasarkan
waktu, dan prediksi penjualan produk berdasarkan biaya pemasaran.

2. Penerapan Regresi Linier di Berbagai Bidang


Regresi linier adalah teknik analisis statistik yang luas digunakan di
berbagai bidang. Beberapa contoh penerapannya diantaranya adalah:

1. Ekonomi: Regresi linier digunakan dalam analisis ekonomi untuk


mengidentifikasi hubungan antara variabel ekonomi yang berbeda
seperti inflasi, pengangguran, dan GDP. Analisis regresi linier juga
digunakan dalam prediksi harga saham, penjualan, dan permintaan.
2. Ilmu sosial: Regresi linier digunakan dalam ilmu sosial untuk
mengidentifikasi faktor-faktor yang mempengaruhi perilaku
manusia seperti faktor sosial dan psikologis. Misalnya, dalam
psikologi, regresi linier digunakan untuk mengidentifikasi
hubungan antara stres dan kesehatan mental.
3. Ilmu lingkungan: Regresi linier dapat digunakan dalam ilmu
lingkungan untuk mengidentifikasi faktor-faktor yang
mempengaruhi kualitas air atau udara. Analisis regresi linier juga
dapat digunakan untuk memprediksi tingkat polusi pada lokasi
tertentu.
4. Teknik: Regresi linier digunakan dalam teknik untuk
mengidentifikasi hubungan antara variabel seperti kecepatan dan
waktu dalam masalah mekanik. Regresi linier juga digunakan
dalam proses pemantauan dan kontrol kualitas di berbagai industri.
5. Kedokteran: Regresi linier digunakan dalam kedokteran untuk
mengidentifikasi hubungan antara variabel seperti dosis obat dan
waktu penyembuhan. Analisis regresi linier juga dapat digunakan
untuk memprediksi kemungkinan terjadinya penyakit tertentu.

Secara umum, regresi linier dapat digunakan dalam berbagai bidang


untuk mengidentifikasi hubungan antara variabel dan memprediksi nilai
dari variabel yang tidak diketahui.

B. Penerapan Regresi Linier


Untuk mengimplementasikan regresi linier secara lengkap,
langkah-langkah yang biasanya dilakukan adalah sebagai berikut:
1. Mengumpulkan data
Langkah pertama adalah mengumpulkan data yang akan digunakan
dalam analisis regresi linier. Data yang diperlukan terdiri dari dua
variabel, yaitu variabel independen (X) dan variabel dependen (Y).
2. Mengecek hubungan linear antara variabel
Setelah data terkumpul, langkah berikutnya adalah mengecek
apakah hubungan antara variabel bersifat linear atau tidak. Hal ini
bisa dilakukan dengan membuat scatter plot dan melihat apakah
titik-titik datanya membentuk pola yang linier atau tidak.
3. Membuat model regresi linier
Jika hubungan antara variabel bersifat linear, langkah selanjutnya
adalah membuat model regresi linier. Model regresi linier ini dapat
dihasilkan dengan menghitung koefisien regresi dan intercept yang
dapat diperoleh dengan metode least square.
4. Menguji kecocokan model
Setelah model dibuat, langkah selanjutnya adalah menguji
kecocokan model. Hal ini bisa dilakukan dengan melihat nilai
R-squared dan F-statistic. Nilai R-squared menunjukkan seberapa
besar variabilitas dari variabel dependen dapat dijelaskan oleh
variabel independen, sedangkan F-statistic menunjukkan
signifikansi dari model regresi.
5. Memprediksi nilai variabel dependen
Setelah model diuji, langkah terakhir adalah memprediksi nilai
variabel dependen menggunakan model regresi yang telah dibuat.
Hal ini bisa dilakukan dengan memasukkan nilai variabel
independen ke dalam rumus regresi linier yang telah dihasilkan.

Implementasi regresi linier dapat dilakukan menggunakan berbagai alat


bantu, seperti Microsoft Excel, Python, R, dan sebagainya.

C. Regresi Linier Menggunakan Python

a. Penjelasan Dataset
Dataset yang digunakan merupakan panjang daun dari Iris. "Iris Flower
Dataset" adalah kumpulan data yang terdiri dari tiga kelas dari 50 sampel
masing-masing, dengan setiap kelas mewakili satu jenis tanaman iris (Iris
setosa, Iris versicolor, dan Iris virginica). Setiap sampel terdiri dari empat fitur:
panjang sepal, lebar sepal, panjang petal, dan lebar petal, yang diukur dalam
sentimeter. Dataset ini diciptakan oleh seorang ahli statistik bernama Ronald
Fisher pada tahun 1936 dalam makalahnya yang berjudul "The use of multiple
measurements in taxonomic problems" untuk menunjukkan bagaimana teknik
statistik dapat digunakan dalam bidang taksonomi (ilmu klasifikasi organisme).

Dataset ini kemudian menjadi salah satu dataset paling populer di dunia
machine learning karena sederhana, mudah digunakan, dan sangat cocok untuk
pemula yang ingin mempelajari teknik klasifikasi dan pengenalan pola. Tujuan
utama dari "Iris Flower Dataset" adalah untuk digunakan sebagai studi kasus
dalam pemrosesan data, pemodelan prediktif, dan teknik machine learning,
seperti klasifikasi. Dataset ini juga dapat digunakan untuk menguji keakuratan
algoritma klasifikasi yang berbeda dan membandingkan kinerja mereka.

Secara umum, "Iris Flower Dataset" adalah dataset yang berguna dan populer
untuk belajar pemrosesan data dan machine learning, serta untuk melakukan
eksperimen dan penelitian di bidang tersebut.
Gambar Dataset Iris.
b. Penggunaan Library Numpy, Matplotlib, Pandas pada data beserta
source code

You might also like