0% found this document useful (0 votes)

24 views5 pages

ML Lab-1

The document describes analyzing a dataset using Python libraries like Pandas and Scikit-learn. It loads a CSV dataset, cleans missing values, encodes categorical variables, splits the data into train and test sets, and fits linear and random forest regression models to make predictions on the test set. Model performance is evaluated using mean squared error.

Uploaded by

shrinkhal03

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

24 views5 pages

ML Lab-1

Uploaded by

shrinkhal03

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

import numpy as np

import pandas as pd

dataset = pd.read_csv("Data.csv")
dataset

{"summary":"{\n \"name\": \"dataset\",\n \"rows\": 10,\n

\"fields\": [\n {\n \"column\": \"Country\",\n
\"properties\": {\n \"dtype\": \"category\",\n
\"num_unique_values\": 3,\n \"samples\": [\n
\"France\",\n \"Spain\",\n \"Germany\"\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n },\n {\n \"column\": \"Age\",\n \"properties\": {\n
\"dtype\": \"number\",\n \"std\": 7.693792591722527,\n
\"min\": 27.0,\n \"max\": 50.0,\n \"num_unique_values\":
9,\n \"samples\": [\n 50.0,\n 27.0,\n
35.0\n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n },\n {\n \"column\":
\"Salary\",\n \"properties\": {\n \"dtype\": \"number\",\n
\"std\": 12265.579661982732,\n \"min\": 48000.0,\n
\"max\": 83000.0,\n \"num_unique_values\": 9,\n
\"samples\": [\n 83000.0,\n 48000.0,\n
52000.0\n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n },\n {\n \"column\":
\"Purchased\",\n \"properties\": {\n \"dtype\":
\"category\",\n \"num_unique_values\": 2,\n \"samples\":
[\n \"Yes\",\n \"No\"\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n }\n ]\n}","type":"dataframe","variable_name":"dataset"}

dataset["Age"].fillna(np.mean(dataset["Age"]))

0 44.000000
1 27.000000
2 30.000000
3 38.000000
4 40.000000
5 35.000000
6 38.777778
7 48.000000
8 50.000000
9 37.000000
Name: Age, dtype: float64

dataset["Age"] = dataset["Age"].fillna(np.mean(dataset["Age"]))

dataset

{"summary":"{\n \"name\": \"dataset\",\n \"rows\": 10,\n

\"fields\": [\n {\n \"column\": \"Country\",\n
\"properties\": {\n \"dtype\": \"category\",\n
\"num_unique_values\": 3,\n \"samples\": [\n
\"France\",\n \"Spain\",\n \"Germany\"\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n },\n {\n \"column\": \"Age\",\n \"properties\": {\n
\"dtype\": \"number\",\n \"std\": 7.253777219533095,\n
\"min\": 27.0,\n \"max\": 50.0,\n \"num_unique_values\":
10,\n \"samples\": [\n 50.0,\n 27.0,\n
35.0\n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n },\n {\n \"column\":
\"Salary\",\n \"properties\": {\n \"dtype\": \"number\",\n
\"std\": 12265.579661982732,\n \"min\": 48000.0,\n
\"max\": 83000.0,\n \"num_unique_values\": 9,\n
\"samples\": [\n 83000.0,\n 48000.0,\n
52000.0\n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n },\n {\n \"column\":
\"Purchased\",\n \"properties\": {\n \"dtype\":
\"category\",\n \"num_unique_values\": 2,\n \"samples\":
[\n \"Yes\",\n \"No\"\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n }\n ]\n}","type":"dataframe","variable_name":"dataset"}

dataset["Salary"] =
dataset["Salary"].fillna(np.mean(dataset["Salary"]))

dataset

{"summary":"{\n \"name\": \"dataset\",\n \"rows\": 10,\n

\"fields\": [\n {\n \"column\": \"Country\",\n
\"properties\": {\n \"dtype\": \"category\",\n
\"num_unique_values\": 3,\n \"samples\": [\n
\"France\",\n \"Spain\",\n \"Germany\"\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n },\n {\n \"column\": \"Age\",\n \"properties\": {\n
\"dtype\": \"number\",\n \"std\": 7.253777219533095,\n
\"min\": 27.0,\n \"max\": 50.0,\n \"num_unique_values\":
10,\n \"samples\": [\n 50.0,\n 27.0,\n
35.0\n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n },\n {\n \"column\":
\"Salary\",\n \"properties\": {\n \"dtype\": \"number\",\n
\"std\": 11564.099405562389,\n \"min\": 48000.0,\n
\"max\": 83000.0,\n \"num_unique_values\": 10,\n
\"samples\": [\n 83000.0,\n 48000.0,\n
58000.0\n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n },\n {\n \"column\":
\"Purchased\",\n \"properties\": {\n \"dtype\":
\"category\",\n \"num_unique_values\": 2,\n \"samples\":
[\n \"Yes\",\n \"No\"\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n }\n ]\n}","type":"dataframe","variable_name":"dataset"}
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

dataset["Purchased"] = le.fit_transform(dataset["Purchased"])

dataset["Country"] = le.fit_transform(dataset["Country"])

dataset

{"summary":"{\n \"name\": \"dataset\",\n \"rows\": 10,\n

\"fields\": [\n {\n \"column\": \"Country\",\n
\"properties\": {\n \"dtype\": \"number\",\n \"std\":
0,\n \"min\": 0,\n \"max\": 2,\n
\"num_unique_values\": 3,\n \"samples\": [\n 0,\n
2,\n 1\n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n },\n {\n \"column\":
\"Age\",\n \"properties\": {\n \"dtype\": \"number\",\n
\"std\": 7.253777219533095,\n \"min\": 27.0,\n \"max\":
50.0,\n \"num_unique_values\": 10,\n \"samples\": [\n
50.0,\n 27.0,\n 35.0\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n },\n {\n \"column\": \"Salary\",\n \"properties\":
{\n \"dtype\": \"number\",\n \"std\":
11564.099405562389,\n \"min\": 48000.0,\n \"max\":
83000.0,\n \"num_unique_values\": 10,\n \"samples\": [\n
83000.0,\n 48000.0,\n 58000.0\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n },\n {\n \"column\": \"Purchased\",\n
\"properties\": {\n \"dtype\": \"number\",\n \"std\":
0,\n \"min\": 0,\n \"max\": 1,\n
\"num_unique_values\": 2,\n \"samples\": [\n 1,\n
0\n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n }\n ]\
n}","type":"dataframe","variable_name":"dataset"}

dataset.iloc[:,:-1]

{"summary":"{\n \"name\": \"dataset\",\n \"rows\": 10,\n

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(dataset.iloc[:,:-
1], dataset["Purchased"], test_size=0.2)
# print(x_train, x_test, y_train, y_test)

y_train

2 0
8 0
4 1
6 0
5 1
0 0
1 1
9 1
Name: Purchased, dtype: int64

from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(x_train, y_train)

LinearRegression()

x_test

{"summary":"{\n \"name\": \"x_test\",\n \"rows\": 2,\n \"fields\":

[\n {\n \"column\": \"Country\",\n \"properties\": {\n
\"dtype\": \"number\",\n \"std\": 1,\n \"min\": 0,\n
\"max\": 2,\n \"num_unique_values\": 2,\n \"samples\":
[\n 2,\n 0\n ],\n \"semantic_type\":
\"\",\n \"description\": \"\"\n }\n },\n {\n
\"column\": \"Age\",\n \"properties\": {\n \"dtype\":
\"number\",\n \"std\": 7.0710678118654755,\n \"min\":
38.0,\n \"max\": 48.0,\n \"num_unique_values\": 2,\n
\"samples\": [\n 38.0,\n 48.0\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n },\n {\n \"column\": \"Salary\",\n \"properties\":
{\n \"dtype\": \"number\",\n \"std\":
12727.922061357855,\n \"min\": 61000.0,\n \"max\":
79000.0,\n \"num_unique_values\": 2,\n \"samples\": [\n
61000.0,\n 79000.0\n ],\n \"semantic_type\":
\"\",\n \"description\": \"\"\n }\n }\n ]\
n}","type":"dataframe","variable_name":"x_test"}
predict = lr.predict(x_test)

from sklearn.metrics import mean_squared_error

mean_squared_error(y_test, predict)

0.29618249533841706

from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(max_depth=150)
rfc.fit(x_train,y_train)

RandomForestClassifier(max_depth=150)

rfc.predict(x_test)

array([0, 1])

x_test

{"summary":"{\n \"name\": \"x_test\",\n \"rows\": 2,\n \"fields\":

y_test

7 1
3 0
Name: Purchased, dtype: int64

ISO 9001 Internal Auditor Training
100% (3)
ISO 9001 Internal Auditor Training
7 pages
Soccer Training For Goalkeepers
86% (7)
Soccer Training For Goalkeepers
170 pages
Best Practices in Teaching Mathematics: Closing The Achievement Gap
No ratings yet
Best Practices in Teaching Mathematics: Closing The Achievement Gap
24 pages
REFLEX ACT III™ Quick User Guide v12
100% (1)
REFLEX ACT III™ Quick User Guide v12
20 pages
5 Principles of Presentation Design-18
No ratings yet
5 Principles of Presentation Design-18
27 pages
Jupyter Notebook Project CART RF ANN
100% (1)
Jupyter Notebook Project CART RF ANN
41 pages
GE Fanuc Automation: Computer Numerical Control Products
No ratings yet
GE Fanuc Automation: Computer Numerical Control Products
1,266 pages
Unpaired T-Tests PDF
No ratings yet
Unpaired T-Tests PDF
3 pages
Basics of Essay Writing
No ratings yet
Basics of Essay Writing
20 pages
The Genesis or
No ratings yet
The Genesis or
151 pages
Data Mining - Project
100% (2)
Data Mining - Project
11 pages
Sustainable Housing Case Study
No ratings yet
Sustainable Housing Case Study
9 pages
Input Output Devices
No ratings yet
Input Output Devices
44 pages
Godavarman Case
No ratings yet
Godavarman Case
9 pages
APIGEE: People Management Practices and The Challenge of Growth
100% (1)
APIGEE: People Management Practices and The Challenge of Growth
4 pages
Yellow Musk Creeper
No ratings yet
Yellow Musk Creeper
7 pages
SAP Business One
No ratings yet
SAP Business One
52 pages
RegresiÃ N Lineal Con Python - Ipynb
No ratings yet
RegresiÃ N Lineal Con Python - Ipynb
83 pages
Integrado POFF - AD7858AN Datasheet
No ratings yet
Integrado POFF - AD7858AN Datasheet
32 pages
VB7
No ratings yet
VB7
44 pages
# Importing Necessary Libraries: Import As Import As Import As Import As
No ratings yet
# Importing Necessary Libraries: Import As Import As Import As Import As
21 pages
Another Copy of Ensemble Models Original Paid
No ratings yet
Another Copy of Ensemble Models Original Paid
51 pages
Associations Between Loneliness and Perceived Social Support and Outcomes of Mental Health Problems: A Systematic Review
No ratings yet
Associations Between Loneliness and Perceived Social Support and Outcomes of Mental Health Problems: A Systematic Review
16 pages
Bose A S
No ratings yet
Bose A S
37 pages
Supply Chain Analytics
No ratings yet
Supply Chain Analytics
20 pages
A Terrain Parabolic Equation Model For Propagation in The Troposphere
No ratings yet
A Terrain Parabolic Equation Model For Propagation in The Troposphere
9 pages
Dsbda Exp4 Part1
No ratings yet
Dsbda Exp4 Part1
39 pages
Observation: Import As Import As Import As Import As
No ratings yet
Observation: Import As Import As Import As Import As
31 pages
BD WPS2
No ratings yet
BD WPS2
23 pages
Kunal DA-12 Assignment-4
No ratings yet
Kunal DA-12 Assignment-4
26 pages
Data Visualization EDA-print
No ratings yet
Data Visualization EDA-print
18 pages
Aiml
No ratings yet
Aiml
27 pages
ML
No ratings yet
ML
23 pages
Machine Learning Program
No ratings yet
Machine Learning Program
12 pages
Sunbase Data Assignment
No ratings yet
Sunbase Data Assignment
11 pages
12 Pandas
No ratings yet
12 Pandas
14 pages
1 4-EDA Ipynb
No ratings yet
1 4-EDA Ipynb
12 pages
2as Scientific Streams 2020
No ratings yet
2as Scientific Streams 2020
6 pages
Assignmnet 5
No ratings yet
Assignmnet 5
11 pages
Cleaning Data
No ratings yet
Cleaning Data
6 pages
1 Linear Regression - Ipynb
No ratings yet
1 Linear Regression - Ipynb
16 pages
Kunal Assignment 3
No ratings yet
Kunal Assignment 3
19 pages
Social Network Analysis: Cheruvu Nvss Suhas 21BCE8374
No ratings yet
Social Network Analysis: Cheruvu Nvss Suhas 21BCE8374
10 pages
VoThaiThaoNhi ECON209 F2024 Lab 2
No ratings yet
VoThaiThaoNhi ECON209 F2024 Lab 2
10 pages
Week 4
No ratings yet
Week 4
13 pages
#Group: B (ML) : Numpy NP Pandas PD
No ratings yet
#Group: B (ML) : Numpy NP Pandas PD
9 pages
ML Merged
No ratings yet
ML Merged
28 pages
Covid 19 Analysis and Visualization Using Plotly Express
No ratings yet
Covid 19 Analysis and Visualization Using Plotly Express
11 pages
Prg7a - Jupyter Notebook
No ratings yet
Prg7a - Jupyter Notebook
12 pages
IS - Extended - Project - Guided - Template - Notebook
No ratings yet
IS - Extended - Project - Guided - Template - Notebook
26 pages
DSBDA3 - Jupyter Notebook
No ratings yet
DSBDA3 - Jupyter Notebook
12 pages
Regression Algorithm
No ratings yet
Regression Algorithm
9 pages
DAR CompleteFile 1
No ratings yet
DAR CompleteFile 1
41 pages
Descriptive Analytics - Ipynb - Colab
No ratings yet
Descriptive Analytics - Ipynb - Colab
9 pages
KNN For Classification
No ratings yet
KNN For Classification
5 pages
Import As Import As Import As Import: Pandas PD Numpy NP Matplotlib - Pyplot PLT Sklearn DF PD - Read - CSV DF
No ratings yet
Import As Import As Import As Import: Pandas PD Numpy NP Matplotlib - Pyplot PLT Sklearn DF PD - Read - CSV DF
9 pages
Projet 2 Classification Des Crédits
No ratings yet
Projet 2 Classification Des Crédits
24 pages
Copy of ML - Assignment
No ratings yet
Copy of ML - Assignment
7 pages
21mic0107 1
No ratings yet
21mic0107 1
7 pages
DA Basics
No ratings yet
DA Basics
6 pages
DACLUSTER
No ratings yet
DACLUSTER
9 pages
MLT Ann Lab 2
No ratings yet
MLT Ann Lab 2
7 pages
Diagnostic Test in Tle
No ratings yet
Diagnostic Test in Tle
4 pages
Python Dictionary Datatype Practical Notes
No ratings yet
Python Dictionary Datatype Practical Notes
6 pages
Experiment 2
No ratings yet
Experiment 2
5 pages
Airtel and SBI Announce Joint Venture To Serve The Unbanked: Prateek Waghre 0
No ratings yet
Airtel and SBI Announce Joint Venture To Serve The Unbanked: Prateek Waghre 0
7 pages
Task 1
No ratings yet
Task 1
5 pages
Copy of Final Project
No ratings yet
Copy of Final Project
16 pages
What Is Twitter and Why Should You Use It
No ratings yet
What Is Twitter and Why Should You Use It
4 pages
Circadian Rhythms
No ratings yet
Circadian Rhythms
10 pages
Alishba (S005)
No ratings yet
Alishba (S005)
5 pages
Ass 1 ML
No ratings yet
Ass 1 ML
21 pages
Juliani 2
No ratings yet
Juliani 2
4 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Simple Linear Regression
No ratings yet
Simple Linear Regression
4 pages
B58 - Handling Missing Values, Feature - Selection
No ratings yet
B58 - Handling Missing Values, Feature - Selection
4 pages
B58 Random Forest
No ratings yet
B58 Random Forest
4 pages
Specimen Signature Form
No ratings yet
Specimen Signature Form
1 page
Simple Linear Regression
No ratings yet
Simple Linear Regression
4 pages
Experiment 2 FDL - Jupyter Notebook
No ratings yet
Experiment 2 FDL - Jupyter Notebook
2 pages
Heart Disease Classification Full-1
No ratings yet
Heart Disease Classification Full-1
3 pages
Chapter 15 Exercises No Answers
No ratings yet
Chapter 15 Exercises No Answers
3 pages
Jivit 200810
No ratings yet
Jivit 200810
6 pages
2ndmonthly Values
No ratings yet
2ndmonthly Values
1 page
Mlext
No ratings yet
Mlext
1 page
The Contemporary World
No ratings yet
The Contemporary World
2 pages
DSBDA Prac4 2
No ratings yet
DSBDA Prac4 2
1 page
Essential n8n Playbook
From Everand
Essential n8n Playbook
Leandro Calado
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
How to a Developers Guide to 4k: Developer edition, #3
From Everand
How to a Developers Guide to 4k: Developer edition, #3
Xinc Cyberwizard
No ratings yet

ML Lab-1

Uploaded by

ML Lab-1

Uploaded by

import numpy as np

{"summary":"{\n \"name\": \"dataset\",\n \"rows\": 10,\n

{"summary":"{\n \"name\": \"dataset\",\n \"rows\": 10,\n

{"summary":"{\n \"name\": \"dataset\",\n \"rows\": 10,\n

{"summary":"{\n \"name\": \"dataset\",\n \"rows\": 10,\n

{"summary":"{\n \"name\": \"dataset\",\n \"rows\": 10,\n

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

{"summary":"{\n \"name\": \"x_test\",\n \"rows\": 2,\n \"fields\":

from sklearn.metrics import mean_squared_error

from sklearn.ensemble import RandomForestClassifier

{"summary":"{\n \"name\": \"x_test\",\n \"rows\": 2,\n \"fields\":

You might also like