0% found this document useful (0 votes)

14 views36 pages

CS-3361-Data-science-lab Manual

The document outlines a data science lab course (CS 3361) that includes exercises on installing and using libraries like Numpy and Pandas, working with data frames, and performing various analyses on datasets such as diabetes and Iris. It covers topics like univariate analysis, multiple regression, and visualization techniques including scatter plots, histograms, and geographic data visualization using Basemap. The document provides example code snippets for each exercise to facilitate learning and application of data science concepts.

Uploaded by

sumathi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views36 pages

CS-3361-Data-science-lab Manual

Uploaded by

sumathi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 36

lOMoAR cPSD| 7367891

CS 3361 data science lab

lOMoAR cPSD| 7367891

Ex No 1:
Install Method
Numpy

Numpy is a numerical computing package for mathematics, science, and engineering. Many data
science packages use Numpy as a dependency.

Ex : pip install NumPy

Output:
lOMoAR cPSD| 7367891

.Ex: pip install pandas

Output:
lOMoAR cPSD| 7367891

Ex: pip install statsmodels

Output

Output:
lOMoAR cPSD| 7367891

Ex. No. 2 - Working with Numpy arrays

Example Code:

# importing numpy

module import numpy as

# creating list

list = [1, 2, 3,

# creating numpy array

sample_array = np.array(list1)

print("List in python : ", list)

print("Numpy Array in python :", sample_array)

lOMoAR cPSD| 7367891

Example:

# importing numpy

module import numpy as

# creating list

list_1 = [1, 2, 3, 4]

list_2 = [5, 6, 7, 8]

list_3 = [9, 10, 11, 12]

# creating numpy array

sample_array = np.array([list_1, list_2, list_3])

print("Numpy multi dimensional array in python\n", sample_array)

lOMoAR cPSD| 7367891

Ex.No – 3 - Working with Pandas data frames

Code:

import pandas as pd

import numpy as np

sas=pd.Series([1,3,5,np.nan,6])

sas
lOMoAR cPSD| 7367891

Code:

import pandas as pd

data={'apple': [3,2,0],

'orange' : [3,8,9]}

purchase=pd.DataFrame(data)

purchase

purchase.to_csv('datasciencelab.csv')
lOMoAR cPSD| 7367891

Ex. No. 4 - Reading data from text files, Excel and the web and exploring various
commands for doing descriptive analytics on the Iris data set.

For Code:

import pandas as pd

data1=pd.read_csv("Iris.csv")

data1.head()
lOMoAR cPSD| 7367891

data1.info()

data1.describe()

data1.isnull().sum()

data1.shape
lOMoAR cPSD| 7367891

data = data1.drop_duplicates(subset ="Species",)

data
lOMoAR cPSD| 7367891

Ex No. 5 - Use the diabetes data set from UCI and Pima Indians Diabetes data
set for performing the following:

a. Univariate analysis: Frequency, Mean, Median, Mode, Variance,

Standard Deviation, Skewness and Kurtosis.
.

Code:

import pandas as pd

import numpy as np

import statistics as

st # Load the data

df = pd.read_csv("diabetes.csv")

print(df.shape)

print(df.info())
lOMoAR cPSD| 7367891

Measures of Central Tendency

Code:

df.mean()

Code:

print(df.loc[:,'Age'].mean())

print(df.loc[:,'Income'].mean())

Median

Code:

df.median()
lOMoAR cPSD| 7367891

Code:

df.mode()

Code:

df.std()
lOMoAR cPSD| 7367891

Code:

df.var()

Code:

from scipy.stats import

iqr iqr(df['Age'])
lOMoAR cPSD| 7367891

Code:

print(df.skew())

Code:

import pandas as pd

df = pd.read_csv(diabetes.csv')

df.head()
lOMoAR cPSD| 7367891

Code:

import matplotlib.pyplot as

plt import seaborn as sns

sns.set(style='whitegrid', context='notebook')

cols = ['Pregnancies','Glucose','BloodPressure','SkinThickness','Insulin','BMI','DiabetesPedigreeFunction','Age']

Code:

import numpy as np

cm = np.corrcoef(df[cols].values.T)

sns.set(font_scale=1.5)
lOMoAR cPSD| 7367891

hm = sns.heatmap(cm,cbar=True,annot=True,square=True,fmt='.2f',annot_kws={'size':
15},yticklabels=cols,xticklabels=cols)

plt.show()

Code:

class LinearRegressionGD(object):

def init (self, eta=0.001, n_iter=20):

self.eta = eta

self.n_iter = n_iter

def fit(self, X, y):

self.w_ = np.zeros(1 + X.shape[1])

self.cost_ = []

for i in range(self.n_iter):

output = self.net_input(X)
lOMoAR cPSD| 7367891

errors = (y - output)

self.w_[1:] += self.eta *

X.T.dot(errors) self.w_[0] += self.eta *

errors.sum() cost = (errors**2).sum() /

2.0 self.cost_.append(cost)

return self

def net_input(self, X):

return np.dot(X, self.w_[1:]) +

self.w_[0] def predict(self, X):

return self.net_input(X)

X = df[['Age']].values

y = df['Pregnancies'].values

from sklearn.preprocessing import

StandardScaler sc_x = StandardScaler()

sc_y = StandardScaler()

X_std =

sc_x.fit_transform(X) y_std =

sc_y.fit_transform(y) lr =

LinearRegressionGD()

lr.fit(X_std, y_std)

plt.plot(range(1, lr.n_iter+1), lr.cost_)

plt.ylabel('SSE')

plt.xlabel('Epoch')

plt.show()
lOMoAR cPSD| 7367891

Code:

def lin_regplot(X, y, model):

plt.scatter(X, y, c='blue')

plt.plot(X, model.predict(X),

color='red') return None

lin_regplot(X_std, y_std, lr)

plt.xlabel('Age (standardized)')

plt.ylabel('Pregnancies(standardized)')

plt.show()
lOMoAR cPSD| 7367891

Code:

age_std = sc_x.transform([20])

pregnancy_std =

lr.predict(age_std)

print("Pregnancy: %.3f" %sc_y.inverse_transform(price_std))

print('Slope: %.3f' % lr.w_[1])

C. Multiple Regression analysis:

Code:

from sklearn.model_selection import train_test_split

train_x, test_x, train_y, test_y = train_test_split(X,Y,test_size=0.3,random_state=99)

train_x.shape, train_y.shape

from sklearn.linear_model import

MultipleRegression le = MultipleRegression()

le.fit(train_x,train_y)

y_pred = le.predict(test_x)

y_pred
lOMoAR cPSD| 7367891

result = pd.DataFrame({'Actual': test_y, 'Predict' : y_pred})

result
lOMoAR cPSD| 7367891

Code:

print('coefficient', le.coef_)

print('intercept', le.intercept_)

b. Also compare the results of the above analysis for the two data sets

Installing datacompy

pip install datacompy

Details :

datacompy takes two dataframes as input and gives us a human-readable report containing statistics that lets us
know the similarities and dissimilarities between the two dataframes. It will try to join two dataframes either on a
list of join columns, or on indexes.
lOMoAR cPSD| 7367891

Code:

import datacompy

compare = datacompy.Compare(df1,df2,join_columns=‟acct_id‟, abs_tol=0.0001,

rel_tol=0,df1_name=‟olddiabetes‟,df2_name=‟newdiabetes‟)

print(compare.report())

OUTPUT:
lOMoAR cPSD| 7367891

Ex.No. 6 Apply and explore various plotting functions on UCI data sets

a. Normal curves
Code:

import numpy as np

import matplotlib.pyplot as plt

# Creating a series of data of in range of 1-50.

x = np.linspace(1,50,200)

#Creating a Function.

def normal_dist(x , mean , sd):

prob_density = (np.pi*sd) *

np.exp(-0.5*((x-mean)/sd)**2) return prob_density

#Calculate mean and Standard deviation.

mean = np.mean(x)

sd = np.std(x)

#Apply function to the data.

pdf = normal_dist(x,mean,sd)

#Plotting the Results

plt.plot(x,pdf , color = 'red')

plt.xlabel('Data points')
lOMoAR cPSD| 7367891

plt.ylabel('Probability Density')

b. Density and contour plots

Code:

import matplotlib.pyplot as

plt import numpy as np

feature_x = np.arange(0, 50, 2)

feature_y = np.arange(0, 50,

3) # Creating 2-D grid of

features

[X, Y] = np.meshgrid(feature_x, feature_y)

fig, ax = plt.subplots(1, 1)

Z = np.cos(X / 2) + np.sin(Y / 4)

# plots contour lines

ax.contour(X, Y, Z)
lOMoAR cPSD| 7367891

ax.set_title('Contour Plot')

ax.set_xlabel('feature_x')

ax.set_ylabel('feature_y')

plt.show()

c. Correlation and scatter plots

Code:

import pandas as pd

con = pd.read_csv('concrete.csv')

con

list(con.columns)
lOMoAR cPSD| 7367891

con.head()

con['cement'] = con['cement'].astype('category')

con.describe(include='category')

import seaborn as sns

sns.scatterplot(x="water", y="coarseagg", data=con);

ax = sns.scatterplot(x="water", y="coarseagg", data=con)

ax.set_title("Concrete Strength vs. Fly ash")

ax.set_xlabel("coarseagg");

sns.lmplot(x="water", y="coarseagg", data=con);

lOMoAR cPSD| 7367891

d. Histograms:
Creating a Histogram

Code:

from matplotlib import pyplot as

plt import numpy as np

# Creating dataset

a = np.array([22, 87, 5, 43, 56,

73, 55, 54, 11,

20, 51, 5, 79, 31,

27])
lOMoAR cPSD| 7367891

# Creating histogram

fig, ax = plt.subplots(figsize =(10, 7))

ax.hist(a, bins = [0, 25, 50, 75,

100]) # Show plot

plt.show()

Code:

import matplotlib.pyplot as plt

import numpy as np

from matplotlib import colors

from matplotlib.ticker import PercentFormatter

# Creating dataset

np.random.seed(23685752)

N_points = 10000

n_bins = 20

# Creating distribution
lOMoAR cPSD| 7367891

x = np.random.randn(N_points)

y = .8 ** x + np.random.randn(10000) +

25 # Creating histogram

fig, axs = plt.subplots(1, 1,figsize =(10, 7),tight_layout =

True) axs.hist(x, bins = n_bins)

# Show plot

plt.show()

e. Three dimensional plotting

Code:

from mpl_toolkits import mplot3d

import numpy as np
lOMoAR cPSD| 7367891

import matplotlib.pyplot as plt

fig = plt.figure()

# syntax for 3-D projection

ax = plt.axes(projection

='3d') # defining axes

z = np.linspace(0, 1,

100) x = z * np.sin(25 *

y = z * np.cos(25 *

z) c = x + y

ax.scatter(x, y, z, c =

c) # syntax for plotting

ax.set_title('3d Scatter plot')

plt.show()
lOMoAR cPSD| 7367891

Ex. No7 Visualizing Geographic Data with Basemap

Code:

%matplotlib inline

import numpy as np

import matplotlib.pyplot as plt

from mpl_toolkits.basemap import Basemap

plt.figure(figsize=(8, 8))

m = Basemap(projection='ortho', resolution=None, lat_0=50, lon_0=-100)

m.bluemarble(scale=0.5);

fig = plt.figure(figsize=(8, 8))

m = Basemap(projection='lcc', resolution=None,

width=8E6, height=8E6,

lat_0=45, lon_0=-100,)
lOMoAR cPSD| 7367891

m.etopo(scale=0.5, alpha=0.5)

# Map (long, lat) to (x, y) for

plotting x, y = m(-122.3, 47.6)

plt.plot(x, y, 'ok', markersize=5)

plt.text(x, y, ' Seattle',

fontsize=12);

from mpl_toolkits.basemap import Basemap

import matplotlib.pyplot as plt

fig = plt.figure(figsize =

(12,12)) m = Basemap()

m.drawcoastlines()

m.drawcoastlines(linewidth=1.0, linestyle='dashed', color='red')

plt.title("Coastlines", fontsize=20)

plt.show()
lOMoAR cPSD| 7367891

import numpy as np

import pandas as pd

import matplotlib.pyplot as

plt import seaborn as sns

import geopandas as

gpd import shapefile as

shp

from shapely.geometry import Point

sns.set_style('whitegrid')

fp = r'Maps_with_python\india-polygon.shp'

map_df = gpd.read_file(fp)

map_df_copy = gpd.read_file(fp)

plt.plot(map_df , markersize=5)
lOMoAR cPSD| 7367891

ML Lab Manual
No ratings yet
ML Lab Manual
12 pages
Advanced Programming Final Client Report
No ratings yet
Advanced Programming Final Client Report
27 pages
CC Syllabus
No ratings yet
CC Syllabus
4 pages
CC Syllabus
No ratings yet
CC Syllabus
4 pages
Aids Lab
No ratings yet
Aids Lab
45 pages
Practical File IP Class 12 2024 25
No ratings yet
Practical File IP Class 12 2024 25
64 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
Pandas Notes
No ratings yet
Pandas Notes
54 pages
12 Computer Science SP 06 With Solution
No ratings yet
12 Computer Science SP 06 With Solution
17 pages
FDA CIA 2 Qs Answers
No ratings yet
FDA CIA 2 Qs Answers
26 pages
Lecture 4
No ratings yet
Lecture 4
60 pages
12 Ip Study Material Bangalore 2425
No ratings yet
12 Ip Study Material Bangalore 2425
167 pages
Neovarsity Brochure
No ratings yet
Neovarsity Brochure
27 pages
Data Science Programs
No ratings yet
Data Science Programs
11 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
BDP Week3
No ratings yet
BDP Week3
31 pages
Syllabus Till Term 1
No ratings yet
Syllabus Till Term 1
2 pages
Fds SLOT 2
No ratings yet
Fds SLOT 2
12 pages
EX - No: 1 Date:: Download Install Explore The Features of Numpy, Scipy, Jupiter, Statsmodels and Pandas Packages
No ratings yet
EX - No: 1 Date:: Download Install Explore The Features of Numpy, Scipy, Jupiter, Statsmodels and Pandas Packages
38 pages
Fundamentals of Data Science Students
No ratings yet
Fundamentals of Data Science Students
52 pages
PYTHON Pandas and Manipulation Data
No ratings yet
PYTHON Pandas and Manipulation Data
36 pages
Data Science Experiments
No ratings yet
Data Science Experiments
31 pages
AI Using Python
No ratings yet
AI Using Python
10 pages
FDS Lab Question Bank
No ratings yet
FDS Lab Question Bank
11 pages
AD3411
No ratings yet
AD3411
28 pages
Eda Lab Assignment2
No ratings yet
Eda Lab Assignment2
10 pages
SocBiz-Winter Analytics Resources
No ratings yet
SocBiz-Winter Analytics Resources
7 pages
AD3411 - 1 To 5
No ratings yet
AD3411 - 1 To 5
11 pages
Fods Lab
No ratings yet
Fods Lab
54 pages
Machine Learning (ML)
No ratings yet
Machine Learning (ML)
35 pages
Python in Chemestry
No ratings yet
Python in Chemestry
9 pages
Python - Pandas Merging, Joining, and Concatenating
No ratings yet
Python - Pandas Merging, Joining, and Concatenating
1 page
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
End Semester Answer Key Format-Fods
No ratings yet
End Semester Answer Key Format-Fods
8 pages
BOS CSE-Data Science (10!5!25)
No ratings yet
BOS CSE-Data Science (10!5!25)
39 pages
Basic Data Processing With Pandas
No ratings yet
Basic Data Processing With Pandas
29 pages
Masters AIML 3rd Course Jan2025
No ratings yet
Masters AIML 3rd Course Jan2025
27 pages
Datascience 2 PDF
No ratings yet
Datascience 2 PDF
24 pages
ARIMA
No ratings yet
ARIMA
11 pages
Cia 2 PSPP
No ratings yet
Cia 2 PSPP
12 pages
GE3171 PSPP Lab 1-12 TH EX
No ratings yet
GE3171 PSPP Lab 1-12 TH EX
48 pages
Fods (1) - Merged (1) - 1
No ratings yet
Fods (1) - Merged (1) - 1
100 pages
Class-XII Half Yearly & Blueprint 2024
No ratings yet
Class-XII Half Yearly & Blueprint 2024
11 pages
ML Lab
No ratings yet
ML Lab
14 pages
List of Programs For Informatics - XII - IP
No ratings yet
List of Programs For Informatics - XII - IP
26 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
42 pages
Edureka Training - DevOps Engineer Masters Program
No ratings yet
Edureka Training - DevOps Engineer Masters Program
39 pages
ML Lab File
No ratings yet
ML Lab File
43 pages
XII-IP-Record (2024.25)
No ratings yet
XII-IP-Record (2024.25)
26 pages
Cheat Sheet-Building Unsupervised Learning Models
No ratings yet
Cheat Sheet-Building Unsupervised Learning Models
3 pages
FDS All Practicals
No ratings yet
FDS All Practicals
10 pages
ML Lab
No ratings yet
ML Lab
12 pages
Top Pandas - Functions
No ratings yet
Top Pandas - Functions
17 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
CTE I Computer Parts
No ratings yet
CTE I Computer Parts
31 pages
Practical-1: Aim: Study About Numpy Library of Python
No ratings yet
Practical-1: Aim: Study About Numpy Library of Python
28 pages
Ad3411 - Data Science and Analytics Laboratory
No ratings yet
Ad3411 - Data Science and Analytics Laboratory
26 pages
PP DWDM 4 5
No ratings yet
PP DWDM 4 5
26 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Data Science Lab Manual..
No ratings yet
Data Science Lab Manual..
54 pages
Data Analytics Brochure (V1) - Launch (4) (1) (1) (2) (1) (1) (1) (1) (1) (1) - Removed
No ratings yet
Data Analytics Brochure (V1) - Launch (4) (1) (1) (2) (1) (1) (1) (1) (1) (1) - Removed
20 pages
DWDM Lab Manual
No ratings yet
DWDM Lab Manual
32 pages
Message Sharing 2
No ratings yet
Message Sharing 2
9 pages
CS3362 Data Science Laboratory Manual 2022-23
No ratings yet
CS3362 Data Science Laboratory Manual 2022-23
54 pages
Assignment 7
No ratings yet
Assignment 7
2 pages
Roll NO 2020
No ratings yet
Roll NO 2020
8 pages
Data Science Manual
No ratings yet
Data Science Manual
16 pages
ML (Sudhanshu)
No ratings yet
ML (Sudhanshu)
24 pages
Cs3451-Ios QS Bank
No ratings yet
Cs3451-Ios QS Bank
53 pages
Machine Learning
No ratings yet
Machine Learning
30 pages
3-Numpy Pandas
No ratings yet
3-Numpy Pandas
37 pages
Data Science Practical Book - Ipynb
No ratings yet
Data Science Practical Book - Ipynb
21 pages
Ip Practical Updated
No ratings yet
Ip Practical Updated
14 pages
Exp 2 SDK Ok
No ratings yet
Exp 2 SDK Ok
18 pages
Syllabus BigData EN
No ratings yet
Syllabus BigData EN
6 pages
Asset-V1 VIT+MBA109+2020+type@asset+block@Introductio To ML Using Python
No ratings yet
Asset-V1 VIT+MBA109+2020+type@asset+block@Introductio To ML Using Python
7 pages
Ex. No: 1 Exploring The Features of Numpy, Scipy, Jupyter, Statsmodels and Pandas Date: 07/08/2024
No ratings yet
Ex. No: 1 Exploring The Features of Numpy, Scipy, Jupyter, Statsmodels and Pandas Date: 07/08/2024
9 pages
Unit2 Modified
No ratings yet
Unit2 Modified
42 pages
FDA Application of ANOVA
No ratings yet
FDA Application of ANOVA
18 pages
Ad3491-FDA Unit 1 Question Bank
No ratings yet
Ad3491-FDA Unit 1 Question Bank
8 pages
SESION 12 (Pandas)
No ratings yet
SESION 12 (Pandas)
41 pages
FDS Lab 1 Manuel .1..1new
No ratings yet
FDS Lab 1 Manuel .1..1new
34 pages
8537ADS Experiment 03
No ratings yet
8537ADS Experiment 03
4 pages
Class - XII - Holiday Homework
No ratings yet
Class - XII - Holiday Homework
6 pages
Data Science
No ratings yet
Data Science
3 pages
Graphs Using Matplotlib
No ratings yet
Graphs Using Matplotlib
23 pages
Data Sci
No ratings yet
Data Sci
10 pages
Numpy and Pandas
No ratings yet
Numpy and Pandas
11 pages
Fds Mannual
No ratings yet
Fds Mannual
39 pages
Pert Q Python
No ratings yet
Pert Q Python
3 pages
Unit 5 PythonPackages (Matplotlib)
No ratings yet
Unit 5 PythonPackages (Matplotlib)
24 pages
ML LAB Mannual-1
No ratings yet
ML LAB Mannual-1
79 pages
DAV Guidelines
No ratings yet
DAV Guidelines
4 pages
Matplotlib Starter: Import As Import As Import As
No ratings yet
Matplotlib Starter: Import As Import As Import As
24 pages
EXP1-siddhant Gupta (23 - SE - 148)
No ratings yet
EXP1-siddhant Gupta (23 - SE - 148)
17 pages
Data Visualization With Python
No ratings yet
Data Visualization With Python
34 pages
Data Analysis Lab - Final - 23-24
No ratings yet
Data Analysis Lab - Final - 23-24
11 pages
Content From Jose Portilla's Udemy Course Learning Python For Data Analysis and Visualization Notes by Michael Brothers, Available On
No ratings yet
Content From Jose Portilla's Udemy Course Learning Python For Data Analysis and Visualization Notes by Michael Brothers, Available On
13 pages
Data Science Lab Manual
No ratings yet
Data Science Lab Manual
74 pages
C Language Programming Codes
From Everand
C Language Programming Codes
Durgesh
No ratings yet