0% found this document useful (0 votes)

22 views8 pages

Dsa 1

The document provides a detailed analysis of the Iris dataset using Python, including data loading, descriptive statistics, and visualizations such as pairplots and boxplots. It also covers univariate analysis on the Pima Indians Diabetes dataset, calculating metrics like mean, median, mode, variance, standard deviation, skewness, and kurtosis for each feature. The analysis includes frequency counts and summary statistics for the dataset, highlighting the distribution of various attributes.

Uploaded by

pratikkokate88

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

22 views8 pages

Dsa 1

Uploaded by

pratikkokate88

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 8

7.

Reading data from text files, Excel and the web and exploring various commands for
doing descriptive analytics on the Iris data set

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import datasets

# Load the Iris dataset from sklearn

iris = datasets.load_iris()

# Convert to Pandas DataFrame

iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['species'] = iris.target # Add species column (numeric)
iris_df['species'] = iris_df['species'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'}) # Convert to
categorical

# Display first 5 rows

print("First 5 rows of the dataset:")
print(iris_df.head())

# Dataset summary information

print("\nDataset Information:")
print(iris_df.info())

# Descriptive statistics
print("\nSummary Statistics:")
print(iris_df.describe())

# Count of each species

print("\nSpecies Count:")
print(iris_df['species'].value_counts())

# Pairplot visualization
sns.pairplot(iris_df, hue="species", markers=["o", "s", "D"])
plt.suptitle("Pairplot of Iris Dataset", y=1.02)
plt.show()

# Boxplot for feature distribution

plt.figure(figsize=(10,6))
sns.boxplot(data=iris_df, orient="h")
plt.title("Feature Distribution of Iris Dataset")
plt.show()

Output:
First 5 rows of the dataset:
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa

Dataset Information:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 sepal length (cm) 150 non-null float64
1 sepal width (cm) 150 non-null float64
2 petal length (cm) 150 non-null float64
3 petal width (cm) 150 non-null float64
4 species 150 non-null object
dtypes: float64(4), object(1)
memory usage: 6.0+ KB
None

Summary Statistics:
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)
count 150.000000 150.000000 150.000000 150.000000
mean 5.843333 3.057333 3.758000 1.199333
std 0.828066 0.435866 1.765298 0.762238
min 4.300000 2.000000 1.000000 0.100000
25% 5.100000 2.800000 1.600000 0.300000
50% 5.800000 3.000000 4.350000 1.300000
75% 6.400000 3.300000 5.100000 1.800000
max 7.900000 4.400000 6.900000 2.500000

Species Count:
species
setosa 50
versicolor 50
virginica 50
Name: count, dtype: int64
8. Use the diabetes data set from UCI and Pima Indians Diabetes data set for performing the
Univariate analysis: Frequency, Mean, Median, Mode, Variance, Standard Deviation,
Skewness and Kurtosis.

import pandas as pd
import numpy as np
from scipy.stats import skew, kurtosis

# URL of the Pima Indians Diabetes dataset

url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# Column names for the dataset

column_names = [
"Pregnancies", "Glucose", "BloodPressure", "SkinThickness",
"Insulin", "BMI", "DiabetesPedigreeFunction", "Age", "Outcome"
]

# Load the dataset

df = pd.read_csv(url, header=None, names=column_names)

# Display the first few rows of the dataset

print("Dataset Head:")
print(df.head())

# Function to perform univariate analysis

def univariate_analysis(data, column):
print(f"\nUnivariate Analysis for {column}:")
print("---------------------------------")

# Frequency
frequency = data[column].value_counts()
print("Frequency:\n", frequency)

# Mean
mean = data[column].mean()
print(f"Mean: {mean:.2f}")

# Median
median = data[column].median()
print(f"Median: {median:.2f}")

# Mode
mode = data[column].mode()[0]
print(f"Mode: {mode:.2f}")

# Variance
variance = data[column].var()
print(f"Variance: {variance:.2f}")
# Standard Deviation
std_dev = data[column].std()
print(f"Standard Deviation: {std_dev:.2f}")

# Skewness
skewness = skew(data[column])
print(f"Skewness: {skewness:.2f}")

# Kurtosis
kurt = kurtosis(data[column])
print(f"Kurtosis: {kurt:.2f}")

# Perform univariate analysis for each column

for column in df.columns:
univariate_analysis(df, column)

output:
Standard Deviation: 0.33
Skewness: 1.92
Kurtosis: 5.55

Univariate Analysis for Age:

---------------------------------
Frequency:
Age
22 72
21 63
25 48
24 46
23 38
28 35
26 33
27 32
29 29
31 24
41 22
30 21
37 19
42 18
33 17
36 16
38 16
32 16
45 15
34 14
46 13
40 13
43 13
39 12
35 10
44 8
50 8
51 8
52 8
58 7
54 6
47 6
49 5
60 5
53 5
57 5
48 5
63 4
66 4
55 4
62 4
59 3
56 3
65 3
67 3
61 2
69 2
72 1
81 1
64 1
70 1
68 1
Name: count, dtype: int64
Mean: 33.24
Median: 29.00
Mode: 22.00
Variance: 138.30
Standard Deviation: 11.76
Skewness: 1.13
Kurtosis: 0.63

Univariate Analysis for Outcome:

---------------------------------
Frequency:
Outcome
0 500
1 268
Name: count, dtype: int64
Mean: 0.35
Median: 0.00
Mode: 0.00
Variance: 0.23
Standard Deviation: 0.48
Skewness: 0.63
Kurtosis: -1.60
1 268
Name: count, dtype: int64
Mean: 0.35
Median: 0.00
Mode: 0.00
Variance: 0.23
Standard Deviation: 0.48
Skewness: 0.63
Kurtosis: -1.60
1 268
Name: count, dtype: int64
Mean: 0.35
Median: 0.00
Mode: 0.00
Variance: 0.23
Standard Deviation: 0.48
Skewness: 0.63
1 268
Name: count, dtype: int64
Mean: 0.35
Median: 0.00
Mode: 0.00
Variance: 0.23
Standard Deviation: 0.48
1 268
Name: count, dtype: int64
Mean: 0.35
Median: 0.00
Mode: 0.00
1 268
Name: count, dtype: int64
Mean: 0.35
Median: 0.00
1 268
Name: count, dtype: int64
Mean: 0.35
1 268
1 268
Name: count, dtype: int64
Mean: 0.35
Median: 0.00
Mode: 0.00
Variance: 0.23
1 268
Name: count, dtype: int64
Mean: 0.35
1 268
Name: count, dtype: int64
Mean: 0.35
1 268
Name: count, dtype: int64
Mean: 0.35
1 268
Name: count, dtype: int64
1 268
Name: count, dtype: int64
Mean: 0.35
1 268
Name: count, dtype: int64
Mean: 0.35
1 268
1 268
1 268
1 268
1 268
1 268
Name: count, dtype: int64
Mean: 0.35
Median: 0.00
Mode: 0.00
Variance: 0.23
Standard Deviation: 0.48
Skewness: 0.63
Kurtosis: -1.60

M32 Opcenito
No ratings yet
M32 Opcenito
14 pages
Import As Import As From Import Import As Import As From Import From Import From Import
No ratings yet
Import As Import As From Import Import As Import As From Import From Import From Import
6 pages
Fds Mannual
No ratings yet
Fds Mannual
39 pages
Data Science Practical Book - Ipynb
No ratings yet
Data Science Practical Book - Ipynb
21 pages
Merged
No ratings yet
Merged
35 pages
Practical No - 1
No ratings yet
Practical No - 1
5 pages
Hypothesis Testing PDF
No ratings yet
Hypothesis Testing PDF
9 pages
Mayank Chaudhary DEV Practicals
No ratings yet
Mayank Chaudhary DEV Practicals
14 pages
ML LabReport Final Index Edited
No ratings yet
ML LabReport Final Index Edited
35 pages
Assignment 5'
No ratings yet
Assignment 5'
4 pages
Ploomber Notebook Conversion - 2
No ratings yet
Ploomber Notebook Conversion - 2
14 pages
FDS Lab Question Bank
No ratings yet
FDS Lab Question Bank
11 pages
Exp 5,6,7
No ratings yet
Exp 5,6,7
2 pages
Experiment-2-1-Ml Kritika
No ratings yet
Experiment-2-1-Ml Kritika
11 pages
Exno 4
No ratings yet
Exno 4
13 pages
Data Science Practicals - Ipynb
No ratings yet
Data Science Practicals - Ipynb
54 pages
DL Experiment - 1
No ratings yet
DL Experiment - 1
10 pages
Machine Learning Group Project
No ratings yet
Machine Learning Group Project
22 pages
Lab Manual
No ratings yet
Lab Manual
32 pages
Experimenting With Data Analysis Packages and Statistical Operations
No ratings yet
Experimenting With Data Analysis Packages and Statistical Operations
18 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
Implementing Logistic Regression For Iris Using Sklearn and Checking The Accuracy Using Confusion Matrix
No ratings yet
Implementing Logistic Regression For Iris Using Sklearn and Checking The Accuracy Using Confusion Matrix
7 pages
Dsbdalab 6
No ratings yet
Dsbdalab 6
5 pages
Python Solution
No ratings yet
Python Solution
30 pages
Batch1 Ds
No ratings yet
Batch1 Ds
15 pages
Keeratsi HW8
No ratings yet
Keeratsi HW8
17 pages
Assignment No - 10
No ratings yet
Assignment No - 10
3 pages
Fds Slips
No ratings yet
Fds Slips
6 pages
Print Print Print Print: Import As
No ratings yet
Print Print Print Print: Import As
6 pages
Ai Tools and Applications-Lab
No ratings yet
Ai Tools and Applications-Lab
33 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
42 pages
7 Output
No ratings yet
7 Output
4 pages
Datascience Set A
No ratings yet
Datascience Set A
7 pages
MLRecord
No ratings yet
MLRecord
24 pages
KRAI LabManual
No ratings yet
KRAI LabManual
77 pages
Unsupervised ML
No ratings yet
Unsupervised ML
17 pages
ML Mini Project: Name: Sarvesh Muttepwar Class: BE COMP (A) Roll No: 21CEBEB11
No ratings yet
ML Mini Project: Name: Sarvesh Muttepwar Class: BE COMP (A) Roll No: 21CEBEB11
12 pages
Heart Disease Diagnosis Using Machine Learning
No ratings yet
Heart Disease Diagnosis Using Machine Learning
26 pages
Statistical Data Analysis - Ipynb - Colaboratory
No ratings yet
Statistical Data Analysis - Ipynb - Colaboratory
6 pages
Exp 12 and 15
No ratings yet
Exp 12 and 15
4 pages
KNN - Jupyter Notebook
No ratings yet
KNN - Jupyter Notebook
7 pages
Nandini Matplotlib Ws
No ratings yet
Nandini Matplotlib Ws
10 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
25 - Assignment10.ipynb - Colaboratory
No ratings yet
25 - Assignment10.ipynb - Colaboratory
13 pages
Presentation 1
No ratings yet
Presentation 1
30 pages
West Rox
No ratings yet
West Rox
29 pages
CSA105-LinearRegression-HousePrice-Prediction - Ipynb - Colaboratory
No ratings yet
CSA105-LinearRegression-HousePrice-Prediction - Ipynb - Colaboratory
17 pages
Pandas
No ratings yet
Pandas
4 pages
ML Lab Manual
No ratings yet
ML Lab Manual
23 pages
Fha-Pyhton Program Unit 1-4
No ratings yet
Fha-Pyhton Program Unit 1-4
13 pages
DSBDA6
No ratings yet
DSBDA6
6 pages
11zon - Merged-Files (1) - Removed - Removed
No ratings yet
11zon - Merged-Files (1) - Removed - Removed
7 pages
Matplotlib Notes
No ratings yet
Matplotlib Notes
23 pages
Fds SLOT 2
No ratings yet
Fds SLOT 2
12 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
DALab Part-B BCU&BU
No ratings yet
DALab Part-B BCU&BU
12 pages
2.1 Exploratory Data Analysis Using Python
No ratings yet
2.1 Exploratory Data Analysis Using Python
12 pages
EXP 07 (ML) - Ashu
No ratings yet
EXP 07 (ML) - Ashu
4 pages
ML Lab
No ratings yet
ML Lab
14 pages
Amazing Java: Learn Java Quickly
From Everand
Amazing Java: Learn Java Quickly
Andrei Besedin
No ratings yet
DBMT Notes Online
No ratings yet
DBMT Notes Online
16 pages
DBMS
No ratings yet
DBMS
2 pages
Software Engineernig
No ratings yet
Software Engineernig
4 pages
ML
No ratings yet
ML
2 pages
Evinrude Etec 50 Owners Manual
No ratings yet
Evinrude Etec 50 Owners Manual
92 pages
Modbus-Tcp Funktionsbeschreibung en PDF
No ratings yet
Modbus-Tcp Funktionsbeschreibung en PDF
62 pages
Sunstar Company Profile (2023)
No ratings yet
Sunstar Company Profile (2023)
27 pages
GAD Resolution
No ratings yet
GAD Resolution
5 pages
The Folly of Forced Rankings
No ratings yet
The Folly of Forced Rankings
8 pages
Indian Foreign Service
No ratings yet
Indian Foreign Service
2 pages
How The Market Makers Extract Millions of Dollars A Day and How To Grab Your Share Guide Book
No ratings yet
How The Market Makers Extract Millions of Dollars A Day and How To Grab Your Share Guide Book
136 pages
Sap Senior Application Consultant Hitachi Zosen Inova Ag
No ratings yet
Sap Senior Application Consultant Hitachi Zosen Inova Ag
17 pages
Filtura® Solutions Overview For HVAC Filtration Systems (EN) Copyrights Freudenberg Performance Materials
No ratings yet
Filtura® Solutions Overview For HVAC Filtration Systems (EN) Copyrights Freudenberg Performance Materials
2 pages
Imp Physics
No ratings yet
Imp Physics
14 pages
Ordinary Portland Cement, 33 Grade - Specification: Indian Standard
No ratings yet
Ordinary Portland Cement, 33 Grade - Specification: Indian Standard
12 pages
Office of The Punong Barangay
100% (2)
Office of The Punong Barangay
2 pages
Bonanza A36 Emergency Procedures Q N A
No ratings yet
Bonanza A36 Emergency Procedures Q N A
2 pages
4 Accountability and Non-Accountability (For Single Sala)
No ratings yet
4 Accountability and Non-Accountability (For Single Sala)
2 pages
Insurtech - Innovation in The Insurance Industry
No ratings yet
Insurtech - Innovation in The Insurance Industry
8 pages
Document
No ratings yet
Document
8 pages
Uses of Radioactive Isotopes Student Name
No ratings yet
Uses of Radioactive Isotopes Student Name
5 pages
OzMobile Cychanec@Connect - Ust.hk
No ratings yet
OzMobile Cychanec@Connect - Ust.hk
9 pages
SAHARA - Case Study of Countries and Meeting Challenges
No ratings yet
SAHARA - Case Study of Countries and Meeting Challenges
29 pages
A Technical Explanation of T-Reinforcement For Trusses PDF
No ratings yet
A Technical Explanation of T-Reinforcement For Trusses PDF
5 pages
List of Architects
No ratings yet
List of Architects
9 pages
Chapter 6 - Consolidated Financial Statements (Part 3)
No ratings yet
Chapter 6 - Consolidated Financial Statements (Part 3)
41 pages
0245 PRC 20 DC 0001 - 000 - 00 - Rev.0
No ratings yet
0245 PRC 20 DC 0001 - 000 - 00 - Rev.0
108 pages
Dis W23
No ratings yet
Dis W23
1 page
Tomorrow's Materials Today
No ratings yet
Tomorrow's Materials Today
2 pages
A Qualitative Study - An Exploration of The Use of Emotional Intelligence by Military Leaders in Their Decision-Making Process
No ratings yet
A Qualitative Study - An Exploration of The Use of Emotional Intelligence by Military Leaders in Their Decision-Making Process
24 pages
Icse
No ratings yet
Icse
5 pages
California Legislators Call For Audit of Highlands
100% (1)
California Legislators Call For Audit of Highlands
9 pages
45 Shivi Hal
No ratings yet
45 Shivi Hal
4 pages