ADS Exp3

The document outlines an experiment focused on data visualization techniques using the Iris and Titanic datasets, emphasizing the importance of visualizations in understanding data patterns and distributions. It details a step-by-step implementation for loading datasets, creating histograms and boxplots, and identifying outliers. The conclusions drawn highlight the insights gained from the visualizations, showcasing the role of data visualization in informed decision-making.

Uploaded by

abhijaysingh66

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views6 pages

ADS Exp3

Uploaded by

abhijaysingh66

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

Experiment 3: Data Visualization Techniques

Aim: To explore data visualization techniques using the Iris and Titanic datasets. This
includes identifying feature types, creating histograms and boxplots, comparing distributions,
and identifying outliers.

Theory:
Data visualization is a crucial step in data analysis as it helps in understanding patterns, trends, and
distributions. Some common types of visualizations include:
• Univariate Visualization: Examines one variable at a time (e.g., histograms, quartile
distributions).
• Multivariate Visualization: Displays relationships between multiple variables (e.g., scatter
plots, density charts).
• High-Dimensional Data Visualization: Projects multiple variables onto a two-dimensional
space using techniques like parallel coordinates.
Using visualization, we can:
1. Understand data distribution.
2. Identify outliers and anomalies.
3. Detect patterns and relationships between variables.

Step-wise Implementation:

Step 1: Load the Iris Dataset

• Download the Iris dataset from the given URL.
• Load it into a Pandas DataFrame.

Step 2: List Features and Their Types

• Identify feature names and check whether they are numeric or categorical.

Step 3: Create Histograms

• Plot histograms for each feature to analyze their distributions.

Step 4: Create Boxplots

• Generate boxplots to visualize the spread and detect potential outliers.

Step 5: Compare Distributions and Identify Outliers

• Use the IQR method to detect and highlight outliers in the dataset.
Step 6: Load the Titanic Dataset
• Load the inbuilt Titanic dataset using Seaborn.

Step 7: Plot Ticket Price Distribution

• Create a histogram to analyze the distribution of ticket fares.

Step 8: Analyze Age Distribution by Gender and Survival

• Generate a boxplot comparing age distributions across gender and survival status.

Step 9: Draw Inferences

• Summarize insights gained from the visualizations.

CODE :
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Step 1: Load the Iris dataset

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
column_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
iris_df = pd.read_csv(url, names=column_names)

# Step 2: List features and their types

print("Features and their types:")
print(iris_df.dtypes)

# Step 3: Create histograms

iris_df.hist(bins=20, figsize=(12, 8))
plt.suptitle("Histograms of Iris Dataset Features")
plt.show()

# Step 4: Create boxplots

plt.figure(figsize=(12, 8))
sns.boxplot(data=iris_df)
plt.title("Boxplots of Iris Dataset Features")
plt.show()

# Step 5: Compare distributions and identify outliers using IQR method

for feature in iris_df.columns[:-1]:
Q1 = iris_df[feature].quantile(0.25)
Q3 = iris_df[feature].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = iris_df[(iris_df[feature] < lower_bound) | (iris_df[feature] > upper_bound)]
print(f"Outliers in {feature}:", outliers)

# Step 6: Load Titanic dataset

titanic = sns.load_dataset('titanic')

# Step 7: Plot histogram for ticket prices

plt.figure(figsize=(10, 6))
sns.histplot(titanic['fare'], bins=30, kde=True)
plt.title("Distribution of Ticket Prices on Titanic")
plt.xlabel("Fare")
plt.show()

# Step 8: Boxplot for age distribution by gender and survival

plt.figure(figsize=(12, 8))
sns.boxplot(x='sex', y='age', hue='survived', data=titanic)
plt.title("Age Distribution by Gender and Survival on Titanic")
plt.show()
OUTPUT :
Observations:
1. The Iris dataset consists of four numeric features: sepal length, sepal width, petal length, and
petal width.
2. Histograms show that sepal length and width have a normal distribution, while petal length
and width have multiple peaks.
3. Boxplots reveal that sepal width has a wider spread than other features.
4. Using the IQR method, no significant outliers were found in the Iris dataset.
5. The Titanic fare histogram indicates a wide range of ticket prices, with most passengers
paying lower fares.
6. The boxplot analysis of the Titanic dataset shows:
• Female passengers generally had a younger age distribution.
• There are differences in age distributions between survivors and non-survivors,
particularly among males.

Conclusion:
Data visualization plays a crucial role in understanding datasets. By analyzing the Iris and Titanic
datasets, we explored different visualization techniques such as histograms, boxplots, and outlier
detection methods. This experiment demonstrates how visual representations help in identifying
patterns and making informed decisions in data analysis.

Machine Learning (BCSL606) Lab Manual
No ratings yet
Machine Learning (BCSL606) Lab Manual
117 pages
ML Lab Manual
No ratings yet
ML Lab Manual
110 pages
ML Lab Manual Bcsl602
No ratings yet
ML Lab Manual Bcsl602
108 pages
Programming For AI: Exploratory Data Analysis
No ratings yet
Programming For AI: Exploratory Data Analysis
52 pages
Exploratory Data Analysis (EDA) in Python
No ratings yet
Exploratory Data Analysis (EDA) in Python
6 pages
1.1 Univariate Analysis: 1.1.1 Categorical Data
No ratings yet
1.1 Univariate Analysis: 1.1.1 Categorical Data
10 pages
3-Data Description
No ratings yet
3-Data Description
91 pages
CG DADL - 2024 June - Lecture 02
No ratings yet
CG DADL - 2024 June - Lecture 02
64 pages
CH 6
No ratings yet
CH 6
43 pages
Lab Manual - DSR
No ratings yet
Lab Manual - DSR
32 pages
Visualization Techniques
No ratings yet
Visualization Techniques
28 pages
Titanic
No ratings yet
Titanic
22 pages
I2IT DataVisualizationI - JupyterLab
No ratings yet
I2IT DataVisualizationI - JupyterLab
18 pages
Unit 2
No ratings yet
Unit 2
36 pages
DVA Practical
No ratings yet
DVA Practical
19 pages
ML Expt 1 Description
No ratings yet
ML Expt 1 Description
15 pages
Sl-3 Assignment No.8
No ratings yet
Sl-3 Assignment No.8
21 pages
1 Program
No ratings yet
1 Program
20 pages
Assignment2 DMS672
No ratings yet
Assignment2 DMS672
15 pages
3 Data Description
No ratings yet
3 Data Description
87 pages
Experiment No 9
No ratings yet
Experiment No 9
13 pages
Exploring The Titanic Dataset With Python
No ratings yet
Exploring The Titanic Dataset With Python
6 pages
DSBDL Write Ups 8 To 10
No ratings yet
DSBDL Write Ups 8 To 10
7 pages
6) Exploratory Data Analysis
No ratings yet
6) Exploratory Data Analysis
29 pages
DAVP Lab Manual
No ratings yet
DAVP Lab Manual
12 pages
Lecture4 Descriptive Statistics
No ratings yet
Lecture4 Descriptive Statistics
10 pages
Data Visualization Part 2
No ratings yet
Data Visualization Part 2
18 pages
Data Mining: Data Exploration: - Chapter 6
No ratings yet
Data Mining: Data Exploration: - Chapter 6
56 pages
Ahamed 123
100% (1)
Ahamed 123
7 pages
Week 3 Laboratory Activity
No ratings yet
Week 3 Laboratory Activity
7 pages
Assignment
No ratings yet
Assignment
7 pages
Pra 8-1
No ratings yet
Pra 8-1
3 pages
Week-6 DS Practical
No ratings yet
Week-6 DS Practical
12 pages
Gagan Jindali Report
No ratings yet
Gagan Jindali Report
11 pages
9 Data Visualization
No ratings yet
9 Data Visualization
3 pages
Experiment No 8
No ratings yet
Experiment No 8
26 pages
Ass 8 DSBDL
No ratings yet
Ass 8 DSBDL
27 pages
Data Visualization Using Matplotlib in Python
No ratings yet
Data Visualization Using Matplotlib in Python
15 pages
9
No ratings yet
9
4 pages
DSBDA Lab Assignment No 9
No ratings yet
DSBDA Lab Assignment No 9
2 pages
PGM 1
No ratings yet
PGM 1
5 pages
Data Analisis 2
No ratings yet
Data Analisis 2
13 pages
Advance Python Program Unit III
No ratings yet
Advance Python Program Unit III
4 pages
Pythion Assigment
No ratings yet
Pythion Assigment
3 pages
Matplotlib
No ratings yet
Matplotlib
5 pages
Report TSP
No ratings yet
Report TSP
13 pages
Titanic Survival Prediction
No ratings yet
Titanic Survival Prediction
14 pages
Data Mining:: Concepts and Techniques
100% (1)
Data Mining:: Concepts and Techniques
63 pages
Analyst Prep Quants 2024
100% (1)
Analyst Prep Quants 2024
465 pages
Data Science Assignment Submission
No ratings yet
Data Science Assignment Submission
12 pages
Exp 9
No ratings yet
Exp 9
2 pages
Titanic Prediction
No ratings yet
Titanic Prediction
53 pages
Data Visualization With Seaborn PDF
No ratings yet
Data Visualization With Seaborn PDF
12 pages
Exp 10
No ratings yet
Exp 10
2 pages
Exp 8
No ratings yet
Exp 8
2 pages
Plotting
No ratings yet
Plotting
1 page
Mineral Resources of RP
No ratings yet
Mineral Resources of RP
140 pages
HRM - 1st Midterm
100% (1)
HRM - 1st Midterm
81 pages
Hannah Arendt-Banality of Evil
50% (2)
Hannah Arendt-Banality of Evil
2 pages
Laphormur F7 - Rieter Manual
No ratings yet
Laphormur F7 - Rieter Manual
391 pages
Datascienece
No ratings yet
Datascienece
18 pages
Match The Verbs With Its Definition
No ratings yet
Match The Verbs With Its Definition
2 pages
Titanic Data Analysis-Report
No ratings yet
Titanic Data Analysis-Report
4 pages
Guidance and Control of Cannon Launched Guided Projectile-Morrison
100% (1)
Guidance and Control of Cannon Launched Guided Projectile-Morrison
7 pages
DSBDAL - Assignment No 9
No ratings yet
DSBDAL - Assignment No 9
12 pages
Micro Economics II Monopolistic Competition
No ratings yet
Micro Economics II Monopolistic Competition
11 pages
Kamuli District DDP III 2020 - 2025 - 0
No ratings yet
Kamuli District DDP III 2020 - 2025 - 0
233 pages
Jnu Final 6303
No ratings yet
Jnu Final 6303
36 pages
Chapter One 1.1 Background of Study
No ratings yet
Chapter One 1.1 Background of Study
39 pages
2021 - OanhNC - Analysis of PVD With Surcharge Preloading of Hiep Phuoc Clay
No ratings yet
2021 - OanhNC - Analysis of PVD With Surcharge Preloading of Hiep Phuoc Clay
16 pages
Cosmeceuticals Myths and Misconceptions
No ratings yet
Cosmeceuticals Myths and Misconceptions
7 pages
DVP06XA-S Mixed Analog Input-Output Module
No ratings yet
DVP06XA-S Mixed Analog Input-Output Module
2 pages
Strategy Formulation
No ratings yet
Strategy Formulation
17 pages
PDF 24
0% (1)
PDF 24
2 pages
Central University of Haryana: Temporary Camp Office: Govt. B.Ed. College Building, Narnaul (Distt. Mahendergarh) Haryana
No ratings yet
Central University of Haryana: Temporary Camp Office: Govt. B.Ed. College Building, Narnaul (Distt. Mahendergarh) Haryana
7 pages
Technical Specifications / Tender Text Wöhr Autoparksysteme GMBH Parklift 462-2,0 D / 462-2,6 D
No ratings yet
Technical Specifications / Tender Text Wöhr Autoparksysteme GMBH Parklift 462-2,0 D / 462-2,6 D
1 page
TN Budget - INR 75 CR Startup Hub To Be Set Up in Chennai
No ratings yet
TN Budget - INR 75 CR Startup Hub To Be Set Up in Chennai
11 pages
Rachel Dolezal Thesis
100% (2)
Rachel Dolezal Thesis
7 pages
Dynamics Problem Solving
No ratings yet
Dynamics Problem Solving
6 pages
Feature Amhed Farouk R4
No ratings yet
Feature Amhed Farouk R4
11 pages
Intelligent Motion Control Design For An Omnidirectional Conveyor System
No ratings yet
Intelligent Motion Control Design For An Omnidirectional Conveyor System
11 pages
Monocular Depth Estimation Based On Deep Learning An Overview
No ratings yet
Monocular Depth Estimation Based On Deep Learning An Overview
16 pages
Et Zc341 Ec-3r Solution Second Sem 2013-2014
No ratings yet
Et Zc341 Ec-3r Solution Second Sem 2013-2014
9 pages
QMB 6357 Welcome Letter
No ratings yet
QMB 6357 Welcome Letter
4 pages
Seismic Fragility of Transportation Lifeline Piers in The Philippines, Under Confinement and Shear Failure.
No ratings yet
Seismic Fragility of Transportation Lifeline Piers in The Philippines, Under Confinement and Shear Failure.
20 pages
Pharmacy Site File Checklist
No ratings yet
Pharmacy Site File Checklist
7 pages
WEEK 1-2 Individual Report 2019
No ratings yet
WEEK 1-2 Individual Report 2019
4 pages
Published Answer Marks Write A Detailed Account About The Second Pillar of Islam: Prayer (Salat) - Use The AO1 Marking Grid 10
No ratings yet
Published Answer Marks Write A Detailed Account About The Second Pillar of Islam: Prayer (Salat) - Use The AO1 Marking Grid 10
1 page
Thinking Statistically
From Everand
Thinking Statistically
Anthony Banfield
5/5 (1)
Técnicas Estadísticas para la Ciencia de Datos a través de R. Aprendizaje Supervisado: Análisis Discriminante, Árboles de Decisión, Redes Neuronales y Modelos Lineales Generalizados
From Everand
Técnicas Estadísticas para la Ciencia de Datos a través de R. Aprendizaje Supervisado: Análisis Discriminante, Árboles de Decisión, Redes Neuronales y Modelos Lineales Generalizados
César Pérez López
No ratings yet