0% found this document useful (0 votes)

32 views

Code - Cap 3

Uploaded by

clisman

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views

Code - Cap 3

Uploaded by

clisman

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 5

import os

import calendar
import numpy as np
import networkx as nx
import pandas as pd
from pandas.plotting import scatter_matrix, parallel_coordinates
import seaborn as sns
from sklearn import preprocessing
import matplotlib.pylab as plt

###### 3.2 EXAMPLES #########

#############################
###### load the Boston Housing file
housing_df = pd.read_csv("D:\__UNI_2022_HP\_CC 442_Mineria de Datos\_Semana 1_2_\
BostonHousing.csv")
# rename CAT. MEDV column for easier data handling
housing_df = housing_df.rename(columns={"CAT. MEDV":"CAT_MEDV"})
housing_df.head(9)

####### 3.3 Basic Charts: Bar Charts, Line Graphs, and Scatter Plots ########
#############################################################################
## Load the Amtrak data and convert them to be suitable for time series analysis
Amtrak_df = pd.read_csv("D:\__UNI_2022_HP\_CC 442_Mineria de Datos\_Semana 1_2_\
Amtrak.csv", squeeze=True)
Amtrak_df["Date"] = pd.to_datetime(Amtrak_df.Month, format="%d/%m/%Y")
ridership_ts = pd.Series(Amtrak_df.Ridership.values,index=Amtrak_df.Date)
## Boston housing data
housing_df = pd.read_csv("C:\Python\BostonHousing.csv")
housing_df = housing_df.rename(columns={"CAT. MEDV":"CAT_MEDV"})

### Pandas version

## line graph
ridership_ts.plot(ylim=[1300, 2300], legend=False)
plt.xlabel("Year") # set x-axis label
plt.ylabel("Ridership (in 000s)") # set y-axis label
housing_df.plot.scatter(x="LSTAT", y="MEDV", legend=False)
ax = housing_df.groupby("CHAS").mean().MEDV.plot(kind="bar")
ax.set_ylabel("Avg. MEDV")
dataForPlot = housing_df.groupby("CHAS").mean()["CAT_MEDV"] *100
ax = dataForPlot.plot(kind="bar", figsize=[5, 3])
ax.set_ylabel("Avg. MEDV")

### matplotlib version

## line graph
plt.plot(ridership_ts.index, ridership_ts)
plt.xlabel("Year") # set x-axis label
plt.ylabel("Ridership (in 000s)") # set y-axis label
## Set the color of the points in the scatterplot and draw as open circles.
plt.scatter(housing_df.LSTAT, housing_df.MEDV, color="C2",facecolor="none")
plt.xlabel("LSTAT"); plt.ylabel("MEDV")
## barchart of CHAS vs. mean MEDV
# compute mean MEDV per CHAS = (0, 1)
dataForPlot = housing_df.groupby("CHAS").mean().MEDV
fig, ax = plt.subplots()
ax.bar(dataForPlot.index, dataForPlot, color={"C5", "C1"})
ax.set_xticks((0, 1))
ax.set_xlabel("CHAS")
ax.set_ylabel("Avg. MEDV")
## barchart of CHAS vs. CAT.MEDV
dataForPlot = housing_df.groupby("CHAS").mean()["CAT_MEDV"] *100
fig, ax = plt.subplots()
ax.bar(dataForPlot.index, dataForPlot, color={"C5", "C1"})
ax.set_xticks((0, 1))
ax.set_xlabel("CHAS"); ax.set_ylabel("Avg. MEDV")

########## Distribution Plots: Boxplots and Histograms

################### histogram of MEDV
ax = housing_df.MEDV.hist()
ax.set_xlabel("MEDV"); ax.set_ylabel("count")
# alternative plot with matplotlib
fig, ax = plt.subplots()
ax.hist(housing_df.MEDV)
ax.set_axisbelow(True) # Show the grid lines behind the histogram
ax.grid(which="major", color="grey", linestyle='-')
ax.set_xlabel("MEDV"); ax.set_ylabel("count")
plt.show()
################### boxplot of MEDV for different values of CHAS
ax = housing_df.boxplot(column="MEDV", by="CHAS")
ax.set_ylabel("MEDV")
plt.suptitle("") # Suppress the titles
plt.title("")
# alternative plot with matplotlib
dataForPlot =
[list(housing_df[housing_df.CHAS==0].MEDV),list(housing_df[housing_df.CHAS==1].MEDV
)]
fig, ax = plt.subplots()
ax.boxplot(dataForPlot)
ax.set_xticks((1, 2))
ax.set_xticklabels((0, 1))
ax.set_xlabel("CHAS"); ax.set_ylabel("MEDV")
plt.show()

################## side-by-side boxplots

fig, axes = plt.subplots(nrows=1, ncols=4)
housing_df.boxplot(column="NOX", by="CAT_MEDV", ax=axes[0])
housing_df.boxplot(column="LSTAT", by="CAT_MEDV", ax=axes[1])
housing_df.boxplot(column="PTRATIO", by="CAT_MEDV", ax=axes[2])
housing_df.boxplot(column="INDUS", by="CAT_MEDV", ax=axes[3])
for ax in axes:
ax.set_xlabel("CAT.MEDV")

########## Heatmaps: Visualizing Correlations and Missing Values

################# simple heatmap of correlations (without values)
corr = housing_df.corr()
sns.heatmap(corr, xticklabels=corr.columns,yticklabels=corr.columns)
# Change the colormap to a divergent scale and fix the range of the colormap
sns.heatmap(corr, xticklabels=corr.columns,yticklabels=corr.columns, vmin=-1,
vmax=1, cmap="RdBu")
# Include information about values (example demonstrate how to control the size of
# the plot
fig, ax = plt.subplots()
fig.set_size_inches(11, 7)
sns.heatmap(corr, annot=True, fmt=".1f", cmap="RdBu", center=0,ax=ax)

##### ########### code for generating a heatmap of missing values

df = pd.read_csv(r"D:\__UNI_2022_HP\_CC 442_Mineria de Datos\_Semana 1_2_\
NYPD_Motor_Vehicle_Collisions_1000.csv").sort_values(["DATE"])
# given a dataframe df create a copy of the array that is 0 if a field contains a
# value and 1 for NaN
naInfo = np.zeros(df.shape)
naInfo[df.isna().values] = 1
naInfo = pd.DataFrame(naInfo, columns=df.columns)
fig, ax = plt.subplots()
fig.set_size_inches(13, 9)
ax = sns.heatmap(naInfo, vmin=0, vmax=1, cmap=["white","#666666"], cbar=False,
ax=ax)
ax.set_yticks([])
# draw frame around figure
rect = plt.Rectangle((0, 0), naInfo.shape[1], naInfo.shape[0],linewidth=1,
edgecolor="lightgrey", facecolor="none")
rect = ax.add_patch(rect)
rect.set_clip_on(False)
plt.xticks(rotation=80)

########### 3.4 Multidimensional Visualization ##############################

#############################################################################
######### Adding Variables: Color, Size, Shape, Multiple Panels, and Animation
# Color the points by the value of CAT.MEDV
housing_df.plot.scatter(x="LSTAT", y="NOX", c=["C0" if c == 1 else "C1" for c in
housing_df.CAT_MEDV])
# Plot first the data points for CAT.MEDV of 0 and then of 1
# Setting color to ’none’ gives open circles
_, ax = plt.subplots()
for catValue, color in (0, "C1"), (1, "C0"):
subset_df = housing_df[housing_df.CAT_MEDV == catValue]
ax.scatter(subset_df.LSTAT, subset_df.NOX, color="none",edgecolor=color)
ax.set_xlabel("LSTAT")
ax.set_ylabel("NOX")
ax.legend(["CAT.MEDV 0", "CAT.MEDV 1"])
plt.show()
################## panel plots
# compute mean MEDV per RAD and CHAS
dataForPlot_df = housing_df.groupby(["CHAS","RAD"]).mean()["MEDV"]
# We determine all possible RAD values to use as ticks
ticks = set(housing_df.RAD)
for i in range(2):
for t in ticks.difference(dataForPlot_df[i].index):
dataForPlot_df.loc[(i, t)] = 0
# reorder to rows, so that the index is sorted
dataForPlot_df = dataForPlot_df[sorted(dataForPlot_df.index)]
# Determine a common range for the y axis
yRange = [0, max(dataForPlot_df) * 1.1]
fig, axes = plt.subplots(nrows=2, ncols=1)
dataForPlot_df[0].plot.bar(x="RAD", ax=axes[0], ylim=yRange)
dataForPlot_df[1].plot.bar(x="RAD", ax=axes[1], ylim=yRange)
axes[0].annotate("CHAS = 0", xy=(3.5, 45))
axes[1].annotate("CHAS = 1", xy=(3.5, 45))
plt.show()

# Display scatterplots between the different variables

# The diagonal shows the distribution for each variable
df = housing_df[["CRIM", "INDUS", "LSTAT", "MEDV"]]
axes = scatter_matrix(df, alpha=0.5, figsize=(6, 6),diagonal="kde")
corr = df.corr().as_matrix()
for i, j in zip(*plt.np.triu_indices_from(axes, k=1)):
axes[i, j].annotate(’xycoords=’axes fraction’, ha=’center’,va=’center’)
plt.show()

##### Manipulations: Rescaling, Aggregation and Hierarchies,Zooming, Filtering

################# Rescaling
# Avoid the use of scientific notation for the log axis
plt.rcParams["axes.formatter.min_exponent"] = 4
## scatter plot: regular and log scale
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(7, 4))
# regular scale
housing_df.plot.scatter(x="CRIM", y="MEDV", ax=axes[0])
# log scale
ax = housing_df.plot.scatter(x="CRIM", y="MEDV", logx=True,logy=True, ax=axes[1])
ax.set_yticks([5, 10, 20, 50])
ax.set_yticklabels([5, 10, 20, 50])
plt.tight_layout(); plt.show()
## boxplot: regular and log scale
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(7, 3))
# regular scale
ax = housing_df.boxplot(column="CRIM", by="CAT_MEDV",ax=axes[0])
ax.set_xlabel("CAT.MEDV"); ax.set_ylabel("CRIM")
# log scale
ax = housing_df.boxplot(column="CRIM", by="CAT_MEDV",ax=axes[1])
ax.set_xlabel("CAT.MEDV"); ax.set_ylabel("CRIM");
ax.set_yscale("log")
# suppress the title
axes[0].get_figure().suptitle(""); plt.tight_layout();
plt.show()

########## Aggregation and Hierarchies

fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(10, 7))
Amtrak_df = pd.read_csv("D:\__UNI_2022_HP\_CC 442_Mineria de Datos\_Semana 1_2_\
Amtrak.csv")
Amtrak_df["Month"] = pd.to_datetime(Amtrak_df.Month, format="%d/%m/%Y")
Amtrak_df.set_index("Month", inplace=True)
# fit quadratic curve and display
quadraticFit = np.poly1d(np.polyfit(range(len(Amtrak_df)),Amtrak_df.Ridership, 2))
Amtrak_fit = pd.DataFrame({"fit" : [quadraticFit(t) for t in
range(len(Amtrak_df))]})
Amtrak_fit.index = Amtrak_df.index
ax = Amtrak_df.plot(ylim=[1300, 2300], legend=False, ax=axes[0][0])
Amtrak_fit.plot(ax=ax)
ax.set_xlabel("Year"); ax.set_ylabel("Ridership (in 000s)") #set x and y-axis label
# Zoom in 2-year period
ridership_2yrs = Amtrak_df.loc["1991-01-01":"1992-12-01"]
ax = ridership_2yrs.plot(ylim=[1300, 2300], legend=False,ax=axes[1][0])
ax.set_xlabel("Year"); ax.set_ylabel("Ridership (in 000s)") #set x and y-axis label
# Average by month
byMonth = Amtrak_df.groupby(by=[Amtrak_df.index.month]).mean()
ax = byMonth.plot(ylim=[1300, 2300], legend=False, ax=axes[0][1])
ax.set_xlabel("Month"); ax.set_ylabel("Ridership (in 000s)") #set x and y-axis
label
yticks = [-2.0,-1.75,-1.5,-1.25,-1.0,-0.75,-0.5,-0.25,0.0]
ax.set_xticks(range(1, 13))
ax.set_xticklabels([calendar.month_abbr[i] for i in range(1,13)]);
# Average by year (exclude data from 2004)
byYear = Amtrak_df.loc["1991-01-01":"2003-12-
01"].groupby(pd.Grouper(freq="A")).mean()
ax = byYear.plot(ylim=[1300, 2300], legend=False, ax=axes[1][1])
ax.set_xlabel("Year"); ax.set_ylabel("Ridership (in 000s)") #set x and y-axis label
plt.tight_layout()
plt.show()

Assignment2 DataViz
No ratings yet
Assignment2 DataViz
11 pages
Cm53Xh Operating Manual Contents
86% (14)
Cm53Xh Operating Manual Contents
119 pages
Brick Wall With Grill
No ratings yet
Brick Wall With Grill
6 pages
Matplotlib Pandas Guide
No ratings yet
Matplotlib Pandas Guide
7 pages
matplotlib
No ratings yet
matplotlib
7 pages
Matplotlib Pandas Guide (1)
No ratings yet
Matplotlib Pandas Guide (1)
9 pages
Data Visualization With Python
No ratings yet
Data Visualization With Python
34 pages
Note 2
No ratings yet
Note 2
27 pages
Modulo 8. Data Visualization With Python
No ratings yet
Modulo 8. Data Visualization With Python
30 pages
Visualisation All
0% (1)
Visualisation All
70 pages
Chapter 03 Visualization (R)
No ratings yet
Chapter 03 Visualization (R)
30 pages
DVPD Final Lab Word PDF
No ratings yet
DVPD Final Lab Word PDF
93 pages
Real Estate
No ratings yet
Real Estate
10 pages
Plot Per Columns Features Kde or Normal Distribution Seaborn in Details
No ratings yet
Plot Per Columns Features Kde or Normal Distribution Seaborn in Details
272 pages
DMV Unit-4-1.pdf
No ratings yet
DMV Unit-4-1.pdf
10 pages
Data Visualization using Matplotlib in Python
No ratings yet
Data Visualization using Matplotlib in Python
15 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
2 pages
EDA LAB ASSIGNMENT2
No ratings yet
EDA LAB ASSIGNMENT2
10 pages
DV LAb Staff
No ratings yet
DV LAb Staff
73 pages
Content From Jose Portilla's Udemy Course Learning Python For Data Analysis and Visualization Notes by Michael Brothers, Available On
No ratings yet
Content From Jose Portilla's Udemy Course Learning Python For Data Analysis and Visualization Notes by Michael Brothers, Available On
13 pages
Assignment 2
No ratings yet
Assignment 2
12 pages
Assignment 4 On Visualization On Graph With Solution
No ratings yet
Assignment 4 On Visualization On Graph With Solution
14 pages
Session 13, Data Visualization
No ratings yet
Session 13, Data Visualization
13 pages
Main.py Text File
No ratings yet
Main.py Text File
5 pages
Lab 10
No ratings yet
Lab 10
16 pages
EDA ASSIGNMENT 1
No ratings yet
EDA ASSIGNMENT 1
12 pages
visualization.rst
No ratings yet
visualization.rst
33 pages
Saikat Dey Data Science Project
No ratings yet
Saikat Dey Data Science Project
14 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
Learn_Seaborn_1674064934
No ratings yet
Learn_Seaborn_1674064934
24 pages
Ex - 08 DS
No ratings yet
Ex - 08 DS
11 pages
Practical D.V
No ratings yet
Practical D.V
13 pages
External
No ratings yet
External
11 pages
Advanced Visualization For Data Scientists With Matplotlib
No ratings yet
Advanced Visualization For Data Scientists With Matplotlib
38 pages
DVA Practical
No ratings yet
DVA Practical
19 pages
Data Visualization - New
No ratings yet
Data Visualization - New
5 pages
An Introduction To Seaborn
No ratings yet
An Introduction To Seaborn
42 pages
exp_2_sdk_ok
No ratings yet
exp_2_sdk_ok
18 pages
Matplotlib Cheat Sheet
100% (6)
Matplotlib Cheat Sheet
8 pages
Introductory Notes: Matplotlib: Preliminaries
No ratings yet
Introductory Notes: Matplotlib: Preliminaries
8 pages
Summary: Introduction To Data Visualization Tools
No ratings yet
Summary: Introduction To Data Visualization Tools
13 pages
Pandas Complete + Visualisation Summary of IBM Visualization
No ratings yet
Pandas Complete + Visualisation Summary of IBM Visualization
21 pages
Data Visualization Python Tutorial
No ratings yet
Data Visualization Python Tutorial
9 pages
matplotlib
No ratings yet
matplotlib
5 pages
Be A 65 Ads Exp 2
No ratings yet
Be A 65 Ads Exp 2
10 pages
Unit3
No ratings yet
Unit3
34 pages
Matplotlib_Functions
No ratings yet
Matplotlib_Functions
32 pages
ML Expt 1 Description
No ratings yet
ML Expt 1 Description
15 pages
Exercises Part2
No ratings yet
Exercises Part2
7 pages
iQRcDEQBTHLdcA6Ncp4A_Miuul_Data_Visualization_Cheat_Sheet
No ratings yet
iQRcDEQBTHLdcA6Ncp4A_Miuul_Data_Visualization_Cheat_Sheet
12 pages
matplotlib-cheat-sheet
No ratings yet
matplotlib-cheat-sheet
6 pages
Matplotlib Plots
No ratings yet
Matplotlib Plots
13 pages
Chart Final Class
No ratings yet
Chart Final Class
8 pages
Pierian Data - Python For Finance & Algorithmic Trading Course Notes
No ratings yet
Pierian Data - Python For Finance & Algorithmic Trading Course Notes
11 pages
Data Visualization Using Matplotlib and Seaborn
No ratings yet
Data Visualization Using Matplotlib and Seaborn
28 pages
DAVP Lab Manual
No ratings yet
DAVP Lab Manual
12 pages
Basic Line Plot Using Matplotlib
No ratings yet
Basic Line Plot Using Matplotlib
9 pages
Matplotlib Starter: Import As Import As Import As
No ratings yet
Matplotlib Starter: Import As Import As Import As
24 pages
23bet10114 Naman Gupta Assignment-1
No ratings yet
23bet10114 Naman Gupta Assignment-1
17 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
Application of Power Electronics in Electric Vehicles
No ratings yet
Application of Power Electronics in Electric Vehicles
14 pages
1-2. (CT VT) - 2020
No ratings yet
1-2. (CT VT) - 2020
35 pages
Project CharterGRP4
No ratings yet
Project CharterGRP4
11 pages
Architectural Design Thesis Sample
100% (3)
Architectural Design Thesis Sample
6 pages
BITLY API REFERENCE
No ratings yet
BITLY API REFERENCE
92 pages
M955G 30B
No ratings yet
M955G 30B
56 pages
Ipath3.0: Interactive Pathways Explorer V3: Youssef Darzi, Ivica Letunic, Peer Bork and Takuji Yamada
No ratings yet
Ipath3.0: Interactive Pathways Explorer V3: Youssef Darzi, Ivica Letunic, Peer Bork and Takuji Yamada
4 pages
tech50
No ratings yet
tech50
46 pages
E - Commerce
No ratings yet
E - Commerce
20 pages
Realexam: Most International Real Exam & Valid Exam Braindumps & Dumps Free
No ratings yet
Realexam: Most International Real Exam & Valid Exam Braindumps & Dumps Free
6 pages
Exercises On Transformer (Chapter-3)
No ratings yet
Exercises On Transformer (Chapter-3)
3 pages
Honeywell Modular GasProcessing Plants Brochure
No ratings yet
Honeywell Modular GasProcessing Plants Brochure
8 pages
Instruction To All New Students: Details Form (F-2-59-8-7), Should Also Be Uploaded Online in Soft Below Procedure)
No ratings yet
Instruction To All New Students: Details Form (F-2-59-8-7), Should Also Be Uploaded Online in Soft Below Procedure)
3 pages
Roomie Dylon Mannual
No ratings yet
Roomie Dylon Mannual
25 pages
Tensorflow Vs Pytorch
No ratings yet
Tensorflow Vs Pytorch
10 pages
b 9757 tey
No ratings yet
b 9757 tey
8 pages
4.1-2 Hand Tools and Its Uses
No ratings yet
4.1-2 Hand Tools and Its Uses
14 pages
Airtel Customer Care Number - Google Search 2
No ratings yet
Airtel Customer Care Number - Google Search 2
1 page
Chapter 5 Grade 10 Hardware of The Computer Systemppt
No ratings yet
Chapter 5 Grade 10 Hardware of The Computer Systemppt
53 pages
Unit-1 Flexible Manufacturing Systems
No ratings yet
Unit-1 Flexible Manufacturing Systems
20 pages
Protector Cultivation and Secondary Agriculture Question
100% (1)
Protector Cultivation and Secondary Agriculture Question
2 pages
Intelimains 1010 3.1.0 Datasheet
No ratings yet
Intelimains 1010 3.1.0 Datasheet
5 pages
SCATS Core Brochure Final Web Spreads - 0
No ratings yet
SCATS Core Brochure Final Web Spreads - 0
7 pages
Tieng Anh 8 Friends Plus - Review 7&8 - Test 2 (Key)
100% (1)
Tieng Anh 8 Friends Plus - Review 7&8 - Test 2 (Key)
5 pages
JavaScript Programming Beginner To Professional (BASIC + ADVANCE) GUIDE To LEARN JAVASCRIPT in 7 DAYS (Maurya, Rahul (Maurya, Rahul) ) (Z-Library)
No ratings yet
JavaScript Programming Beginner To Professional (BASIC + ADVANCE) GUIDE To LEARN JAVASCRIPT in 7 DAYS (Maurya, Rahul (Maurya, Rahul) ) (Z-Library)
724 pages
Frequency Converters: Air Cooled
No ratings yet
Frequency Converters: Air Cooled
16 pages
Heat Transfer Coefficients Between Fuel and Cladding in Oxide Fuel Rods
No ratings yet
Heat Transfer Coefficients Between Fuel and Cladding in Oxide Fuel Rods
46 pages
543Q-7 Parts List (2) Bomba Quintuplex (TWM)
No ratings yet
543Q-7 Parts List (2) Bomba Quintuplex (TWM)
121 pages

Code - Cap 3

Uploaded by

Code - Cap 3

Uploaded by

import os

###### 3.2 EXAMPLES #########

### Pandas version

### matplotlib version

########## Distribution Plots: Boxplots and Histograms

################## side-by-side boxplots

########## Heatmaps: Visualizing Correlations and Missing Values

##### ########### code for generating a heatmap of missing values

########### 3.4 Multidimensional Visualization ##############################

# Display scatterplots between the different variables

##### Manipulations: Rescaling, Aggregation and Hierarchies,Zooming, Filtering

########## Aggregation and Hierarchies

You might also like