Vanakam Bro

This document analyzes penguin size data from a CSV file. It explores the data distribution, visualizes relationships between variables, and imputes missing values. A variety of data visualization and analysis techniques are applied including ECDFs, box plots, pair plots, and summary statistics.

Uploaded by

JeYesh AJ

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views3 pages

Vanakam Bro

Uploaded by

JeYesh AJ

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

# -- coding: utf-8 --

"""ASS 03.ipynb

Automatically generated by Colaboratory.

Original file is located at

https://colab.research.google.com/drive/1RX0dQAWd5l79JPyqHedCp_mi6Il4aU93
"""

# Commented out IPython magic to ensure Python compatibility.

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt #simple data visualization
# %matplotlib inline
import seaborn as sns #some advanced data visualizations
import warnings
warnings.filterwarnings(’ignore’) # to get rid of warnings
plt.style.use(’seaborn-white’) #defining desired style of viz

import os
for dirname, _, filenames in os.walk(’/kaggle/input’):
for filename in filenames:
print(os.path.join(dirname, filename))

"""# New Section"""

from google.colab import drive

drive.mount(’/content/drive’)

df = pd.read_csv(’/content/penguins_size.csv’)
original = df.copy()

print(’Dataset has’, df.shape[0] , ’rows and’, df.shape[1], ’columns’)

df.info()

df.describe()

df.isnull().sum()

df.head(10)

plt.rcParams[’figure.figsize’] = (10,7)

df[’species’].value_counts(normalize = True).plot(kind = ’bar’, color = ’seagreen’, linewidth = 1, edgecolor

= ’k’)
plt.title(’Penguin Species’)
plt.xlabel(’Species’)
plt.ylabel(’% (100s)’)
plt.xticks(rotation = 360)
plt.show()

df[’island’].value_counts(normalize = True).plot(kind = ’bar’, color = ’seagreen’, linewidth = 1, edgecolor = ’

k’)
plt.title(’Islands where Penguins live’)
plt.xlabel(’Island’)
plt.ylabel(’% (100s)’)
plt.xticks(rotation = 360)
plt.show()

df[’sex’].value_counts(normalize = True).plot(kind = ’bar’, color = ’seagreen’, linewidth = 1, edgecolor = ’k’)

plt.title(’Penguins - Sex’)
plt.xlabel(’Sex’)
plt.ylabel(’% (100s)’)
plt.xticks(rotation = 360)
plt.show()

def ecdf(x):
n = len(x)
a = np.sort(x)
b = np.arange(1, 1 + n) / n
plt.subplot(211)
plt.plot(a, b, marker = ’.’, linestyle = ’None’, c = ’seagreen’)
mean_x = np.mean(x)
plt.axvline(mean_x, c = ’k’, label = ’Mean’)
plt.title(’ECDF’)
plt.legend()
plt.show()
plt.subplot(212)
sns.distplot(x, color = ’r’)
plt.title(’Probability Density Function’)
plt.show()

ecdf(df[’culmen_length_mm’])

ecdf(df[’culmen_depth_mm’])

ecdf(df[’flipper_length_mm’])

ecdf(df[’body_mass_g’])

def box(f):
sns.boxplot(y = f, x = ’species’, hue = ’sex’,data = df)
plt.title(f)
plt.show()

box(’culmen_length_mm’)

box(’culmen_depth_mm’)

box(’flipper_length_mm’)

box(’body_mass_g’)

sns.pairplot(df, hue = ’species’)

plt.show()

new_df = original.copy()
new_df[’culmen_length_mm’].fillna(np.mean(original[’culmen_length_mm’]), inplace = True)
new_df[’culmen_depth_mm’].fillna(np.mean(original[’culmen_depth_mm’]), inplace = True)
new_df[’flipper_length_mm’].fillna(np.mean(original[’flipper_length_mm’]), inplace = True)
new_df[’body_mass_g’].fillna(np.mean(original[’body_mass_g’]), inplace = True)
new_df[’sex’].fillna(original[’sex’].mode()[0], inplace = True)

new_df.head()

new_df.isnull().sum()

Fds Mannual
No ratings yet
Fds Mannual
39 pages
Content From Jose Portilla's Udemy Course Learning Python For Data Analysis and Visualization Notes by Michael Brothers, Available On
No ratings yet
Content From Jose Portilla's Udemy Course Learning Python For Data Analysis and Visualization Notes by Michael Brothers, Available On
13 pages
Data Visualization and Matplot
No ratings yet
Data Visualization and Matplot
11 pages
Nadya Faudilla - 1806198471 - Geologi Komputasi 5 Dan 6 - Jupyter Notebook
No ratings yet
Nadya Faudilla - 1806198471 - Geologi Komputasi 5 Dan 6 - Jupyter Notebook
9 pages
Distributions Demo
No ratings yet
Distributions Demo
28 pages
PML Ex3
No ratings yet
PML Ex3
20 pages
Data Visulization Notes
No ratings yet
Data Visulization Notes
3 pages
Roll NO 2020
No ratings yet
Roll NO 2020
8 pages
Penguin Exercise Print
No ratings yet
Penguin Exercise Print
12 pages
Numpy, Pandas & Visualisation Test
No ratings yet
Numpy, Pandas & Visualisation Test
3 pages
Scipy - Stats.norm - SciPy v1.11.2 Manual
No ratings yet
Scipy - Stats.norm - SciPy v1.11.2 Manual
3 pages
KRAI LabManual
No ratings yet
KRAI LabManual
77 pages
FDS All Practicals
No ratings yet
FDS All Practicals
10 pages
EXP 07 (ML) - Darshu
No ratings yet
EXP 07 (ML) - Darshu
4 pages
EXP 07 (ML) - Ashu
No ratings yet
EXP 07 (ML) - Ashu
4 pages
EXP 07 (ML) - Sarthak
No ratings yet
EXP 07 (ML) - Sarthak
4 pages
Fds Slips
No ratings yet
Fds Slips
6 pages
Python Course Cheat Sheet
No ratings yet
Python Course Cheat Sheet
30 pages
Data Visualization With Maplotlib
No ratings yet
Data Visualization With Maplotlib
8 pages
Data Visualization Lab3
No ratings yet
Data Visualization Lab3
23 pages
Exp 07 (ML)
No ratings yet
Exp 07 (ML)
4 pages
EDA QUIZ Solution
No ratings yet
EDA QUIZ Solution
2 pages
MLRecord
No ratings yet
MLRecord
24 pages
Lab Manual
No ratings yet
Lab Manual
32 pages
DevRes wk1-2
No ratings yet
DevRes wk1-2
6 pages
Hypothesis Testing PDF
No ratings yet
Hypothesis Testing PDF
9 pages
Tarea - 1.ipynb - Colab Jose
No ratings yet
Tarea - 1.ipynb - Colab Jose
12 pages
Interactive Class
No ratings yet
Interactive Class
3 pages
Print Print Print Print: Import As
No ratings yet
Print Print Print Print: Import As
6 pages
Iris - Ipynb - Colaboratory
No ratings yet
Iris - Ipynb - Colaboratory
8 pages
Data Visualization
No ratings yet
Data Visualization
70 pages
ML Lab File
No ratings yet
ML Lab File
43 pages
Indexml Merged
No ratings yet
Indexml Merged
32 pages
25 - Assignment10.ipynb - Colaboratory
No ratings yet
25 - Assignment10.ipynb - Colaboratory
13 pages
Ex-13 Data Science
No ratings yet
Ex-13 Data Science
11 pages
Minorexp 7
No ratings yet
Minorexp 7
8 pages
AD3411
No ratings yet
AD3411
28 pages
Ai Lab 01
No ratings yet
Ai Lab 01
6 pages
Vicky Patil - Practical - 9 - Colab
No ratings yet
Vicky Patil - Practical - 9 - Colab
4 pages
CS-3361-Data-science-lab Manual
No ratings yet
CS-3361-Data-science-lab Manual
36 pages
Exp 4 Statistical Data Analysis With Python SDK Ok
No ratings yet
Exp 4 Statistical Data Analysis With Python SDK Ok
18 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
FDS Slips Solution
No ratings yet
FDS Slips Solution
7 pages
FDSA Lab Manual
No ratings yet
FDSA Lab Manual
27 pages
Sample
No ratings yet
Sample
1 page
Dsa 1
No ratings yet
Dsa 1
8 pages
Mayank Chaudhary DEV Practicals
No ratings yet
Mayank Chaudhary DEV Practicals
14 pages
MLDL Ass-1 - 09-Jaywant
No ratings yet
MLDL Ass-1 - 09-Jaywant
7 pages
ML Expt 2
No ratings yet
ML Expt 2
5 pages
Experimenting With Data Analysis Packages and Statistical Operations
No ratings yet
Experimenting With Data Analysis Packages and Statistical Operations
18 pages
1 10
No ratings yet
1 10
4 pages
Dav Lab Manual
No ratings yet
Dav Lab Manual
28 pages
Nandini Matplotlib Ws
No ratings yet
Nandini Matplotlib Ws
10 pages
ML LabReport Final Index Edited
No ratings yet
ML LabReport Final Index Edited
35 pages
Exp 5,6,7
No ratings yet
Exp 5,6,7
2 pages
ML Lab Manual
No ratings yet
ML Lab Manual
23 pages
Lecture Slides Slides 9
No ratings yet
Lecture Slides Slides 9
2 pages
Lab 20
No ratings yet
Lab 20
4 pages