0% found this document useful (0 votes)

29 views8 pages

Python Code Library

The document provides a comprehensive guide on data analysis and visualization using Python libraries such as Pandas, Matplotlib, and Seaborn. It covers methods for reading data from CSV files, performing exploratory data analysis, and creating various visualizations like histograms, boxplots, and scatter plots. Additionally, it includes sections on machine learning techniques such as linear regression, logistic regression, KNN, and decision trees, along with data preprocessing methods like standardization and normalization.

Uploaded by

Daniel Wu

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

29 views8 pages

Python Code Library

Uploaded by

Daniel Wu

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 8

----------------------------------Coding

Library---------------------------------------------
##Import popular library for EDA/Visualization
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

#Be careful using warnigns

import warnings
warnings.filterwarnings('ignore')

##Read file/get the data (csv/excel)

-----------------------------------------------------------------------------------
-----------
Method 1: Read csv file
df = pd.read_csv('titanic_train.csv')

##Actual file path

df = pd.read_csv('D:\\For Dan\\Learning\\Udemy\\Python\\P4-Demographic-Data.csv')

##Method 2: Change Woring Directory

import os
print(os.getcwd())
-->C:\Users\wooju\Desktop\Python Programing

os.chdir('D:\\For Dan\\Learning\\Udemy\\Python')
df = pd.read_csv('P4-Demographic-Data.csv')

df.columns

##Column rename
stats.columns = ['CountryName', 'CountryCode', 'BirthRate',
'InternetUsers','IncomeGroup']

## [column name] to get the unique items within the column

df.IncomeGroup.unique()

df.info()
df.describe()
##df.describe().transpose()

##Passing the filter with more than 1 conditions ( and & or |)

df[(df.BirthRate >= 40) & (df.InternetUsers < 2)]
df[df.CountryName == 'Malta']

movies.Genre = movies.Genre.astype('category')
----------------------------------Visualization
---------------------------------------------

import seaborn as sns

sns.set_style('darkgrid')
sns.set_style('whitegrid')

plt.rcParams['figure.figsize'] = 8,4
plt.figure(figsize=(8,4))

##Histogram/Distribution
sns.set()
vis1 = sns.distplot(stats['InternetUsers'], hist_kws={"edgecolor":"Black"},
bins=20)
plt.show()

plt.hist(movies.AudienceRatings, bins = 15)

#With filter
h1 = plt.hist(movies[movies.Genre == 'Drama'].BudgetMillion)

##Stacked column chart

listgen = list() or []
listlabel = list() or[]
for gen in movies.Genre.cat.categories:
listgen.append(movies[movies.Genre == gen].BudgetMillion)
listlabel.append(gen)

sns.set_style('darkgrid')
fig, ax = plt.subplots()
fig.set_size_inches(11.7,8.27)
h2 = plt.hist(list1, bins = 20, stacked = True, rwidth = 1, label = listlabel)

#
plt.title('Movie Budget Distribution', fontsize=30)
plt.ylabel('Number of Movies',fontsize=15)
plt.xlabel('Budget',fontsize=15)
plt.yticks(fontsize=15)
plt.xticks(fontsize=15)
plt.legend(frameon = True, fancybox = True, shadow = True, fontsize=15)

plt.show()

##Subplot
f, axes = plt.subplots(1,2,figsize = (12,6), sharex = True, sharey=True)
k3 = sns.kdeplot(movies.BudgetMillion, movies.AudienceRatings,cmap = 'Greens',
ax = axes[0])
k4 = sns.kdeplot(movies.BudgetMillion, movies.CriticRatings,
ax = axes[1])
k3.set(xlim = (-20,160)) #custom x-axis range
plt.show()

##violin plot
w = sns.violinplot(data=movies, x = 'Genre', y = 'CriticRatings')

##Boxplot
sns.set()
vis2 = sns.boxplot(data = stats, x = 'IncomeGroup', y = 'BirthRate')

##Linear Model
vis3 = sns.lmplot(data = stats, x = 'InternetUsers', y = 'BirthRate',
fit_reg = False, hue = 'IncomeGroup', size = 10, aspect=1)

##Jointplot
j = sns.jointplot(data = movies, x = 'CriticRatings', y = 'AudienceRatings')
j = sns.jointplot(data = movies, x = 'CriticRatings', y = 'AudienceRatings',
kind = 'kde')

##FacetGrid
# Controlling Axes and Adding Diagonals
g = sns.FacetGrid(movies, row='Genre', col='YearRelease', hue='Genre')
kws = dict(s=50, edgecolor='black', linewidth=0.5)
g = g.map(plt.scatter, 'CriticRatings', 'AudienceRatings')
g.set(xlim=(0,100), ylim=(20,100))
for ax in g.axes.flat:
ax.plot((0,100),(20,100), c='grey', ls='--')
g.add_legend()

plt.show()
-----------------------------------------------------------------------------------
-----------

#sns.set_style('darkgrid') #white, whitegrid, dard, darkgrid

sns.set_style('dark', {'axes.facecolor':'Black'})
f, axes = plt.subplots(2,2, figsize = (15,15))

k1 = sns.kdeplot(movies.BudgetMillion, movies.AudienceRatings,
shade = True, Shade_lowest = True, cmap='inferno',
ax = axes[0,0])
k1b = sns.kdeplot(movies.BudgetMillion, movies.AudienceRatings, cmap = 'PuBu',
ax = axes[0,0])

k2 = sns.kdeplot(movies.BudgetMillion, movies.CriticRatings,
shade = True, Shade_lowest = True, cmap='inferno',
ax = axes[0,1])
k2b = sns.kdeplot(movies.BudgetMillion, movies.CriticRatings, cmap = 'cool',
ax = axes[0,1])

v = sns.violinplot(data=movies, x = 'YearRelease', y = 'BudgetMillion',

palette='YlOrRd',
ax = axes[1,0])

k4 = sns.kdeplot(movies.CriticRatings, movies.AudienceRatings,
shade = True, shade_lowest = False, cmap = 'Blues_r',
ax = axes[1,1])
k4b = sns.kdeplot(movies.CriticRatings, movies.AudienceRatings, cmap =
'gist_gray_r',
ax = axes[1,1])

k1.set(xlim = (-20,200))
k2.set(xlim = (-20,200))
plt.show()

def myplot(data, playerlist = Players):

Col = {"KobeBryant":'Black',"JoeJohnson":'green',"LeBronJames":'red',
"CarmeloAnthony":'y',"DwightHoward":'k',"ChrisBosh":'m',
"ChrisPaul":'b',"KevinDurant":'k',"DerrickRose":'c',"DwayneWade":'m'}

Mkers = {"KobeBryant":"o","JoeJohnson":"D","LeBronJames":"^",
"CarmeloAnthony":"*","DwightHoward":"v","ChrisBosh":'',
"ChrisPaul":"p","KevinDurant":"D","DerrickRose":"H","DwayneWade":"^"}

for name in playerlist:

plt.plot(data[Pdict[name]], c=Col[name], ls = '--',
Marker = Mkers[name], ms = 8, label = name)

plt.legend(loc = 'upper left', bbox_to_anchor = (1,1))

plt.xticks(list(range(0,10)), Seasons, rotation = 'horizontal')
plt.show()
------------------------------------------Machine
Learning-------------------------------------

----------------LinearRegression
----------------LogisticRegression

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.linear_model import LogisticRegression

lm = LinearRegression(
logmodel = LogisticRegression()

lm.fit(X_train,y_train)
logmodel.fit(X_train,y_train)

predictions = lm.predict(X_test)
predictions = logmodel.predict(X_test)

from sklearn.metrics import confusion_matrix

accuracy = confusion_matrix(y_test,predictions)
from sklearn.metrics import accuracy_score
acscore = accuracy_score(y_test,predictions)

#F1-Score??
from sklearn.metrics import classification_report
print(classification_report(y_test,predictions))

---------------------KNN

from sklearn.preprocessing import StandardScaler

##Standardize
scaler = StandardScaler()
scaler.fit(df.drop('TARGET CLASS', axis=1))
scaled_features = scaler.transform(df.drop('TARGET CLASS', axis=1))

df_feat = pd.DataFrame(scaled_features, columns=df.columns[0:-1])

from sklearn.model_selection import train_test_split

X = df_feat
y = df['TARGET CLASS']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33,
random_state=101)

from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=1)

knn.fit(X_train, y_train)
predictions = knn.predict(X_test)

from sklearn.metrics import classification_report, confusion_matrix

print(confusion_matrix(y_test, predictions))
print(classification_report(y_test, predictions))

##Find the minimum K-value

error_rate = []

for i in range(1,40):

knn = KNeighborsClassifier(n_neighbors=i)
knn.fit(X_train, y_train)
predictions = knn.predict(X_test)
error_rate.append(np.mean(predictions != y_test))

plt.figure(figsize=(10,6))
plt.plot(range(1,40), error_rate, color='blue', linestyle='-', marker='o',
markerfacecolor='red', markersize=10)
plt.title('Error Rate vs K-value')
plt.xlabel('K')
plt.ylabel('K-value')

knn = KNeighborsClassifier(n_neighbors=17)
knn.fit(X_train, y_train)
predictions = knn.predict(X_test)

print(confusion_matrix(y_test, predictions))
print('\n')
print(classification_report(y_test, predictions))

--------------------------------------Decision
Tree-----------------------------------------

X = final_data.drop('not.fully.paid', axis=1)
y = final_data['not.fully.paid']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
random_state=101)
from sklearn.tree import DecisionTreeClassifier
dtree = DecisionTreeClassifier()
dtree.fit(X_train, y_train)

predictions = dtree.predict(X_test)

from sklearn.metrics import classification_report, confusion_matrix

print(confusion_matrix(y_test, predictions))
print('\n')
print(classification_report(y_test, predictions))

from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(n_estimators=200)
rfc.fit(X_train, y_train)

rfc_pred = rfc.predict(X_test)
print(confusion_matrix(y_test, rfc_pred))
print('\n')
print(classification_report(y_test, rfc_pred))

------------------------------Standardisation vs Max-Min
Normalization----------------------------------------------------

Unit/magnitude

Standardisation

#Import library
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
sc_X = sc_X.fit_transform(df)
#Convert to table format - StandardScaler
sc_X = pd.DataFrame(data=sc_X, columns=["Age",
"Salary","Purchased","Country_France","Country_Germany", "Country_spain"])
sc_X

Max-Min Normalization

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(df)
scaled_features = scaler.transform(df)
#Convert to table format - MinMaxScaler
df_MinMax = pd.DataFrame(data=scaled_features, columns=["Age",
"Salary","Purchased","Country_France","Country_Germany", "Country_spain"])

Maths Grade 12 15 August 2025
No ratings yet
Maths Grade 12 15 August 2025
9 pages
COP WFP CHK 01 2013 v1 All Checklists
100% (1)
COP WFP CHK 01 2013 v1 All Checklists
47 pages
8-Step Guide to Effective Gemba Walks
No ratings yet
8-Step Guide to Effective Gemba Walks
10 pages
WILP Brochure
No ratings yet
WILP Brochure
20 pages
Geotech 1 Lecture 2 Structure
No ratings yet
Geotech 1 Lecture 2 Structure
38 pages
Data Download HGM9510 V1.2 en
100% (1)
Data Download HGM9510 V1.2 en
64 pages
OM Unit - III-1
No ratings yet
OM Unit - III-1
29 pages
El112 New Headway-Plus Upper Intermediate Workbook Answer Key PDF
No ratings yet
El112 New Headway-Plus Upper Intermediate Workbook Answer Key PDF
1 page
董运昌《搁浅的心》指弹吉他谱
No ratings yet
董运昌《搁浅的心》指弹吉他谱
7 pages
Data Science Product Questions
No ratings yet
Data Science Product Questions
92 pages
Solar & Crank Emergency Radio Guide
100% (2)
Solar & Crank Emergency Radio Guide
28 pages
PDF Handbook of Pharmaceutical Manufacturing Formulations, Third Edition-Volume Four, Semisolid Products Sarfaraz K. Niazi (Author) Download
100% (3)
PDF Handbook of Pharmaceutical Manufacturing Formulations, Third Edition-Volume Four, Semisolid Products Sarfaraz K. Niazi (Author) Download
53 pages
Near Real Time Fraud Detection With Apac
No ratings yet
Near Real Time Fraud Detection With Apac
87 pages
Fds
No ratings yet
Fds
30 pages
Planmeca
No ratings yet
Planmeca
27 pages
LabVIEW SVPWM for 3-Level Converters
No ratings yet
LabVIEW SVPWM for 3-Level Converters
61 pages
SME Report English
No ratings yet
SME Report English
28 pages
数据科学 Sharon
No ratings yet
数据科学 Sharon
22 pages
Ilovepdf Merged
No ratings yet
Ilovepdf Merged
23 pages
LPM 211 Poultry
No ratings yet
LPM 211 Poultry
214 pages
Experiment No 11
No ratings yet
Experiment No 11
19 pages
Engineer Onboarding Form
No ratings yet
Engineer Onboarding Form
12 pages
Data Visualization
No ratings yet
Data Visualization
70 pages
ML 1-10
No ratings yet
ML 1-10
53 pages
ML Batch
No ratings yet
ML Batch
36 pages
ML
No ratings yet
ML
21 pages
Board of Education Meeting Summary
No ratings yet
Board of Education Meeting Summary
13 pages
Manulife Wellness Account List of Expenses
No ratings yet
Manulife Wellness Account List of Expenses
1 page
Data Manipulation With Python
No ratings yet
Data Manipulation With Python
33 pages
1 s2.0 S1877705812011332 Main
No ratings yet
1 s2.0 S1877705812011332 Main
10 pages
Strata Stratch SQL Question - Hard
No ratings yet
Strata Stratch SQL Question - Hard
9 pages
3D Passwords: Advanced Authentication
No ratings yet
3D Passwords: Advanced Authentication
16 pages
Machine Learning Algorithms Guide
No ratings yet
Machine Learning Algorithms Guide
34 pages
Visualisation All
0% (1)
Visualisation All
70 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
4167 11023 1 PB
No ratings yet
4167 11023 1 PB
11 pages
Data Science Algorithmen Master - 02 Data Handling
No ratings yet
Data Science Algorithmen Master - 02 Data Handling
76 pages
Aayushi ML File
No ratings yet
Aayushi ML File
37 pages
Experiment 1
No ratings yet
Experiment 1
19 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
Accounting Standards (Group-Ii) : AS - 4: Contingencies and Events Occurring After The Balance Sheet Date
No ratings yet
Accounting Standards (Group-Ii) : AS - 4: Contingencies and Events Occurring After The Balance Sheet Date
14 pages
ML Labmanual
No ratings yet
ML Labmanual
33 pages
Machine Learning Lab Assignment 1
No ratings yet
Machine Learning Lab Assignment 1
23 pages
MACHINE LEARNING Manual
No ratings yet
MACHINE LEARNING Manual
36 pages
Effective Data-Driven Campaigning For Credit Cards Target, Attract, Retain and Engage
No ratings yet
Effective Data-Driven Campaigning For Credit Cards Target, Attract, Retain and Engage
7 pages
MLLab Manual
No ratings yet
MLLab Manual
24 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Roll NO 2020
No ratings yet
Roll NO 2020
8 pages
ML Manual
No ratings yet
ML Manual
18 pages
Delhivery Mani
No ratings yet
Delhivery Mani
79 pages
Cotton Association of India
No ratings yet
Cotton Association of India
5 pages
Exp2 - Data Visualization and Cleaning and Feature Selection
No ratings yet
Exp2 - Data Visualization and Cleaning and Feature Selection
13 pages
How To Use Nmap - Commands and Tutorial Guide
No ratings yet
How To Use Nmap - Commands and Tutorial Guide
18 pages
Reading Data: #Importing Required Libraries
No ratings yet
Reading Data: #Importing Required Libraries
16 pages
FDS All Practicals
No ratings yet
FDS All Practicals
10 pages
Important
No ratings yet
Important
12 pages
Lab Programs 1 To 5
No ratings yet
Lab Programs 1 To 5
12 pages
Tanu Raman ML Lab File
No ratings yet
Tanu Raman ML Lab File
21 pages
Assignmnet 5
No ratings yet
Assignmnet 5
11 pages
Data Science Notes
No ratings yet
Data Science Notes
5 pages
Coca Colas Marketing Plan
No ratings yet
Coca Colas Marketing Plan
57 pages
Pantry Evaluation Proposal Internship
No ratings yet
Pantry Evaluation Proposal Internship
6 pages
Fds Slips
No ratings yet
Fds Slips
6 pages
Model Questions Elasticity
No ratings yet
Model Questions Elasticity
3 pages
Data Analyzer
No ratings yet
Data Analyzer
10 pages
Seaborn Final
No ratings yet
Seaborn Final
67 pages
ML Complete Notes Hridoy
No ratings yet
ML Complete Notes Hridoy
5 pages
Code Shabab Error 7
No ratings yet
Code Shabab Error 7
5 pages
RONSAIRO
No ratings yet
RONSAIRO
3 pages
Print Print Print Print: Import As
No ratings yet
Print Print Print Print: Import As
6 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
9 pages
Mentor Interview Questions
No ratings yet
Mentor Interview Questions
3 pages
Lecture Material 3
No ratings yet
Lecture Material 3
7 pages
1
No ratings yet
1
13 pages
Automatic Night Lamp With
No ratings yet
Automatic Night Lamp With
3 pages
ML 7
No ratings yet
ML 7
6 pages
Data Clearning
No ratings yet
Data Clearning
7 pages
05 Pandas
No ratings yet
05 Pandas
12 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Lab Extern L
No ratings yet
Lab Extern L
8 pages
Data Analysis for Beginners
No ratings yet
Data Analysis for Beginners
1 page
S6 - Data Mining Lab Experiments (Except 1)
No ratings yet
S6 - Data Mining Lab Experiments (Except 1)
6 pages
DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages
Michaud Made Orderform
No ratings yet
Michaud Made Orderform
2 pages
Applied Energy Systems
No ratings yet
Applied Energy Systems
2 pages
Pds
No ratings yet
Pds
3 pages
Medical Data ML
No ratings yet
Medical Data ML
6 pages
Class X Practical-2025 - Jupyter Notebook
No ratings yet
Class X Practical-2025 - Jupyter Notebook
6 pages
Exploratory Data Analysis Day 1
No ratings yet
Exploratory Data Analysis Day 1
1 page
Git Editor Change
No ratings yet
Git Editor Change
1 page
Main - Py Text File
No ratings yet
Main - Py Text File
5 pages
Advance Python
No ratings yet
Advance Python
5 pages
ML Short Code - Under Updating
No ratings yet
ML Short Code - Under Updating
4 pages
ML (Sudhanshu)
No ratings yet
ML (Sudhanshu)
24 pages
Deepak Data Analysis 1
No ratings yet
Deepak Data Analysis 1
31 pages
Exp 12 and 15
No ratings yet
Exp 12 and 15
4 pages
1data Cleansing Cheklist
No ratings yet
1data Cleansing Cheklist
2 pages
DAV Guidelines
No ratings yet
DAV Guidelines
4 pages

Python Code Library

Uploaded by

Python Code Library

Uploaded by

----------------------------------Coding

#Be careful using warnigns

##Read file/get the data (csv/excel)

##Actual file path

##Method 2: Change Woring Directory

## [column name] to get the unique items within the column

##Passing the filter with more than 1 conditions ( and & or |)

import seaborn as sns

plt.hist(movies.AudienceRatings, bins = 15)

##Stacked column chart

#sns.set_style('darkgrid') #white, whitegrid, dard, darkgrid

v = sns.violinplot(data=movies, x = 'YearRelease', y = 'BudgetMillion',

def myplot(data, playerlist = Players):

for name in playerlist:

plt.legend(loc = 'upper left', bbox_to_anchor = (1,1))

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import confusion_matrix

from sklearn.preprocessing import StandardScaler

df_feat = pd.DataFrame(scaled_features, columns=df.columns[0:-1])

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import classification_report, confusion_matrix

##Find the minimum K-value

from sklearn.metrics import classification_report, confusion_matrix

from sklearn.ensemble import RandomForestClassifier

from sklearn.preprocessing import MinMaxScaler

You might also like