0% found this document useful (0 votes)

5 views5 pages

Data Analysis With Python

The document provides a comprehensive guide on data analysis using Python, covering topics such as datasets, data preprocessing, exploratory data analysis (EDA), model development, and model evaluation. It includes practical examples using Jupyter Notebook and details on handling missing data, data formatting, and various regression techniques. Additionally, it emphasizes the importance of understanding datasets and provides methods for exporting data in different formats.

Uploaded by

maciej.nienaltowski

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views5 pages

Data Analysis With Python

Uploaded by

maciej.nienaltowski

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Data Analysis with Python

• Datasets

o Exporting to different formats in Python

o Jupyter Notebook: Import data

• Preprocessing Data in Python

o How to deal with missing data

o Data Formatting in Python

o Data Normalization in Python

o Binning

o Turning categorical variables into quantitative variables in Python

o Jupyter Notebook: Preprocessing data

• Exploratory Data Analysis (EDA)

o Descriptive Statistics - Describe()

o Grouping data

▪ groupby

▪ pivot

▪ Heatmap

o Correlation

o Correlation - Statistics

▪ Pearson Correlation

▪ Correlation Heatmap

o Association between two categorical variables: Chi-Square

o Jupyter Notebook: Exploratory Data Analysis (EDA)

• Model Development

o Linear Regression and Multiple Linear Regression

o Model Evaluation using Visualization

▪ Regression Plot

▪ Residual Plot

▪ Distribution Plots
o Polynomial Regression and Pipelines

o Measures for In-Sample Evaluation

▪ Mean Squared Error (MSE)

▪ R-squared

o Jupyter Notebook: Model Development

• Model Evaluation and Refinement

o Function cross_val_score()

o Function cross_val_predict()

o Overfitting, Underfitting and Model Selection

o Ridge Regression

o Grid Search

o Jupyter Notebook: Model Evaluation and Refinement

o Jupyter Notebook: House Sales in King Count USA

Datasets

Understanding Datasets

Data source: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/

Exporting to different formats in Python

Data Format Read Save

csv pd.read_csv() df.to_csv()

json pd.read_json() df.to_json()

Excel pd.read_excel() df.to_excel()

sql pd.read_sql() df.to_sql()

Basic insights from the data

• Understand your data before you begin any analysis

• Should check:

o data types

▪ df.dtypes

o data distribution

▪ df.describe()

▪ df.describe(include="all"), provides full summary statistics

▪ unique

▪ top

▪ freq

• Locate potential issues with the data

o potential info and type mismatch

o compatibility with python methods

Jupyter Notebook: Import data

↥ back to top

Preprocessing Data in Python

• Identify and handle missing values

• Data formatting

• Data normalization (centering / scaling)

• Data binning

• Turning categorical values to numeric variables

How to deal with missing data

• Check with the data collection source

• Drop the missing values

o drop the variable

o drop the data entry

• Replace the missing values

o replace it with an average (of similar datapoints)

o replace it by frequency

o replace it based on other functions

• Leave it as missing data

df.dropna(subset=["price"], axis=0, inplace=True)

is equivalent to

df = df.dropna(subset=["price"], axis=0)

Data Formatting in Python

Non-formatted:

• confusing

• hard to aggregate

• hard to compare

Data Analysis With Python - FreeCodeCamp
No ratings yet
Data Analysis With Python - FreeCodeCamp
26 pages
Pandas For Everyone: Python Data Analysis: Python Data Analysis (Addison-Wesley Data & Analytics Series) - Daniel Y. Chen
No ratings yet
Pandas For Everyone: Python Data Analysis: Python Data Analysis (Addison-Wesley Data & Analytics Series) - Daniel Y. Chen
5 pages
Python Data Science Handbook Python Data Science Handbook
0% (1)
Python Data Science Handbook Python Data Science Handbook
5 pages
Python For DS Cheat Sheet
100% (2)
Python For DS Cheat Sheet
6 pages
Pandas Course Slides
No ratings yet
Pandas Course Slides
90 pages
Units and Measurements PDF
100% (1)
Units and Measurements PDF
25 pages
Explorotary Data Analysis
100% (1)
Explorotary Data Analysis
30 pages
Lesson 2 - Data Preprocessing
100% (1)
Lesson 2 - Data Preprocessing
72 pages
Usmle Review Lecture Epidemiology and Biostats Alaa Elmaoued and Nancy Nguyen
No ratings yet
Usmle Review Lecture Epidemiology and Biostats Alaa Elmaoued and Nancy Nguyen
73 pages
Kohlrausch An Introduction To Physical Measurements (2ed - 1883)
No ratings yet
Kohlrausch An Introduction To Physical Measurements (2ed - 1883)
386 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
10 pages
Data Analysis With Python - FreeCodeCamp PDF
No ratings yet
Data Analysis With Python - FreeCodeCamp PDF
28 pages
Data Analysis With Python: Full Tutorial For Beginners
No ratings yet
Data Analysis With Python: Full Tutorial For Beginners
26 pages
DAL EXT 1 and 2
No ratings yet
DAL EXT 1 and 2
125 pages
Sta2005s Ed
No ratings yet
Sta2005s Ed
165 pages
Soederlind P. Lecture Notes For Econometrics (LN, Stockholm, 2002) (L) (86s) - GL - PDF
No ratings yet
Soederlind P. Lecture Notes For Econometrics (LN, Stockholm, 2002) (L) (86s) - GL - PDF
86 pages
Deb-Kar-33-2017-255-Ppr-Msc Cosmetic Science PDF
No ratings yet
Deb-Kar-33-2017-255-Ppr-Msc Cosmetic Science PDF
28 pages
Module 3 - Ensemble Learning
No ratings yet
Module 3 - Ensemble Learning
178 pages
Python Ds
No ratings yet
Python Ds
22 pages
Week 3 Python
No ratings yet
Week 3 Python
152 pages
Stats Unit1
No ratings yet
Stats Unit1
27 pages
The Data Science Process Course Slides Red
No ratings yet
The Data Science Process Course Slides Red
95 pages
2-11 ANOVA Analysis of Variance
No ratings yet
2-11 ANOVA Analysis of Variance
81 pages
Supervised Machine Learning - Linear Regression
No ratings yet
Supervised Machine Learning - Linear Regression
92 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
26 pages
ANL252 SU4 Jul2022
No ratings yet
ANL252 SU4 Jul2022
55 pages
ProSta Chap4 MI2036
No ratings yet
ProSta Chap4 MI2036
77 pages
8643 50 354 Module 5 2 Data Visualization and Pandas
No ratings yet
8643 50 354 Module 5 2 Data Visualization and Pandas
85 pages
Data Preprocessing
No ratings yet
Data Preprocessing
84 pages
Final Dev Record
No ratings yet
Final Dev Record
49 pages
DS Final
No ratings yet
DS Final
46 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
29 pages
Data Science
No ratings yet
Data Science
42 pages
Tutorial Stat 322 PDF
No ratings yet
Tutorial Stat 322 PDF
58 pages
DSBDA Lab Manual24-25
No ratings yet
DSBDA Lab Manual24-25
58 pages
01 Python For Data Analysis (Ziad)
No ratings yet
01 Python For Data Analysis (Ziad)
53 pages
Data Science Practicals
No ratings yet
Data Science Practicals
47 pages
Data Analysis
No ratings yet
Data Analysis
42 pages
2A - Python+Data Analysis For Pyhton2 v2
No ratings yet
2A - Python+Data Analysis For Pyhton2 v2
38 pages
CSE445 NSU Week - 3
No ratings yet
CSE445 NSU Week - 3
48 pages
Wa0005.
No ratings yet
Wa0005.
29 pages
Python Course Outline
No ratings yet
Python Course Outline
24 pages
Pandas Complete + Visualisation Summary of IBM Visualization
No ratings yet
Pandas Complete + Visualisation Summary of IBM Visualization
21 pages
Pandas Numpy Handing Data
No ratings yet
Pandas Numpy Handing Data
32 pages
Efficient Data Preparation: With Python
No ratings yet
Efficient Data Preparation: With Python
19 pages
PSF Extractor
No ratings yet
PSF Extractor
31 pages
Python - Scientific Functions
No ratings yet
Python - Scientific Functions
24 pages
Accepted Manuscript: Research in International Business and Finance
No ratings yet
Accepted Manuscript: Research in International Business and Finance
27 pages
Gratis Exam
No ratings yet
Gratis Exam
30 pages
Summary: Introduction To Data Visualization Tools
No ratings yet
Summary: Introduction To Data Visualization Tools
13 pages
Chap012 - 9 Juli
No ratings yet
Chap012 - 9 Juli
19 pages
PK of Missed Dose
No ratings yet
PK of Missed Dose
18 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
InverseTheory EarthquakeLocation
No ratings yet
InverseTheory EarthquakeLocation
20 pages
Pandas 1
No ratings yet
Pandas 1
13 pages
Q.1 Explain Process of Working With Data From Files in Data Science
No ratings yet
Q.1 Explain Process of Working With Data From Files in Data Science
20 pages
6.2 Students - T Test
No ratings yet
6.2 Students - T Test
15 pages
Comprehensive EDA Python Guide
No ratings yet
Comprehensive EDA Python Guide
13 pages
S08 Slides
No ratings yet
S08 Slides
14 pages
1.2. Data Analysis With Python - Importing Datasets 2
No ratings yet
1.2. Data Analysis With Python - Importing Datasets 2
14 pages
Data Exploration and Analysis With Python
No ratings yet
Data Exploration and Analysis With Python
9 pages
J Vet Emergen Crit Care - 2023 - Holowaychuk - Burnout Symptoms and Workplace Satisfaction Among Veterinary Emergency Care
No ratings yet
J Vet Emergen Crit Care - 2023 - Holowaychuk - Burnout Symptoms and Workplace Satisfaction Among Veterinary Emergency Care
12 pages
ISLR
No ratings yet
ISLR
9 pages
Drill-Holes and Blast-Holes: Serge Antoine Séguret and Sebastian de La Fuente
No ratings yet
Drill-Holes and Blast-Holes: Serge Antoine Séguret and Sebastian de La Fuente
14 pages
Course - Introduction To Data Science (SD211105)
No ratings yet
Course - Introduction To Data Science (SD211105)
10 pages
Mathematical Modelling of Engineering Problems: Received: 2 October 2018 Accepted: 23 November 2018
No ratings yet
Mathematical Modelling of Engineering Problems: Received: 2 October 2018 Accepted: 23 November 2018
6 pages
Experiment No. 1
No ratings yet
Experiment No. 1
5 pages
Q.1 Explain Process of Working With Data From Files in Data Science
No ratings yet
Q.1 Explain Process of Working With Data From Files in Data Science
10 pages
Student Midterm Final Exam
No ratings yet
Student Midterm Final Exam
11 pages
Just Give Me The Codes Lecture 2: Data Importation: Goals: Import Data Into Jupyterlab View The Dataset
No ratings yet
Just Give Me The Codes Lecture 2: Data Importation: Goals: Import Data Into Jupyterlab View The Dataset
9 pages
Common Python Data Science Interview Questions1
No ratings yet
Common Python Data Science Interview Questions1
5 pages
Prac 7
No ratings yet
Prac 7
5 pages
Python Basics - Hamza Zahoor
No ratings yet
Python Basics - Hamza Zahoor
6 pages
Python Quick Notes
No ratings yet
Python Quick Notes
2 pages
Data Analysis Python
No ratings yet
Data Analysis Python
3 pages
1
No ratings yet
1
3 pages
Python Topics For Data Analyst
No ratings yet
Python Topics For Data Analyst
2 pages
Network Traffic Classification With Improved Random Forest
No ratings yet
Network Traffic Classification With Improved Random Forest
4 pages
Residual Plots For EFFECT: Normal Probability Plot Versus Fits
No ratings yet
Residual Plots For EFFECT: Normal Probability Plot Versus Fits
4 pages
Answers:: Fin1131/Fin3154 First Semester, AY 2020-2021 Laboratory Activity 3
No ratings yet
Answers:: Fin1131/Fin3154 First Semester, AY 2020-2021 Laboratory Activity 3
4 pages
Interpreting Linear Regression
No ratings yet
Interpreting Linear Regression
3 pages
Statistics Exam 2024
No ratings yet
Statistics Exam 2024
3 pages
Tech-Guide (PDF - Io)
No ratings yet
Tech-Guide (PDF - Io)
2 pages
Model Variables Entered Variables Removed Method 1 Wat, VLT - Enter A. All Requested Variables Entered. B. Dependent Variable: RC
No ratings yet
Model Variables Entered Variables Removed Method 1 Wat, VLT - Enter A. All Requested Variables Entered. B. Dependent Variable: RC
2 pages
Assignment 1
No ratings yet
Assignment 1
2 pages
Importing Data Cheat Sheet Python For Data Science: Pickled Files Exploring Your Data
No ratings yet
Importing Data Cheat Sheet Python For Data Science: Pickled Files Exploring Your Data
1 page
Illuminating Data: A hands on guide to data visualization in R
From Everand
Illuminating Data: A hands on guide to data visualization in R
Eman Ahmad
No ratings yet
Técnicas Estadísticas para la Ciencia de Datos a través de R. Aprendizaje Supervisado: Análisis Discriminante, Árboles de Decisión, Redes Neuronales y Modelos Lineales Generalizados
From Everand
Técnicas Estadísticas para la Ciencia de Datos a través de R. Aprendizaje Supervisado: Análisis Discriminante, Árboles de Decisión, Redes Neuronales y Modelos Lineales Generalizados
César Pérez López
No ratings yet

Data Analysis With Python

Uploaded by

Data Analysis With Python

Uploaded by

Data Analysis with Python

o Exporting to different formats in Python

o Jupyter Notebook: Import data

• Preprocessing Data in Python

o How to deal with missing data

o Data Formatting in Python

o Data Normalization in Python

o Turning categorical variables into quantitative variables in Python

o Jupyter Notebook: Preprocessing data

• Exploratory Data Analysis (EDA)

o Descriptive Statistics - Describe()

o Association between two categorical variables: Chi-Square

o Jupyter Notebook: Exploratory Data Analysis (EDA)

o Linear Regression and Multiple Linear Regression

o Model Evaluation using Visualization

o Measures for In-Sample Evaluation

▪ Mean Squared Error (MSE)

o Jupyter Notebook: Model Development

• Model Evaluation and Refinement

o Overfitting, Underfitting and Model Selection

o Jupyter Notebook: Model Evaluation and Refinement

o Jupyter Notebook: House Sales in King Count USA

Data source: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/

Data Format Read Save

csv pd.read_csv() df.to_csv()

json pd.read_json() df.to_json()

Excel pd.read_excel() df.to_excel()

sql pd.read_sql() df.to_sql()

Basic insights from the data

• Understand your data before you begin any analysis

▪ df.describe(include="all"), provides full summary statistics

• Locate potential issues with the data

o compatibility with python methods

Jupyter Notebook: Import data

Preprocessing Data in Python

• Identify and handle missing values

• Data normalization (centering / scaling)

• Turning categorical values to numeric variables

How to deal with missing data

• Check with the data collection source

• Drop the missing values

o drop the variable

o drop the data entry

• Replace the missing values

o replace it with an average (of similar datapoints)

o replace it based on other functions

• Leave it as missing data

df.dropna(subset=["price"], axis=0, inplace=True)

Data Formatting in Python

You might also like