0% found this document useful (0 votes)

20 views4 pages

Introduction To Pandas - Loading and Exploring Data

Uploaded by

Daniel Mercer

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

20 views4 pages

Introduction To Pandas - Loading and Exploring Data

Uploaded by

Daniel Mercer

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

Lecture Notes: Python Pandas Tutorial - Getting Started with Data Analysis

### Instructor: Corey Schafer

- **Video Duration**: 30 minutes, 12 seconds
- **Published**: May 29, 2018
- **Objective**: Introduce beginners to Pandas, a Python library for data analysis, covering
installation, loading data into DataFrames, and basic data exploration techniques.

---

### 1. Introduction to Pandas (0:00 - 2:30)

- **What is Pandas?**
- Pandas is a Python library for data manipulation and analysis, ideal for handling structured
data (e.g., CSV, Excel, SQL).
- Built on NumPy, it provides data structures like Series (1D) and DataFrame (2D).
- Widely used in data science for cleaning, transforming, and analyzing data.
- **Why Use Pandas?**
- Simplifies working with tabular data compared to raw Python or NumPy.
- Offers powerful tools for data loading, filtering, grouping, and visualization.
- **Target Audience**:
- Beginners with basic Python knowledge (variables, lists, dictionaries).
- Those new to data analysis or transitioning from tools like Excel.

---

### 2. Setting Up Pandas (2:30 - 7:00)

- **Installation**:
- Install Pandas via pip: `pip install pandas`.
- Recommended: Use Anaconda for a pre-configured environment with Pandas, NumPy, and
Jupyter Notebook.
- Download Anaconda: https://www.anaconda.com/
- Install Pandas in Anaconda: `conda install pandas`.
- **Jupyter Notebook**:
- Ideal for interactive data analysis.
- Launch: `jupyter notebook` in terminal/command prompt.
- Create a new notebook for coding.
- **Verifying Installation**:
- Import Pandas: `import pandas as pd`.
- Check version: `pd.__version__` (e.g., outputs `0.23.0` at the time of the video).
- **Environment Setup**:
- Use Jupyter Notebook for following along with the tutorial.
- Ensure NumPy is installed (Pandas dependency): `pip install numpy`.

---
### 3. Loading Data into Pandas (7:00 - 15:00)
- **Dataset Used**: `stack-overflow-developer-survey-2018` (CSV file, available via GitHub or
Kaggle).
- Contains survey data on developers (e.g., salary, programming languages, job satisfaction).
- **Loading Data**:
- Read CSV into a DataFrame: `df = pd.read_csv('survey_results_public.csv')`.
- Path depends on file location (e.g., local directory or URL).
- **Other Input Methods**:
- Excel: `pd.read_excel('file.xlsx')`.
- SQL: `pd.read_sql('query', connection)`.
- JSON: `pd.read_json('file.json')`.
- **Viewing Data**:
- `df.head()`: Displays first 5 rows (or specify `df.head(10)` for 10 rows).
- `df.tail()`: Displays last 5 rows.
- Example: `df.head()` shows columns like `Respondent`, `Hobby`, `OpenSource`, `Country`,
`Salary`.

---

### 4. Basic Data Exploration (15:00 - 25:00)

- **DataFrame Structure**:
- DataFrame is like a spreadsheet with rows (observations) and columns (variables).
- `df.shape`: Returns dimensions (e.g., `(98855, 129)` for 98,855 rows and 129 columns).
- `df.columns`: Lists column names as an Index object.
- **Data Information**:
- `df.info()`: Shows column names, data types (e.g., `object`, `float64`), and non-null counts.
- Example: `Hobby` (object), `Salary` (float64).
- Identifies missing data (e.g., columns with fewer non-null values than total rows).
- **Basic Statistics**:
- `df.describe()`: Summary statistics for numerical columns (e.g., count, mean, min, max).
- Example: `Salary` mean ~$56,000, but many missing values.
- Non-numerical columns (e.g., `Country`) ignored by `describe()`.
- **Accessing Data**:
- Select column: `df['Country']` (returns a Series).
- Select multiple columns: `df[['Country', 'Salary']]` (returns a DataFrame).
- Unique values: `df['Country'].value_counts()` (counts occurrences of each country, e.g., USA:
~20,000 responses).

---

### 5. Practical Example: Exploring the Survey Data (25:00 - 29:00)

- **Goal**: Understand the distribution of respondents by country and salary.
- **Steps**:
1. Load data: `df = pd.read_csv('survey_results_public.csv')`.
2. Check dimensions: `df.shape` → `(98855, 129)`.
3. View column info: `df.info()` (shows many columns with missing data).
4. Country distribution: `df['Country'].value_counts()` → Top countries: USA, India, Germany.
5. Salary stats: `df['Salary'].describe()` → Mean salary ~$56,000, but skewed by missing data.
- **Insight**: Dataset is large and diverse, but missing values (e.g., in `Salary`) require careful
handling in future analysis.

---

### 6. Wrap-Up and Next Steps (29:00 - 30:12)

- **Key Takeaways**:
- Installed Pandas and set up a Jupyter Notebook environment.
- Loaded data into a DataFrame using `pd.read_csv()`.
- Explored data with `head()`, `shape`, `info()`, `describe()`, and `value_counts()`.
- **Next Steps**:
- Watch subsequent parts of the series for advanced Pandas features (e.g., filtering, grouping,
cleaning).
- Practice with the Stack Overflow survey dataset or other CSV files.
- Explore Pandas documentation: https://pandas.pydata.org/docs/
- **Tips**:
- Save Jupyter Notebooks to track code and results.
- Experiment with different datasets to build familiarity.

---

### Code Snippets (for Reference)

```python
# Import Pandas
import pandas as pd

# Check version
print(pd.__version__)

# Load data
df = pd.read_csv('survey_results_public.csv')

# Explore data
print(df.head()) # First 5 rows
print(df.shape) # Dimensions: (98855, 129)
print(df.info()) # Column types and non-null counts
print(df.describe()) # Summary stats for numerical columns
print(df['Country'].value_counts()) # Count unique values in Country column
```
---

### Suggested Title for Notes

**"Getting Started with Pandas: Data Analysis Basics in Python"**

---

### Citation
- Video Source: "Python Pandas Tutorial (Part 1): Getting Started with Data Analysis -
Installation and Loading Data" by Corey Schafer, YouTube, May 29, 2018.

---

Course - Introduction To Data Science (SD211105)
No ratings yet
Course - Introduction To Data Science (SD211105)
10 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
2,3. Introduction Pandas & Matplotlib
No ratings yet
2,3. Introduction Pandas & Matplotlib
32 pages
Data Analysis With Python Core Libraries
No ratings yet
Data Analysis With Python Core Libraries
5 pages
Pandas Training Plan
No ratings yet
Pandas Training Plan
5 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
Pandas Research
No ratings yet
Pandas Research
14 pages
Pandas Dataframe Cheat Sheet
No ratings yet
Pandas Dataframe Cheat Sheet
3 pages
Pandas Library: Data Manipulation & Analysis Guide
No ratings yet
Pandas Library: Data Manipulation & Analysis Guide
9 pages
Pandas
No ratings yet
Pandas
6 pages
Data Handling Module
No ratings yet
Data Handling Module
10 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Pandas
No ratings yet
Pandas
50 pages
3rd Week Report
No ratings yet
3rd Week Report
7 pages
Pandas Tutorial
No ratings yet
Pandas Tutorial
9 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
BasicAnalysis Using PYTHON
No ratings yet
BasicAnalysis Using PYTHON
6 pages
Data Frame
No ratings yet
Data Frame
95 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
FDS Module 2 Notes
No ratings yet
FDS Module 2 Notes
24 pages
Pandas
No ratings yet
Pandas
2 pages
Data Prep & EDA for Python Users
No ratings yet
Data Prep & EDA for Python Users
12 pages
Pandas
No ratings yet
Pandas
13 pages
Pandas Notes
No ratings yet
Pandas Notes
3 pages
Pandas For Python Pro Level Cheat Sheet
No ratings yet
Pandas For Python Pro Level Cheat Sheet
14 pages
Cheat Sheet - Pandas
No ratings yet
Cheat Sheet - Pandas
6 pages
Pandas Complete + Visualisation Summary of IBM Visualization
No ratings yet
Pandas Complete + Visualisation Summary of IBM Visualization
21 pages
Summary: Introduction To Data Visualization Tools
No ratings yet
Summary: Introduction To Data Visualization Tools
13 pages
Pandas For Machine Learning
No ratings yet
Pandas For Machine Learning
10 pages
Data Analysis Python
No ratings yet
Data Analysis Python
3 pages
Pandas Basics Guide
No ratings yet
Pandas Basics Guide
4 pages
Pandas
No ratings yet
Pandas
4 pages
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
Pandas Tutorial 1: Pandas Basics (Reading Data Files, Dataframes, Data Selection)
No ratings yet
Pandas Tutorial 1: Pandas Basics (Reading Data Files, Dataframes, Data Selection)
15 pages
Python Pandas Tutorial For Beginners
No ratings yet
Python Pandas Tutorial For Beginners
203 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
5 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
Pandas Guide
No ratings yet
Pandas Guide
50 pages
Pandas Trampas
No ratings yet
Pandas Trampas
9 pages
Pandas Notes
No ratings yet
Pandas Notes
6 pages
Beginners Guide To Python For Data Analysis
No ratings yet
Beginners Guide To Python For Data Analysis
2 pages
Pandas
No ratings yet
Pandas
25 pages
FDS Exp4
No ratings yet
FDS Exp4
5 pages
Pandas Dataframe All Operations 1735471870
No ratings yet
Pandas Dataframe All Operations 1735471870
4 pages
Dilip PP
No ratings yet
Dilip PP
9 pages
Assignment 1
No ratings yet
Assignment 1
2 pages
Exp3 Python
No ratings yet
Exp3 Python
15 pages
Usage of NumPy For Numerical Data in Detail
No ratings yet
Usage of NumPy For Numerical Data in Detail
52 pages
Pandas
No ratings yet
Pandas
13 pages
Dav 2 Unit
No ratings yet
Dav 2 Unit
55 pages
Python For Data Analysis Notes
No ratings yet
Python For Data Analysis Notes
3 pages
NumPy and Pandas Step
No ratings yet
NumPy and Pandas Step
9 pages
Pandas, Numpy, Matplotlib
No ratings yet
Pandas, Numpy, Matplotlib
11 pages
Pandas Tutorial
No ratings yet
Pandas Tutorial
7 pages
Pandas
No ratings yet
Pandas
26 pages
Monotone Convergence Theorem
No ratings yet
Monotone Convergence Theorem
3 pages
Derivatives of Trigonometric Functions
No ratings yet
Derivatives of Trigonometric Functions
4 pages
Pandas Data Analysis Car Statistics
No ratings yet
Pandas Data Analysis Car Statistics
4 pages
Nestle Job Offer Mabula Pastory Mabula
No ratings yet
Nestle Job Offer Mabula Pastory Mabula
2 pages
Writing For Publication
No ratings yet
Writing For Publication
3 pages
Intercultural Communication and Collaboration
No ratings yet
Intercultural Communication and Collaboration
4 pages
The Place of Theory in Your Dissertation
No ratings yet
The Place of Theory in Your Dissertation
3 pages
31 Tips To Improve Your Academic Writing
No ratings yet
31 Tips To Improve Your Academic Writing
3 pages
Using Advanced Information Skills
No ratings yet
Using Advanced Information Skills
3 pages
Foundations of Trading Without A Bias
No ratings yet
Foundations of Trading Without A Bias
2 pages
Ethical Issues For Practitioner Researchers
No ratings yet
Ethical Issues For Practitioner Researchers
3 pages
Introduction To Educational Research
No ratings yet
Introduction To Educational Research
3 pages
What Is A Literature Review
No ratings yet
What Is A Literature Review
3 pages
Dollar Index and Price Correlation
No ratings yet
Dollar Index and Price Correlation
2 pages
Getriebeprogramm PTO DE
No ratings yet
Getriebeprogramm PTO DE
4 pages
A Simple Technique For Co Registration o
No ratings yet
A Simple Technique For Co Registration o
9 pages
4 Poles Lift
No ratings yet
4 Poles Lift
5 pages
Chapter 4 - Quantitative Warehouse Planning Models (Full)
No ratings yet
Chapter 4 - Quantitative Warehouse Planning Models (Full)
59 pages
Knee ROM & Strength Assessment Guide
No ratings yet
Knee ROM & Strength Assessment Guide
13 pages
Class Xii Physics PPT CH-4
No ratings yet
Class Xii Physics PPT CH-4
12 pages
Av Log
No ratings yet
Av Log
2,642 pages
CCENT Lab 3 1 Enhancing The Initial Security v1.0.1
No ratings yet
CCENT Lab 3 1 Enhancing The Initial Security v1.0.1
32 pages
Unit I Introduction
No ratings yet
Unit I Introduction
51 pages
NSCP 2010 v1 Chapter 7 - Masonry - Final Draft
75% (4)
NSCP 2010 v1 Chapter 7 - Masonry - Final Draft
59 pages
Passage 4
No ratings yet
Passage 4
1 page
UNIT-1 Basic Elements of Automation
No ratings yet
UNIT-1 Basic Elements of Automation
18 pages
S3 Indices Revision Worksheet
No ratings yet
S3 Indices Revision Worksheet
4 pages
UNIT-I Crystal System and
No ratings yet
UNIT-I Crystal System and
39 pages
LMB Economics Class 12 2024
No ratings yet
LMB Economics Class 12 2024
7 pages
Bellville Applied Sciences November 2024 Assessment Timetable
No ratings yet
Bellville Applied Sciences November 2024 Assessment Timetable
2 pages
Gravitation Worksheet
No ratings yet
Gravitation Worksheet
31 pages
Refraction of Light - CK-12 Foundation
No ratings yet
Refraction of Light - CK-12 Foundation
4 pages
Force, Density and Pressure 2
No ratings yet
Force, Density and Pressure 2
30 pages
3
No ratings yet
3
19 pages
Latihan Log Dan Pertidaksamaan
No ratings yet
Latihan Log Dan Pertidaksamaan
2 pages
CN Lab Manual - BCS502 - 2024-25 Final
No ratings yet
CN Lab Manual - BCS502 - 2024-25 Final
64 pages
Rope Run-Out System For GT-550E-1 Parts (Brands San Ver.)
No ratings yet
Rope Run-Out System For GT-550E-1 Parts (Brands San Ver.)
2 pages
RISO Duplicator Option Compatibility Chart V2.0
No ratings yet
RISO Duplicator Option Compatibility Chart V2.0
3 pages
Chapter 4 (Heat Effects)
100% (1)
Chapter 4 (Heat Effects)
67 pages
ESP With Intake Gas Separator - 12 Pages
No ratings yet
ESP With Intake Gas Separator - 12 Pages
12 pages
Stripper Design - PPTX Senior
No ratings yet
Stripper Design - PPTX Senior
32 pages
Foundation Design Using Safe
100% (1)
Foundation Design Using Safe
24 pages
SECTION 16233 Motors & Starters
No ratings yet
SECTION 16233 Motors & Starters
5 pages
Independent Sample T-Test Thesis
100% (2)
Independent Sample T-Test Thesis
5 pages

Introduction To Pandas - Loading and Exploring Data

Uploaded by

Introduction To Pandas - Loading and Exploring Data

Uploaded by

Lecture Notes: Python Pandas Tutorial - Getting Started with Data Analysis

### Instructor: Corey Schafer

### 1. Introduction to Pandas (0:00 - 2:30)

### 2. Setting Up Pandas (2:30 - 7:00)

### 4. Basic Data Exploration (15:00 - 25:00)

### 5. Practical Example: Exploring the Survey Data (25:00 - 29:00)

### 6. Wrap-Up and Next Steps (29:00 - 30:12)

### Code Snippets (for Reference)

### Suggested Title for Notes

You might also like