0% found this document useful (0 votes)

30 views12 pages

Introduction To Pandas in Data Analytics

Introduction To Pandas In Data Analytics

Uploaded by

Wael Aly

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

30 views12 pages

Introduction To Pandas in Data Analytics

Introduction To Pandas In Data Analytics

Uploaded by

Wael Aly

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 12

Introduction to

Pandas in Data
Analytics
Pandas DataFrame is an essential tool for data analysis in Python, offering
a powerful and flexible tabular data structure.

1 Labeled Axes
Pandas DataFrame provides a two-dimensional, size-mutable, and
potentially heterogeneous tabular data structure with labeled rows
and columns.

2 Data Analysis
Commonly used alongside NumPy and Matplotlib for
comprehensive data manipulation and visualization.

3 Essential for Python

Pandas DataFrame is a core component of the Python data analysis
ecosystem.

python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
Loading Data into a
DataFrame
Methods for loading data from various sources into a DataFrame. Code
Snippets:

From CSV
df_csv = pd.read_csv('file.csv')

From Excel
df_excel = pd.read_excel('file.xlsx', sheet_name='Sheet1')

From MySQL
import sqlalchemy engine =
sqlalchemy.create_engine('mysql://username:password@localhost/dbnam
e')

df_sql = pd.read_sql_table('table_name', engine)

DataFrame and Series Objects
DataFrame: A two-dimensional table with labeled axes. Series: A one-dimensional array with labels. Index objects:
Immutable array implementing an ordered, sliceable set.

Example DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

Example Series
s = pd.Series([1, 2, 3])
Working with Rows and
Columns
Content: Accessing and manipulating rows and columns. Selecting, adding, and deleting rows and columns.

Selecting a column

df['A']

Adding a new column

df['C'] = df['A'] + df['B']

Deleting a column

df.drop('C', axis=1, inplace=True)

Selecting rows

df.loc[0] # First row df.iloc[0] # First row by position

Indexing and Selecting Data

Content: Indexing with .loc, .iloc, and .ix. Vectorized arithmetic operations.

Using .loc

df.loc[0:1, ['A', 'B']]

Using .iloc

df.iloc[0:1, 0:2]

Vectorized operations

df['A'] + df['B']
Filtering and Filtering
Grouping filtered = df[df['A'] > 1]

Content:
Grouping
Filtering functions and grouping by row index.

grouped = df.groupby('A').sum()
Merging DataFrames Title: Merging
DataFrames
Merging DataFrames using pd.merge(). Types of joins: inner, outer, left, right. Code Snippets:

Creating two DataFrames

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})

df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

Inner join
inner_merge = pd.merge(df1, df2, on='key', how='inner')

Outer join
outer_merge = pd.merge(df1, df2, on='key', how='outer')

Left join
left_merge = pd.merge(df1, df2, on='key', how='left')

Right join
right_merge = pd.merge(df1, df2, on='key', how='right')

Concatenating DataFrames Title: Concatenating DataFrames

Concatenating DataFrames using pd.concat(). Concatenating along rows and columns. Code Snippets:

Concatenating along rows

concat_rows = pd.concat([df1, df2])

Concatenating along columns

concat_cols = pd.concat([df1, df2], axis=1)
Joining DataFrames Title: Joining
DataFrames
Joining DataFrames using df.join(). Different types of joins: inner, outer, left, right.

Code Snippets:

Creating two DataFrames with different

indexes
df1 = pd.DataFrame({'value1': [1, 2, 3]}, index=['A', 'B', 'C'])

df2 = pd.DataFrame({'value2': [4, 5, 6]}, index=['B', 'C', 'D'])

Joining DataFrames
joined_df = df1.join(df2, how='inner')

Grouping and Aggregating Data Title: Grouping and

Aggregating Data
Grouping data using df.groupby(). Aggregating data using sum, mean, count, etc.

Code Snippets:

Creating a DataFrame
df = pd.DataFrame({ 'Category': ['A', 'B', 'A', 'B'], 'Value': [10, 20, 30, 40] })

Grouping by 'Category' and calculating

sum
grouped_sum = df.groupby('Category').sum()

Grouping by 'Category' and calculating

multiple aggregations
grouped_agg = df.groupby('Category').agg({'Value': ['sum', 'mean', 'count']})
Filtering Data Title: Filtering Data
Filtering data using conditions. Using df.query() for SQL-like queries.

Code Snippets:

Filtering with conditions

filtered_df = df[df['Value'] > 20]

Using query
filtered_query = df.query('Value > 20')

Sorting Data Title: Sorting Data

Sorting data using df.sort_values() and df.sort_index().

Code Snippets:

Sorting by values
sorted_values = df.sort_values(by='Value')

Sorting by index
sorted_index = df.sort_index()

Handling Missing Data Title: Handling Missing Data

Handling missing data with df.isna(), df.dropna(), and df.fillna().

Code Snippets:

Creating a DataFrame with missing values

df_missing = pd.DataFrame({ 'A': [1, np.nan, 3], 'B': [4, 5, np.nan] })

Checking for missing values

missing_values = df_missing.isna()

Dropping missing values

dropped_na = df_missing.dropna()

Filling missing values

filled_na = df_missing.fillna(0)
Saving and Exporting
DataFrames
Content:

Saving DataFrames to various formats. Code Snippets:

To CSV
df.to_csv('output.csv')

To Excel
df.to_excel('output.xlsx', sheet_name='Sheet1')

To Python dictionary
df_dict = df.to_dict()

To string
df_str = df.to_string()

To MySQL
df.to_sql('table_name', engine)

DataFrame Attributes and

Methods
Non-indexing attributes. Utility methods. Code Snippets:

Non-indexing attributes
df.T

df.axes

df.dtypes

df.empty

df.ndim

df.shape

df.size

df.values

Utility methods
df_copy = df.copy()

df_ranked = df.rank()

df_sorted = df.sort_values(by='A')

df = df.astype({'A': 'float64'})
Iterating Over DataFrames Title: Iterating
Over DataFrames
Methods for iterating over DataFrames.

Iterating over columns

for label, content in df.iteritems():

print(label, content)

Iterating over rows

for index, row in df.iterrows():

print(index, row)

Working with Dates and Times Title: Working with

Dates and Time
Timestamps and Periods. Handling time zones, date ranges, and period frequencies. Code Snippets:

Timestamps
ts = pd.Timestamp('2023-01-01')

Periods
period = pd.Period('2023-01')

Date range
date_range = pd.date_range('2023-01-01', periods=10)

Period range
period_range = pd.period_range('2023-01', periods=10, freq='M')

Pivot Tables and Reshaping Data Title: Pivot Tables

and Reshaping Data
Pivoting, melting, and unstacking. Code Snippets:

Pivot table
pivot = df.pivot_table(values='A', index='B', columns='C')

Melting
melted = pd.melt(df, id_vars=['A'], value_vars=['B', 'C'])

Unstacking
unstacked = df.unstack()
Slide 13: Time Series Data Title: Time Series
Data
Handling time series data with DatetimeIndex and PeriodIndex. Upsampling, downsampling, and resampling. Code
Snippets:

DatetimeIndex
dt_index = pd.DatetimeIndex(['2023-01-01', '2023-01-02'])

PeriodIndex
period_index = pd.PeriodIndex(['2023-01', '2023-02'], freq='M')

Resampling
resampled = df.resample('M').mean()

Additional Tips and Tricks Title: Additional Tips and

Tricks
Miscellaneous tips for working with DataFrames. Code Snippets:

Value counts
value_counts = df['A'].value_counts()

Non-standard string to Timestamp

conversion
ts = pd.to_datetime('2023-01-01 12:34:56', format='%Y-%m-%d %H:%M:%S')
Conclusion

Content:

Key Points Summary:

Introduction to Pandas DataFrame: Understanding the basic structure and importance.

Loading Data: Methods to load data from various sources into DataFrames.
DataFrame and Series Objects: Differences and usage.
Working with Rows and Columns: Accessing, selecting, and modifying data.
Indexing and Selecting Data: Using .loc, .iloc, and vectorized operations.
Saving and Exporting: Exporting DataFrames to different formats.
Attributes and Methods: Key attributes and utility methods.
Iterating Over DataFrames: Methods to iterate through rows and columns.
Dates and Times: Handling date and time data.
Pivot Tables and Reshaping: Techniques for reshaping data.
Filtering and Grouping: Data filtering and aggregation.

Time Series Data: Managing and manipulating time series data.

SQL-like Operations: Merging, joining, concatenating, and advanced operations.
Handling Missing Data: Methods to detect and handle missing values.
Pandas is a powerful tool: Pandas provides versatile and efficient methods to handle, manipulate, and analyze
data, making it a cornerstone of data science and analysis in Python.

Robbins, Philip - Python Programming For Beginners (2023)
93% (14)
Robbins, Philip - Python Programming For Beginners (2023)
178 pages
The Python Bible
97% (31)
The Python Bible
506 pages
Python 3 Cheat Sheet
94% (51)
Python 3 Cheat Sheet
2 pages
Python Programming. A Step-by-Step Guide For Absolute Beginners
93% (43)
Python Programming. A Step-by-Step Guide For Absolute Beginners
181 pages
Learning The Pandas Library Python Tools For Data Munging Analysis and Visual PDF
100% (18)
Learning The Pandas Library Python Tools For Data Munging Analysis and Visual PDF
208 pages
Practical Projects
100% (30)
Practical Projects
478 pages
Data Manipulation With Pandas
No ratings yet
Data Manipulation With Pandas
19 pages
Python Pandas Tutorial
96% (28)
Python Pandas Tutorial
178 pages
Python Cheat Sheet: Ata Tructures
100% (12)
Python Cheat Sheet: Ata Tructures
2 pages
Python Web Scraping Tutorial
92% (12)
Python Web Scraping Tutorial
65 pages
Python Tutorial
67% (3)
Python Tutorial
107 pages
Python Notes For Professionals
100% (18)
Python Notes For Professionals
814 pages
Python Cheat Sheet: Mosh Hamedani
100% (8)
Python Cheat Sheet: Mosh Hamedani
14 pages
Object Oriented Python Tutorial
100% (20)
Object Oriented Python Tutorial
111 pages
Coffee Break NumPy PDF
100% (5)
Coffee Break NumPy PDF
211 pages
Python Programming For Data Science
No ratings yet
Python Programming For Data Science
36 pages
Loki Temp PPT Pandas 2
No ratings yet
Loki Temp PPT Pandas 2
31 pages
Pandas Tutorial
No ratings yet
Pandas Tutorial
9 pages
Pandas
No ratings yet
Pandas
94 pages
04-Data Manipulation With Pandas
No ratings yet
04-Data Manipulation With Pandas
28 pages
FDS Module 2 Notes
No ratings yet
FDS Module 2 Notes
24 pages
Pandas
No ratings yet
Pandas
13 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
Pandas
No ratings yet
Pandas
26 pages
Module 4
No ratings yet
Module 4
38 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
What Is Pandas
No ratings yet
What Is Pandas
9 pages
Pandas
No ratings yet
Pandas
4 pages
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
Python Pandas Tutorial For Beginners
No ratings yet
Python Pandas Tutorial For Beginners
203 pages
Pandas Notes
No ratings yet
Pandas Notes
4 pages
Introduction To Pandas For Data Analysis
No ratings yet
Introduction To Pandas For Data Analysis
6 pages
Pandas
No ratings yet
Pandas
25 pages
Python 2.1.2
No ratings yet
Python 2.1.2
7 pages
Data Handling Module
No ratings yet
Data Handling Module
10 pages
07 Data Wrangling
No ratings yet
07 Data Wrangling
51 pages
Pandas
No ratings yet
Pandas
9 pages
Data Wrangling With Python and Pandas
No ratings yet
Data Wrangling With Python and Pandas
7 pages
ML Unit-2 Notes
No ratings yet
ML Unit-2 Notes
17 pages
Pandas
No ratings yet
Pandas
7 pages
Phan1 Pandas Numpy Matplotlib
No ratings yet
Phan1 Pandas Numpy Matplotlib
158 pages
Introduction To Pandas Programming 2
No ratings yet
Introduction To Pandas Programming 2
3 pages
Python Unit 3 4
No ratings yet
Python Unit 3 4
92 pages
Python 2.1.3
No ratings yet
Python 2.1.3
6 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
The Pandas Library
No ratings yet
The Pandas Library
39 pages
Lecture 5
No ratings yet
Lecture 5
36 pages
All Document Reader 1715619870900
No ratings yet
All Document Reader 1715619870900
6 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
60 pages
Lab-3 Pandas Library
No ratings yet
Lab-3 Pandas Library
14 pages
Pandas For Data Science
No ratings yet
Pandas For Data Science
42 pages
IV Unit Fds
No ratings yet
IV Unit Fds
16 pages
Pandas Notes
No ratings yet
Pandas Notes
6 pages
Pandas DataFrame Notes
No ratings yet
Pandas DataFrame Notes
13 pages
Chapter-2 Python Pandas
100% (2)
Chapter-2 Python Pandas
33 pages
Introduction To Pandas
No ratings yet
Introduction To Pandas
27 pages
Dilip PP
No ratings yet
Dilip PP
9 pages
Pandas
No ratings yet
Pandas
13 pages
Pandas Notes Design
No ratings yet
Pandas Notes Design
5 pages
Pandas Merged
No ratings yet
Pandas Merged
2 pages
Reference Guide - Pandas Tools For Structuring A Dataset
No ratings yet
Reference Guide - Pandas Tools For Structuring A Dataset
5 pages
Chapter 2 Python Pandas - II
No ratings yet
Chapter 2 Python Pandas - II
19 pages
On Data Handling Using Pandas-I
100% (2)
On Data Handling Using Pandas-I
63 pages
DataFrame Ac Win Final
No ratings yet
DataFrame Ac Win Final
30 pages
Pandas Data Structures: Sections
No ratings yet
Pandas Data Structures: Sections
13 pages
7 Days Analytics Course 3feiz7 4
No ratings yet
7 Days Analytics Course 3feiz7 4
8 pages
Pandas 1705297450
No ratings yet
Pandas 1705297450
21 pages
Python Pandas Demo PDF
100% (2)
Python Pandas Demo PDF
23 pages
Pandas: Import
100% (1)
Pandas: Import
13 pages
Data Handling Using Pandas-1
No ratings yet
Data Handling Using Pandas-1
60 pages
Pandas Dataframe All Operations 1735471870
No ratings yet
Pandas Dataframe All Operations 1735471870
4 pages
Pandas
No ratings yet
Pandas
63 pages
Pandas
No ratings yet
Pandas
5 pages
Pandas Dataframe Export The CSV File
No ratings yet
Pandas Dataframe Export The CSV File
9 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
EBOOK - Python Crash Course For Data Analysis
100% (12)
EBOOK - Python Crash Course For Data Analysis
168 pages
Pandas 6 1716219621
No ratings yet
Pandas 6 1716219621
17 pages
CSS in 44 Minutes
100% (5)
CSS in 44 Minutes
44 pages
Actc HTML Notes
No ratings yet
Actc HTML Notes
48 pages
Python Programming For Beginners - Learn Python Programming in 24 Hours PDF
100% (21)
Python Programming For Beginners - Learn Python Programming in 24 Hours PDF
133 pages
Pandas
No ratings yet
Pandas
30 pages
Python Cheat Sheets
97% (33)
Python Cheat Sheets
11 pages
Python Programming Notes
100% (2)
Python Programming Notes
141 pages
HTML Book
No ratings yet
HTML Book
199 pages
Numpy Basics: Arithmetic Operations
100% (17)
Numpy Basics: Arithmetic Operations
7 pages
Bcac501 - It - Part-1-Html
No ratings yet
Bcac501 - It - Part-1-Html
117 pages
Matplotlib Cheat Sheet
100% (7)
Matplotlib Cheat Sheet
8 pages
Python Programming and Maching Learning 2 in 1 B08Y5DPX32
100% (7)
Python Programming and Maching Learning 2 in 1 B08Y5DPX32
145 pages
Introduction To Pandas - Ipynb - Colaboratory
No ratings yet
Introduction To Pandas - Ipynb - Colaboratory
7 pages
Facebook Inc PDF
100% (1)
Facebook Inc PDF
42 pages
Case of Amazone PDF
No ratings yet
Case of Amazone PDF
27 pages
TOEFL
No ratings yet
TOEFL
96 pages
Facebook Inc PDF
100% (1)
Facebook Inc PDF
42 pages
Corporate Social Responsibility - Nestle
No ratings yet
Corporate Social Responsibility - Nestle
2 pages
Ford Comeback
No ratings yet
Ford Comeback
2 pages
Internship Report Priyank Vasoya
No ratings yet
Internship Report Priyank Vasoya
80 pages
Pandas in Python
No ratings yet
Pandas in Python
59 pages
DMML Lab Report 01
No ratings yet
DMML Lab Report 01
9 pages
3.1. Statistics in Python - Scipy Lecture Notes
No ratings yet
3.1. Statistics in Python - Scipy Lecture Notes
20 pages
Data Entry
No ratings yet
Data Entry
4 pages
Data Visualization With Python Libraries
No ratings yet
Data Visualization With Python Libraries
13 pages
Analysis of Algorithms: Matplotlib and Pandas Dataframe
No ratings yet
Analysis of Algorithms: Matplotlib and Pandas Dataframe
67 pages
Data Analysis With Pandas
No ratings yet
Data Analysis With Pandas
122 pages
Viva Voice Questions Class 12 Ip
No ratings yet
Viva Voice Questions Class 12 Ip
11 pages
28 03 2024 Sample Paper Grade 12 Informatics Practices 2023 24
No ratings yet
28 03 2024 Sample Paper Grade 12 Informatics Practices 2023 24
8 pages
Python Lab Manual Detail
No ratings yet
Python Lab Manual Detail
49 pages
Pragya File
No ratings yet
Pragya File
31 pages
Periods and Period Arithmetic
No ratings yet
Periods and Period Arithmetic
13 pages
Python - Data Analysis
No ratings yet
Python - Data Analysis
11 pages
DSBDA Lab Manual
No ratings yet
DSBDA Lab Manual
155 pages
Report For Project Python
No ratings yet
Report For Project Python
5 pages
Minor Data Science
No ratings yet
Minor Data Science
15 pages
Python & Excel Automation Cheat Sheet
No ratings yet
Python & Excel Automation Cheat Sheet
5 pages
Data Science Workflow
No ratings yet
Data Science Workflow
7 pages
Template A
No ratings yet
Template A
2 pages
Final Print
No ratings yet
Final Print
43 pages
IP 2nd Prelim 2024 25 Solution
No ratings yet
IP 2nd Prelim 2024 25 Solution
16 pages
Celebal Summer t-1
No ratings yet
Celebal Summer t-1
34 pages
Practical 1 and 2-1
No ratings yet
Practical 1 and 2-1
33 pages
Introduction To Data Analysis
No ratings yet
Introduction To Data Analysis
9 pages
Final R20 M.Tech AI Syllabus
No ratings yet
Final R20 M.Tech AI Syllabus
56 pages
Module 4 - Data Exploration and Visualization
No ratings yet
Module 4 - Data Exploration and Visualization
80 pages
Unit-Wise Important Question Bank - Python Bcc402
No ratings yet
Unit-Wise Important Question Bank - Python Bcc402
10 pages
Diabetes Data Analysis Using Python Report
No ratings yet
Diabetes Data Analysis Using Python Report
15 pages
ANUP SAKHARE - Resume-1
No ratings yet
ANUP SAKHARE - Resume-1
2 pages

Introduction To Pandas in Data Analytics

Uploaded by

Introduction To Pandas in Data Analytics

Uploaded by

Introduction to

3 Essential for Python

df_sql = pd.read_sql_table('table_name', engine)

Adding a new column

df['C'] = df['A'] + df['B']

df.drop('C', axis=1, inplace=True)

df.loc[0] # First row df.iloc[0] # First row by position

Indexing and Selecting Data

df.loc[0:1, ['A', 'B']]

Creating two DataFrames

df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

Concatenating DataFrames Title: Concatenating DataFrames

Concatenating along rows

Concatenating along columns

Creating two DataFrames with different

df2 = pd.DataFrame({'value2': [4, 5, 6]}, index=['B', 'C', 'D'])

Grouping and Aggregating Data Title: Grouping and

Grouping by 'Category' and calculating

Grouping by 'Category' and calculating

Filtering with conditions

Sorting Data Title: Sorting Data

Handling Missing Data Title: Handling Missing Data

Creating a DataFrame with missing values

Checking for missing values

Dropping missing values

Filling missing values

Saving DataFrames to various formats. Code Snippets:

DataFrame Attributes and

Iterating over columns

Iterating over rows

Working with Dates and Times Title: Working with

Pivot Tables and Reshaping Data Title: Pivot Tables

Additional Tips and Tricks Title: Additional Tips and

Non-standard string to Timestamp

Key Points Summary:

Time Series Data: Managing and manipulating time series data.

You might also like