0% found this document useful (0 votes)

15 views

SQL To Pyspark

Uploaded by

mirzamiff

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views

SQL To Pyspark

Uploaded by

mirzamiff

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 28

TO

SMALL ACTIONS BIG IMPACT IN COMMUNITY

data selection
and
filtering
selecting specific columns
Application:
Retrieve only specific columns from a dataset, which improves
performance by reducing the amount of data processed.

sql

PySpark

use case:
Extract only the necessary columns when performing analysis
or reporting
FILTERING ROWS
Application:
Extract rows that meet specific conditions, which is essential
for data cleaning or focused analysis

sql

PySpark

use case:
Narrow down the dataset to include only relevant records for
further analysis.
subqueries
Application:
Filter data based on the results of another query, enabling
more complex conditions

sql

PySpark

use case:
Use nested queries to refine data based on complex, multi-
step logic.
Data grouping
and
aggregation
group by and agg
Application:
Summarize data by grouping similar records based on a no of
column and applying Aggregate at given level.

sql

PySpark agg param: max, min, sum, avg, stddev

use case:
Summarize large datasets into more understandable metrics,
such as totals, averages, or counts etc based on type of
insights you want to get
Data COMBINING
and
JOINING
Joins
Application:
Combine data from two or more tables based on a common
column to enrich datasets with related information

sql

PySpark joins : inner, left, right, outer

use case:
Merge datasets to create a more comprehensive dataset, often
used in data warehousing and analytics.
union/unionall
Application:
Use when you need to combine the results of two queries

sql

types : union, unionAll

PySpark

use case:
Combine datasets with the same structure into one
union : removes depulicate
union all: keep all records
Data MANIPULATION
and
TRANSFORMATION
ADD NEW COLUMN
Application:
Create new columns derived from existing ones, enabling the
transformation of data into new features or metrics.

sql

PySpark

use case:
Add derived columns to the dataset, useful for feature
engineering in data science projects
renaming one COLUMN
Application:
Change column names for better readability or to align with
naming conventions

sql

PySpark

use case:
Add derived columns to the dataset, useful for feature
engineering in data science projects
renaming multi COLUMN
sql

PySpark

or
droping columns
Application:
Remove unnecessary or redundant columns to simplify the
dataset

sql

PySpark

use case:
Streamline datasets by eliminating columns that are no longer
needed, which can also improve performance
changing data types - 1
Application:
Convert single column to different data type to ensure
consistency and compatibility for further analysis

sql

PySpark

use case:
Adjust data types to meet specific analysis requirements, such
as converting strings to integers for numeric operations
changing data type -2
Application:
Convert multiple columns to different data types to ensure
consistency and compatibility for further analysis

sql

PySpark
pivot
Application:
Use when you need to pivot data from rows to columns

sql

PySpark

use case:
Reshape data for better analysis or reporting.
pivot - Example
Data cleaning
filtering non-null
Application:
Filter out rows with non-null values to maintain the dataset's
integrity.
sql

PySpark

use case:

Clean datasets by removing incomplete records that could

lead to inaccurate analysis or errors
filling/replace - null
Application:
Replace null values with a default value to maintain dataset
consistency.

sql

PySpark

use case:

Fill missing data with a specific value to avoid dropping rows

and losing information
remove duplicates
Application:
Ensure data integrity by removing duplicate records.

sql

PySpark

use case:
Eliminate repeated entries to maintain data uniqueness, crucial
for accurate analysis
droping columns
Application:
Remove unnecessary columns from the dataset to simplify
analysis and reduce noise

sql

PySpark

use case:
Clean up the dataset by removing irrelevant or redundant
columns, improving the focus and efficiency of your analysis
Data organization
sorting data
Application:
Organize data in ascending or descending order for easier
analysis or presentation

sql

PySpark

use case:
Highlight trends, patterns, or outliers, often used in reporting
and data visualization
counting records
Application:
Determine the number of rows in a dataset, or count non-null
values across multiple columns

sql

PySpark

use case:
Quickly assess the size of a dataset and understand the
distribution of non-null values in multiple columns, often used
in the initial stages of data exploration
like

comment
Did you
like the repost
content?
save

SMALL ACTIONS BIG IMPACT IN COMMUNITY

Comptia Data+ Da0-001
No ratings yet
Comptia Data+ Da0-001
10 pages
Alteryx Designer Cheat Sheet
No ratings yet
Alteryx Designer Cheat Sheet
2 pages
Oracle Certleader 1z0-066 PDF Download V2019-May-10 by Oscar 145q Vce PDF
No ratings yet
Oracle Certleader 1z0-066 PDF Download V2019-May-10 by Oscar 145q Vce PDF
22 pages
Main - Page Integration Services (SSIS) : Transformation Description Examples of When Transformation Would Be Used
No ratings yet
Main - Page Integration Services (SSIS) : Transformation Description Examples of When Transformation Would Be Used
5 pages
Techniques
No ratings yet
Techniques
31 pages
Dwdm Ppt PDF
No ratings yet
Dwdm Ppt PDF
21 pages
Transformation Description Examples of When Transformation Would Be Used
No ratings yet
Transformation Description Examples of When Transformation Would Be Used
7 pages
What Is Data Cleanning?
No ratings yet
What Is Data Cleanning?
14 pages
CertPREP Instructor PPT ITDataAnlytics 02
No ratings yet
CertPREP Instructor PPT ITDataAnlytics 02
56 pages
Unit 2 - Data Visualization Techniques
No ratings yet
Unit 2 - Data Visualization Techniques
101 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Data Warehouse
No ratings yet
Data Warehouse
10 pages
Techniques Used to Transform Data, Part 2
No ratings yet
Techniques Used to Transform Data, Part 2
7 pages
the Ultimate Guide to Data Cleaning With SQL 1738769035
No ratings yet
the Ultimate Guide to Data Cleaning With SQL 1738769035
36 pages
Transformation Description Examples of When Transformation Would Be Used
No ratings yet
Transformation Description Examples of When Transformation Would Be Used
5 pages
SQL Commands - The Complete List (W - Examples) - Dataquest
No ratings yet
SQL Commands - The Complete List (W - Examples) - Dataquest
22 pages
CS822-DataMining-Week3
No ratings yet
CS822-DataMining-Week3
91 pages
Data Transformation Slide
No ratings yet
Data Transformation Slide
8 pages
Data Cleansing
No ratings yet
Data Cleansing
5 pages
BA-Unit 2
No ratings yet
BA-Unit 2
31 pages
2.1 Combining Data Frames
No ratings yet
2.1 Combining Data Frames
38 pages
Notes BAE
No ratings yet
Notes BAE
9 pages
Big Data Analytics Notes
No ratings yet
Big Data Analytics Notes
9 pages
Data Analitics 4
No ratings yet
Data Analitics 4
10 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
Data Cleaning_ Importance and Techniques
No ratings yet
Data Cleaning_ Importance and Techniques
1 page
prac
No ratings yet
prac
4 pages
Mastering Data Cleaning Techniques with SQL — Explained Examples _ by ? panData _ Level Up Coding
No ratings yet
Mastering Data Cleaning Techniques with SQL — Explained Examples _ by ? panData _ Level Up Coding
31 pages
dm unit 3
No ratings yet
dm unit 3
15 pages
Data Cleaning in Power Query_ Best Practices and Techniques
No ratings yet
Data Cleaning in Power Query_ Best Practices and Techniques
20 pages
Unit 2 Data Gathering
No ratings yet
Unit 2 Data Gathering
14 pages
1.2.1. Retrieving Data - 1.2.2. Cleaning Data
No ratings yet
1.2.1. Retrieving Data - 1.2.2. Cleaning Data
35 pages
Data Proprocesing
No ratings yet
Data Proprocesing
18 pages
S
No ratings yet
S
22 pages
Data Analystic
No ratings yet
Data Analystic
35 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
panda
No ratings yet
panda
39 pages
50 Interview Questions & Answers!
No ratings yet
50 Interview Questions & Answers!
52 pages
Master in SQL: Data Cleaning
No ratings yet
Master in SQL: Data Cleaning
14 pages
Jalali@mshdiua - Ac.ir Jalali - Mshdiau.ac - Ir: Machine Learning
No ratings yet
Jalali@mshdiua - Ac.ir Jalali - Mshdiau.ac - Ir: Machine Learning
35 pages
Data Analyst Interview Questions
No ratings yet
Data Analyst Interview Questions
6 pages
OJCST_Vol13_N2-3_p_78-81
No ratings yet
OJCST_Vol13_N2-3_p_78-81
4 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
JAVA Advanced 3
No ratings yet
JAVA Advanced 3
19 pages
1-Introduction to data cleaning
No ratings yet
1-Introduction to data cleaning
22 pages
Module 2_data preprocessing
No ratings yet
Module 2_data preprocessing
16 pages
Analysis Terms
No ratings yet
Analysis Terms
1 page
data-cleaning-using-pandas
No ratings yet
data-cleaning-using-pandas
9 pages
Data Analytics Curriculum
No ratings yet
Data Analytics Curriculum
8 pages
Data Cleaning: Missing Values: - For Example in Attribute Income If
No ratings yet
Data Cleaning: Missing Values: - For Example in Attribute Income If
30 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Data warehouse
No ratings yet
Data warehouse
11 pages
Data warehouse (1)
No ratings yet
Data warehouse (1)
14 pages
SQL Interview Questions 1725044566
No ratings yet
SQL Interview Questions 1725044566
4 pages
Data Analytics With Financial Accounting Information: Winter 2022 Session 4
No ratings yet
Data Analytics With Financial Accounting Information: Winter 2022 Session 4
36 pages
Advanced SQL Concepts
No ratings yet
Advanced SQL Concepts
38 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
mylessons 4
No ratings yet
mylessons 4
6 pages
SQL Server 2014 Development Essentials
From Everand
SQL Server 2014 Development Essentials
Basit A. Masood-Al-Farooq
4.5/5 (2)
DBMS Lab Manual
From Everand
DBMS Lab Manual
Jitendra Patel
1.5/5 (3)
Mastering QlikView
From Everand
Mastering QlikView
Stephen Redmond
5/5 (1)
Department of Computer Engineering Khwopa Engineering College Libali-2, Bhaktapur
No ratings yet
Department of Computer Engineering Khwopa Engineering College Libali-2, Bhaktapur
8 pages
Hibernate, Spring & Struts Interview Questions You'll Most Likely Be Asked
0% (1)
Hibernate, Spring & Struts Interview Questions You'll Most Likely Be Asked
24 pages
Be Computer Engineering Semester 5 2023 November Database Management Systems Dms Pattern 2019
No ratings yet
Be Computer Engineering Semester 5 2023 November Database Management Systems Dms Pattern 2019
2 pages
Ignition Server Sizing and Architecture Guide
No ratings yet
Ignition Server Sizing and Architecture Guide
22 pages
SQL Clause What It Does Required
No ratings yet
SQL Clause What It Does Required
3 pages
12 Reduction of ER Diagram To Table
100% (2)
12 Reduction of ER Diagram To Table
9 pages
EssentialsOfAzureDataLakeStorageGen2 MelissaCoates
No ratings yet
EssentialsOfAzureDataLakeStorageGen2 MelissaCoates
41 pages
Student: University Entry Process Attendance Registry Process
No ratings yet
Student: University Entry Process Attendance Registry Process
1 page
Microsoft Azure Fundamentals - 02 - Core Azure Services
No ratings yet
Microsoft Azure Fundamentals - 02 - Core Azure Services
20 pages
Information Security Maintenance
No ratings yet
Information Security Maintenance
58 pages
Magento Final Answer
No ratings yet
Magento Final Answer
7 pages
Mettl Bulk Upload Template Coding Questions v2
No ratings yet
Mettl Bulk Upload Template Coding Questions v2
22 pages
IDOC and ALE Related TCodes
No ratings yet
IDOC and ALE Related TCodes
6 pages
Data Scientist Resume
No ratings yet
Data Scientist Resume
1 page
Rakesh Data BI (2)
No ratings yet
Rakesh Data BI (2)
6 pages
Pre-Lab:: Experiment 7
No ratings yet
Pre-Lab:: Experiment 7
7 pages
Handwritten Script Recognition System: J Component Project Report FALL 2020
No ratings yet
Handwritten Script Recognition System: J Component Project Report FALL 2020
41 pages
SRS of Airline
No ratings yet
SRS of Airline
7 pages
Venkat Reddy_SAP BW4HANA
No ratings yet
Venkat Reddy_SAP BW4HANA
8 pages
r-_Wordle_Game_CS_Project[1]
No ratings yet
r-_Wordle_Game_CS_Project[1]
22 pages
plsql_e2_62136.txt
No ratings yet
plsql_e2_62136.txt
4 pages
Process Documents Created by Me
No ratings yet
Process Documents Created by Me
31 pages
Machine Learning Operations (Mlops) : Overview, Definition, and Architecture
No ratings yet
Machine Learning Operations (Mlops) : Overview, Definition, and Architecture
13 pages
Software Architecture and Design Project
No ratings yet
Software Architecture and Design Project
40 pages
Course Welcome and Overview ACA
No ratings yet
Course Welcome and Overview ACA
20 pages
Data Warehousing
No ratings yet
Data Warehousing
8 pages
csd-notes-for-end-sem-for-exams-complete
No ratings yet
csd-notes-for-end-sem-for-exams-complete
9 pages
Referring To Two Tables
No ratings yet
Referring To Two Tables
6 pages
Data Engineering UNIT-1
No ratings yet
Data Engineering UNIT-1
14 pages

SQL To Pyspark

Uploaded by

SQL To Pyspark

Uploaded by

TO

SMALL ACTIONS BIG IMPACT IN COMMUNITY

PySpark agg param: max, min, sum, avg, stddev

PySpark joins : inner, left, right, outer

types : union, unionAll

Clean datasets by removing incomplete records that could

Fill missing data with a specific value to avoid dropping rows

SMALL ACTIONS BIG IMPACT IN COMMUNITY

You might also like