0% found this document useful (0 votes)

12 views80 pages

SQL and PySpark

Uploaded by

Woody Woodpecker

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

12 views80 pages

SQL and PySpark

Uploaded by

Woody Woodpecker

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 80

SQL and PySpark

Select Columns

SQL PySpark

SELECT column1, column2 FROM table; df.select("column1", "column2")

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Filter Rows

SQL PySpark

SELECT * FROM table WHERE condition; df.filter("condition")

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Aggregate Functions

SQL PySpark

SELECT AVG(column) FROM table; df.select(F.avg("column"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Group By

SQL PySpark

SELECT column, COUNT(*) FROM table df.groupBy("column").count()

GROUP BY column;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Order By

SQL PySpark

SELECT * FROM table ORDER BY column df.orderBy("column", ascending=True)

ASC;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Join

SQL PySpark

SELECT * FROM table1 JOIN table2 ON df1.join(df2, df1.id == df2.id)

table1.id = table2.id;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Union

SQL PySpark

SELECT * FROM table1 UNION SELECT * df1.union(df2)

FROM table2;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Limit

SQL PySpark

SELECT * FROM table LIMIT 100; df.limit(100)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Distinct Values

SQL PySpark

SELECT DISTINCT column FROM table; df.select("column").distinct()

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Adding a New Column

SQL PySpark

SELECT *, (column1 + column2) AS df.withColumn("new_column", F.col("column1") +

new_column FROM table; F.col("column2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Column Alias

SQL PySpark

SELECT column AS alias_name FROM table; df.select(F.col("column").alias("alias_name"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Filtering on Multiple Conditions

SQL PySpark

SELECT * FROM table WHERE condition1 df.filter((F.col("condition1")) &

AND condition2; (F.col("condition2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Subquery

SQL PySpark

SELECT * FROM (SELECT * FROM table df.filter("condition").alias("subquery")

WHERE condition) AS subquery;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Between

SQL PySpark

SELECT * FROM table WHERE column df.filter(F.col("column").between("val1", "val2"))

BETWEEN val1 AND val2;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Like

SQL PySpark

SELECT * FROM table WHERE column LIKE df.filter(F.col("column").like("pattern"))

pattern;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Case When

SQL PySpark

SELECT CASE WHEN condition THEN result1 df.select(F.when(F.col("condition"),

ELSE result2 END FROM table; "result1").otherwise("result2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Cast Data Type

SQL PySpark

SELECT CAST(column AS datatype) FROM df.select(F.col("column").cast("datatype"))

table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Count Distinct

SQL PySpark

SELECT COUNT(DISTINCT column) FROM df.select(F.countDistinct("column"))

table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Substring

SQL PySpark

SELECT SUBSTRING(column, start, length) df.select(F.substring("column", start, length))

FROM table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Concatenate Columns

SQL PySpark

SELECT CONCAT(column1, column2) AS df.withColumn("new_column",

new_column FROM table; F.concat(F.col("column1"), F.col("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Average Over Partition

SQL PySpark

SELECT AVG(column) OVER (PARTITION BY df.withColumn("avg",

column2) FROM table; F.avg("column").over(Window.partitionBy("colum
n2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Sum Over Partition

SQL PySpark

SELECT SUM(column) OVER (PARTITION BY df.withColumn("sum",

column2) FROM table; F.sum("column").over(Window.partitionBy("colum
n2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Lead Function

SQL PySpark

SELECT LEAD(column, 1) OVER (ORDER BY df.withColumn("lead", F.lead("column",

column2) FROM table; 1).over(Window.orderBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Lag Function

SQL PySpark

SELECT LAG(column, 1) OVER (ORDER BY df.withColumn("lag", F.lag("column",

column2) FROM table; 1).over(Window.orderBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Row Count

SQL PySpark

SELECT COUNT(*) FROM table; df.count()

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Drop Column

SQL PySpark

ALTER TABLE table DROP COLUMN column; df.drop("column")

(Not directly in SELECT)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Rename Column

SQL PySpark

ALTER TABLE table RENAME COLUMN df.withColumnRenamed("column1", "column2")

column1 TO column2; (Not directly in
SELECT)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Change Column Type

SQL PySpark

ALTER TABLE table ALTER COLUMN column df.withColumn("column",

TYPE new_type; (Not directly in SELECT) df["column"].cast("new_type"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Creating a Table from Select

SQL PySpark

CREATE TABLE new_table AS SELECT * (df.write.format("parquet").saveAsTable("new_ta

FROM table; ble"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Inserting Selected Data into Table

SQL PySpark

INSERT INTO table2 SELECT * FROM table1; (df1.write.insertInto("table2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Creating a Table with Specific Columns

SQL PySpark

CREATE TABLE new_table AS SELECT (df.select("column1",

column1, column2 FROM table; "column2").write.format("parquet").saveAsTable(
"new_table"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Aggregate with Alias

SQL PySpark

SELECT column, COUNT() AS count FROM df.groupBy("column").agg(F.count("").alias("coun

table GROUP BY column; t"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Nested Subquery

SQL PySpark

SELECT * FROM (SELECT * FROM table df.filter("condition").alias("sub").filter("sub.condit

WHERE condition) sub WHERE ion2")
sub.condition2;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Multiple Joins

SQL PySpark

SELECT * FROM table1 JOIN table2 ON df1.join(df2, "id").join(df3, "id")

table1.id = table2.id JOIN table3 ON
table1.id = table3.id;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Cross Join

SQL PySpark

SELECT * FROM table1 CROSS JOIN table2; df1.crossJoin(df2)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Group By Having Count Greater Than

SQL PySpark

SELECT column, COUNT(*) FROM table df.groupBy("column").count().filter(F.col("count")

GROUP BY column HAVING COUNT(*) > 1; > 1)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Alias for Table in Join

SQL PySpark

SELECT t1.* FROM table1 t1 JOIN table2 t2 df1.alias("t1").join(df2.alias("t2"), F.col("t1.id") ==

ON t1.id = t2.id; F.col("t2.id"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Selecting from Multiple Tables

SQL PySpark

SELECT t1.column, t2.column FROM table1 df1.join(df2, df1.id == df2.id).select(df1.column,

t1, table2 t2 WHERE t1.id = t2.id; df2.column)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Case When with Multiple Conditions

SQL PySpark

SELECT CASE WHEN condition THEN df.select(F.when(F.col("condition"),

'value1' WHEN condition2 THEN 'value2' "value1").when(F.col("condition2"),
ELSE 'value3' END FROM table; "value2").otherwise("value3"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Extracting Date Parts

SQL PySpark

SELECT EXTRACT(YEAR FROM date_column) df.select(F.year(F.col("date_column")))

FROM table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Inequality Filtering

SQL PySpark

SELECT * FROM table WHERE column != df.filter(df.column != 'value')

'value';

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
In List

SQL PySpark

SELECT * FROM table WHERE column IN df.filter(df.column.isin('value1', 'value2'))

('value1', 'value2');

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Not In List

SQL PySpark

SELECT * FROM table WHERE column NOT df.filter(~df.column.isin('value1', 'value2'))

IN ('value1', 'value2');

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Null Values

SQL PySpark

SELECT * FROM table WHERE column IS df.filter(df.column.isNull())

NULL;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Not Null Values

SQL PySpark

SELECT * FROM table WHERE column IS df.filter(df.column.isNotNull())

NOT NULL;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
String Upper Case

SQL PySpark

SELECT UPPER(column) FROM table; df.select(F.upper(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
String Lower Case

SQL PySpark

SELECT LOWER(column) FROM table; df.select(F.lower(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
String Length

SQL PySpark

SELECT LENGTH(column) FROM table; df.select(F.length(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Trim String

SQL PySpark

SELECT TRIM(column) FROM table; df.select(F.trim(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Left Trim String

SQL PySpark

SELECT LTRIM(column) FROM table; df.select(F.ltrim(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Right Trim String

SQL PySpark

SELECT RTRIM(column) FROM table; df.select(F.rtrim(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
String Replace

SQL PySpark

SELECT REPLACE(column, 'find', 'replace') df.select(F.regexp_replace(df.column, 'find',

FROM table; 'replace'))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Substring Index

SQL PySpark

SELECT SUBSTRING_INDEX(column, 'delim', df.select(F.expr("split(column, 'delim')[count-1]"))

count) FROM table; (Assuming 1-based index)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Date Difference

SQL PySpark

SELECT DATEDIFF('date1', 'date2') FROM df.select(F.datediff(F.col('date1'), F.col('date2')))

table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Add Months to Date

SQL PySpark

SELECT ADD_MONTHS(date_column, df.select(F.add_months(df.date_column,

num_months) FROM table; num_months))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
First Value in Group

SQL PySpark

SELECT FIRST_VALUE(column) OVER df.withColumn("first_val",

(PARTITION BY column2) FROM table; F.first("column").over(Window.partitionBy("colum
n2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Last Value in Group

SQL PySpark

SELECT LAST_VALUE(column) OVER df.withColumn("last_val",

(PARTITION BY column2) FROM table; F.last("column").over(Window.partitionBy("colum
n2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Row Number Over Partition

SQL PySpark

SELECT ROW_NUMBER() OVER (PARTITION df.withColumn("row_num",

BY column ORDER BY column) FROM table; F.row_number().over(Window.partitionBy("colum
n").orderBy("column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Rank Over Partition

SQL PySpark

SELECT RANK() OVER (PARTITION BY df.withColumn("rank",

column ORDER BY column) FROM table; F.rank().over(Window.partitionBy("column").order
By("column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Dense Rank Over Partition

SQL PySpark

SELECT DENSE_RANK() OVER (PARTITION df.withColumn("dense_rank",

BY column ORDER BY column) FROM table; F.dense_rank().over(Window.partitionBy("column"
).orderBy("column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Count Rows

SQL PySpark

SELECT COUNT(*) FROM table; df.count()

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Mathematical Operations

SQL PySpark

SELECT column1 + column2 FROM table; df.select(F.col("column1") + F.col("column2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
String Concatenation

SQL PySpark

SELECT column1 | column2 AS new_column df.withColumn("new_column", F.concat_ws("|",

FROM table; F.col("column1"), F.col("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Find Minimum Value

SQL PySpark

SELECT MIN(column) FROM table; df.select(F.min("column"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Find Maximum Value

SQL PySpark

SELECT MAX(column) FROM table; df.select(F.max("column"))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Removing Duplicates

SQL PySpark

SELECT DISTINCT * FROM table; df.distinct()

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Left Join

SQL PySpark

SELECT * FROM table1 LEFT JOIN table2 ON df1.join(df2, df1.id == df2.id, "left")
table1.id = table2.id;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Right Join

SQL PySpark

SELECT * FROM table1 RIGHT JOIN table2 df1.join(df2, df1.id == df2.id, "right")
ON table1.id = table2.id;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Full Outer Join

SQL PySpark

SELECT * FROM table1 FULL OUTER JOIN df1.join(df2, df1.id == df2.id, "outer")
table2 ON table1.id = table2.id;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Group By with Having

SQL PySpark

SELECT column, COUNT(*) FROM table df.groupBy("column").count().filter(F.col("count")

GROUP BY column HAVING COUNT(*) > 10; > 10)

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Round Decimal Values

SQL PySpark

SELECT ROUND(column, 2) FROM table; df.select(F.round("column", 2))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Get Current Date

SQL PySpark

SELECT CURRENT_DATE(); df.select(F.current_date())

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Date Addition

SQL PySpark

SELECT DATE_ADD(date_column, 10) FROM df.select(F.date_add(F.col("date_column"), 10))

table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Date Subtraction

SQL PySpark

SELECT DATE_SUB(date_column, 10) FROM df.select(F.date_sub(F.col("date_column"), 10))

table;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Extract Year from Date

SQL PySpark

SELECT YEAR(date_column) FROM table; df.select(F.year(F.col("date_column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Extract Month from Date

SQL PySpark

SELECT MONTH(date_column) FROM table; df.select(F.month(F.col("date_column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Extract Day from Date

SQL PySpark

SELECT DAY(date_column) FROM table; df.select(F.dayofmonth(F.col("date_column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Sorting Descending

SQL PySpark

SELECT * FROM table ORDER BY column df.orderBy(F.col("column").desc())

DESC;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Group By Multiple Columns

SQL PySpark

SELECT col1, col2, COUNT(*) FROM table df.groupBy("col1", "col2").count()

GROUP BY col1, col2;

Shwetank Singh
GritSetGrow - GSGLearn.com
SQL and PySpark
Conditional Column Update

SQL PySpark

UPDATE table SET column1 = CASE WHEN df.withColumn("column1",

condition THEN 'value1' ELSE 'value2' END; F.when(F.col("condition"),
"value1").otherwise("value2"))

Shwetank Singh
GritSetGrow - GSGLearn.com

C_BW4H_2404 New
No ratings yet
C_BW4H_2404 New
25 pages
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
No ratings yet
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
12 pages
Pyspark Practice
No ratings yet
Pyspark Practice
42 pages
SQL__1721960421
No ratings yet
SQL__1721960421
131 pages
SQL & pySPARK
No ratings yet
SQL & pySPARK
9 pages
Data Engineering 101 - Day 24 - SQL Vs PySpark
No ratings yet
Data Engineering 101 - Day 24 - SQL Vs PySpark
82 pages
Pyspark Practice - Databricks
No ratings yet
Pyspark Practice - Databricks
66 pages
Python Vocabularies
100% (1)
Python Vocabularies
101 pages
Data Engineering 101 SQL and PySpark 1727161935
No ratings yet
Data Engineering 101 SQL and PySpark 1727161935
58 pages
PySpark SQL Functions-10-03
No ratings yet
PySpark SQL Functions-10-03
357 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
PySpark, SQL
No ratings yet
PySpark, SQL
7 pages
V2SqlFinalDocument (2)
No ratings yet
V2SqlFinalDocument (2)
35 pages
SQL PySpark Cheat Sheet 1731729790
No ratings yet
SQL PySpark Cheat Sheet 1731729790
9 pages
Techniques
No ratings yet
Techniques
31 pages
Mysql 8.0 en 121 150
No ratings yet
Mysql 8.0 en 121 150
30 pages
SQL_ &_PYSPAK
No ratings yet
SQL_ &_PYSPAK
6 pages
SQL vs Pyspark-1
No ratings yet
SQL vs Pyspark-1
9 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
Advanced SQL Concepts
No ratings yet
Advanced SQL Concepts
38 pages
Methods & Function in Databricks
No ratings yet
Methods & Function in Databricks
34 pages
journal
No ratings yet
journal
47 pages
quewtion sql_pyspark
No ratings yet
quewtion sql_pyspark
4 pages
Ip Practical Shubham.pdf
No ratings yet
Ip Practical Shubham.pdf
20 pages
Improving Analysis of Data Mining by Creating Dataset Using SQL Aggregations
No ratings yet
Improving Analysis of Data Mining by Creating Dataset Using SQL Aggregations
6 pages
databricks interview3
No ratings yet
databricks interview3
7 pages
eBook Comandos JesusG 1741221641
No ratings yet
eBook Comandos JesusG 1741221641
7 pages
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
unit 4 Spark SQL
No ratings yet
unit 4 Spark SQL
49 pages
Spark and Scala 2
No ratings yet
Spark and Scala 2
11 pages
Spark SQLpdf 20 jan
No ratings yet
Spark SQLpdf 20 jan
4 pages
set A key
No ratings yet
set A key
5 pages
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
Data Frames
No ratings yet
Data Frames
12 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Pyspark Intro
No ratings yet
Pyspark Intro
3 pages
Pyspark SQL and DataFrames
No ratings yet
Pyspark SQL and DataFrames
6 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Top 100 Pyspark Functions for Data Engineers 1738131847
No ratings yet
Top 100 Pyspark Functions for Data Engineers 1738131847
30 pages
SQL Final Document
No ratings yet
SQL Final Document
37 pages
Page 02
No ratings yet
Page 02
2 pages
⚠️ TCS Rejected Many Due to Weak PySpark Logic!?
No ratings yet
⚠️ TCS Rejected Many Due to Weak PySpark Logic!?
7 pages
Databricks vs SQL Cheat Sheet
No ratings yet
Databricks vs SQL Cheat Sheet
11 pages
Unix Viva Questions
No ratings yet
Unix Viva Questions
20 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
Crack Your Databricks
100% (1)
Crack Your Databricks
103 pages
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
PySpark_SQL_Pandas_CheatSheet
No ratings yet
PySpark_SQL_Pandas_CheatSheet
2 pages
RDBMS Unit-1
No ratings yet
RDBMS Unit-1
21 pages
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
Mod5 Bda
No ratings yet
Mod5 Bda
9 pages
Pyspark Interview Questions
No ratings yet
Pyspark Interview Questions
4 pages
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
21 pages
Codebasics Brochure
No ratings yet
Codebasics Brochure
56 pages
IP Imp Notes
No ratings yet
IP Imp Notes
5 pages
Questions_For_Preparation (1)
No ratings yet
Questions_For_Preparation (1)
9 pages
Analyst Brochure by اکرام
No ratings yet
Analyst Brochure by اکرام
25 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
SQL Cheat Sheet
No ratings yet
SQL Cheat Sheet
5 pages
Dbms Teaching Plan
No ratings yet
Dbms Teaching Plan
2 pages
Certified List of Candidates: Ilocos Norte - City of Batac Ilocos Norte - City of Batac
No ratings yet
Certified List of Candidates: Ilocos Norte - City of Batac Ilocos Norte - City of Batac
2 pages
COMPUTER SCIENCE PROJECT
No ratings yet
COMPUTER SCIENCE PROJECT
17 pages
Window Functions in SQL and PySpark
No ratings yet
Window Functions in SQL and PySpark
5 pages
DatabricksDataEngineer Associate2024
75% (4)
DatabricksDataEngineer Associate2024
157 pages
Templates
0% (1)
Templates
199 pages
SQL Vs PySpark 1678871778
No ratings yet
SQL Vs PySpark 1678871778
8 pages
SkyLIGHT PVX 5.1 - Dashboards & PVQL - New Features & Improvements - Slides
No ratings yet
SkyLIGHT PVX 5.1 - Dashboards & PVQL - New Features & Improvements - Slides
39 pages
A Web-Based Healthcare Management System Management System: Designed and Developed by Fauzan&Team
No ratings yet
A Web-Based Healthcare Management System Management System: Designed and Developed by Fauzan&Team
16 pages
SQL Notes
No ratings yet
SQL Notes
11 pages
Chapter 5: Confidentiality Policies: - Overview - Bell-Lapadula Model
No ratings yet
Chapter 5: Confidentiality Policies: - Overview - Bell-Lapadula Model
31 pages
Python Training Course VIII: Relational Database
No ratings yet
Python Training Course VIII: Relational Database
30 pages
The Complete SQL HandBook
No ratings yet
The Complete SQL HandBook
89 pages
Quick SQL Cheatsheet: SELECT: Used To Select Data From A Database
No ratings yet
Quick SQL Cheatsheet: SELECT: Used To Select Data From A Database
8 pages
Data Structure and Algorithms
No ratings yet
Data Structure and Algorithms
110 pages
Machine Learning With Python
100% (14)
Machine Learning With Python
692 pages
Unit 1 - Databases and Database Users
No ratings yet
Unit 1 - Databases and Database Users
15 pages
Power BI Interview Questions Part-1
No ratings yet
Power BI Interview Questions Part-1
53 pages
Jaspersoft ETL™: Data Integration For BI
No ratings yet
Jaspersoft ETL™: Data Integration For BI
4 pages
Excel Mastery With These Guided Projects
100% (1)
Excel Mastery With These Guided Projects
66 pages
Normalization
No ratings yet
Normalization
10 pages
R Cookbook
No ratings yet
R Cookbook
79 pages
Unit 4 Business Analytics Notes Full April
No ratings yet
Unit 4 Business Analytics Notes Full April
18 pages
Workflow - Step by Step For Order Management
No ratings yet
Workflow - Step by Step For Order Management
23 pages
Aws Certified Data Engineer Slides
100% (1)
Aws Certified Data Engineer Slides
691 pages
Mongodb Homework 3.1 Python
100% (1)
Mongodb Homework 3.1 Python
6 pages
Data KPIs Cheat sheet
No ratings yet
Data KPIs Cheat sheet
12 pages
Artificial Intelligence With Python (Machine Learning Foundations, Methodologies, and Applications) (Teik Toe Teoh, Zheng Rong)
93% (15)
Artificial Intelligence With Python (Machine Learning Foundations, Methodologies, and Applications) (Teik Toe Teoh, Zheng Rong)
334 pages
SQL Case When Statement
100% (1)
SQL Case When Statement
10 pages
Apache Spark 24 Hours PDF
100% (6)
Apache Spark 24 Hours PDF
1,129 pages
100 SQL Commands Notes
No ratings yet
100 SQL Commands Notes
8 pages
Data Visualization With Python PDF
93% (14)
Data Visualization With Python PDF
662 pages
PySpark Questions
No ratings yet
PySpark Questions
5 pages
S. Haines - Modern Data Engineering With Apache Spark - A Hands-On Guide For Building Mission-Critical Streaming Applications (2022) - Libgen - Li
50% (4)
S. Haines - Modern Data Engineering With Apache Spark - A Hands-On Guide For Building Mission-Critical Streaming Applications (2022) - Libgen - Li
592 pages
Crime Analysis in India (2001-2013)
No ratings yet
Crime Analysis in India (2001-2013)
23 pages
Celebrate 50 Years of Microsoft
No ratings yet
Celebrate 50 Years of Microsoft
28 pages
Performance Tuning in Azure Databricks
100% (1)
Performance Tuning in Azure Databricks
124 pages
ETL Best Practices
No ratings yet
ETL Best Practices
21 pages
Limpieza de Datos Con Pandas
No ratings yet
Limpieza de Datos Con Pandas
19 pages
The Big Six - SQL
No ratings yet
The Big Six - SQL
23 pages
8 Machine Learning Algorithms
No ratings yet
8 Machine Learning Algorithms
13 pages
Inventory Abbreviations
No ratings yet
Inventory Abbreviations
13 pages
HA100
No ratings yet
HA100
13 pages
Azure Databricks Course Slide Deck
75% (4)
Azure Databricks Course Slide Deck
169 pages
Trade Tariffs in 3 Levels of Difficulty
No ratings yet
Trade Tariffs in 3 Levels of Difficulty
10 pages
SQL Code
No ratings yet
SQL Code
2 pages
ToolKit 1 - Unit 1 - Introduction To Data Analytics
No ratings yet
ToolKit 1 - Unit 1 - Introduction To Data Analytics
15 pages
MGH Data Analysis With Microsoft Power BI 126045861X
92% (13)
MGH Data Analysis With Microsoft Power BI 126045861X
808 pages
SQL Installation New
No ratings yet
SQL Installation New
17 pages
Segmentation Fault (Core Dumped) While Connecting To Oarcle-RMAN
No ratings yet
Segmentation Fault (Core Dumped) While Connecting To Oarcle-RMAN
3 pages
Data Engineering With Databricks Da
100% (2)
Data Engineering With Databricks Da
232 pages
Databricks Certified Developer For Apache Spark 3.0 Practice Tests 540 Questions
0% (1)
Databricks Certified Developer For Apache Spark 3.0 Practice Tests 540 Questions
290 pages
P6 File Corruption
No ratings yet
P6 File Corruption
20 pages
Program To Insert and Delete Element in Array. Progsolution
No ratings yet
Program To Insert and Delete Element in Array. Progsolution
5 pages
Azure Databricks
67% (6)
Azure Databricks
69 pages
Data Analysis With Databricks
75% (4)
Data Analysis With Databricks
80 pages
Star and Snowflake Schemas: What Is A Star Schema?
No ratings yet
Star and Snowflake Schemas: What Is A Star Schema?
18 pages
Apache Spark Programming With Databricks
No ratings yet
Apache Spark Programming With Databricks
112 pages
Hackers Guide To Machine Learning With Python PDF
100% (15)
Hackers Guide To Machine Learning With Python PDF
272 pages
Advanced Data Engineering With Databricks
No ratings yet
Advanced Data Engineering With Databricks
154 pages
Azure Databricks Interview
100% (2)
Azure Databricks Interview
35 pages
ETL Processes Using PySpark
67% (3)
ETL Processes Using PySpark
7 pages
Spark Databricks Summary
80% (5)
Spark Databricks Summary
100 pages
Learning The Pandas Library Python Tools For Data Munging Analysis and Visual PDF
100% (18)
Learning The Pandas Library Python Tools For Data Munging Analysis and Visual PDF
208 pages
Databricks Question 1668314325
No ratings yet
Databricks Question 1668314325
104 pages
Big Data Engineering - PySpark
100% (2)
Big Data Engineering - PySpark
120 pages
Data Visualization in Python Preview PDF
100% (8)
Data Visualization in Python Preview PDF
58 pages
Data Engineering Cookbook
88% (8)
Data Engineering Cookbook
88 pages
Data Engineering With Databricks
100% (2)
Data Engineering With Databricks
63 pages
Architecting A Data Lake
100% (8)
Architecting A Data Lake
60 pages
CHFI Tool Notes by Ken Underhill: Recover My Files (Windows)
No ratings yet
CHFI Tool Notes by Ken Underhill: Recover My Files (Windows)
4 pages
Packt - Hands On - Big.data - Analytics.with - Pyspark.2019
100% (1)
Packt - Hands On - Big.data - Analytics.with - Pyspark.2019
253 pages
Introduction To Spark For Data Engineers / Data Scientists
100% (3)
Introduction To Spark For Data Engineers / Data Scientists
100 pages
Snowflake Vs Data Bricks
No ratings yet
Snowflake Vs Data Bricks
10 pages
No Ph.D. Game Design With Three.js
From Everand
No Ph.D. Game Design With Three.js
Nikiforos Kontopoulos
No ratings yet
150+ C Pattern Programs
From Everand
150+ C Pattern Programs
Hernando Abella
No ratings yet

SQL and PySpark

Uploaded by

SQL and PySpark

Uploaded by

SQL and PySpark

SELECT column1, column2 FROM table; df.select("column1", "column2")

SELECT * FROM table WHERE condition; df.filter("condition")

SELECT AVG(column) FROM table; df.select(F.avg("column"))

SELECT column, COUNT(*) FROM table df.groupBy("column").count()

SELECT * FROM table ORDER BY column df.orderBy("column", ascending=True)

SELECT * FROM table1 JOIN table2 ON df1.join(df2, df1.id == df2.id)

SELECT * FROM table1 UNION SELECT * df1.union(df2)

SELECT * FROM table LIMIT 100; df.limit(100)

SELECT DISTINCT column FROM table; df.select("column").distinct()

SELECT *, (column1 + column2) AS df.withColumn("new_column", F.col("column1") +

SELECT column AS alias_name FROM table; df.select(F.col("column").alias("alias_name"))

SELECT * FROM table WHERE condition1 df.filter((F.col("condition1")) &

SELECT * FROM (SELECT * FROM table df.filter("condition").alias("subquery")

SELECT * FROM table WHERE column df.filter(F.col("column").between("val1", "val2"))

SELECT * FROM table WHERE column LIKE df.filter(F.col("column").like("pattern"))

SELECT CASE WHEN condition THEN result1 df.select(F.when(F.col("condition"),

SELECT CAST(column AS datatype) FROM df.select(F.col("column").cast("datatype"))

SELECT COUNT(DISTINCT column) FROM df.select(F.countDistinct("column"))

SELECT SUBSTRING(column, start, length) df.select(F.substring("column", start, length))

SELECT CONCAT(column1, column2) AS df.withColumn("new_column",

SELECT AVG(column) OVER (PARTITION BY df.withColumn("avg",

SELECT SUM(column) OVER (PARTITION BY df.withColumn("sum",

SELECT LEAD(column, 1) OVER (ORDER BY df.withColumn("lead", F.lead("column",

SELECT LAG(column, 1) OVER (ORDER BY df.withColumn("lag", F.lag("column",

SELECT COUNT(*) FROM table; df.count()

ALTER TABLE table DROP COLUMN column; df.drop("column")

ALTER TABLE table RENAME COLUMN df.withColumnRenamed("column1", "column2")

ALTER TABLE table ALTER COLUMN column df.withColumn("column",

CREATE TABLE new_table AS SELECT * (df.write.format("parquet").saveAsTable("new_ta

INSERT INTO table2 SELECT * FROM table1; (df1.write.insertInto("table2"))

CREATE TABLE new_table AS SELECT (df.select("column1",

SELECT column, COUNT(*) AS count FROM df.groupBy("column").agg(F.count("*").alias("coun

SELECT * FROM (SELECT * FROM table df.filter("condition").alias("sub").filter("sub.condit

SELECT * FROM table1 JOIN table2 ON df1.join(df2, "id").join(df3, "id")

SELECT * FROM table1 CROSS JOIN table2; df1.crossJoin(df2)

SELECT column, COUNT(*) FROM table df.groupBy("column").count().filter(F.col("count")

SELECT t1.* FROM table1 t1 JOIN table2 t2 df1.alias("t1").join(df2.alias("t2"), F.col("t1.id") ==

SELECT t1.column, t2.column FROM table1 df1.join(df2, df1.id == df2.id).select(df1.column,

SELECT CASE WHEN condition THEN df.select(F.when(F.col("condition"),

SELECT EXTRACT(YEAR FROM date_column) df.select(F.year(F.col("date_column")))

SELECT * FROM table WHERE column != df.filter(df.column != 'value')

SELECT * FROM table WHERE column IN df.filter(df.column.isin('value1', 'value2'))

SELECT * FROM table WHERE column NOT df.filter(~df.column.isin('value1', 'value2'))

SELECT * FROM table WHERE column IS df.filter(df.column.isNull())

SELECT * FROM table WHERE column IS df.filter(df.column.isNotNull())

SELECT UPPER(column) FROM table; df.select(F.upper(df.column))

SELECT LOWER(column) FROM table; df.select(F.lower(df.column))

SELECT LENGTH(column) FROM table; df.select(F.length(df.column))

SELECT TRIM(column) FROM table; df.select(F.trim(df.column))

SELECT LTRIM(column) FROM table; df.select(F.ltrim(df.column))

SELECT RTRIM(column) FROM table; df.select(F.rtrim(df.column))

SELECT REPLACE(column, 'find', 'replace') df.select(F.regexp_replace(df.column, 'find',

SELECT SUBSTRING_INDEX(column, 'delim', df.select(F.expr("split(column, 'delim')[count-1]"))

SELECT DATEDIFF('date1', 'date2') FROM df.select(F.datediff(F.col('date1'), F.col('date2')))

SELECT ADD_MONTHS(date_column, df.select(F.add_months(df.date_column,

SELECT FIRST_VALUE(column) OVER df.withColumn("first_val",

SELECT LAST_VALUE(column) OVER df.withColumn("last_val",

SELECT ROW_NUMBER() OVER (PARTITION df.withColumn("row_num",

SELECT RANK() OVER (PARTITION BY df.withColumn("rank",

SELECT DENSE_RANK() OVER (PARTITION df.withColumn("dense_rank",

SELECT COUNT(*) FROM table; df.count()

SELECT column1 + column2 FROM table; df.select(F.col("column1") + F.col("column2"))

SELECT column1 | column2 AS new_column df.withColumn("new_column", F.concat_ws("|",

SELECT MIN(column) FROM table; df.select(F.min("column"))

SELECT MAX(column) FROM table; df.select(F.max("column"))

SELECT DISTINCT * FROM table; df.distinct()

SELECT column, COUNT(*) FROM table df.groupBy("column").count().filter(F.col("count")

SELECT ROUND(column, 2) FROM table; df.select(F.round("column", 2))

SELECT CURRENT_DATE(); df.select(F.current_date())

SELECT DATE_ADD(date_column, 10) FROM df.select(F.date_add(F.col("date_column"), 10))

SELECT DATE_SUB(date_column, 10) FROM df.select(F.date_sub(F.col("date_column"), 10))

SELECT YEAR(date_column) FROM table; df.select(F.year(F.col("date_column")))

SELECT MONTH(date_column) FROM table; df.select(F.month(F.col("date_column")))

SELECT DAY(date_column) FROM table; df.select(F.dayofmonth(F.col("date_column")))

SELECT * FROM table ORDER BY column df.orderBy(F.col("column").desc())

SELECT column, COUNT() AS count FROM df.groupBy("column").agg(F.count("").alias("coun