0% found this document useful (0 votes)

29 views11 pages

Data and AI - Spark Python

The document is a comprehensive cheat sheet for Apache Spark, detailing initialization, data reading, writing, schema management, and various data manipulation operations in both Scala and Python. It covers functionalities such as filtering, sorting, joining, and aggregating data, providing code examples for each operation. The document serves as a quick reference for users familiar with Spark programming in either language.

Uploaded by

Devendran D

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

29 views11 pages

Data and AI - Spark Python

Uploaded by

Devendran D

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Shwetank Singh

GritSetGrow - [Link]

DATA AND AI

EVERYTHING
SPARK
[Link]
Spark Cheat Sheet
Spark Initialization in Scala
SparkContext SparkSession
import [Link] import [Link]
import [Link]
val sc = new SparkContext("local[*]","app1"
val sparkConf = new SparkConf()
[Link]("[Link]","my first app")
[Link]("[Link]","local[2]")

val spark=[Link]()
.config(sparkConf)
.getOrCreate()
Read files in Scala Read files in Python
val ordersDf=[Link] df=[Link]("csv") \
.format("csv") .option"header",”true”) \
.option("header",true) .option("inferSchema",”true”)\
.option("inferSchema",true) .option("sep",",") \
.option("path","C:/Users/Lenovo/Documents/BIG .option("path","/FileStore/tables/Employees-
DATA/WEEK11/[Link]") [Link]") \
.load .load()

[Link]() display(df)
Read Modes in Scala Read Modes in Python
val ordersDf=[Link] df=[Link]("csv") \
.format("csv") .option"header",”true”) \
.option("header",true) .option("inferSchema",”true”)\
.option("mode", "FAILFAST") .option("mode", "FAILFAST") \
.option("inferSchema",true) .option("sep",",") \
.option("path","C:/Users/Lenovo/Documents/BIG .option("path","/FileStore/tables/Employees-
DATA/WEEK11/[Link]") [Link]") \
.load .load()

PERMISSIVE display(df)
Sets all fields to null when it encounters a
corrupted record and places all corrupted records
in a string column called _corrupt_record
DROPMALFORMED
Drops the row that contains malformed records
FAILFAST
Fails immediately upon encountering malformed
records
The default is permissive.
Write to Sink in Scala Write to sink in Python
import [Link] [Link]("csv") \
.mode("overwrite") \
[Link] .csv('/FileStore/tables_output/[Link]')
.format("json") //default format is parquet if
not specified
.mode([Link]) //4 modes:-
Append, overwrite, Errorifexists, ignore
.option("path","C:/Users/Lenovo/Documents/BIG
DATA/WEEK11/newfolder")
.save()

Default is Errorifexists
Impose Schema in Scala(StructType) Impose Schema in Python
import [Link]
import [Link] from [Link] import
import [Link] StructType,StructField,StringType,IntegerType
import [Link]
import [Link]
empSchema=StructType((
StructField("empid",IntegerType()),
val ordersSchema= StructType(List(
StructField("empname",StringType()),
StructField("orderid",IntegerType), StructField("city",StringType()),
StructField("orderdate",TimestampType), StructField("salary",IntegerType())
StructField("customerid",IntegerType), ))
StructField("status",StringType)
)) df = [Link]("csv") \
.option("header","false") \
val ordersDf=[Link] .schema(empSchema) \
.format("csv")
.schema(ordersSchema) .option("path","/FileStore/tables/[Link]") \
.load()
.option("path","C:/Users/Lenovo/Documents/BIG
DATA/WEEK11/[Link]")
[Link]()
.load
[Link]()
[Link]()
Impose Schema in Scala(DDL string) Impose Schema in Scala(DDL string)
val ordersSchema="orderid int, orderdate string, empschema="empid int,empname string,city
custid int, orderstatus string" string,salary double"

val ordersDf=[Link] df=[Link]("csv") \

.format("csv") .option("header","false") \
.schema(ordersSchema) .schema(empschema) \
.option("path","/FileStore/tables/[Link]
.option("path","C:/Users/Lenovo/Documents/BIG v") \
DATA/WEEK11/[Link]") .load()
.load
[Link]()
[Link]() [Link]()
Rename columns in Scala Rename columns in Pyspark
val newDf= df=[Link]("id","id_new")
[Link]("order_customer_
id", "customer_id")
Rename Multiple columns in Scala Rename Multiple columns in Pyspark
val newDf= df=[Link]("id","id_new")
[Link]("order_id", "id") .withColumnRenamed("name","name_New")
.withColumnRenamed("order_date", "date") .withColumnRenamed("City","City_New")
.withColumnRenamed("order_customer_id",
customer_id")
.withColumnRenamed("order_status", "status")
Rename Multiple columns in Scala(SelectExpr) Rename Multiple columns in Pyspark(SelectExpr)
[Link]("order_id as id","order_date [Link]("id as NewId","Name as
as date") NewName")
Add columns in Scala Add columns in Pyspark
[Link]("country", lit("india")) [Link]("Country",lit("India"))
[Link]("dblid", col("order_id")*2) [Link]("Incentive",col("salary")*0.2)
Drop column in Scala Drop column in Pyspark
val newDf =[Link]("REGION") newdf2=[Link]("REGION")

val newDf =[Link]("ID","REGION") newdf3=[Link]("ID","REGION")

Select columns in Scala Select columns in Pyspark
import [Link].{col, [Link]("id","name","salary")
column,expr}

[Link]("order_id”,” order_customer_id",
"order_status").show
[Link](column("order_id"),col("order_da [Link](col("id"),col("name"))
te")
,$"order_customer_id",'order_status).show
[Link](column("order_id"), [Link](col("id"),
expr("concat(order_status,'_STATUS')")).show(fal expr("concat(name,'_STATUS')"))
se)
[Link]("order_id","order_date" [Link]("id","name"
,"concat(order_status,'_STATUS')")
,"concat(name,'_STATUS')")
Filter in Scala Filter in Pyspark
[Link]("weeknum==50") [Link]([Link]==1)
[Link]("weeknum>45") [Link]([Link]>5)
[Link]("country=='India'") [Link]([Link]=="PUNE")
[Link]("country='India' OR [Link](([Link]==1) | ([Link]==3))
country='Italy'")
[Link](ordersDf("country")==="India" && [Link](([Link]=="PUNE") & ([Link]>50000))
ordersDf("totalqty")>1000)
[Link]("weeknum!=50") [Link]([Link]!=1)
[Link]("country!='India'")
[Link]([Link]!="PUNE")
[Link](df("salary")>=30000 &&
df[df["salary"].between(30000,60000)].show()
df("salary")<=60000).show
Sort in Scala Sort in Pyspark
[Link]("invoicevalue") [Link]([Link])
[Link](col("invoicevalue").desc) [Link]([Link]())
[Link]("country","invoicevalue") [Link]([Link],[Link])
[Link](col("country").asc,col("invoicevalue [Link]([Link],[Link]())
").desc)
Remove duplicates in Scala Remove duplicates in Pyspark
[Link]() [Link]()
[Link]() [Link]()
[Link]("city") [Link](["city"])
[Link]("name","city") [Link](["city","salary"])
Union in Scala Union in Pyspark
[Link](ordersDf) [Link](df2)
When in Scala When in Pyspark
[Link]("Tier", [Link]("CityTier",when(col("city")=="Pu
when(col("city")==="MUMBAI",1).when(col("city" ne",3).when(col("city")=="Delhi",1).
)==="PUNE",2).otherwise(0)) when(col("city")=="Mumbai",2).otherwise('na'))
[Link](col("*"), [Link](col("*"),when(col("city")=="Pune",3)
when(col("city")==="MUMBAI",1).when(col("city" .when(col("city")=="Delhi",1).
)==="PUNE",2).otherwise(0).as("Tier")) when(col("city")=="Mumbai",2).
otherwise('na').alias("CityTier"))
Contains in Scala Contains in Pyspark
import [Link] from [Link] import col

val filteredDf= filteredDf2=[Link](col("REGION").co

[Link](col("REGION").contains("ST")) ntains("ST"))
[Link](col("empname").like("A%")).show
[Link](col("empname").like("A%")).show
[Link](col("empname").like("%N")).show
[Link](col("empname").like("%N")).show
[Link](col("empname").like("%A%")).show
[Link](col("empname").like("%A%")).show
Summary in Scala Summary in Pyspark
[Link]().show() [Link]().show()
Case Conversion in Scala Case Conversion in Pyspark
import from [Link] import initcap,col
[Link].{initcap,upper,low
er,col} [Link](initcap(col("data"))).show(truncate=0)

val df2=[Link](initcap(col("data"))) [Link](upper(col("data"))).show(truncate=0)

val df2=[Link](upper(col("data"))) [Link](lower(col("data"))).show(truncate=0)

val df2=[Link](lower(col("data")))
Trim in Scala Trim in Pyspark
import [Link].{lit, ltrim, from [Link] import lit, ltrim, rtrim,
rtrim, rpad, lpad, trim} rpad, lpad, trim

[Link]( [Link](
ltrim(lit(" HELLO ")).as("ltrim"), ltrim(lit(" HELLO ")).alias("ltrim"),
rtrim(lit(" HELLO ")).as("rtrim"), rtrim(lit(" HELLO ")).alias("rtrim"),
trim(lit(" HELLO ")).as("trim"), trim(lit(" HELLO ")).alias("trim"),
lpad(lit("HELLO"), 3, " ").as("lp"), lpad(lit("HELLO"), 3, " ").alias("lp"),
rpad(lit("HELLO"), 10, " ").as("rp")).show(2) rpad(lit("HELLO"), 10, " ").alias("rp")).show(2)
val df2=[Link](upper(col("data")))

val df2=[Link](lower(col("data")))
Round in Scala Round in Pyspark
import [Link].{round, from [Link] import lit,round,
bround,col} bround

val roundedDf [Link](round(lit("2.5")),

=[Link](round(col("SALES"), bround(lit("2.5"))).show(2)
1).alias("rounded"))

[Link](round(lit("2.5")),
bround(lit("2.5"))).show(2)
Split in Scala Split in Pyspark
import [Link].{split,col} from [Link] import split,col

[Link](split(col("data")," [Link](split(col("data"),"
").alias("words_array")).show ").alias("words_array")).show()

[Link]("words_array[0]").show [Link]("words_array[0]").show()
Size of array in Scala Size of array in Pyspark
import [Link].{size,col} from [Link] import size,col

[Link](size(col("words_array"))).show [Link](size(col("words_array"))).show(
)
Array contains in Scala Array contains in Pyspark
import from [Link] import
[Link].{array_contains,col array_contains,col
}
[Link](array_contains(col("words_arra
[Link](array_contains(col("words_arra y"),"big")).show()
y"),"big")).show
Explode in Scala Explode in Pyspark
import from [Link] import explode,col
[Link].{explode,col}
[Link]("exploded_words",explo
[Link]("exploded_words",explod de(col("words_array"))).show(truncate=0)
e(col("words_array"))).show(false)
UDF in Scala UDF in Pyspark
def power3(number:Double):Double = number * def power3(double_value): return double_value
number * number ** 3

[Link]("power3",
power3(_:Double):Double)

[Link]("power3(num)").show
Joins in Scala Joins in Pyspark
val joincondition = [Link](df2,[Link]==[Link],"inner").show()
[Link]("order_customer_id")===customers [Link](df2,[Link]==[Link],"left").show()
[Link]("customer_id") [Link](df2,[Link]==[Link],"right").show()
[Link](df2,[Link]==[Link],"outer").show()
val joinedDf=
[Link](customersDf,joincondition,"inner").
sort("order_customer_id")

Collect set & list in Scala Collect set & list in Pyspark
import [Link].{collect_set, from [Link] import collect_set,
collect_list} collect_list

[Link](collect_set("Country")).show(false) [Link](collect_set("Country")).show()

[Link](collect_list("Country")).show()
[Link](collect_list("Country")).show()
Aggregate in Scala Aggregate in Pyspark
[Link](
count("*").as("Rowcount"),
sum("Quantity").as("TotalQty"),
avg("UnitPrice").as("AvgPrice"),

countDistinct("InvoiceNo").as("DistinctInvoices")
//method1:- column object expression
).show
[Link]( [Link](
"count(*) as Rowcount", "count(*) as Rowcount",
"sum(Quantity) as TotalQty", "sum(Quantity) as TotalQty",
"avg(UnitPrice) as AvgPrice", "avg(UnitPrice) as AvgPrice",
"count(Distinct(InvoiceNo)) as "count(Distinct(InvoiceNo)) as
DistinctInvoices" //method2:- string expression DistinctInvoices"
).show ).show()

[Link]("sales") [Link]("sales") \

//method 3:- spark sql

[Link]("select count(*) as [Link]("select count(*) as
Rowcount,sum(Quantity) as Rowcount,sum(Quantity) as
TotalQty,avg(UnitPrice) as TotalQty,avg(UnitPrice) as
AvgPrice,count(Distinct(InvoiceNo)) as AvgPrice,count(Distinct(InvoiceNo)) as
DistinctInvoices from sales").show DistinctInvoices from sales").show()

Grouping Aggregate in Scala Grouping Aggregate in Pyspark

[Link]("country").sum("Quantity").sho [Link]('city').sum('salary')
w
[Link]("country","InvoiceNo") [Link]('city').agg(sum('salary').alias('TotalSal
.agg(sum("Quantity").as("TotalQty"), ary'), max('salary').alias('MaxSalary'),min('salary')
sum(expr("Quantity * ,min('salary').alias('MinSalary'),
UnitPrice")).as("InvoiceValue")).show avg('salary').alias('AvgSalary'))
//method1
[Link]("country","InvoiceNo")
.agg(expr("sum(Quantity) as TotalQty"),
expr("sum(Quantity * UnitPrice") as
InvoiceValue") //method2
).show
[Link]("sales")

[Link]("""select
country,InvoiceNo,sum(Quantity) as TotalQty,
sum(Quantity * UnitPrice) as InvoiceValue
from sales group by country,InvoiceNo""").show
//method3
Window Aggregate in Scala Window Aggregate in Pyspark
val RowWindow = window =
[Link]().orderBy("TotalQty") [Link]().orderBy("salary")
[Link]("Rownum",row_number().over(wi
[Link]("Rownum",row_number().o ndow)).show()
ver(RowWindow)).show
val RowWindow2 = window =
[Link]().orderBy(col("TotalQty").des [Link]().orderBy(col("salary").desc()
c) )

[Link]("Rownum",row_number().o [Link]("Rownum",row_number().over(wi
ver(RowWindow2)).show ndow)).show()
val RowWindow3 = window =
[Link]("country").orderBy(col("Tota [Link]("city").orderBy(col("salary").
lQty").desc) desc())

[Link]("Rownum",row_number().o [Link]("Rownum",row_number().over(wi
ver(RowWindow3)).show ndow)).show()
val RowWindow4 = window =
[Link]("country","weeknum").order [Link](“state”,"city").orderBy(col("
By(col("TotalQty").desc) salary").desc())

[Link]("Rownum",row_number().o [Link]("Rownum",row_number().over(wi
ver(RowWindow4)).show(100) ndow)).show()
Running Total in Scala Running Total in Pyspark
val RunningWindow = RunningWindow =
[Link]().orderBy("country") [Link]().orderBy("city") \
.rowsBetween([Link],Win
[Link]) .rowsBetween([Link],Wi
[Link])
[Link]("RunningTotal",sum("invoic
evalue").over(RunningWindow)).show [Link]("RunningTotal",sum("salary").ove
r(RunningWindow)).show()
val myWindow = [Link]("country") RunningWindow =
.orderBy("weeknum") [Link]("city").orderBy("city") \

.rowsBetween([Link],Win .rowsBetween([Link],Wi
[Link]) [Link])

val myDf = [Link]("RunningTotal",sum("salary").ove

[Link]("RunningTotal",sum("invoic r(RunningWindow)).show()
evalue").over(myWindow))
val myWindow2 = [Link]() RunningWindow =
.orderBy("weeknum") [Link]().orderBy("city") \
.rowsBetween(-2,[Link]) .rowsBetween(-2,[Link])

[Link]("RunningTotal",sum("invoic [Link]("RunningTotal",sum("salary").ove
evalue").over(myWindow2)).show r(RunningWindow)).show()
Rank in Scala Rank in Pyspark
val RunningWindow = RunningWindow =
[Link]().orderBy("invoicevalue") [Link]().orderBy("salary")
[Link]("Ranks",rank().over(RunningWind
[Link]("Ranks",rank().over(Runnin ow)).show()
gWindow)).show
val RunningWindow2 = RunningWindow =
[Link]().orderBy(col("invoicevalue") [Link]().orderBy(col("salary").desc()
.desc) )
[Link]("Ranks",rank().over(RunningWind
[Link]("Ranks",rank().over(Runnin ow)).show()
gWindow2)).show
val RunningWindow3 = RunningWindow =
[Link]("country").orderBy(col("invo [Link]("city").orderBy(col("salary").
icevalue").desc) desc())
[Link]("Ranks",rank().over(RunningWind
[Link]("Ranks",rank().over(Runnin ow)).show()
gWindow3)).show
Dense Rank in Scala Dense Rank in Pyspark
val RunningWindow = RunningWindow =
[Link]().orderBy("invoicevalue") [Link]().orderBy("salary")
[Link]("Ranks",dense_rank().over(Runni
[Link]("Ranks",dense_rank().over( ngWindow)).show()
RunningWindow)).show

val RunningWindow2 = RunningWindow =

[Link]().orderBy(col("invoicevalue") [Link]().orderBy(col("salary").desc()
.desc) )
[Link]("Ranks", [Link]("Ranks",
dense_rank ().over(RunningWindow2)).show dense_rank().over(RunningWindow)).show()
val RunningWindow3 = RunningWindow =
[Link]("country").orderBy(col("invo [Link]("city").orderBy(col("salary").
icevalue").desc) desc())
[Link]("Ranks", [Link]("Ranks",
dense_rank ().over(RunningWindow3)).show dense_rank().over(RunningWindow)).show()
Repartition in Scala Repartition in Pyspark
val newRdd=[Link](6) [Link](6).[Link]("parquet").mode("
overwrite").save('/FileStore/tables/Repart')
Coalesce in Scala Coalesce in Pyspark
val newRdd=inputRDD. Coalesce (6) df. Coalesce
(6).[Link]("parquet").mode("overwrite").s
ave('/FileStore/tables/Repart')
Partition in Scala Partition in Pyspark
[Link] [Link]("header","true").partitionBy("CO
.format("csv") UNTRY").mode("overwrite").csv("/FileStore/table
.partitionBy("order_status") s/Sample_Partition_op")
.mode([Link])
.option("path","C:/Users/Lenovo/Documents/BIG
DATA/WEEK11/newfolder")
.save()
[Link] [Link]("header","true").partitionBy("CO
.format("csv") UNTRY"
.partitionBy(“country”,"order_status") ,”CITY”).mode("overwrite").csv("/FileStore/tables
.mode([Link]) /Sample_Partition_op")

.option("path","C:/Users/Lenovo/Documents/BIG
DATA/WEEK11/newfolder")
.save()
Bucketing in Scala Bucketing in Pyspark
[Link] [Link]("csv") \
.format("csv") .mode("overwrite") \
.mode([Link]) .bucketBy(4, "id") \
.bucketBy(4, "order_customer_id") .sortBy("id") \
.sortBy("order_customer_id") .saveAsTable("orders_bucketed")
.saveAsTable("orders")
Cast Column in Scala Cast Column in Pyspark
val df= [Link]("id", [Link]("id",[Link]('integer')).withColu
ordersDf("id").cast(IntegerType)) mn("salary",[Link]('integer'))
[Link](col("id").cast("int").as("id"),col("n [Link](col("id").cast('int'),col("name"),col("sal
ame").cast("string").as("name")) ary").cast('int'))
[Link]("cast(id as [Link]('cast(id as int)','name','cast(salary
int)","name","cast(salary as int)") as int)')
Fill nulls in Scala Fill nulls in Pyspark
[Link](0) [Link](0)
[Link]("none") [Link]("none")
[Link]("order_id",expr("coalesce(o [Link]("salary",expr("coalesce(salary,-
rder_id,-1)")) 1)"))
Read directly in Scala Read Directly in Pyspark
[Link]("select * from [Link]("SELECT * FROM
csv.`C:/Users/Lenovo/Documents/[Link]` csv.`/user/hive/warehouse/orders_bucketed/par
") t-00000-tid-3984408860399578289-17a5aa99-
d1f9-4500-88cf-1adde09ef7fb-19-
1_00000.[Link]`")
Literal in Scala Literal in Pyspark
import [Link].{lit,expr} from [Link] import lit,expr

val limitCountriesDf=[Link](expr(""), limitCountriesDf2=[Link](expr(""),

lit(1).as("Literalcol")) lit(1).alias("Literalcol"))

[Link](10) [Link](10)
The driver program
This program invokes
converts the code into
Using spark-submit themain()method that is
Directed Acyclic
command user submits specified in the spark- Graph(DAG) which will have
spark application to spark submit command, which all the RDDs and
cluster launches the driver transformations to be
program
performed on them.

During this phase driver

program also does some
After this physical plan, optimizations and then it
Then these tasks are sent to
driver creates small converts the DAG to a
Spark Cluster.
execution units called tasks. physical execution plan
with set of stages.

Executors will register

The driver program then themselves with driver
Then the cluster manger program so the driver
talks to the cluster manager
launches the executors on program will have the
and requests for the
the worker nodes complete knowledge about
resources for execution
the executors

When the job is completed Driver program always

or called stop() method in
case of any failures, the Then driver program sends
monitors these tasks that the tasks to the executors
driver program terminates
and frees the allocated are running on the and starts the execution
resources. executors till the
completion of job

Spark Scala & Python Cheat Sheet
No ratings yet
Spark Scala & Python Cheat Sheet
10 pages
PySpark Cheatsheet - Elaborate
No ratings yet
PySpark Cheatsheet - Elaborate
14 pages
Pyspark SQL Transformation Cheat Sheet
No ratings yet
Pyspark SQL Transformation Cheat Sheet
3 pages
Basic DataFrame Operation
No ratings yet
Basic DataFrame Operation
11 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Journal
No ratings yet
Journal
47 pages
Sanya Sekhri Assignment
No ratings yet
Sanya Sekhri Assignment
2 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
Spark DataFrame and RDD Operations Guide
No ratings yet
Spark DataFrame and RDD Operations Guide
5 pages
Solutions 1742312993
No ratings yet
Solutions 1742312993
14 pages
Pyspark Module 1
No ratings yet
Pyspark Module 1
63 pages
SQL & Pyspark
No ratings yet
SQL & Pyspark
9 pages
SQL Vs Pyspark-1
No ratings yet
SQL Vs Pyspark-1
9 pages
SQL & pySPARK
No ratings yet
SQL & pySPARK
9 pages
Big Data Analytics with Spark DataFrames
No ratings yet
Big Data Analytics with Spark DataFrames
79 pages
SQL vs PySpark Operations Guide
No ratings yet
SQL vs PySpark Operations Guide
8 pages
DGDGSZ
No ratings yet
DGDGSZ
15 pages
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
SQL PySpark Cheat Sheet 1731729790
No ratings yet
SQL PySpark Cheat Sheet 1731729790
9 pages
Pyspark - Cheatsheet With Comparison To SQL5 - Seequality
No ratings yet
Pyspark - Cheatsheet With Comparison To SQL5 - Seequality
36 pages
Spark RDD, DataFrame, and Dataset Guide
No ratings yet
Spark RDD, DataFrame, and Dataset Guide
9 pages
Native SQL Support in Spark with Catalyst
No ratings yet
Native SQL Support in Spark with Catalyst
27 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Pyspark IQ FREE Guide
100% (1)
Pyspark IQ FREE Guide
57 pages
Master Pyspark Zero To Big Data Hero: Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7 Day 8 Day 9 Day 10
No ratings yet
Master Pyspark Zero To Big Data Hero: Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7 Day 8 Day 9 Day 10
106 pages
Master PySpark 1-18
No ratings yet
Master PySpark 1-18
59 pages
w12 - Runningnotes 201026 001818
No ratings yet
w12 - Runningnotes 201026 001818
25 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
PySpark Data Frame Questions PDF
100% (2)
PySpark Data Frame Questions PDF
57 pages
Saprk
No ratings yet
Saprk
1 page
Unit 4 Spark SQL
No ratings yet
Unit 4 Spark SQL
49 pages
Using Spark to Read CSV Data
No ratings yet
Using Spark to Read CSV Data
5 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
Spark SQL
No ratings yet
Spark SQL
41 pages
Spark Class 1 Rough Notes
No ratings yet
Spark Class 1 Rough Notes
9 pages
Pyspark Coding Interview Questions
No ratings yet
Pyspark Coding Interview Questions
19 pages
07 Structured Data Processing
No ratings yet
07 Structured Data Processing
91 pages
Fall209 Spark SQL MC
No ratings yet
Fall209 Spark SQL MC
96 pages
Mod5 Bda
No ratings yet
Mod5 Bda
9 pages
PySpark All Query
No ratings yet
PySpark All Query
22 pages
PySpark DataFrame Merging Guide
No ratings yet
PySpark DataFrame Merging Guide
42 pages
PySpark SQL Cheat Sheet Guide
No ratings yet
PySpark SQL Cheat Sheet Guide
1 page
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
How To Work With Apache Spark and Delta Lake?
No ratings yet
How To Work With Apache Spark and Delta Lake?
40 pages
Spark Revision
No ratings yet
Spark Revision
16 pages
Pyspark Distinct and Filter
No ratings yet
Pyspark Distinct and Filter
3 pages
PySpark StructType & StructField Guide
No ratings yet
PySpark StructType & StructField Guide
6 pages
Apache Spark With Scala - Cheatsheet
No ratings yet
Apache Spark With Scala - Cheatsheet
7 pages
Databricks Interview3
No ratings yet
Databricks Interview3
7 pages
PySpark, SQL
No ratings yet
PySpark, SQL
7 pages
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
PySpark SQL Cheat Sheet Python
100% (2)
PySpark SQL Cheat Sheet Python
1 page
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
PySpark SQL Basics Cheat Sheet
No ratings yet
PySpark SQL Basics Cheat Sheet
1 page
PySpark Notes
No ratings yet
PySpark Notes
64 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
Myinterview Qs
No ratings yet
Myinterview Qs
9 pages
Department of Labor: 198 Publication
No ratings yet
Department of Labor: 198 Publication
32 pages
Model Test Paper For MPT Entrance Examinations
82% (28)
Model Test Paper For MPT Entrance Examinations
4 pages
Definitions of HRD
No ratings yet
Definitions of HRD
6 pages
Hinduism vs Buddhism: A Comparative Study
No ratings yet
Hinduism vs Buddhism: A Comparative Study
74 pages
Carbohydrate Chemistry Guide
0% (1)
Carbohydrate Chemistry Guide
27 pages
Baldwin v. Fish and Game Comm'n of Mont., 436 U.S. 371 (1978)
No ratings yet
Baldwin v. Fish and Game Comm'n of Mont., 436 U.S. 371 (1978)
28 pages
Fine Collected Boys
No ratings yet
Fine Collected Boys
7 pages
Nonlinear Pharmacokinetics Explained
0% (1)
Nonlinear Pharmacokinetics Explained
10 pages
DSWD Hiv Referral Book (1) Final and Published
No ratings yet
DSWD Hiv Referral Book (1) Final and Published
98 pages
Chapter 1 Overview
No ratings yet
Chapter 1 Overview
13 pages
Ovids Metamorphoses Oxford Approaches To Classical Literature Elaine Fantham PDF Download
No ratings yet
Ovids Metamorphoses Oxford Approaches To Classical Literature Elaine Fantham PDF Download
57 pages
7 Secrets For Esl Learners PDF
No ratings yet
7 Secrets For Esl Learners PDF
11 pages
Understanding Functions and Their Representations
100% (1)
Understanding Functions and Their Representations
20 pages
Finance Students' Assignment Guide
No ratings yet
Finance Students' Assignment Guide
8 pages
Exam Time Table 1st Sem. 2024-2025 (Draft)
No ratings yet
Exam Time Table 1st Sem. 2024-2025 (Draft)
6 pages
Essay Writing Guide for BSED Students
No ratings yet
Essay Writing Guide for BSED Students
4 pages
Essential B1 Connectors: Category Connector USE Form Examples
No ratings yet
Essential B1 Connectors: Category Connector USE Form Examples
1 page
NFV State-Of-The-Art and Research Challenges
No ratings yet
NFV State-Of-The-Art and Research Challenges
28 pages
Morar Et Al. 2015 PDF
No ratings yet
Morar Et Al. 2015 PDF
14 pages
Pointing Error Model for Antennas
No ratings yet
Pointing Error Model for Antennas
13 pages
Grade 9 Science: Constellations Lesson
No ratings yet
Grade 9 Science: Constellations Lesson
4 pages
Understanding Aphorismus in Rhetoric
No ratings yet
Understanding Aphorismus in Rhetoric
3 pages
AdditionalMaterialDocument2017 2018 (1) 3
No ratings yet
AdditionalMaterialDocument2017 2018 (1) 3
51 pages
Other Vowels + Exceptions
No ratings yet
Other Vowels + Exceptions
9 pages
PDP Study Guide 1
No ratings yet
PDP Study Guide 1
33 pages
May Ariska Nasution 1905151003 - Parts of A Business Letter
No ratings yet
May Ariska Nasution 1905151003 - Parts of A Business Letter
5 pages
NATTA
No ratings yet
NATTA
30 pages
Effective Workplace Feedback Strategies
No ratings yet
Effective Workplace Feedback Strategies
8 pages
IIM Indore Annual Highlights
No ratings yet
IIM Indore Annual Highlights
98 pages

Data and AI - Spark Python

Uploaded by

Data and AI - Spark Python

Uploaded by

Shwetank Singh

val ordersDf=[Link] df=[Link]("csv") \

val newDf =[Link]("ID","REGION") newdf3=[Link]("ID","REGION")

val filteredDf= filteredDf2=[Link](col("REGION").co

val df2=[Link](initcap(col("data"))) [Link](upper(col("data"))).show(truncate=0)

val df2=[Link](upper(col("data"))) [Link](lower(col("data"))).show(truncate=0)

val roundedDf [Link](round(lit("2.5")),

//method 3:- spark sql

Grouping Aggregate in Scala Grouping Aggregate in Pyspark

val myDf = [Link]("RunningTotal",sum("salary").ove

val RunningWindow2 = RunningWindow =

val limitCountriesDf=[Link](expr("*"), limitCountriesDf2=[Link](expr("*"),

During this phase driver

Executors will register

When the job is completed Driver program always

You might also like

val limitCountriesDf=[Link](expr(""), limitCountriesDf2=[Link](expr(""),