0% found this document useful (0 votes)

57 views

Week12 Assignment Solution

This document contains solutions to 3 assignments using Apache Spark structured APIs: 1) The first assignment calculates employee counts by department by joining employee and department dataframes. 2) The second assignment finds top movies by joining ratings and movies dataframes using a broadcast join. 3) The third assignment finds the batsman from the 2019 World Cup with the highest career batting average by joining cricket statistics and World Cup player dataframes using a broadcast join.

Uploaded by

Arnab Dey

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

57 views

Week12 Assignment Solution

Uploaded by

Arnab Dey

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

A

Assignment Solution
Week12: Apache Spark - Structured API
Part-2
1
Spark StructuredAPIs -Assignment Solutions

Assignment 1 :

Given 2 Datasets employee.json and dept.json

We need to calculate the count of employees against each department. Use Structured
APIs.

Code:

//Find the count of employees against each department

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.log4j.Level
import org.apache.log4j.Logger
import org.apache.spark.sql.functions._

object Assignment1_Week12 extends App{

//Setting the Log Level

Logger.getLogger("org").setLevel(Level.ERROR)

//Setting the spark conf

val sparkConf = new SparkConf()
sparkConf.set("spark.app.name","Assignment1_Week12")
sparkConf.set("spark.master","local[2]")

//Creating Spark Session

val spark = SparkSession.builder()
.config(sparkConf)
.getOrCreate()

//Load the department data into a Dataframe using dataframe reader API

val deptDf = spark.read

.format("json")
.option("path","C:/TrendyTech/SparkExamples/dept.json")
.load()

// deptDf.show()
// deptDf.printSchema()
2
//Load the employee data into a Dataframe using dataframe reader API

val employeeDf = spark.read

.format("json")
.option("path","C:/TrendyTech/SparkExamples/employee.json")
.load()

// employeeDf.show()
// employeeDf.printSchema()

//Joining of two dataframes using left outer join, with department dataframe on left
side

val joinCondition = deptDf.col("deptid") === employeeDf.col("deptid")//join

condition

val joinType = "left" //joinType

val joinedDf = deptDf.join(employeeDf, joinCondition, joinType) //Joining of two

dataframes

//drop the ambiguous column deptid of employee dataframe,from the joined

Dataframe

val joinedDfNew = joinedDf.drop(employeeDf.col("deptid"))

//Use first function so as to get other columns also along with aggregated columns

joinedDfNew.groupBy("deptid").agg(count("empname").as("empcount"),first("deptNam
e").as ("deptName")).dropDuplicates("deptName").show()

spark.stop()
}

Output:

Assignment 2
3

Find the top movies as shown in spark practical 18 using broadcast join. Use
Dataframes or Datasets to solve it this time.

Code:

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.log4j.Level
import org.apache.log4j.Logger
import org.apache.spark.sql.functions._

object Assignment2_Week12 extends App {

//Setting the Log Level

Logger.getLogger("org").setLevel(Level.ERROR)

//Setting the spark conf

val sparkConf = new SparkConf()
sparkConf.set("spark.app.name","Assignment2_Week12")
sparkConf.set("spark.master","local[2]")

//Creating Spark Session

val spark = SparkSession.builder()
.config(sparkConf)
.getOrCreate()

//Creation of a ratings dataframe using a case class approach

case class Ratings(userid:Int,movieid:Int,rating:Int,timestamp:String)//create a

case-class that represents the schema

//Creation of base RDD for ratings data

val ratingsRDD =
spark.sparkContext.textFile("C:/TrendyTech/SparkExamples/ratings.dat")//ratings data
does not have a schema, so first loading to an RDD

// map the RDD elements into instances of the case class

val caseClassSchemaRDD = ratingsRDD.map(x => x.split("::")).map(x =>

Ratings(x(0).toInt,x(1).toInt,x(2).toInt,x(3)) )
4

//Transform to a Dataframe:

import spark.implicits._

val ratingsDf = caseClassSchemaRDD.toDF()

// ratingsDf.show()
// ratingsDf.printSchema()

//Creation of base RDD for movies data

val moviesRDD =
spark.sparkContext.textFile("C:/TrendyTech/SparkExamples/movies.dat")

//defining the schema using case class

case class Movies(movieid:Int,moviename:String,genre:String)

val moviestransformedRDD = moviesRDD.map(line => line.split("::")).map(fields =>

Movies(fields(0).toInt,fields(1),fields(2)) )

val moviesNewDf =
moviestransformedRDD.toDF().select("movieid","moviename")

// moviesNewDf.show()
//moviesNewDf.printSchema()

val transformedmovieDf = ratingsDf.groupBy("movieid")

.agg(count("rating").as("movieViewCount"),avg("rating").as("avgMovieRating"))
.orderBy(desc("movieViewCount"))

//transformedmovieDf.show()

val popularMoviesDf = transformedmovieDf.filter("movieViewCount > 1000 AND

avgMovieRating > 4.5")

// popularMoviesDf.show()
5

//Now we want to associate the Movie names also, so we use a broadcast join

spark.sql("SET spark.sql.autoBroadcastJoinThreshold = -1")

val joinCondition = popularMoviesDf.col("movieid") ===

moviesNewDf.col("movieid") //join condition

val joinType = "inner" //type of

join

val finalPopularMoviesDf =
popularMoviesDf.join(broadcast(moviesNewDf),joinCondition,joinType).drop(popularM
oviesDf.col("movieid")).sort(desc("avgMovieRating")) //joining the 2 dataframes using
broadcast join where movies data is the smaller dataset

finalPopularMoviesDf.drop("movieViewCount","movieid","avgMovieRating").show(false
)

spark.stop()

Output:

Assignment 3

File A is a text file of size 1.2 GB in HDFS at location /loc/x. It contains match by match
statistics of runs scored by all the batsman in the history of cricket.
File B is a text file of size 1.2 MB present in local dir /loc/y. It contains list of batsman
playing in cricket world cup 2019.
6
File A:
1 Rohit_Sharma India 200 100.2
1 Virat_Kohli India 100 98.02
1 Steven_Smith Aus 77 79.23
35 Clive_Lloyd WI 29 37.00
243 Rohit_Sharma India 23 150.00
243 Faf_du_Plesis SA 17 35.06
File B:
Rohit_Sharma India
Steven_Smith Aus
Virat_Kohli India

Find the batsman participating in 2019 who has the best average of scoring runs in his
career. Solve this using Dataframes or Datasets.

** File is tab separated.Headers not part of file

Code:

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.log4j.Level
import org.apache.log4j.Logger
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.Row

object Assignment3_Week12 extends App {

//Setting the Log Level

Logger.getLogger("org").setLevel(Level.ERROR)

//Setting the spark conf

val sparkConf = new SparkConf()
sparkConf.set("spark.app.name","Assignment3_Week12")
sparkConf.set("spark.master","local[2]")

//Creating Spark Session

val spark = SparkSession.builder()
.config(sparkConf)
.getOrCreate()
7
//Case class creation

case class BatsmenHistory(MatchNumber:Int,Batsman:String,Team:String,

RunsScored:Int,StrikeRate:Double)

//Creation of base RDD for historical data

val batsmenHistoryRDD =
spark.sparkContext.textFile("C:/TrendyTech/SparkExamples/FileA_BatsmenDetails_Histo
ry.txt")

val batsmenHistorySchemaRDD = batsmenHistoryRDD.map(line =>

line.split("\t")).map(fields =>
BatsmenHistory(fields(0).toInt,fields(1),fields(2),fields(3).toInt,fields(4).toDouble) )

// Dataframe creation

import spark.implicits._

val batsmenHistoryDf = batsmenHistorySchemaRDD.toDF()

//batsmenHistoryDf.show()

//batsmenHistoryDf.printSchema()

//Calculating Average runs scored by a batsman in history, with highest average at top

val batsmenBestRunsAvgHistoryDf =
batsmenHistoryDf.groupBy("Batsman").agg(avg("RunsScored").as("AverageRunsScored"))
.select("Batsman","AverageRunsScored")

//batsmenBestRunsAvgHistoryDf.sort(col("AverageRunsScored").desc).show()

//create a base RDD from input data of worldcup

val batsmenWorldCupRDD =
spark.sparkContext.textFile("C:/TrendyTech/SparkExamples/FileB_BatsemenDetails_Wor
ldcup2019.txt")

//Alternative Approach instead of using case class ,though case class can also be used
instead-
8
//Programmatically create an explicit schema of the worldcup 2019 file:

val batsmenworldcupSchema = StructType(List(

StructField("batsman",StringType,false),
StructField("team",StringType)
))

//Convert RDD[Array(String)] to RDD[Row].

val batsmenWorldCupRowRDD = batsmenWorldCupRDD.map(line =>

line.split("\t")).map( fields => Row(fields(0),fields(1)))

//Apply the explicitly defined Struct Type schema to the RDD[Row]

val batsmenWorldCupDf = spark.createDataFrame(batsmenWorldCupRowRDD,

batsmenworldcupSchema)

batsmenWorldCupDf.show()
batsmenWorldCupDf.printSchema()

//autoBroadcast Join is turned off

spark.sql("SET spark.sql.autoBroadcastJoinThreshold = -1")

val joinCondition = batsmenBestRunsAvgHistoryDf.col("Batsman") ===

batsmenWorldCupDf.col("batsman")

val joinType = "inner"

//Using broadcast join

val finalBestBatsmenPlayingWorldCupDf =
batsmenBestRunsAvgHistoryDf.join(broadcast(batsmenWorldCupDf),joinCondition,joinT
ype).drop (batsmenBestRunsAvgHistoryDf.col("Batsman"))

finalBestBatsmenPlayingWorldCupDf.orderBy(desc("AverageRunsScored")).show()

spark.stop()

Output:
+-----------------+------------+
|AverageRunsScored| batsman|
9

+-----------------+------------+
| 111.5|Rohit_Sharma|
| 100.0| Virat_Kohli|
| 77.0|Steven_Smith|
+-----------------+------------+

**********************************************************************

Sterling OMS Interview Questions
No ratings yet
Sterling OMS Interview Questions
8 pages
Practical JDAPIpaper
100% (2)
Practical JDAPIpaper
19 pages
PySpark Data Frame Questions PDF
100% (1)
PySpark Data Frame Questions PDF
57 pages
Pyspark Practice
No ratings yet
Pyspark Practice
42 pages
Cloudera Academic Partnership 5
No ratings yet
Cloudera Academic Partnership 5
43 pages
Mastering Hazelcast Book
No ratings yet
Mastering Hazelcast Book
193 pages
Pyspark_Coding_Interview_Questions
No ratings yet
Pyspark_Coding_Interview_Questions
19 pages
DATAFRAME Vs DATASETS
No ratings yet
DATAFRAME Vs DATASETS
9 pages
Pyspark Code
No ratings yet
Pyspark Code
3 pages
Docse
No ratings yet
Docse
3 pages
journal
No ratings yet
journal
47 pages
Pyspark coding questions from StrataScratch platform
No ratings yet
Pyspark coding questions from StrataScratch platform
23 pages
unit 4 Spark SQL
No ratings yet
unit 4 Spark SQL
49 pages
Spark
No ratings yet
Spark
11 pages
CS 2018 042
No ratings yet
CS 2018 042
8 pages
Spark Test Que
No ratings yet
Spark Test Que
3 pages
Int 421
No ratings yet
Int 421
2 pages
How to a Developers Guide to 4k: Developer edition, #3
From Everand
How to a Developers Guide to 4k: Developer edition, #3
Xinc Cyberwizard
No ratings yet
pyspark (1)
No ratings yet
pyspark (1)
44 pages
Lab Distributed Big Data Analytics: Worksheet-3: Spark Graphx and Spark SQL Operations
No ratings yet
Lab Distributed Big Data Analytics: Worksheet-3: Spark Graphx and Spark SQL Operations
5 pages
22b2195_E10(1)
No ratings yet
22b2195_E10(1)
5 pages
Question Bank-BDA (Module 1&2) 2
No ratings yet
Question Bank-BDA (Module 1&2) 2
5 pages
SQL Cheat Sheet Python
No ratings yet
SQL Cheat Sheet Python
1 page
Py Spark Samples
No ratings yet
Py Spark Samples
3 pages
Page 02
No ratings yet
Page 02
2 pages
Day77
No ratings yet
Day77
10 pages
Pyspark Hands on
No ratings yet
Pyspark Hands on
189 pages
Midterm Report
No ratings yet
Midterm Report
24 pages
DAY_1__1720441733
No ratings yet
DAY_1__1720441733
6 pages
DAY_1__1720441733
No ratings yet
DAY_1__1720441733
6 pages
w12_runningnotes-201026-001818
No ratings yet
w12_runningnotes-201026-001818
25 pages
T09 Sparksql
No ratings yet
T09 Sparksql
30 pages
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet
Spark RDD Commands - Spark Core
No ratings yet
Spark RDD Commands - Spark Core
7 pages
Lab Spark
No ratings yet
Lab Spark
3 pages
Slide 8 Spark Shell Tutorial
No ratings yet
Slide 8 Spark Shell Tutorial
61 pages
Pyspark File Commands and Theory
No ratings yet
Pyspark File Commands and Theory
29 pages
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
Aadhar Analysis
No ratings yet
Aadhar Analysis
2 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
22083
No ratings yet
22083
9 pages
DA Lab Program-6
No ratings yet
DA Lab Program-6
4 pages
Pyspark_tutorial_3
No ratings yet
Pyspark_tutorial_3
5 pages
Slide 10 PySpark - SQL
No ratings yet
Slide 10 PySpark - SQL
131 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
RDD_Task1
No ratings yet
RDD_Task1
2 pages
Mod5 Bda
No ratings yet
Mod5 Bda
9 pages
Syed Shoieb Ahmed Mid Term Exam
No ratings yet
Syed Shoieb Ahmed Mid Term Exam
6 pages
Suppose You Have A Large Dataset Stored in A Distributed File System Like HDFS
No ratings yet
Suppose You Have A Large Dataset Stored in A Distributed File System Like HDFS
11 pages
DataGrokr Technical Assignment - Data Engineering (1) (1)
No ratings yet
DataGrokr Technical Assignment - Data Engineering (1) (1)
4 pages
Spark Revision
No ratings yet
Spark Revision
16 pages
UEC718
No ratings yet
UEC718
2 pages
Spark Commands
No ratings yet
Spark Commands
3 pages
Spark and Scala 2
No ratings yet
Spark and Scala 2
11 pages
EDA Python for Data Analsis
No ratings yet
EDA Python for Data Analsis
10 pages
Dataset - Databricks
No ratings yet
Dataset - Databricks
5 pages
Apache Spark with Scala - cheatsheet (1) (1)
No ratings yet
Apache Spark with Scala - cheatsheet (1) (1)
7 pages
Unit V sql
No ratings yet
Unit V sql
5 pages
Day 60
No ratings yet
Day 60
10 pages
BigDataPractiseQuestionPaper
No ratings yet
BigDataPractiseQuestionPaper
10 pages
Datasets and Dataframes: Org - Apache.Spark - Sql.Sparksession
No ratings yet
Datasets and Dataframes: Org - Apache.Spark - Sql.Sparksession
17 pages
BDA - Week04 - 10
No ratings yet
BDA - Week04 - 10
41 pages
vertopal.com_12_Pandas
No ratings yet
vertopal.com_12_Pandas
14 pages
GRE GMAT Advanced 03
No ratings yet
GRE GMAT Advanced 03
4 pages
In Power Bi
No ratings yet
In Power Bi
20 pages
Solution Methodology
No ratings yet
Solution Methodology
5 pages
Week18 Quiz Solution
No ratings yet
Week18 Quiz Solution
4 pages
Data Science Infinity Transition Roadmap
No ratings yet
Data Science Infinity Transition Roadmap
34 pages
Exponents & Radicals 6 Pages
No ratings yet
Exponents & Radicals 6 Pages
6 pages
Circular Arrangements With Anno
No ratings yet
Circular Arrangements With Anno
46 pages
message(8)
No ratings yet
message(8)
9 pages
Zimbra Collaboration System Administration - Jan2014
No ratings yet
Zimbra Collaboration System Administration - Jan2014
262 pages
JDMProTroubleshooting Boeing Jeppesen JDM
No ratings yet
JDMProTroubleshooting Boeing Jeppesen JDM
6 pages
IT PROJECT
No ratings yet
IT PROJECT
22 pages
GE Software: Predix Architecture & Core Deep Dive
No ratings yet
GE Software: Predix Architecture & Core Deep Dive
85 pages
Devina Laiphangbam Java (1)
No ratings yet
Devina Laiphangbam Java (1)
7 pages
OWASP Backend Security Project 1.0beta
No ratings yet
OWASP Backend Security Project 1.0beta
184 pages
Splunk Guide For Kafka Monitoring Readthedocs Io en Latest
No ratings yet
Splunk Guide For Kafka Monitoring Readthedocs Io en Latest
75 pages
2022 - Unit42 - Incident Response Report
No ratings yet
2022 - Unit42 - Incident Response Report
52 pages
Mahendra Reddy: Profile Summary
No ratings yet
Mahendra Reddy: Profile Summary
4 pages
Zimbra Collaboration System Administration - March2014
No ratings yet
Zimbra Collaboration System Administration - March2014
264 pages
Hibernate Interview Questions and Answers
No ratings yet
Hibernate Interview Questions and Answers
51 pages
Ezio Server ClientAPI User Guide v2.0
No ratings yet
Ezio Server ClientAPI User Guide v2.0
54 pages
Storm Storm User
No ratings yet
Storm Storm User
154 pages
Mounika Full Stack Java Developer
No ratings yet
Mounika Full Stack Java Developer
7 pages
Log4j Quick Guide
No ratings yet
Log4j Quick Guide
5 pages
Latestlo K
No ratings yet
Latestlo K
24 pages
CA Wily Introscope
0% (1)
CA Wily Introscope
370 pages
The Log4j Vulnerability and The Impact On Business-Critical SAP Applications
No ratings yet
The Log4j Vulnerability and The Impact On Business-Critical SAP Applications
6 pages
Professional Jakarta Struts (ISBN 0-7645-4437-3) by James Goodwill & Richard Hightower
No ratings yet
Professional Jakarta Struts (ISBN 0-7645-4437-3) by James Goodwill & Richard Hightower
40 pages
Smslib Installation and Configuration Instructions
No ratings yet
Smslib Installation and Configuration Instructions
4 pages
Qm852 Troubleshooting Guide Cisco
No ratings yet
Qm852 Troubleshooting Guide Cisco
90 pages
Rich
No ratings yet
Rich
13 pages
Pavan Salesforce Developer
No ratings yet
Pavan Salesforce Developer
8 pages
Fusion Taleo Custintegration 2281033
100% (1)
Fusion Taleo Custintegration 2281033
49 pages
Senior Java Technical Lead 2
No ratings yet
Senior Java Technical Lead 2
6 pages

Week12 Assignment Solution

Uploaded by

Week12 Assignment Solution

Uploaded by

A

Given 2 Datasets employee.json and dept.json

//Find the count of employees against each department

object Assignment1_Week12 extends App{

//Setting the Log Level

//Setting the spark conf

//Creating Spark Session

val deptDf = spark.read

val employeeDf = spark.read

val joinCondition = deptDf.col("deptid") === employeeDf.col("deptid")//join

val joinType = "left" //joinType

val joinedDf = deptDf.join(employeeDf, joinCondition, joinType) //Joining of two

//drop the ambiguous column deptid of employee dataframe,from the joined

val joinedDfNew = joinedDf.drop(employeeDf.col("deptid"))

object Assignment2_Week12 extends App {

//Setting the Log Level

//Setting the spark conf

//Creating Spark Session

//Creation of a ratings dataframe using a case class approach

case class Ratings(userid:Int,movieid:Int,rating:Int,timestamp:String)//create a

//Creation of base RDD for ratings data

// map the RDD elements into instances of the case class

val caseClassSchemaRDD = ratingsRDD.map(x => x.split("::")).map(x =>

val ratingsDf = caseClassSchemaRDD.toDF()

//Creation of base RDD for movies data

//defining the schema using case class

case class Movies(movieid:Int,moviename:String,genre:String)

val moviestransformedRDD = moviesRDD.map(line => line.split("::")).map(fields =>

val transformedmovieDf = ratingsDf.groupBy("movieid")

val popularMoviesDf = transformedmovieDf.filter("movieViewCount > 1000 AND

spark.sql("SET spark.sql.autoBroadcastJoinThreshold = -1")

val joinCondition = popularMoviesDf.col("movieid") ===

val joinType = "inner" //type of

** File is tab separated.Headers not part of file

object Assignment3_Week12 extends App {

//Setting the Log Level

//Setting the spark conf

//Creating Spark Session

case class BatsmenHistory(MatchNumber:Int,Batsman:String,Team:String,

//Creation of base RDD for historical data

val batsmenHistorySchemaRDD = batsmenHistoryRDD.map(line =>

val batsmenHistoryDf = batsmenHistorySchemaRDD.toDF()

//create a base RDD from input data of worldcup

val batsmenworldcupSchema = StructType(List(

//Convert RDD[Array(String)] to RDD[Row].

val batsmenWorldCupRowRDD = batsmenWorldCupRDD.map(line =>

//Apply the explicitly defined Struct Type schema to the RDD[Row]

val batsmenWorldCupDf = spark.createDataFrame(batsmenWorldCupRowRDD,

//autoBroadcast Join is turned off

val joinCondition = batsmenBestRunsAvgHistoryDf.col("Batsman") ===

val joinType = "inner"

//Using broadcast join

You might also like