Spark Mini Project

Uploaded by

Sai Gopi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

76 views1 page

Spark Mini Project

Uploaded by

Sai Gopi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 1

spark = SparkSession.builder.appName("H1B") .config("spark.some.config.

option",
"some-value").getOrCreate()
parquet1DF = spark.read.parquet("h1_b_dataset.parquet")
PARQUETdf11 = parquet1DF.select("CASE_STATUS", "VISA_CLASS", "EMPLOYER_NAME",
"JOB_TITLE", "PREVAILING_WAGE", "PW_SOURCE_YEAR", "WORKSITE_STATE")
p1 =
parquetDF11.withColumnRenamed("PREVAILING_WAGE","SALARY").withColumnRenamed("PW_SOU
RCE_YEAR","FINANCIAL_YEAR")
p2 = p1.where(p1.CASE_STATUS == "CERTIFIED")
p3 = p2.na.drop()
p4 = p3.selectExpr("cast(CASE_STATUS as string) CASE_STATUS","cast(VISA_CLASS as
string) VISA_CLASS","cast(EMPLOYER_NAME as string) EMPLOYER_NAME","cast(JOB_TITLE
as string) JOB_TITLE",
"cast(SALARY as double) SALARY","cast(FINANCIAL_YEAR as integer)
FINANCIAL_YEAR","cast(WORKSITE_STATE as string) WORKSITE_STATE")
p3.filter(~p3.EMPLOYER_NAME.endswith("LLC"))
p5= p4.filter(~p3.EMPLOYER_NAME.endswith("LLC"))

p6.write.format('csv').option('header',True).option('sep',',').save('c.csv')

val data
=spark.read.option("header","true").option("InferSchema","true").parquet("h1_b_data
set.parquet")

val raw =data.select("CASE_STATUS", "VISA_CLASS", "EMPLOYER_NAME", "JOB_TITLE",

"PREVAILING_WAGE", "PW_SOURCE_YEAR", "WORKSITE_STATE")

val info =
raw.withColumnRenamed("PREVAILING_WAGE","SALARY").withColumnRenamed("PW_SOURCE_YEAR
","FINANCIAL_YEAR")
val value = info.filter(info("CASE_STATUS") === "CERTIFIED")

val raws = value.filter(~value("EMPLOYER_NAME).endswith("LLC"))

val conditions = value.columns.map(value(_).endsWith("LLC")).reduce(_ or _)
val output = value.withColumn("condition", conditions).filter($"condition" ===
true).drop("condition")

This study source was downloaded by 100000839058166 from CourseHero.com on 06-07-2022 22:05:40 GMT -05:00

https://www.coursehero.com/file/101518475/spark-mini-projecttxt/
Powered by TCPDF (www.tcpdf.org)

Apache Spark With Scala - Cheatsheet
No ratings yet
Apache Spark With Scala - Cheatsheet
7 pages
Digital Python Intermediate iON LX Async SP Assessment
83% (6)
Digital Python Intermediate iON LX Async SP Assessment
21 pages
Spark-Scala Code
No ratings yet
Spark-Scala Code
3 pages
Java Project Report On Employee Management System
100% (1)
Java Project Report On Employee Management System
16 pages
Transaction Query
No ratings yet
Transaction Query
2 pages
Tables in Fusion HCM
No ratings yet
Tables in Fusion HCM
1 page
Pyspark Coding Questions From StrataScratch Platform
No ratings yet
Pyspark Coding Questions From StrataScratch Platform
23 pages
Source Code
No ratings yet
Source Code
49 pages
Day5-6 HCM Extracts - Data Export
No ratings yet
Day5-6 HCM Extracts - Data Export
4 pages
Transformation Notes
No ratings yet
Transformation Notes
12 pages
Get Payroll Pyxx Read Payroll Result
No ratings yet
Get Payroll Pyxx Read Payroll Result
9 pages
Pyspark 500
No ratings yet
Pyspark 500
103 pages
Job Conversion
No ratings yet
Job Conversion
66 pages
Project On Payroll System
No ratings yet
Project On Payroll System
10 pages
DATAFRAME Vs DATASETS
No ratings yet
DATAFRAME Vs DATASETS
9 pages
HRMS Payroll in Oracle Apps
No ratings yet
HRMS Payroll in Oracle Apps
71 pages
Json To Dataframe
No ratings yet
Json To Dataframe
13 pages
HR Queries
No ratings yet
HR Queries
6 pages
Project 5-EasyVisa Assignment
No ratings yet
Project 5-EasyVisa Assignment
57 pages
Payroll Management System
No ratings yet
Payroll Management System
10 pages
ASN Appointment
No ratings yet
ASN Appointment
67 pages
Tables in Fusion HR
100% (1)
Tables in Fusion HR
1 page
Payroll System
No ratings yet
Payroll System
5 pages
Tables in Fusion HCM PDF
No ratings yet
Tables in Fusion HCM PDF
1 page
Unit 4 Spark SQL
No ratings yet
Unit 4 Spark SQL
49 pages
Employee-Payment Database: A) Create The Tables With The Appropriate Integrity Constraints
No ratings yet
Employee-Payment Database: A) Create The Tables With The Appropriate Integrity Constraints
8 pages
Journal
No ratings yet
Journal
47 pages
Erp HR
No ratings yet
Erp HR
2 pages
Dbms 5th Program
No ratings yet
Dbms 5th Program
9 pages
Employee Payroll System Description Verru Anna
No ratings yet
Employee Payroll System Description Verru Anna
10 pages
Spark Cheat Sheet 1717838924
No ratings yet
Spark Cheat Sheet 1717838924
10 pages
2
No ratings yet
2
11 pages
Sanya Sekhri Assignment
No ratings yet
Sanya Sekhri Assignment
2 pages
Net Salary Report in HR ABAP
No ratings yet
Net Salary Report in HR ABAP
16 pages
Big Data With Spark and Hadoop
No ratings yet
Big Data With Spark and Hadoop
9 pages
TreasuryDM1 2
No ratings yet
TreasuryDM1 2
9 pages
TreasuryDM4 5
No ratings yet
TreasuryDM4 5
10 pages
Data and AI - Spark Python
No ratings yet
Data and AI - Spark Python
11 pages
Tables
No ratings yet
Tables
4 pages
Spark Class 1 Rough Notes
No ratings yet
Spark Class 1 Rough Notes
9 pages
Example8 XML
No ratings yet
Example8 XML
6 pages
Employee Master DM
No ratings yet
Employee Master DM
7 pages
03 Company DB
No ratings yet
03 Company DB
3 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
NAPSBulk Import Template
No ratings yet
NAPSBulk Import Template
35 pages
Assignment 2 - Part 1 - Visa Data Project v3
No ratings yet
Assignment 2 - Part 1 - Visa Data Project v3
2 pages
Azure Code
No ratings yet
Azure Code
2 pages
PySpark - FP - Course ID 58339 - Hands On 4
No ratings yet
PySpark - FP - Course ID 58339 - Hands On 4
2 pages
Pay Deductions Balances Service
No ratings yet
Pay Deductions Balances Service
3 pages
PySpark - FP - Course ID 58339 - Hands On 1
No ratings yet
PySpark - FP - Course ID 58339 - Hands On 1
2 pages
Windows 10 Key
0% (1)
Windows 10 Key
9 pages
Py Spark 1
No ratings yet
Py Spark 1
11 pages
Pyspark Spark SQL: Scenario Based Interview
No ratings yet
Pyspark Spark SQL: Scenario Based Interview
6 pages
Spark Mini Project
No ratings yet
Spark Mini Project
1 page
IGI English Adv 2024
No ratings yet
IGI English Adv 2024
5 pages
Part B Pgm11 DBMS Lab Employee Database
No ratings yet
Part B Pgm11 DBMS Lab Employee Database
6 pages
Oracle HRMS API
No ratings yet
Oracle HRMS API
6 pages
Template 1747916920221
No ratings yet
Template 1747916920221
13 pages
Codes
No ratings yet
Codes
4 pages
67754
No ratings yet
67754
2 pages
Maths P1 & P3
No ratings yet
Maths P1 & P3
9 pages
Spark SQL Tutorial PDF
100% (1)
Spark SQL Tutorial PDF
35 pages
Python Hands On Answers
No ratings yet
Python Hands On Answers
15 pages
Quest For The Centre of The Old Testamen
No ratings yet
Quest For The Centre of The Old Testamen
14 pages
HW 8
No ratings yet
HW 8
2 pages
Spark Preliminaries
No ratings yet
Spark Preliminaries
4 pages
MPR-3 User Manual V5
No ratings yet
MPR-3 User Manual V5
52 pages
Lesson Plan 4 Barter
No ratings yet
Lesson Plan 4 Barter
3 pages
Past Tense Verbs Pack1
No ratings yet
Past Tense Verbs Pack1
7 pages
SAP HANA Cloud - Foundation - Unit 3
No ratings yet
SAP HANA Cloud - Foundation - Unit 3
20 pages
12.MODULE 12. Historical-Biographical Criticism - Lecture
No ratings yet
12.MODULE 12. Historical-Biographical Criticism - Lecture
2 pages
Data Set
No ratings yet
Data Set
1 page
OB1
No ratings yet
OB1
13 pages
Pronoun
No ratings yet
Pronoun
25 pages
MR P SAI TEJA FINAL REPORT - LPL-1
No ratings yet
MR P SAI TEJA FINAL REPORT - LPL-1
4 pages
OOAD Unit-2
No ratings yet
OOAD Unit-2
40 pages
At A Glance Unit: Pacing / # of Days Genre / Lexile Vocabulary / Word Study
No ratings yet
At A Glance Unit: Pacing / # of Days Genre / Lexile Vocabulary / Word Study
148 pages
Unveiling The Essence of India: Exploring Indian English Poetry's Quest For The Ultimate Truth of Life
No ratings yet
Unveiling The Essence of India: Exploring Indian English Poetry's Quest For The Ultimate Truth of Life
10 pages
Coding Statements Useful For Tcs Ninja - With Solution
No ratings yet
Coding Statements Useful For Tcs Ninja - With Solution
49 pages
EIO0000004165 00portes
No ratings yet
EIO0000004165 00portes
296 pages
Taiko Drums - Trio
No ratings yet
Taiko Drums - Trio
5 pages
Python Pandas
No ratings yet
Python Pandas
9 pages
Music Resource Guide 4dedbf9014
No ratings yet
Music Resource Guide 4dedbf9014
15 pages
Unleashing The Power of ChatGPT For Translation
No ratings yet
Unleashing The Power of ChatGPT For Translation
10 pages
Manual Registrador de Datos Cr3000
No ratings yet
Manual Registrador de Datos Cr3000
546 pages
New 6
No ratings yet
New 6
29 pages
13 Custom Auth Server
No ratings yet
13 Custom Auth Server
9 pages
Google Certification in Gmail
No ratings yet
Google Certification in Gmail
10 pages
Tips For Freshers /: Some of The Personality Traits The GD Is Trying To Gauge May Include
No ratings yet
Tips For Freshers /: Some of The Personality Traits The GD Is Trying To Gauge May Include
5 pages
CMake Lists
No ratings yet
CMake Lists
15 pages
Lec6 - Testbench Modified
No ratings yet
Lec6 - Testbench Modified
15 pages
MA-2203: Introduction To Probability and Statistics: Lecture Slides
No ratings yet
MA-2203: Introduction To Probability and Statistics: Lecture Slides
64 pages
Time Place : at On in
No ratings yet
Time Place : at On in
4 pages
Loop IBM
No ratings yet
Loop IBM
3 pages
Grupo 17115 A2 - Eci 2021
No ratings yet
Grupo 17115 A2 - Eci 2021
6 pages
Essential n8n Playbook
From Everand
Essential n8n Playbook
Leandro Calado
No ratings yet
NgRx SignalStore: An effortless solution for state management
From Everand
NgRx SignalStore: An effortless solution for state management
Abdelfattah Ragab
No ratings yet
How to a Developers Guide to 4k: Developer edition, #3
From Everand
How to a Developers Guide to 4k: Developer edition, #3
Xinc Cyberwizard
No ratings yet
Ajax in One Hour, For Beginners, Learn Coding Fast
From Everand
Ajax in One Hour, For Beginners, Learn Coding Fast
Ray Yao
No ratings yet

Spark Mini Project

Uploaded by

Spark Mini Project

Uploaded by

spark = SparkSession.builder.appName("H1B") .config("spark.some.config.

val raw =data.select("CASE_STATUS", "VISA_CLASS", "EMPLOYER_NAME", "JOB_TITLE",

val raws = value.filter(~value("EMPLOYER_NAME).endswith("LLC"))

You might also like