0% found this document useful (0 votes)

49 views14 pages

Data Platform and Analytics Foundational Training: (Speaker Name)

Uploaded by

Kathalina Suarez

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

49 views14 pages

Data Platform and Analytics Foundational Training: (Speaker Name)

Uploaded by

Kathalina Suarez

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 14

Microsoft C+E Technology Training

Data Platform and

Analytics
Foundational Training
Solution Area
Data Analytics
Solution
Big Data
Technology
Apache Spark

[Speaker Name]
Apache Spark: A unified framework
A unified, open source, parallel data processing framework for big data analytics

Spark SQL Spark Spark MLlib GraphX

Interactive Streaming Machine Graph
queries Stream processing learning computation

Spark core engine

Yarn Mesos Standalone scheduler

Apache Spark benefits
Performance Developer
productivity

Unified engine Ecosystem

Advantages of a unified platform
In many pipelines, data exchange between engines is the dominant cost

Input streams of Machine

Spark Streaming Spark SQL
events learning NoSQL DB
Spark integrates well with Hadoop

Alternative
resource
Primary resource
Spark managers:
Mesos or managers: Hadoop
the Spark Hadoop 1.0+ or
resource Hadoop YARN
manager
Faster data, faster results
140 50400 Spark is the 2014 Sort Benchmark
winner.
120 Hadoop 2100
3x faster than 2013 winner
(Hadoop).
100
Spark is fast not just for in-memory,
Running time(s)

80 but for on-disk computation too

60 102.5 100

40 72

20
Spark 0.9
6592
23 206
0
Logistic regression
1 2

Logistic regression on a 100-node cluster

with 100 GB of data. tinyurl.com/spark-sort
What makes Spark fast?
Data sharing between steps of a job

Reads from Writes to Reads from Writes to

In traditional HDFS HDFS HDFS HDFS
MapReduce Step 1 Step 2

Reads and writes

from HDFS

In Spark Step 1
Spark cluster architecture
Driver program
SparkContext

• The driver runs the user’s main function

and executes the various parallel Cluster manager
operations on the worker nodes
• The driver collects the results of the
operations Worker node Worker node Worker node
• Worker nodes read and write data Cache Cache Cache
from/to HDFS
Task Task Task
• Worker nodes also cache transformed
data in-memory as RDDs
Read Read Read

HDFS
Cluster Worker node 1
Worker 1
Task
Spark Job
Browser Gateway Zeppelin Jupyter
submit Task

Worker node 2
Worker 2
Head node Task
Spark master Job
Task

Worker node 3
App 0 App 1 App 2
Worker 3
Task
Job
Task

Spark driver
Worker node 4
RDD
Spark Worker 4
Task
context
Job
RDD Task
Use Cases
Apache Spark use cases
High performance Interactive analytics
batch computation

Machine learning Real-time stream Data integration

processing and ETL
Azure HDInsight supports Spark
Microsoft delivers interactive analytics on
Big Data with Azure HDInsight
Power BI supports Spark
Power BI includes an out-of-the-box
connector for Spark, enabling the
creation and sharing of interactive
reports and
dashboards to
any device
© 2016 Microsoft Corporation. All rights reserved. Microsoft, Windows, Microsoft Azure, and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The
information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions,
it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO
WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION

API Checklist INFO
No ratings yet
API Checklist INFO
17 pages
Introduction To Python
No ratings yet
Introduction To Python
5 pages
Group 3
No ratings yet
Group 3
24 pages
Asterix-Conducteur Et Parties
100% (1)
Asterix-Conducteur Et Parties
63 pages
Analytics of Observational Data Lec 12
No ratings yet
Analytics of Observational Data Lec 12
24 pages
Time Table
No ratings yet
Time Table
6 pages
Introduction To Big Data With Spark and Hadoop
No ratings yet
Introduction To Big Data With Spark and Hadoop
61 pages
Predicate and Quantifiers
No ratings yet
Predicate and Quantifiers
8 pages
بنك الاسئله لنظم التشغيل
No ratings yet
بنك الاسئله لنظم التشغيل
46 pages
Certificate Generation Using Blockchain Report-1
No ratings yet
Certificate Generation Using Blockchain Report-1
31 pages
Workshop Equipment List (Status)
100% (2)
Workshop Equipment List (Status)
4 pages
Matillion - Guide To A Successful PoC
No ratings yet
Matillion - Guide To A Successful PoC
12 pages
Learning Spark - Chapter 1
No ratings yet
Learning Spark - Chapter 1
18 pages
Lec 10
No ratings yet
Lec 10
51 pages
Bran Chembah
No ratings yet
Bran Chembah
4 pages
Applications of Reinforcement Learning
No ratings yet
Applications of Reinforcement Learning
10 pages
SPARK
No ratings yet
SPARK
47 pages
Hmi WS23-24
No ratings yet
Hmi WS23-24
5 pages
Big Data Technologies Presentation
No ratings yet
Big Data Technologies Presentation
10 pages
Pertamina MPHP: Project Specification
No ratings yet
Pertamina MPHP: Project Specification
8 pages
Machine Learning With Spark Nick Pentreath Download
No ratings yet
Machine Learning With Spark Nick Pentreath Download
61 pages
Unit V Big Data
No ratings yet
Unit V Big Data
18 pages
Big Data Anlytics Unit 3 R22 It
No ratings yet
Big Data Anlytics Unit 3 R22 It
57 pages
Simple Method For Basic Short Circuit Current Calculations
No ratings yet
Simple Method For Basic Short Circuit Current Calculations
6 pages
Unit V
No ratings yet
Unit V
35 pages
Big Data Processing With Apache Spark - Part 1 - Introduction - InfoQ
No ratings yet
Big Data Processing With Apache Spark - Part 1 - Introduction - InfoQ
18 pages
07 - Apache Spark - An Introduction
No ratings yet
07 - Apache Spark - An Introduction
36 pages
1 Spark
No ratings yet
1 Spark
2 pages
A Deep Dive in Hadoop Spark and SQL DW
No ratings yet
A Deep Dive in Hadoop Spark and SQL DW
41 pages
Introduction-to-Apache-Spark
No ratings yet
Introduction-to-Apache-Spark
22 pages
I2c 1602 LCD
100% (1)
I2c 1602 LCD
8 pages
Spark and Scala - Module 5
No ratings yet
Spark and Scala - Module 5
36 pages
Bda Notes
No ratings yet
Bda Notes
241 pages
4 Spark SBP
No ratings yet
4 Spark SBP
74 pages
7 Spark
No ratings yet
7 Spark
9 pages
06 Big Data
No ratings yet
06 Big Data
52 pages
Over 251 Google Products & Services You Probably Don't Know
No ratings yet
Over 251 Google Products & Services You Probably Don't Know
13 pages
Introduction To Spark 1
No ratings yet
Introduction To Spark 1
21 pages
Creating A Purchase Order Store Record Web Service: Sap Best Practices and Service Solution Management
No ratings yet
Creating A Purchase Order Store Record Web Service: Sap Best Practices and Service Solution Management
13 pages
Logistics and Supply Chain Management at Unisa: A Complete Guide To Preparing Yourself For Career Opportunities
No ratings yet
Logistics and Supply Chain Management at Unisa: A Complete Guide To Preparing Yourself For Career Opportunities
40 pages
Vigiflow: Introduction and Basic Features
No ratings yet
Vigiflow: Introduction and Basic Features
26 pages
Pyspark Notes New
No ratings yet
Pyspark Notes New
18 pages
Cse3002 Big Data m3 Detailed
No ratings yet
Cse3002 Big Data m3 Detailed
39 pages
2nd Summative Test
No ratings yet
2nd Summative Test
8 pages
Guidelines For Final Year BE Project Report Submission
No ratings yet
Guidelines For Final Year BE Project Report Submission
4 pages
CXDI Controller NF RF Software
No ratings yet
CXDI Controller NF RF Software
3 pages
Parallel Processing
No ratings yet
Parallel Processing
38 pages
Data Platform and Analytics Foundational Training: (Speaker Name)
100% (1)
Data Platform and Analytics Foundational Training: (Speaker Name)
23 pages
Service Manual: Nsx-Ds8
No ratings yet
Service Manual: Nsx-Ds8
44 pages
Unit-4 - Apache Spark
No ratings yet
Unit-4 - Apache Spark
24 pages
Introduction To Spark
No ratings yet
Introduction To Spark
30 pages
4a.introduction To Apache Spark
No ratings yet
4a.introduction To Apache Spark
28 pages
LESSON How Hubspot Uses Blogging To Rank SCRIPT
No ratings yet
LESSON How Hubspot Uses Blogging To Rank SCRIPT
8 pages
Data Platform and Analytics Foundational Training: (Speaker Notes)
No ratings yet
Data Platform and Analytics Foundational Training: (Speaker Notes)
19 pages
Thermal Conductivity of Insulating Powder Experiment Lab Manual
No ratings yet
Thermal Conductivity of Insulating Powder Experiment Lab Manual
5 pages
Bda U3 p1 (Intro To Spark)
No ratings yet
Bda U3 p1 (Intro To Spark)
66 pages
Data Platform and Analytics Foundational Training: (Speaker Name)
No ratings yet
Data Platform and Analytics Foundational Training: (Speaker Name)
24 pages
Turbine Monitoring and Control: Aset - Eee
No ratings yet
Turbine Monitoring and Control: Aset - Eee
16 pages
Mitsubishi Q170M Quick Start Guide
No ratings yet
Mitsubishi Q170M Quick Start Guide
88 pages
Data Platform and Analytics Foundational Training: (Speaker Name)
No ratings yet
Data Platform and Analytics Foundational Training: (Speaker Name)
31 pages
Bda U4
No ratings yet
Bda U4
49 pages
Initiating Planning Executing Monitoring Controlling Closing
No ratings yet
Initiating Planning Executing Monitoring Controlling Closing
1 page
Whatsapp Document PDF
No ratings yet
Whatsapp Document PDF
5 pages
20J41A0514-Big Data Spark
No ratings yet
20J41A0514-Big Data Spark
12 pages
Unit 4 Spark Cassendra
No ratings yet
Unit 4 Spark Cassendra
41 pages
Shark
No ratings yet
Shark
24 pages
SPARK
No ratings yet
SPARK
125 pages
Spark-Rdd
No ratings yet
Spark-Rdd
15 pages
OpenSAP Roambi1 Week 1 All Slides
No ratings yet
OpenSAP Roambi1 Week 1 All Slides
63 pages
Sparkarchitecture 190419130916
No ratings yet
Sparkarchitecture 190419130916
21 pages
09 Programming Hadoop - Spark, R and Pig
No ratings yet
09 Programming Hadoop - Spark, R and Pig
80 pages
Apache Spark Engine
100% (1)
Apache Spark Engine
82 pages
Spark BD
No ratings yet
Spark BD
9 pages
Lecture 3 PPT 22
No ratings yet
Lecture 3 PPT 22
25 pages
BigData Spark Sparklyr
No ratings yet
BigData Spark Sparklyr
80 pages
Apache Spark Essential Training
No ratings yet
Apache Spark Essential Training
30 pages
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
From Everand
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
Wei Liu
No ratings yet
Apache Spark Primer 170303
No ratings yet
Apache Spark Primer 170303
8 pages
Intro To Spark Development
No ratings yet
Intro To Spark Development
172 pages
What Is Spark?: History of Apache Spark
No ratings yet
What Is Spark?: History of Apache Spark
65 pages
Real Time Analytics With Spark and Kafka
No ratings yet
Real Time Analytics With Spark and Kafka
53 pages
"Analytics Using Apache Spark": (Lightening Fast Cluster Computing)
No ratings yet
"Analytics Using Apache Spark": (Lightening Fast Cluster Computing)
99 pages
Spark Devops
0% (1)
Spark Devops
301 pages
Introduction To Spark
No ratings yet
Introduction To Spark
84 pages
Mastering Apache Spark PDF
75% (4)
Mastering Apache Spark PDF
541 pages
Apache Spark: Dhineshkumar S K
No ratings yet
Apache Spark: Dhineshkumar S K
31 pages
7 Steps For A Developer To Learn Apache Spark
No ratings yet
7 Steps For A Developer To Learn Apache Spark
30 pages
Spark2x: Big Data Huawei Course
No ratings yet
Spark2x: Big Data Huawei Course
25 pages
DEV3600SlideGuide PDF
No ratings yet
DEV3600SlideGuide PDF
555 pages
Learning Apache Spark 2
From Everand
Learning Apache Spark 2
Muhammad Asif Abbasi
No ratings yet
Fast Data Processing Systems with SMACK Stack
From Everand
Fast Data Processing Systems with SMACK Stack
Raúl Estrada
No ratings yet
A Brief Introduction To Apache Spark
No ratings yet
A Brief Introduction To Apache Spark
10 pages
Spark 101
No ratings yet
Spark 101
25 pages
Spark: Prepared by Dulari Bhatt
No ratings yet
Spark: Prepared by Dulari Bhatt
19 pages
Apache Spark Analytics Made Simple
No ratings yet
Apache Spark Analytics Made Simple
76 pages
7 Steps For A Developer To Learn Apache Spark
No ratings yet
7 Steps For A Developer To Learn Apache Spark
30 pages
Apache Spark Unleashed: Advanced Techniques for Data Processing and Analysis
From Everand
Apache Spark Unleashed: Advanced Techniques for Data Processing and Analysis
Adam Jones
No ratings yet

Data Platform and Analytics Foundational Training: (Speaker Name)

Uploaded by

Data Platform and Analytics Foundational Training: (Speaker Name)

Uploaded by

Microsoft C+E Technology Training

Data Platform and

Spark SQL Spark Spark MLlib GraphX

Spark core engine

Yarn Mesos Standalone scheduler

Unified engine Ecosystem

Input streams of Machine

80 but for on-disk computation too

Logistic regression on a 100-node cluster

Reads from Writes to Reads from Writes to

Reads and writes

• The driver runs the user’s main function

Machine learning Real-time stream Data integration

You might also like