0% found this document useful (0 votes)

15 views8 pages

Slides Spark

presentation spark big data

Uploaded by

noussa79

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views8 pages

Slides Spark

presentation spark big data

Uploaded by

noussa79

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

Bases de données

documentaires et distribuées,
http://b3d.bdpedia.fr

Introduction Ãă Spark

1Cours NFE204
Qu’est-ce que Spark ?

Un moteur d’exécution basé sur des opérateurs de haut niveau, comme Pig.

Comprend des opérateurs Map/Reduce, et d’autres opérateurs de second ordre.

Introduit un concept de collection résidente en mémoire (RDD) qui améliore

considérablement certains traitements, dont ceux basés sur des itérations.

De nombreuses librairies pour la fouille de données (MLib), le

traitement des graphes, le traitement de flux (streaming ).

2
Les Resilient Distributed Datasets (RDD)
C’est le concept central : Un RDD est une collection (pour en rester à notre
vocabulaire) calculée à partir d’une source de données (MongoDB, un flux, un
autre RDD) .

Un RDD peut être marqué comme persistant : il est alors placé en mémoire RAM et
conservé par Spark.

Spark conserve l’historique des opérations qui a permis de constituer un RDD, et la

reprise sur panne s’appuie sur cet historique afin de reconstituer le RDD en cas de
panne.

Un RDD est un "bloc" non modifiable. Si nécessaire il est

entièrement recaculé.

3
Un workflow avec RDD dans Spark
Des transformations (opérateurs comme dans Pig) créent des RDD à partir d’une ou
deux sources de données.

Les RDD persistants sont en préservés en mémoire RAM, et

peuvent être réutilisés par plusieurs traitements.

4
Exemple : analyse de fichiers log
On veut analyser le fichier journal (log ) d’une application dont un des modules (M) est
suspect.

On construit un programme qui charge le log, ne conserve que les messsages produits
par le module M et les analyse.

On peut analyser par produit, par utilisateur, par période, etc.

5
Spécification avec Spark
Première phase pour construire logM
// Chargement de la collection
log = load ("app.log") as (...)
// Filtrage des messages du module M
logM = filter log with log.message.contains ("M")
// On rend logM persistant !
logM.persist();

Analyse à partir de logM

// Filtrage par produit
logProduit = filter logM
with log.message.contains ("product P")
// .. analyse du contenu de logProduit

6
Reprise sur panne dans Spark
Un RDD est une collection partitionnée.

Panne au niveau d’un nœud implique un recalcul basé sur le

fragment F persistant qui précède ce nœud dans le workflow.

7
Dataframes et Datasets
Un RDD, du point de vue du programmeur, c’est un conteneur d’objets java.

Le type précis de ces objets n’est pas connu par Spark. Du coup :
I Tout ce que Spark peut faire, c’est appliquer la sérialisation/désérialisation java
I Aucun accès aux objets grâce à un langage déclaratif n’est possible.
I Et donc pas d’optimisation, et la nécessité de tout écrire sous forme de fonctions
java.

Depuis la version 1.6 : on dispose de RDD améliorés : les Datasets. On peut les traiter
comme des tables relationnelles.

Finalement, le schéma c’est utile, et le relationnel, c’est bien !

SPARK
No ratings yet
SPARK
66 pages
Unit V
No ratings yet
Unit V
35 pages
Bda Notes
No ratings yet
Bda Notes
241 pages
BDA Lect5 Apache Spark 2023
No ratings yet
BDA Lect5 Apache Spark 2023
115 pages
7 Apache Spark
No ratings yet
7 Apache Spark
48 pages
ApacheSparkWorkshop 2020 09 17
No ratings yet
ApacheSparkWorkshop 2020 09 17
58 pages
SPARK
No ratings yet
SPARK
125 pages
Lec 9
No ratings yet
Lec 9
33 pages
4 Spark SBP
No ratings yet
4 Spark SBP
74 pages
Best Practices For Effectively Implementing An ATP Sanitation Verification Program
100% (1)
Best Practices For Effectively Implementing An ATP Sanitation Verification Program
16 pages
L03-Spark Framework
No ratings yet
L03-Spark Framework
58 pages
Intro To Apache Spark
No ratings yet
Intro To Apache Spark
66 pages
Q1. Understanding Apache Spark
No ratings yet
Q1. Understanding Apache Spark
4 pages
Unit 4 Spark Cassendra
No ratings yet
Unit 4 Spark Cassendra
41 pages
Unit 6 Spark
No ratings yet
Unit 6 Spark
43 pages
Lecturer 5
No ratings yet
Lecturer 5
21 pages
Introduction To Spark
No ratings yet
Introduction To Spark
54 pages
BDA Unit-6
No ratings yet
BDA Unit-6
11 pages
BDA GTU Study Material Presentations Unit-6 03102021061221PM
No ratings yet
BDA GTU Study Material Presentations Unit-6 03102021061221PM
23 pages
3.5 Apache Spark
No ratings yet
3.5 Apache Spark
12 pages
Lecture 25
No ratings yet
Lecture 25
59 pages
CISD 42 Introduction To Spark - Spark Transformation - Spark Actions
No ratings yet
CISD 42 Introduction To Spark - Spark Transformation - Spark Actions
27 pages
BDA Lec8
No ratings yet
BDA Lec8
39 pages
Bda U4
No ratings yet
Bda U4
49 pages
C5-SPARK Technology
No ratings yet
C5-SPARK Technology
39 pages
Unit IV Spark
No ratings yet
Unit IV Spark
23 pages
Question Bank Answers BDA
No ratings yet
Question Bank Answers BDA
8 pages
Features of Apache Spark
No ratings yet
Features of Apache Spark
7 pages
Spark Programming Basics
No ratings yet
Spark Programming Basics
54 pages
Unit 6 Spark
No ratings yet
Unit 6 Spark
8 pages
Key Differences in Aache Spark Components and Concepts
No ratings yet
Key Differences in Aache Spark Components and Concepts
7 pages
Devops Slides
No ratings yet
Devops Slides
223 pages
Big Data Processing With Apache Spark - Part 1 - Introduction - InfoQ
No ratings yet
Big Data Processing With Apache Spark - Part 1 - Introduction - InfoQ
18 pages
LearningSpark EXCERPT
50% (2)
LearningSpark EXCERPT
47 pages
Msbte Super 25 Unit 5 Notes
No ratings yet
Msbte Super 25 Unit 5 Notes
17 pages
Chapter 3 Spark
No ratings yet
Chapter 3 Spark
6 pages
Introduction To Spark
No ratings yet
Introduction To Spark
84 pages
Module 3
No ratings yet
Module 3
51 pages
Mod4 Bda
No ratings yet
Mod4 Bda
14 pages
Big Data Computing Notes
No ratings yet
Big Data Computing Notes
17 pages
Top Answers To Spark Interview Questions
No ratings yet
Top Answers To Spark Interview Questions
32 pages
Apache Spark Lecture Notes
No ratings yet
Apache Spark Lecture Notes
4 pages
Bda Unit 5 - Mam
No ratings yet
Bda Unit 5 - Mam
44 pages
Top Answers To Spark Interview Questions
No ratings yet
Top Answers To Spark Interview Questions
32 pages
Unit 5
100% (1)
Unit 5
109 pages
Spark: Prepared by Dulari Bhatt
No ratings yet
Spark: Prepared by Dulari Bhatt
19 pages
Wedding Venue List 1
No ratings yet
Wedding Venue List 1
53 pages
Unit 5 Note
No ratings yet
Unit 5 Note
18 pages
Apache Spark: The Next Gen Toolset For Big Data Processing
No ratings yet
Apache Spark: The Next Gen Toolset For Big Data Processing
9 pages
Spark2x: Big Data Huawei Course
No ratings yet
Spark2x: Big Data Huawei Course
25 pages
What Is Spark?: History of Apache Spark
No ratings yet
What Is Spark?: History of Apache Spark
65 pages
Felcom 12 15 16 Ssas Tie PDF
No ratings yet
Felcom 12 15 16 Ssas Tie PDF
80 pages
Lecture 4 - Pair RDD and DataFrame
No ratings yet
Lecture 4 - Pair RDD and DataFrame
38 pages
TC Electronic Hall of Fame Reverb Manual English PDF
No ratings yet
TC Electronic Hall of Fame Reverb Manual English PDF
28 pages
Apache Spark Ecosystem - Complete Spark Components Guide: 1. Objective
No ratings yet
Apache Spark Ecosystem - Complete Spark Components Guide: 1. Objective
11 pages
Spark Summit East 2015 - Adv Dev Ops - Student Slides
No ratings yet
Spark Summit East 2015 - Adv Dev Ops - Student Slides
219 pages
Architecture and Components of Spark
No ratings yet
Architecture and Components of Spark
6 pages
STD Spec For Boiler Chemical Compound
100% (1)
STD Spec For Boiler Chemical Compound
21 pages
Technological Forecasting & Social Change: Feng Zhang, Bin Yang, Lei Zhu
No ratings yet
Technological Forecasting & Social Change: Feng Zhang, Bin Yang, Lei Zhu
14 pages
Spark 101
No ratings yet
Spark 101
25 pages
Apache Spark Architecture
No ratings yet
Apache Spark Architecture
7 pages
Top Answers To Spark Interview Questions
No ratings yet
Top Answers To Spark Interview Questions
4 pages
E11 BR PD
No ratings yet
E11 BR PD
6 pages
CCNA Cyber Ops Version 11 Chapter 1 Exam Answers Full
No ratings yet
CCNA Cyber Ops Version 11 Chapter 1 Exam Answers Full
8 pages
BSD Junction Blok A No 3, JL Pahlawan Seribu, BSD City, Tangerang Selatan PH: (021) 3032 1716 / 081 689 5500 / Cs@royalgardenspa - Co.id
No ratings yet
BSD Junction Blok A No 3, JL Pahlawan Seribu, BSD City, Tangerang Selatan PH: (021) 3032 1716 / 081 689 5500 / Cs@royalgardenspa - Co.id
26 pages
Disposal of Unused Drugs - Knowledge and Behavior Among People Around The World
100% (1)
Disposal of Unused Drugs - Knowledge and Behavior Among People Around The World
34 pages
Wave On A String
100% (1)
Wave On A String
25 pages
The History of Kit Kat
100% (2)
The History of Kit Kat
7 pages
Ownership and Possession
No ratings yet
Ownership and Possession
11 pages
Workshop Proposal
No ratings yet
Workshop Proposal
20 pages
Riphah International University: Student Information System
No ratings yet
Riphah International University: Student Information System
3 pages
Engineering Foundation 2020-2021
No ratings yet
Engineering Foundation 2020-2021
5 pages
CCNA Cyber Ops Version 11 Chapter 2 Exam Answers Full
No ratings yet
CCNA Cyber Ops Version 11 Chapter 2 Exam Answers Full
13 pages
Instructables Com FAN Repair
No ratings yet
Instructables Com FAN Repair
9 pages
Wisconsin Indictment
No ratings yet
Wisconsin Indictment
47 pages
451866136ba Ii Year
No ratings yet
451866136ba Ii Year
16 pages
CPC Modes of Servive Esummon
No ratings yet
CPC Modes of Servive Esummon
12 pages
DOC0535335316Jun23 SC4500
No ratings yet
DOC0535335316Jun23 SC4500
4 pages
CCNA Cyber Ops Version 11 Chapter 5 Exam Answers Full
No ratings yet
CCNA Cyber Ops Version 11 Chapter 5 Exam Answers Full
11 pages
ID Strategi Pengembangan Cabai Keriting Di
100% (1)
ID Strategi Pengembangan Cabai Keriting Di
12 pages
Steam Calculators - Heat Loss Calculator
No ratings yet
Steam Calculators - Heat Loss Calculator
1 page
REST0001 - Week 5 Sensitivity Analysis Practice Questions - Solution
No ratings yet
REST0001 - Week 5 Sensitivity Analysis Practice Questions - Solution
19 pages
CV Ognjanovic
No ratings yet
CV Ognjanovic
23 pages
Principles of The WCDMA System: Internal
No ratings yet
Principles of The WCDMA System: Internal
46 pages
Ashour: Personal Info Education
No ratings yet
Ashour: Personal Info Education
2 pages
Ananth BS: Technical Manager, Cisco Networking Academy April 2016
No ratings yet
Ananth BS: Technical Manager, Cisco Networking Academy April 2016
25 pages
Density Based Clustering
No ratings yet
Density Based Clustering
22 pages
BSI05 Adba
No ratings yet
BSI05 Adba
3 pages
Michael's Resume 2024
No ratings yet
Michael's Resume 2024
3 pages
Darjeeling Toy Train
No ratings yet
Darjeeling Toy Train
2 pages
Learning Apache Spark 2
From Everand
Learning Apache Spark 2
Muhammad Asif Abbasi
No ratings yet
QuickStart Guide to Db2 Development with Python
From Everand
QuickStart Guide to Db2 Development with Python
Roger E. Sanders
No ratings yet
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
From Everand
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
Wei Liu
No ratings yet
Concise Oracle Database For People Who Has No Time
From Everand
Concise Oracle Database For People Who Has No Time
Billy Aung Myint
No ratings yet

Slides Spark

Uploaded by

Slides Spark

Uploaded by

Bases de données

Comprend des opérateurs Map/Reduce, et d’autres opérateurs de second ordre.

Introduit un concept de collection résidente en mémoire (RDD) qui améliore

De nombreuses librairies pour la fouille de données (MLib), le

Spark conserve l’historique des opérations qui a permis de constituer un RDD, et la

Un RDD est un "bloc" non modifiable. Si nécessaire il est

Les RDD persistants sont en préservés en mémoire RAM, et

On peut analyser par produit, par utilisateur, par période, etc.

Analyse à partir de logM

Panne au niveau d’un nœud implique un recalcul basé sur le

Finalement, le schéma c’est utile, et le relationnel, c’est bien !

You might also like