S02 ApacheSpark

Apache Spark es un sistema de computación en clúster que permite dividir o paralelizar el trabajo entre máquinas. Proporciona APIs de alto nivel para desarrollar aplicaciones en Java, Scala, Python y R. Sus componentes como Spark Streaming, Spark SQL, MLlib y GraphX resuelven problemas de Hadoop MapReduce y permiten un manejo más rápido de datos.

Cargado por

Sandra Infante

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

15 vistas25 páginas

S02 ApacheSpark

Cargado por

Sandra Infante

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 25

BIG DATA

TECHNOLOGIES
Apache Spark es un sistema de computación que se basa en Hadoop Map Reduce y que, principalmente, permite
dividir o paralelizar el trabajo, ya que normalmente se instala en un clúster de máquina. La idea es que
tengamos N máquinas, por ejemplo diez máquinas, y cada una de esas instancias va a tener instalada una versión
de Apache Spark.

Apache Spark es un sistema de computación en clúster muy veloz. Proporciona el conjunto de API de alto
nivel, a saber, Java, Scala, Python y R para el desarrollo de aplicaciones.
Historia
Apache
Spark
Apache
Spark
Apache
Spark
Componentes
La garantía de Apache Spark para un manejo más rápido de la información y también un avance
más simple es posible solo gracias a los componentes de Apache Spark. Todos resolvieron los
problemas que ocurrieron al utilizar Hadoop MapReduce
Spark Streaming Spark SQL MLlib (Machine
Spark Streaming utiliza la Spark SQL es un segmento sobre Learning Library)
capacidad de programación rápida Spark Core que presenta otra MLlib es una estructura de
de Spark Core para realizar abstracción de información llamada aprendizaje automático distribuido
Streaming Analytics. Ingiere SchemaRDD, que ofrece ayuda para por encima de Spark en vista de la
información en grupos a escala sincronizar información estructurada arquitectura Spark basada en
reducida y realiza cambios de y no estructurada. memoria distribuida. Spark MLlib es
RDD (Conjuntos de datos nueve veces más rápido que la
distribuidos resistentes) en esos versión del disco Hadoop de Apache
grupos de información a pequeña Mahout (antes de que Mahout
escala. adquiriera una interfaz de Spark).

GraphX
GraphX es un marco distribuido de procesamiento de Apache Spark Core
gráficos de Spark. Proporciona una API para comunicar el Spark Core es el motor de ejecución general básico para la
cálculo del gráfico que puede mostrar los diagramas plataforma Spark en el que se basan todas las demás
caracterizados por el cliente utilizando la API de abstracción funcionalidades. Proporciona registro en memoria y
de Pregel. Asimismo, proporciona un tiempo de ejecución conjuntos de datos conectados en marcos de
optimizado y mejorado a esta abstracción. almacenamiento externos.
Spark Streaming
Spark SQL
Spark MLlib
Spark GraphX
Características y Ventajas
• Rápido en el procesamiento de datos, 10 veces más
rápido en el disco y 100 veces más rápido en la
memoria.
• Spark with abstraction-RDD proporciona Fault
Tolerance con garantía de pérdida de datos cero.
• Compatibilidad con múltiples idiomas a saber, Java, R,
Scala, Python para aplicaciones de construcción.
• Procesamiento en memoria que resulta en una alta
velocidad de cálculo y flujo de datos a cíclico.
• Procesamiento de flujo de datos en tiempo real con
Spark Streaming.
• Flexible para funcionar Independientemente y puede
ser integrado con Hadoop Yarn Cluster Manager.
• Rentable para Big data como necesidad mínima de
almacenamiento y centro de datos.
• GraphX simplifica Graph Analytics mediante la
recopilación de algoritmos y constructores
• Comunidad de Apache progresiva y en expansión
activa para Asistencia rápida.
Facilidad de Costo
uso s
Apache Spark Ambos son proyectos de Apache,
Conocido por su facilidad de lo que significa que son productos
uso, ya que viene con API de software libre y de código
fáciles de usar para Scala, abierto. Los 2 productos están
Java, Python y Spark SQL. diseñados para funcionar en
Cuenta con un modo hardware básico.
interactivo para que tanto MapReduce utiliza cantidades
los desarrolladores como estándar de memoria porque su
los usuarios puedan tener procesamiento está basado en disco,
comentarios inmediatos por lo que una empresa tendrá que
sobre consultas y otras comprar discos más rápidos y
acciones. mucho espacio en disco para
Hadoop MapReduce ejecutar MapReduce. Los
No cuenta con un modo sistemas Spark cuestan más
interactivo, sin embargo, los debido a las grandes cantidades de
complementos como Hive y RAM que se necesita para ejecutar
Pig hacen que trabajar con todo en la memoria. Pero la ventaja
MapReduce sea un poco más es que la tecnología de Spark
fácil para los adoptantes. disminuye la cantidad de sistemas
requeridos.
Rendimiento Seguridad
Apache Spark: Apache Spark
• Trabaja in memory y todos los Es un poco escasa al admitir
procesos se aceleran. actualmente solo la autenticación
• Necesita una mayor memoria a través de un secreto
de almacenamiento compartido. La bonificación de
• Su rendimiento puede verse seguridad que Spark puede
mermado debido a la necesidad de disfrutar es que si ejecuta Spark
utilizar aplicaciones pesadas. en HDFS, puede usar ACL de
Hadoop Map Reduce HDFS y permisos de nivel de
• Los datos están en disco y eso archivo. Además, Spark puede
hace que todo resulte más lento. ejecutarse en YARN dándole la
• La ventaja es que, en capacidad de usar la
comparación con la otra autenticación Kerberos.
alternativa, las necesidades de
almacenamiento son inferiores. Hadoop Map Reduce
• Al ocuparse de eliminar los datos Admite listas de control de
cuando no son ya necesarios, no acceso (ACL) y un modelo de
produce pérdidas de rendimiento permisos de archivos tradicional.
significativas para aplicaciones Para el control del usuario en el
pesadas. envío de trabajos, Hadoop
proporciona la Autorización de
nivel de servicio, lo que garantiza
que los clientes tengan los permisos
adecuados.
Qué es un
RDD
Transformaciones con RDD
Transformaciones con RDD
Acciones con RDD
Qué es un
DataSet
Un DataSet es una colección de datos
distribuidos que tienen ya una estructura, a
diferencia de los RDD, que son conjuntos de
datos desestructurados.

Características

• Aparecen a partir de la versión de Spark

1.6.
• Poseen los beneficios de los RDD.
• Nos proporciona una API tanto para
trabajar con Java como con Scala.
• No nos proporciona API para Python
porque Python pasa directamente a los
DataFrame.
Qué es un
DataFrame
Un DataFrame es un DataSet que a la vez está organizado en columnas.
Vamos a tener los datos estructurados y cada columna con su nombre correspondiente, con lo que
nos va a resultar mucho más sencillo consultar, modificar o transformar ese conjunto de datos.
Qué es un
DataFrame
Qué es un
SparkSession
Una SparkSession es el objeto principal o la base a partir de la cual cuelga toda la funcionalidad de Apache
Spark.
Es similar al SparkContext de los RDD, pero en este caso, para trabajar con SparkSQL, los DataFrame y DataSet.

Tiene este constructor:

val spark = SparkSession.builder()

Al que se le pueden añadir una serie de parámetros o de nuevas funciones para añadir un nombre,
indicar la cantidad de memoria y otros muchos aspectos de configuración.
Trabajando con Databricks Cloud
¿Preguntas?

También podría gustarte

Suaste Abraham R5 U3
50% (2)
Suaste Abraham R5 U3
7 páginas
Cómo Instalar El Modelo WRF
Aún no hay calificaciones
Cómo Instalar El Modelo WRF
6 páginas
Informe Lab Fisiología Instrumentos
Aún no hay calificaciones
Informe Lab Fisiología Instrumentos
9 páginas
Sesión 8 - Introducción A Apache Spark
Aún no hay calificaciones
Sesión 8 - Introducción A Apache Spark
39 páginas
PDF Definido
Aún no hay calificaciones
PDF Definido
25 páginas
Tema Spark
Aún no hay calificaciones
Tema Spark
10 páginas
Separata 04
Aún no hay calificaciones
Separata 04
23 páginas
Apache Spark
Aún no hay calificaciones
Apache Spark
11 páginas
Actividad 6. Investigación Spark
Aún no hay calificaciones
Actividad 6. Investigación Spark
9 páginas
1.1 Introducción A Spark
0% (1)
1.1 Introducción A Spark
23 páginas
Modulo 4 - Caso Practico B
Aún no hay calificaciones
Modulo 4 - Caso Practico B
4 páginas
Ensayo Hadoop y Spark
Aún no hay calificaciones
Ensayo Hadoop y Spark
4 páginas
Actividad 6. Investigación Spark
Aún no hay calificaciones
Actividad 6. Investigación Spark
9 páginas
Presentacion Curso Databricks
Aún no hay calificaciones
Presentacion Curso Databricks
27 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Spark Hadoop
Aún no hay calificaciones
Spark Hadoop
7 páginas
Qué Es BigData - Estudio
Aún no hay calificaciones
Qué Es BigData - Estudio
4 páginas
Módulo 4. Manejo de Datos Con Spark SQL: Introducción
Aún no hay calificaciones
Módulo 4. Manejo de Datos Con Spark SQL: Introducción
29 páginas
Clase 4 - Herramientas Big Data Nov 15
Aún no hay calificaciones
Clase 4 - Herramientas Big Data Nov 15
31 páginas
Introduction To Spark - ES - Introduccion A Spark
Aún no hay calificaciones
Introduction To Spark - ES - Introduccion A Spark
53 páginas
Apache Spark Básico
Aún no hay calificaciones
Apache Spark Básico
22 páginas
Clase 9 - Base de Datos y Big Data
Aún no hay calificaciones
Clase 9 - Base de Datos y Big Data
28 páginas
UD4 - S05 - Big Data
Aún no hay calificaciones
UD4 - S05 - Big Data
24 páginas
Apache Spark-Alejandro Palomino
Aún no hay calificaciones
Apache Spark-Alejandro Palomino
54 páginas
00 Presentación 2
Aún no hay calificaciones
00 Presentación 2
33 páginas
Apache Spark - Elasticsearch-Apache storm-RSTUDIO
Aún no hay calificaciones
Apache Spark - Elasticsearch-Apache storm-RSTUDIO
16 páginas
Spark 1
Aún no hay calificaciones
Spark 1
44 páginas
PySpark - Sesion 1
100% (1)
PySpark - Sesion 1
29 páginas
CD - M8 AE1 Contenidos - 2023
Aún no hay calificaciones
CD - M8 AE1 Contenidos - 2023
12 páginas
6 - Spark
Aún no hay calificaciones
6 - Spark
28 páginas
Análisis de Datos Con Apache Spark
Aún no hay calificaciones
Análisis de Datos Con Apache Spark
66 páginas
Big Data Con Apache Spark y Python: de Cero A Experto
Aún no hay calificaciones
Big Data Con Apache Spark y Python: de Cero A Experto
28 páginas
NH Spark Python 2020
Aún no hay calificaciones
NH Spark Python 2020
137 páginas
Ventajas de Spark
Aún no hay calificaciones
Ventajas de Spark
2 páginas
Completar en Los Campos Diseñados El Tema Propuesto
Aún no hay calificaciones
Completar en Los Campos Diseñados El Tema Propuesto
9 páginas
2023.2-06a Aspectos Básicos de Spark
Aún no hay calificaciones
2023.2-06a Aspectos Básicos de Spark
27 páginas
Ventajas de Las Herramientas
Aún no hay calificaciones
Ventajas de Las Herramientas
4 páginas
Apache Spark
Aún no hay calificaciones
Apache Spark
24 páginas
Separata 05
Aún no hay calificaciones
Separata 05
25 páginas
Big Data Con Spark 01 - Intro y Primeros Pasos
Aún no hay calificaciones
Big Data Con Spark 01 - Intro y Primeros Pasos
53 páginas
Evidencia 1 BIG DATA-2
Aún no hay calificaciones
Evidencia 1 BIG DATA-2
17 páginas
Zaharia en Es
Aún no hay calificaciones
Zaharia en Es
7 páginas
Apache Spark
Aún no hay calificaciones
Apache Spark
2 páginas
Introducción A Spark
Aún no hay calificaciones
Introducción A Spark
14 páginas
4 - Spark PDF
Aún no hay calificaciones
4 - Spark PDF
42 páginas
Biblia de Spark y SparkSQL 3
Aún no hay calificaciones
Biblia de Spark y SparkSQL 3
179 páginas
Big Data
Aún no hay calificaciones
Big Data
6 páginas
Entregable Aa1 Big Data
Aún no hay calificaciones
Entregable Aa1 Big Data
16 páginas
A1 - Mod2 - Unid5 - Procesamiento de Datos en Memoria. Spark Core
Aún no hay calificaciones
A1 - Mod2 - Unid5 - Procesamiento de Datos en Memoria. Spark Core
31 páginas
Apache Hadoop: Introducción 2024 - Aprender BIG DATA
Aún no hay calificaciones
Apache Hadoop: Introducción 2024 - Aprender BIG DATA
1 página
Ccallata Diaz Escalante Fernandez Goñe
Aún no hay calificaciones
Ccallata Diaz Escalante Fernandez Goñe
8 páginas
Herramientas Del Big Data
Aún no hay calificaciones
Herramientas Del Big Data
3 páginas
Mod1 - Introducción Big Data y Python
Aún no hay calificaciones
Mod1 - Introducción Big Data y Python
9 páginas
2020 - Clase Virtual 11 - Hadoop Vs Spark
Aún no hay calificaciones
2020 - Clase Virtual 11 - Hadoop Vs Spark
17 páginas
04 Arquitecturas Big Data
100% (1)
04 Arquitecturas Big Data
23 páginas
Guia IngenieriaProcesadoMasivoDatos
Aún no hay calificaciones
Guia IngenieriaProcesadoMasivoDatos
10 páginas
Wa0020.
Aún no hay calificaciones
Wa0020.
9 páginas
Big Data Analytics Spark
Aún no hay calificaciones
Big Data Analytics Spark
55 páginas
Resumen Spark
Aún no hay calificaciones
Resumen Spark
2 páginas
Herramientas Big Data
Aún no hay calificaciones
Herramientas Big Data
31 páginas
Proyecto IA 2014 01
Aún no hay calificaciones
Proyecto IA 2014 01
13 páginas
DP 2 3 Practice Esp
Aún no hay calificaciones
DP 2 3 Practice Esp
6 páginas
Solución de Modelos de Programación Lineal de Decisión
Aún no hay calificaciones
Solución de Modelos de Programación Lineal de Decisión
18 páginas
Diagramas de Flujo
Aún no hay calificaciones
Diagramas de Flujo
8 páginas
Tarea3tecstudent Ismael Tomas Carrasco
Aún no hay calificaciones
Tarea3tecstudent Ismael Tomas Carrasco
10 páginas
Apuntes Visual Basic
Aún no hay calificaciones
Apuntes Visual Basic
33 páginas
Metodo de Ordenamiento SHELL 2021
Aún no hay calificaciones
Metodo de Ordenamiento SHELL 2021
6 páginas
Disciplina de Tipos Compañeros
Aún no hay calificaciones
Disciplina de Tipos Compañeros
3 páginas
Entrega 1 Numero Primo Arquitectura Del Computador
Aún no hay calificaciones
Entrega 1 Numero Primo Arquitectura Del Computador
11 páginas
UnidadII Il
Aún no hay calificaciones
UnidadII Il
19 páginas
FRPB AD Unidad2 ProyectoCodigo1
Aún no hay calificaciones
FRPB AD Unidad2 ProyectoCodigo1
1 página
Taller Algoritmos
0% (1)
Taller Algoritmos
23 páginas
Resumen U - 1
Aún no hay calificaciones
Resumen U - 1
14 páginas
Python para Principiantes, Edición 2020: September 2020
Aún no hay calificaciones
Python para Principiantes, Edición 2020: September 2020
12 páginas
Modelo Matemático Whiten para Harneros Vibratorios
Aún no hay calificaciones
Modelo Matemático Whiten para Harneros Vibratorios
15 páginas
AED Semana 09
Aún no hay calificaciones
AED Semana 09
4 páginas
Curso Paramétros 8070M PDF
Aún no hay calificaciones
Curso Paramétros 8070M PDF
73 páginas
Conexiones Android Con Base de Datos
Aún no hay calificaciones
Conexiones Android Con Base de Datos
24 páginas
Qué Es Un Framework
Aún no hay calificaciones
Qué Es Un Framework
14 páginas
Cómo Usar La Librería JQUERY en Un HTML
Aún no hay calificaciones
Cómo Usar La Librería JQUERY en Un HTML
28 páginas
Exclusividad o Inclusividad
Aún no hay calificaciones
Exclusividad o Inclusividad
25 páginas
11 Semaforo
Aún no hay calificaciones
11 Semaforo
8 páginas
Buenas Prácticas de Programación
Aún no hay calificaciones
Buenas Prácticas de Programación
2 páginas
M.C. Mapa Conceptual Constructor
Aún no hay calificaciones
M.C. Mapa Conceptual Constructor
6 páginas
Python Ceneac Manual
Aún no hay calificaciones
Python Ceneac Manual
77 páginas
HP User
Aún no hay calificaciones
HP User
25 páginas
Tipos de Datos
Aún no hay calificaciones
Tipos de Datos
24 páginas