Tesis Seguridad Datos

SEGURIDAD DE LOS DATOS EN BIG DATA
IVAN ULISES HUILIMAN BAEZA
Tesis para optar al Título de Ingeniero en Informática y Gestión

y
Grado Académico de Licenciado en Informática y Gestión
Profesor Guía: Gustavo Pérez Godoy
FACULTAD DE INGENIERIA Y CIENCIAS

ESCUELA DE INGENIERIA VESPERTINA
Santiago, Chile
Diciembre - 2017
SEGURIDAD DE LOS DATOS EN BIG DATA
IVAN ULISES HUILIMAN BAEZA
Tesis para optar al Título de Ingeniero en Informática y Gestión

y
Grado Académico de Licenciado en Informática y Gestión
Profesor Guía : Gustavo Pérez Godoy
Profesor Informante : Raúl Riquelme Rojas
Profesor Examinador : Luis Alberto Gaete Millán
FACULTAD DE INGENIERIA Y CIENCIAS

ESCUELA DE INGENIERIA VESPERTINA
Santiago, Chile
Diciembre - 2017
DEDICATORIA
Dedico esta tesis a mis padres, quienes me dieron la vida, educación, valores
y que han sido incondicionales durante toda mi vida con sus consejos y
apoyándome en cada decisión que he tomado.
A mis hermanos, cuñadas, sobrinos, primos, tíos, amigos y a todos quienes

me han alentado a continuar y perseguir mis sueños, aun cuando parecía que me
iba a rendir.
2
AGRADECIMIENTOS
A mi profesor guía, Gustavo Pérez, por su ayuda y colaboración en el

desarrollo de esta tesis.
Al profesor Raúl Riquelme por haberme orientado y guiado cuando aún no

sabía el tema en el que iba a basar mi investigación.
A todos los profesores que he tenido ya que he podido sacar cosas positivas
de cada cosa que me han enseñado y que han estados dispuestos a responder a
mis inquietudes.
A las secretarias de la Escuela de Ingeniería Vespertina por siempre

recibirnos con una sonrisa en la cara y ayudarnos en todo lo que pudieran hacer.
A mis padres y familiares por su apoyo y cariño entregado todos estos años.
3
RESUMEN EJECUTIVO
Debido al aumento casi exponencial de aparatos electrónicos que se

conectan a internet, la cantidad de datos que se envían también ha aumentado y
con ello han aumentado los problemas de privacidad ya que, al estar los usuarios
constantemente publicando dónde están, con quién están, qué hacen, etc., los deja
vulnerables a que se puedan exponer esos datos y ser víctimas de ataques
maliciosos.
Esto sumado a la falta de seguridad, anonimización, complejidad y diversidad

de los datos, perdida de datos, poca inversión en seguridad falta de habilidades de
los profesionales, ruptura de la integridad de los datos aumenta considerablemente
estos peligros.
El aumento de los ataques a las fuentes de Big Data de las grandes

compañías expone nuestros datos privados a desconocidos, los que pueden usarlos
para fines maliciosos (fraude, suplantación de identidad, etc.).
En esta investigación se profundizará en las formas más comunes de

filtración de datos, las leyes a cerca de la privacidad de las personas y como se
pueden evitar estas filtraciones.
4
ABSTRACT
Due to the almost exponential increase of electronic devices that are

connected to Internet, the volume of data that is sent has also increased with it and,
with this, the privacy problems as well because we are constantly publishing where
we are, with whom, what we do, etc. and that kind of things has made us vulnerable
to having exposed data and being victims of malicious attacks.
The above mentioned added to the lack of security, anonymity, complexity

and diversity of data, loss of data, poor investment in security, lack of professionals’
skills and rupture of data integrity, increases these dangers too.
Increased attacks on Big Data sources from big companies expose our private
data to strangers, who can use them for malicious purposes (fraud, spoofing, etc.).
In this investigation, we are going to look at the most common briefs of

security and privacy, laws about people’s privacy and how these leaks can be
avoided.
5
INDICE GENERAL
DEDICATORIA ....................................................................................................... 2
AGRADECIMIENTOS ............................................................................................. 3
RESUMEN EJECUTIVO ......................................................................................... 4
ABSTRACT ............................................................................................................ 5
INDICE GENERAL ................................................................................................. 6
INDICE DE ILUSTRACIONES ................................................................................ 8
INDICE DE GRAFICOS .......................................................................................... 9
INDICE DE TABLAS ............................................................................................ 10
CAPITULO I INTRODUCCION ...................................................................... 11
CAPITULO II PRESENTACION DEL PROYECTO .......................................... 12
2.1. OBJETIVOS ............................................................................................. 12
2.1.1. Objetivo General:............................................................................... 12
2.1.2. Objetivos Específicos: ....................................................................... 12
2.2. METODOLOGIA DE TRABAJO ............................................................... 12
2.3. DIAGNOSTICO ........................................................................................ 13
CAPITULO III MARCO CONCEPTUAL............................................................. 15
3.1. ¿QUE ES BIG DATA?.............................................................................. 15
3.1.1. Las 7 “V” de Big Data ........................................................................ 15
3.1.2. Otras definiciones .............................................................................. 16
3.2. SOFTWARE PARA EL MANEJO DE BIG DATA ..................................... 18
3.2.1. MongoDB .......................................................................................... 18
3.2.2. Apache Hive ...................................................................................... 19
3.2.3. Apache Spark .................................................................................... 21
6
3.2.4. Hadoop .............................................................................................. 24
CAPITULO IV LA SEGURIDAD EN BIG DATA ................................................ 27
4.1. ¿CUALES SON LOS PROBLEMAS DE PRIVACIDAD EN BIG DATA? .. 27
CAPITULO V MARCO LEGAL Y LA PRIVACIDAD DE LOS DATOS ............ 30
5.1. LEYES DE PROTECCION DE DATOS EN EL MUNDO.......................... 30
5.2. ¿COMO SE ENCUENTRA CHILE RESPECTO A SUS PARES? ............ 31
CAPITULO VI METODOS DE FILTRADO DE DATOS .................................... 38
6.1. ¿COMO SE FILTRAN LOS DATOS?....................................................... 38
6.1.1. Hackeo .............................................................................................. 43
6.1.2. Falencias y falta de seguridad ........................................................... 44
6.1.3. Errores de configuración ................................................................... 44
6.1.4. Pérdida de equipos o amenazas internas ......................................... 44
CAPITULO VII EVALUACION ECONOMICA ..................................................... 47
7.1. ¿CUANTO CUESTA LA PERDIDA Y FILTRACION DE DATOS? ........... 47
7.1.1. Expectativa de pérdida anual (ALE) .................................................. 49
CAPITULO VIII SOLUCIONES ........................................................................... 51
8.1. ¿COMO EVITAR LAS FILTRACIONES DE DATOS? .............................. 51
CAPITULO IX CONCLUSIONES ....................................................................... 56
BIBLIOGRAFIA .................................................................................................... 57
GLOSARIO ........................................................................................................... 61
7
INDICE DE ILUSTRACIONES
Ilustración 1: MongoDB utilizado por Apache Spark ........................................... 19
Ilustración 2: Conexión entre Hive y Hadoop ...................................................... 20
Ilustración 3: Ecosistema de Apache Spark ........................................................ 22
Ilustración 4: Arquitectura de Apache Spark. ...................................................... 23
Ilustración 5: Diferencias entre Hadoop y Spark ................................................. 23
Ilustración 6: Ejemplo HDFS ............................................................................... 24
Ilustración 7: Ejemplo MapReduce...................................................................... 25
Ilustración 8: Ecosistema de Apache Hadoop ..................................................... 26
8
INDICE DE GRAFICOS
Grafico 1: Diferencias de tiempo de procesamiento entre Hadoop y Spark: ........ 21
Grafico 2: Brechas más grandes de datos en el mundo ...................................... 38
Grafico 3: Registros perdidos según método de filtrado ...................................... 41
Grafico 4: Comparativa Costos Directos y Adicionales ........................................ 48
Grafico 5: Comparativa Empresas y PYMES ....................................................... 48
9
INDICE DE TABLAS
Tabla 1: Filtraciones desde año 2016 a la fecha .................................................. 41
10
CAPITULO I INTRODUCCION
Big Data es una tecnología que ha tomado mucha importancia dentro de los
últimos años y que cada vez más empresas están apostando por incorporarla a sus
fuentes y utilizarla como mejor les resulte. Debido a que se pueden almacenar gran
cantidad de datos y analizarlos casi en tiempo real, ha aumentado la factibilidad de
ciertos sectores empresariales como, por ejemplo, el financiero o retail, esto gracias
a que, al mantener tantos datos almacenados de las personas, es más fácil poder
predecir sus gustos, enfocándose en nichos de mercados específicos y sacarles
provecho.
Pero junto a estos beneficios también existen vulnerabilidades que, si las

empresas no son capaces de mitigar, puede resultar algo totalmente contrario a lo
que se esperaba y resultar dando pérdidas tanto económicas como sociales.
Equifax, una empresa multinacional, tuvo uno de estos robos de información.

Este año (2017) 1 , los datos personales sensibles de cerca de 143 millones de
usuarios estadounidenses que tenían reportes de créditos fueron expuestos al
público, siendo cerca de la mitad de la población de Estados Unidos.
Esta investigación se realizó por el interés de conocer cuáles son las

principales problemáticas que Big Data puede efectuar sobre las personas y las
empresas, definiendo qué es Big Data, cuáles son los softwares más conocidos
para el manejo y almacenamiento de estos datos, cuáles son las formas más
comunes de vulneraciones a la seguridad de las bases de datos que almacenan los
datos personales de las personas y cómo se puede mejorar la seguridad de ellas.
1 Fuente: https://www.cnet.com/how-to/your-guide-to-surviving-equifax-data-breach/
11
CAPITULO II PRESENTACION DEL PROYECTO
2.1. OBJETIVOS
2.1.1. Objetivo General:
La recolección de datos indiscriminada que hacen las empresas utilizadoras

de Big Data, junto con el aumento de organizaciones que están comenzando a
adoptar esta tecnología, exponen a los consumidores a distintas vulnerabilidades a
sus derechos, como el de la privacidad. Debido a esto, el objetivo general de esta
investigación es hacer un diagnóstico de cómo estas empresas mantienen los datos
(que son recolectados de distintas fuentes) lo más seguro posible.
2.1.2. Objetivos Específicos:
Adicionalmente a la investigación central de este proyecto, se esperan

conseguir los siguientes objetivos específicos:
 Determinar cómo se protegen los datos almacenados.

 Identificar los softwares más utilizados para el manejo de Big Data y cómo
aseguran los datos.
 Determinar cómo se puede mejorar la seguridad para evitar la pérdida y
publicación de datos privados.
 Especificar cuáles son las formas más comunes de pérdida de datos.
2.2. METODOLOGIA DE TRABAJO
Los ataques informáticos y el extravío de datos a empresas que utilizan Big

Data en estos últimos años han aumentado exponencialmente, por ejemplo, en el
12
año 2014, los ciberataques aumentaron cerca de un 120%, principalmente en áreas
relacionadas con Internet de las Cosas (IoT) y la nube2.
Para realizar este trabajo de investigación se necesita recolectar información

de diferentes fuentes:
 Investigación en bibliotecas acerca de todos los temas relacionados sobre

seguridad de información y Big Data.
 Búsqueda de información en internet (publicaciones, blogs, etc.)
 Entrevistar empresas que ofrezcan soluciones y software Big Data.
 Entrevistar empresas que utilicen Big Data
Al final de esta investigación, los resultados esperados de ésta son los

siguientes:
 Conocer cuáles son los softwares más seguros al momento de manipular Big
Data.
 Dar a conocer los riesgos de exponer constantemente nuestra vida personal
por internet.
2.3. DIAGNOSTICO
Si bien las empresas que trabajan con datos o información a gran escala
conocen las problemáticas que el uso indiscriminado de esta herramienta
tecnológica puede provocar en las personas, las empresas de menos tamaño, con
menos uso de tecnologías TI y las personas comunes que no están especializadas
ni familiarizadas con este tema, no conocen ni saben cuáles son los efectos
negativos a los que pueden ser sometidos ya sea directa o indirectamente por
aquellas empresas que hacen utilizan Big Data que pueden ir desde un error en una
dirección postal, evitando que lleguen, por ejemplo, constancias o citaciones
2 Fuente: https://www.sogeti.es/globalassets/spain/explora/noticias/2015/23-03--2015-aumentan-
los-ataques-ciberseguridad-en-un-120.pdf
13
judiciales, hasta asociación de delitos por una mala digitación del RUT o por cruce
de tablas.
Si no se mantiene una política de actualización y mantenimiento de las bases de

datos estos problemas seguirán ocurriendo, así como también seguirán ocurriendo
las filtraciones y robos de información si las empresas encargadas de mantener los
datos no tienen una política de seguridad ni tienen asegurados correctamente los
datos. con el aumento de los recursos que poseen los computadores, por ejemplo,
la velocidad de procesamiento, los hackers van a tener mucha más facilidad de
traspasar las barreras de seguridad que existan en las empresas, por ende, es
necesario mantener renovación y mejorar los sistemas de seguridad y prevenir
futuros ataques, no solo a los datos personales o sensibles, sino a todos los datos
que posea la empresa.
Actualmente las empresas chilenas no se ven obligadas por ley a mantener

los datos sensibles bien asegurados, ni hace responsable a quien administra estos
datos en caso de que sean mal usados. Solo cuando sea aprobada la modificación
a la ley N° 19.628, van a tener que hacerlo para cumplir la ley.
14
CAPITULO III MARCO CONCEPTUAL
3.1. ¿QUE ES BIG DATA?
Antes de comenzar el tema central de esta investigación, es necesario definir

los conceptos principales que se nombrarán y que cumplen un rol fundamental en
su desarrollo ya que ayudan a entender de qué se está hablando.
Encontrar una definición precisa de qué es Big Data es muy difícil, el

concepto es muy amplio y quienes han estudiado el tema lo definen de distintas
formas. En lo que sí hacen un consenso es en el hecho de que Big Data trata del
manejo de una enorme cantidad de datos, caracterizados por, en un principio, las 4
“V”: Volumen, Velocidad, Variedad y Veracidad. Pero luego, en el último año, el
Instituto de Ingeniería del Conocimiento (Las 7 V del Big Data: Características más
importantes, junio 2016) comenzó a hablar de las 7 “V”, agregando a las
anteriormente nombradas la Viabilidad, La Visualización de los datos y el Valor de
los datos, esta última tomando el principal protagonismo.
3.1.1. Las 7 “V” de Big Data
1. Volumen: es la cantidad de datos que son generados y que se almacenan en

una base de datos que es, principalmente, del tipo no relacional (como
Hadoop). Lo que anteriormente solía ser medido en Gigabyte (GB), ahora se
suelen medir en Zettabytes (ZB o 1.000.000.000.000 de GB) o incluso en
Yottabytes (YB o 1.000 ZB).
2. Velocidad: con velocidad se está refiriendo a la rapidez o cuánto tiempo se

demoran los datos en ser creados, almacenados y procesados. Todo este
proceso se debe hacer en tiempo real.
3. Variedad: cuando se habla de la variedad de los datos, se debe tener en

cuenta el hecho de que éstos son de distintas formas, tipos y vienen de
distintas fuentes, por ejemplo, pueden ser documentos de texto, audios,
15
vídeos, etc. También los datos almacenados pueden ser generados por otras
entidades distintas a las que los van a utilizar.
4. Veracidad de los datos: hablar de la veracidad es referirse a la incertidumbre
de los datos, es decir, cuán fiable es la información recibida. Se necesita que
los datos obtenidos sean confiables, de calidad y actualizados, ya que un
error en estos podría generar una mala decisión o acción.
5. Viabilidad: la viabilidad es la capacidad que tienen las empresas para realizar

un uso eficaz y sacarles provecho a estos datos obtenidos, ya que, si no es
capaz de realizarlo, Big Data no sería una buena solución, siendo inviable y
sólo acarrearía pérdidas.
6. Visualización de los datos: al hablar de visualización, aludimos al modo en

que los datos obtenidos son presentados. Estos datos se encuentran
almacenados en tablas, definidas por filas y columnas y es necesario
transformar estas tablas, principalmente en gráficos, para que puedan ser
leíbles por las personas que necesitan tener acceso a esos datos.
7. Valor de los datos: el dato por sí solo no aporta valor a las empresas, mucho
menos la cantidad de datos almacenados. Lo que aporta valor es el
conocimiento generado por la información obtenida de los datos, ya que este
conocimiento es esencial para tomar decisión y realizar acciones frente a un
suceso. En pocas palabras, los datos se transforman en información, la
información en conocimiento y, a raíz de este conocimiento generado, se
pueden tomar decisiones.
3.1.2. Otras definiciones
También se puede definir Big Data más literalmente: datasets cuyo tamaño está
más allá de la habilidad de los típicos softwares para la captura, almacenamiento y
análisis de los datos. Pero según el MGI (McKinsey & Company 2011) esta
definición es intencionalmente subjetiva ya que no definimos Big Data en torno a
16
que sean datos de tamaño más grande que un cierto número de terabytes. Es
necesario hacer notar que la definición puede cambiar según el sector y el software
que utiliza.
PowerData3 agrega otras definiciones a lo anterior mencionado:
a. Big Data como tecnología: los softwares de código abierto como Hadoop
y NoSQL han ayudado a mejorar la tecnología que se utilizaba para
almacenar y gestionar datos debido a que Big Data como tecnología de a
información y comunicación no ha dejado de crecer.
b. Big Data como señales: al extraer valor de los datos se utiliza como
“señales” para anticiparse a lo que va a pasar y obtener beneficios de esa
información. Esta información también puede ser utilizada más allá de las
empresas, siendo un instrumento clave en otros ámbitos, por ejemplo, la
administración pública al fomentar la sostenibilidad o la planificación
urbana.
c. Big Data como revolución del conocimiento: como Big Data nos ayuda a
obtener información, nos da cierto grado de “poder”, esto podría ser
tratado como una revolución del conocimiento ya que ayuda a abrir la
mente para que, por ejemplo, los investigadores recurran a los datos para
inspirar nuevas teorías, en vez de utilizarlos para apoyar o rechazarlas.
d. Big Data como metáfora: Big Data en conjunto con IoT puede ser definido
como una especie de red neuronal del sistema nervioso del planeta.
Como dice Rijmenam4, en el año 2014 el 90% de los datos habían sido
creados entre 2012 y 2014
3 Fuente: https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/381767/7-definiciones-de-
big-data
4 Fuente: https://datafloq.com/read/big-data-history/239
17
e. Big Data como negocio: Big Data también puede ser utilizada como una
palabra comodín, ya sea por ignorancia o para ostentar que se emplea,
siendo relacionada con los datos aun cuando no existe relación con el uso
de las nuevas tecnologías y con Big Data propiamente tal.
Con estas definiciones ya se puede hacer una idea de qué es Big Data, o al
menos, a qué se refiere cuando se habla de ello.
3.2. SOFTWARE PARA EL MANEJO DE BIG DATA
Para realizar un buen uso de estos datos obtenidos es necesario poseer las
tecnologías necesarias para sacarle provecho. Por ejemplo, para obtener datos de
las redes sociales es necesario utilizar tecnologías que ayuden a procesar el
lenguaje natural (análisis de texto) y a partir de eso, definir si es un sentimiento
negativo o positivo, utilizándolo junto con algún algoritmo de análisis de las redes
sociales.
En el mercado existen varias herramientas para el manejo de big data, siendo

HADOOP la más utilizada y más conocida. A continuación, ahondaremos en
Hadoop y otras herramientas que están comenzando a tomar fuerza dentro del
mundo de Big Data
3.2.1. MongoDB
MongoDB es un software base de datos del tipo no estructurada, basada en

NoSQL. Es una base de datos cuyas características principales son las siguientes:
1) el procesamiento de los datos se hace de una manera muy rápida, lo que la hace
muy ágil, esto es debido a que tiene una ausencia de transacciones; 2) es muy
flexible con los tipos de datos que se pueden almacenar, esto es debido a que está
orientada a documentos por lo que acepta todo tipo de datos, incluidos arrays y
otros subdocumentos (BSON); 3) es un sistema escalable, que utiliza la
escalabilidad horizontal, lo que le permite crecer más fácilmente y una alta
18
disponibilidad, ya que si un nodo falla, los demás pueden seguir trabajando
normalmente.
Generalmente MongoDB se utiliza junto a Hadoop o a Spark, como se

muestra en la figura a continuación.
Ilustración 1: MongoDB utilizado por Apache Spark

Fuente: https://www.mongodb.com/products/spark-connector
3.2.2. Apache Hive
Apache Hive es un software de Data Warehouse que ayuda a leer, escribir y

administrar grandes Datasets residentes dentro de un almacenamiento distribuido y
19
en el cual las consultas se hacen mediante comandos basados en lenguaje SQL,
llamado HiveQL.
Apache Hive está construido sobre Apache Hadoop y provee de

funcionalidades del estándar SQL, incluyendo muchos de las características
existentes en SQL 2003 y SQL 2011 para análisis. También provee de herramientas
para un fácil acceso a los datos a través de SQL, acceso a archivos almacenados
en Apache HDFS (Hadoop Data File System) u otros sistemas de almacenamiento
de datos como Apache HBase. No existe un formato especial en el que los datos
deben ser almacenados, Hive incluye conectores para archivos de texto con comas
y separadores (como CSV o TSV), pero los usuarios también pueden agregar
conectores para otros tipos de formatos.
Ilustración 2: Conexión entre Hive y Hadoop

Fuente: http://www.dezyre.com/hadoop-tutorial/hive-tutorial
20
3.2.3. Apache Spark
Apache Spark es una plataforma diseñada para mejorar la velocidad y el

rendimiento de las aplicaciones que utilizan Big Data cuyos inicios fueron en la
Universidad de Berkeley. Puede trabajar dentro de las arquitecturas de Big Data
basadas en Hadoop y puede acceder a distintas fuentes de datos como HDFS,
HBase, MongoDB. etc.
Actualmente es el principal competidor de Hadoop ya que pasee APIs

(Application Programmer’s Interface) en Java, Python, Scala y librerías para integrar
otros lenguajes, siendo este último con el que más se saca provecho Spark por las
características de este lenguaje al poder mezclar la programación funcional y la
orientada a objetos, además de poder generar Datasets Resilientes y Distribuidos
(RDD por sus siglas en inglés). Este uso de Scala hace que Spark sea casi 100
veces más rápido que Hadoop (Gráfico 1).
Grafico 1: Diferencias de tiempo de procesamiento entre Hadoop y Spark:
Fuente: http://spark.apache.org
21
Ilustración 3: Ecosistema de Apache Spark
Fuente: https://www.databricks.com/spark/about
22
Ilustración 4: Arquitectura de Apache Spark.
Fuente: https://academy.datastax.com
Ilustración 5: Diferencias entre Hadoop y Spark

Fuente: http://spark.incubator.apache.org
23
3.2.4. Hadoop
Hadoop es un sistema de código abierto, nacido de la búsqueda de Google

por una solución que les permita continuar procesando datos.
Es un software de código abierto, libre que permite procesar grandes

volúmenes de datos de forma distribuida en distintos clúster de servidores, esto
quiere decir que lo que se podía hacer en un solo servidor se distribuye en varios
más para así agilizar el procesamiento, crecer a medida que se va solicitando según
la cantidad de datos necesarios para almacenar y disminuir la tasa de fallos ya que
al no estar todo almacenado en un solo servidor, es más fácil y rápido recuperarse
de las caídas de los servidores.
Utiliza un sistema distribuido de archivos (HDFS) que es donde almacena los

datos tomados dividiéndolos en pequeñas partes llamadas bloques que se
distribuyen a través de un clúster. A continuación, se muestra un ejemplo de HDFS
en el cual cada bloque de datos es almacenado tres veces y al menos un bloque de
estas copias se almacena en distintos racks.
Ilustración 6: Ejemplo HDFS
Fuente: https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
24
Utiliza también MapReduce el cual es un modelo de programación orientado
a la computación paralela, sus dos fases principales, Map y Reduce. Map realiza el
proceso de tomar los datos almacenados y transformarlos en conjuntos de datos
definidos en pares, clave y valor. Este resultado obtenido es tomado por Reduce y
lo transforma en otro conjunto también definido en pares, pero de más fácil
procesamiento. Existe una fase intermedia llamada shuffle donde se ordenarán los
datos obtenidos en la fase Map y que luego utilizará Raduce. A continuación, en la
siguiente figura se muestra un sencillo flujo de datos del proceso MapReduce
Ilustración 7: Ejemplo MapReduce
Fuente: https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
Al ser la herramienta más utilizada para el manejo de Big Data, es más

susceptible a brechas de seguridad, pero al poseer una comunidad con usuarios
muy activos y que están constantemente trabajando para mejorarla, se actualiza
periódicamente con parches para tapar estas brechas.
25
Ilustración 8: Ecosistema de Apache Hadoop
Fuente: https://opensource.com/life/14/8/intro-apache-hadoop-big-data
26
CAPITULO IV LA SEGURIDAD EN BIG DATA
Diariamente las personas y usuarios de Internet generan miles de datos (por

ejemplo, hacia dónde van, con quién están, qué hacen, etc.) y estos datos
generados los vuelven más vulnerables en relación a su privacidad personal.
Distintos expertos han advertido que la automatización en la toma de decisiones a
través del análisis de Big data puede llevar a resultados arbitrarios, discriminatorios
e incluso vulnerar los derechos y la privacidad de las personas.
Al momento de hablar de protección de los datos, existen métodos especiales

para que sea más difícil asociarlos los datos como por ejemplo la anonimización,
uso de seudónimos, cifrado, claves de codificación e intercambio de datos para
separar la información de identificación personal de las identidades reales.
4.1. ¿CUALES SON LOS PROBLEMAS DE PRIVACIDAD EN BIG DATA?
Según Rebecca Herold (Privacy Professor), hay diez problemas de

privacidad en los análisis de Big Data, de las cuales se nombran algunas a
continuación:
 Debido al uso de los análisis a big data que han hecho las empresas y
organizaciones, la privacidad de las personas se ha visto expuesta ya que,
por ejemplo, al buscar algún producto en Google, las publicidades que se
agregan en ciertas páginas se van modificando de acuerdo a esa búsqueda
y puede llegar a mostrar cosas íntimas a personas que utilizan nuestro
computador.
 Si bien los análisis de big data pueden ayudar a tomar decisiones, no son
cien por ciento precisos. Dentro de las bases de datos donde se almacena
esta información pueden existir datos inexactos, erróneos que podrían estar
dando una solución totalmente distinta de la real. Se debe tener un control
de las fuentes de información y que estas sean verídicas, respetando la
integridad, confidencialidad y disponibilidad.
27
 Con tantos datos que se están recolectando, si no se utiliza una forma de
distinguir estos datos de las personas (separarlos o cambiar ciertos
parámetros), al hacer un cruce entre distintas bases de datos se puede llegar
a identificar de quién se recolectó esos datos, lo que resulta perjudicial ya
que se estaría perdiendo el anonimato.
 Siguiendo con lo anteriormente señalado, si esta forma de cubrir los datos

obtenidos no es utilizada adecuadamente ni realizada correctamente,
fácilmente con estos datos se puede llegar a descifrar información personal
de los individuos.
 Estos análisis son utilizados de muchas maneras por las empresas u

organizaciones, por ejemplo, para mejorar el marketing, revisar qué es lo que
más buscan las personas y así ofrecer productos específicos según las
necesidades personales, tomar decisiones complejas, etc. Estas tomas de
decisiones pueden llegar a ser poco éticas ya que podrían estar tomándose
sin tener en consideración las vidas de las personas, ni mucho menos qué
efectos podrían resultar en ellas.
 Dentro de las decisiones poco éticas que las organizaciones podrían tomar
en base al análisis de big data, está la discriminación. Esta discriminación se
realizaría tomando en cuenta ciertos parámetros recopilados en línea
mediante las redes sociales, internet de las cosas, etc. las que serían poco
influyentes en las capacidades de las personas (color de piel, sexo, raza,
orientación sexual, etc.). En Chile esto se veía (aunque no con la cantidad de
datos que existen hoy en día) en ciertas empresas que solicitaban
certificados de DICOM a quienes postulaban a puestos de trabajo, esto ha
sido cambiado con la llamada ley DICOM que prohibía esta práctica dentro
de ese tema.
28
 Existen pocos requisitos legales al momento de trabajar con big data, por lo
que quien quiera y tenga la capacidad para recolectar datos de las personas
por internet puede hacerlo, aún sin tener permiso de los involucrados en esta
recolección de datos.
 Big data probablemente va a empezar a ser utilizado por cada vez más
empresas, por lo que va a aumentar su disposición a ciertos ciberataques
para tomar los datos almacenados por lo que es necesario que se aumente
la precaución de las empresas entorno a estas brechas de seguridad que van
a ir apareciendo.
29
CAPITULO V MARCO LEGAL Y LA PRIVACIDAD DE LOS DATOS
5.1. LEYES DE PROTECCION DE DATOS EN EL MUNDO
En la actualidad no existe una ley específica para Big Data, lo cual provoca
gran preocupación ya que los sistemas o técnicas de para proteger los datos
obtenidos no son 100% seguros y se pueden quebrar en cualquier momento.
España y Alemania son unos de los países que tienen una normativa de
protección de datos más dura y exigentes. España tiene la Ley Orgánica de
Protección de Datos y la Unión Europea está tomando las medidas necesarias para
lo que la protección de datos se refiere. En EE. UU., el 4 de marzo de 2014, la
Oficina de Políticas Científicas y Tecnológicas (OSTP) solicitó públicamente que
comentarios acerca de Big Data al cual EPIC (Electronic Privacy Information Center)
luego de que el presidente Obama anunciara en enero de ese año un plan para
tomar medidas sobre la privacidad en Big Data. EPIC se unió a una coalición de
privacidad del consumidor, interés público, científico, y organizaciones
educacionales, a petición del OSTP. Esta Coalición por la Privacidad consideró
algunos problemas de privacidad, incluyendo:
 ¿Cuáles son los potenciales daños que surgen de la colección de Big Data y
cómo se abordan actualmente estos riegos?
 ¿Cuáles son los marcos legales que rigen actualmente a Big Data, son
adecuados?
 ¿Cómo pueden las empresas y organizaciones gubernamentales ser más
transparentes en el uso de Big Data?
 ¿Qué técnicas de medición pueden promover los beneficios de Big Data
mientras minimizan los riegos de privacidad?
 ¿Qué experiencia tienen otros países tratando de abordar los retos de Big
Data?
 ¿Cuáles son las tendencias a futuro relacionadas con Big Data que puedan
informar acerca del debate actual?
30
Pero luego de que la Casa Blanca anunciara esta oportunidad de comentarios
públicos, EPIC solicitó a OSTP incorporar las siguientes observaciones y
recomendaciones al reporte final:
 El entorno recurrente de Big Data posee enormes riegos para los

estadounidenses.
o Las instituciones comerciales que recolectan datos no tienen una
suficiente seguridad de protección de la privacidad de las personas.
o Los estudiantes son particularmente más vulnerables a los riesgos de
privacidad de Big Data.
o La recolección de datos por el gobierno es particularmente
problemática.
 Los retos que presenta Big Data no son nuevos.
 El congreso debería promulgar lo más rápido posible la Declaración de

Derechos de Privacidad del Consumidor y el gobierno debería suspender
inmediatamente sus programas del perfil “Basados en riegos”.
 Es necesario salvaguardar más fuertemente la privacidad de Big Data para

proteger a los individuos.
 Las normas internacionales proporcionan modelos para una mejor protección

de la privacidad.
5.2. ¿COMO SE ENCUENTRA CHILE RESPECTO A SUS PARES?
En Chile existe una ley, la Nro. 19.628 que es la encargada de velar por la
protección de la vida privada, aunque se ha descrito como débil o poco efectiva. Las
deficiencias de esta ley incluyen la ausencia de una autoridad que proteja estos
31
datos, y la falta de penas para quienes infrinjan esta ley. A continuación,
ahondaremos en algunos artículos.
En los artículos 1°, 2° y 3° se definen las disposiciones generales de la ley y

los conceptos utilizados dentro del documento.
En el Artículo 3°, se estipula que, para la recolección de datos personales

realizadas a través de encuestas, estudios de mercado o sondeos de opinión
pública, es necesario y “se deberá informar a las personas del carácter obligatorio
o facultativo de las respuestas y el propósito para el cual se está solicitando la
información.” Según esta definición, los terceros requieren del consentimiento de
una persona para que éstos puedan usar, recolectar y procesar sus datos
personales. Indicando también en el último párrafo que “el titular puede oponerse a
la utilización de sus datos personales con fines de publicidad, investigación de
mercado o encuestas de opinión.” Esto último es difícil de poder revisar y hacer
cumplir ya que no conocemos qué empresas tienen nuestros datos hasta que
envían correos o llamadas de publicidad, encuestas, etc.
A partir del artículo 4° y hasta el artículo 11°, se marcan los límites para la
utilización de los datos personales y su recolección:
En el primer párrafo del artículo 4°, se estipula que cuando se va a realizar

un tratamiento de datos personales sólo puede efectuarse de acuerdo a la ley o el
titular esté de acuerdo con el uso de sus datos y debe ser debidamente informado
del propósito del almacenamiento de los datos y si serán publicados o no. La
autorización debe ser escrita y puede ser revocada también por escrito sin ser
retroactiva. También se estipula que para los datos existentes en fuentes accesibles
al público no se necesita autorización previa para su uso cuando éste sea para uso
económico, financiero, bancario o comercial, así como para las personas jurídicas
privadas que realicen el tratamiento, pero sólo para el uso exclusivo suyo o afiliados
con fines estadísticos.
El artículo 5° estipula que quién quiera usar los datos puede automatizar los
procedimientos de transmisión, siempre que se guarden los derechos de los
32
propietarios de estos datos y que esta transmisión tenga relación con las tareas y
finalidades de los organismos participantes. Indica también que se debe dejar una
constancia de una individualización de quién solicite los datos, el motivo y el
propósito para su uso y el tipo de dato que se transmitirá, quedando así la restricción
de estos datos exclusivamente para el fin estipulado anteriormente. Nuevamente se
remarca que quedan liberadas de esto las organizaciones que utilicen datos
accesibles al público general.
Según el artículo 6°, los datos personales que carecen de fundamento legal
o sean caducados deben ser eliminados y modificados si son erróneos, inexactos o
incompletos. Lo anterior debe ser realizado por el responsable del banco de datos
y lo puede hacer sin necesidad de requerimiento del titular5.
Las personas que trabajan en el manejo de los datos deben mantener en

secreto lo que se revisa cuando estos sean recolectados de fuentes no accesibles
al público (Artículo 7°).
En el artículo 11° se deja en claro que el responsable de los daños y que, por
ende, deberá velar por el cuidado de los datos es el responsable de los registros o
bases donde se almacenen los datos personales.
A contar del artículo 12°, hasta el artículo 16° se determinan los derechos de
los titulares de los datos:
Según el artículo 12°, toda persona tiene derecho a exigir información sobre
los datos relativos a su persona (al responsable de la base de datos o banco), para
conocer su procedencia, destinatario, propósito y la individualización de las
personas u organismos que utilizan sus datos. Podrá modificarlos, debidamente
acreditado, si es que son erróneos o incompletos y exigir que se eliminen si estos
no tienen fundamento legal, han caducado o no desea que aparezcan en los
registros comerciales, si estos fueron proporcionados voluntariamente. Lo
anteriormente señalado, ya sea modificación o eliminación, deberá ser totalmente
gratis y el titular podrá solicitar un certificado o copia del registro donde aparezcan
5 Entiéndase como titular a toda persona natural a la que se refieren los datos de carácter personal.
33
las modificaciones hechas o los datos que fueron eliminados. Esta copia del registro
actualizado también será gratis, siempre y cuando hayan transcurrido a los menos
seis meses desde la última oportunidad que fue solicitada la última copia y esto
debe ser realizado personalmente. En el último párrafo de este artículo se ve una
clara ineficiencia ya que el responsable del banco o base de datos es quien deberá
comunicar las modificaciones o eliminaciones a los que utilizan dicha base, esto sin
una autoridad que pueda revisar si realmente se cumplió con lo solicitado o no.
Las personas tienen derecho a que la información, modificación, cancelación

o bloqueo de sus datos personales no se vea limitada por medio de ningún acto o
convención (artículo 13°) y, si estos datos están en un banco al que tienen acceso
diversos organismos, puede solicitar información de cualquiera de ellos (artículo
14°). En cambio, si estos datos entorpecieran el cumplimiento de funciones legales,
la seguridad de la Nación o el interés nacional, no se podrá solicitar lo anteriormente
señalado, la modificación, eliminación, bloqueo o información de los datos (artículo
15°).
Para las organizaciones que no se pronuncien sobre la solicitud del titular

dentro de dos días hábiles o la denieguen por una causa distinta a la seguridad de
la Nación o que sea de interés nacional, quien solicite tendrá derecho de recurrir al
juez de letras solicitando amparo a los derechos descritos anteriormente (artículo
16°).
Desde el artículo 17° y hasta el artículo 19°, se determina la utilización de los

datos personales relacionados con las obligaciones de carácter económico,
financiero, bancario o comercial. Dándole la posibilidad a quienes son responsables
de los bancos de datos para que puedan comunicar información acerca de los
deudores morosos, pero sólo cuando existan letras de cambio, documentos
protestados o incumplimiento de obligaciones derivadas de hipotecarios y de
créditos de entidades financieras públicas o privadas. Estos datos no pueden ser
comunicados si el deudor está cesante, acreditado previamente (artículo 17°).
Pasado cinco años desde que se hizo pública la morosidad del deudor no puede
volver a comunicarse dicha deuda, así como tampoco podrán mantener
34
comunicando los datos luego de haber sido pagado o exigida de algún otro modo
legal (artículo 18°).
Luego de la incorporación de Chile a la OCDE (Organización para la

Cooperación y Desarrollo Económico) en el año 2010, se ha puesto un énfasis por
mejorar y actualizar las leyes chilenas sobre protección de la vida privada tomando
las directrices otorgadas por la organización anteriormente señalada, dando como
resultado que, en marzo de este año (2017), los Ministerios de Economía, Fomento
y Turismo, de Hacienda, de Justicia y Secretaría General de la Presidencia
presentaron un proyecto de ley para regular la protección y el tratamiento de los
datos personales, actualizando la anterior ley Nro. 19.628, cuyas principales
novedades son las siguientes:
 Define más detalladamente los datos sensibles y se agregan normas

especiales para los datos de salud, biométricos, con fines históricos,
estadísticos, científicos y de geolocalización.
 Para los datos de niños y niñas, sólo se puede hacer el tratamiento de los
datos bajo la autorización previa y específica de quién esté a cargo de su
cuidado personal. Para los adolescentes, solo para los datos sensibles es
necesaria la autorización de quién esté a cargo de su cuidado personal. Para
los demás datos personales se debe regir con las normas generales de
autorización.
 Regula el tratamiento automatizado de los datos utilizados en Big Data,

manteniendo y protegiendo el control del titular sobre sus datos.
 Se crea la Agencia de Protección de Datos Personales, la cual tiene

facultades para regular, supervisar, fiscalizar y sancionar y así lograr la
eficacia de la ley. Esta nueva institución deberá mantener una coordinación
regulatoria en conjunto con el Consejo para la Transparencia para asegurar
35
la coordinación, cooperación y colaboración además de evitar conflictos de
normas.
 Se crea el Registro Nacional de Cumplimiento y Sanciones, administrado por

la Agencia de Protección de Datos Personales en el cual se registran las
sanciones a las que fueron sometidos los responsables de los datos por
infracción a la ley.
 Remarca el deber de mejorar la seguridad de los bancos de datos, creando

una serie de obligaciones y deberes para los responsables de los datos y
obliga a realizar reportes de violaciones de las medidas de seguridad y las
vulneraciones a las que se han visto afectos estos datos.
 Se remarcan los derechos denominados “ARCO” (acceso, rectificación,

cancelación y oposición), siendo estos irrenunciables, gratuitos y no
limitables. También se introduce el derecho a la portabilidad de los datos
personales y refuerza la regulación del derecho al olvido en relación con
infracciones penales, civiles, administrativas y disciplinarias.
 Se establece el consentimiento del titular como la principal fuente de

legitimidad del tratamiento de datos.
 En el ámbito de la transferencia internacional de datos personales se regula

mediante los estándares y recomendaciones dadas por la OCDE. Para los
países con alto nivel de seguridad y protección, quienes transfieren los datos
tienen autonomía para realizar esta transferencia. En el caso contrario, para
los países que no son adecuados en el tema de protección, esta transferencia
es permitida sólo en un conjunto de circunstancias y bajo la responsabilidad
legal de quién realiza la transferencia con aviso previo a la autoridad de
control.
36
 Los organismos públicos pueden realizar tratamientos a datos personales sin
el consentimiento del titular siempre y cuando esto sea para el cumplimiento
de funciones legales centro del ámbito de sus competencias. También se les
da la facultad de comunicar o ceder datos personales a otros órganos
públicos, siempre y cuando sea para el cumplimiento de funciones legales y
ambos órganos actúen dentro del ámbito de sus competencias o para otorgar
beneficios al titular.
 Para incentivar y promover a las empresas públicas y privadas a que cumplan

la ley, se realizarán certificaciones y supervisiones a los programas
generados por estas empresas para prevenir infracciones. Estas
certificaciones estarán a cargo de la Agencia de Protección de Datos
Personales.
37
CAPITULO VI METODOS DE FILTRADO DE DATOS
6.1. ¿COMO SE FILTRAN LOS DATOS?
Si se miran las estadísticas de todas las fallas de seguridad que existen

alrededor de Big Data, se puede dar cuenta de que el problema no viene de los
datos que se almacenan, sino de cómo se almacenan y qué se hace para mantener
estos datos seguros.
Siguiendo esta misma línea, existen varios puntos críticos en el

almacenamiento de estos datos capturados: los servidores físicos o virtuales donde
se guardan, las bases de datos, las redes, la plataforma de análisis de estos datos
que se utiliza, etc. Es ahí donde debemos poner las defensas y monitorear
constantemente.
Debido a la gran cantidad de datos procesados y que se pueden almacenar,

varios expertos han concluido que las herramientas básicas para la protección de
datos están quedan obsoletas en esta época de Big Data.
Grafico 2: Brechas más grandes de datos en el mundo

Fuente: http://www.informationisbeautiful.net/visualizations/worlds-biggest-data-
breaches-hacks/
38
Organización Año N° de Tipo de Método de
Registros organización filtración de
perdidos datos
Privatization 2016 5.190.396 Gubernamental Publicación
Agency of the
accidental
Republic of
Serbia
Syrian 2016 274.477 Gubernamental Hackeado
government
Minecraft 2016 7.000.000 Web Hackeado
Mossack 2016 11.500.000 Legal Hackeado
Fonseca
Mail. ru 2016 25.000.000 Web Hackeado
Fling 2016 40.000.000 Web Hackeado
Turkish 2016 49.611.709 Gubernamental Hackeado
citizenship
database
Philippines’ 2016 55.000.000 Gubernamental Hackeado
Commission
on Elections
Anthem 2016 80.000.000 Salud Hackeado
VK 2016 100.544.934 Web Hackeado
Wendy's 2016 1.025 Retail Hackeado
MySpace 2016 164.000.000 Web Hackeado
Linux Ubuntu 2016 2.000.000 Web Hackeado
forums
uTorrent 2016 35.000 Web Hackeado
Banner Health 2016 3.700.000 Salud Hackeado
Mutuelle 2016 112.000 Salud Interior de la
Generale de empresa
la Police
39
World Check 2016 2.200.000 Media Falta de
seguridad
Red Cross 2017 550.000 Salud Publicación
Blood Service accidental
River City 2017 1.370.000.000 Web Publicación
Media accidental
CEX 2017 2.000.000 Retail Publicación
accidental
Quest 2017 34.000 Salud Hackeado
Diagnostics
Three 2017 200.000 Telecomunicaciones Hackeado
Wonga 2017 270.000 Finanzas Hackeado
PayAsUGym 2017 300.000 Web Hackeado
DaFont 2017 700.000 Web Hackeado
Brazzers 2017 790.724 Web Hackeado
Snapchat 2017 1.700.000 App Hackeado
Bell 2017 1.900.000 Telecomunicaciones Hackeado
Cellebrite 2017 3.000.000 Tecnología Hackeado
Clinton 2017 5.000.000 Gubernamental Hackeado
campaign
ClixSense 2017 6.600.000 Web Hackeado
Lynda.com 2017 9.500.000 Web Hackeado
Interpark 2017 10.000.000 Web Hackeado
Zomato 2017 17.000.000 Web Hackeado
Yahoo 2017 32.000.000 Web Hackeado
Weebly 2017 43.000.000 Web Hackeado
Dailymotion 2017 85.200.000 Web Hackeado
Friend Finder 2017 412.000.000 Web Hackeado
Network
Telegram 2017 15.000.000 Tecnología Hackeado
40
Instagram 2017 6.000.000 Web Hackeado
Equifax 2017 143.000.000 Finanzas Hackeado
Waterly 2017 1.000.000 App Falta de
seguridad
Swedish 2017 3.000.000 Gubernamental Falta de
Transport seguridad
Agency
Spambot 2017 711.000.000 Web Falta de
seguridad
Tabla 1: Filtraciones desde año 2016 a la fecha
Fuente: http://www.informationisbeautiful.net/visualizations/worlds-biggest-data-breaches-
hacks/
Grafico 3: Registros perdidos según método de filtrado

Fuente: Elaboración propia.
41
Como se muestra en el gráfico anterior, en el último año los métodos de
filtrado de datos más comunes a los que han sido afectadas las empresas son el
hackeo de sus bases de datos, vulneraciones por falta de seguridad y publicación
accidental de los datos. River City Media6 es uno de los últimos afectados por estas
filtraciones debido a su falta de seguridad, revelando cerca de 1,37 billones de
direcciones de correo electrónico, nombres, direcciones reales de las personas y
direcciones IP de quienes estaban dentro de su base de datos, exponiendo las
operaciones ilegales de spam que realizaba esta empresa.
En Chile, el MinSal en el año 20167 también se vio envuelto en filtraciones de

datos debido a una falla en el sistema informático, revelando así más de 3 millones
de archivos en los cuales aparecía información sumamente íntima como lo son los
nombres, RUT, dirección, el tipo de la consulta médica y los medicamentos que
habían sido recetados a los pacientes que, principalmente correspondían a
personas con VIH, en tratamientos mentales y mujeres que solicitaron la píldora del
día después.
Siguiendo la línea de filtraciones por falta de seguridad en las bases de datos

tenemos lo que ocurrió en Turquía8, donde en un sitio web se filtraron los datos de
casi 50 millones de ciudadanos turcos publicando todos sus datos personales
(nombres, apellidos, nombre de sus padres, género, ciudad de nacimiento, fecha de
nacimiento, identificador de registro de ciudad y distrito, dirección y su Número TC
Kimlik).
Estados Unidos tampoco se ha podido escapar de estas filtraciones de datos.

Para las últimas elecciones presidenciales de dicho país, se confirmó mediante el
Equipo de Riesgos Cibernéticos de UpGuard que una base de datos mal
6 Fuente: Huge database leak reveals 1.37 billion email addresses and exposes illegal spam
operation, Mycislik-Wilson, Marzo 2017 https://betanews.com/2017/03/06/river-city-media-spam-
database-leak/
7 Fuente: Minsal anuncia medidas tras filtraciones de información confidencial de pacientes,
González Alberto, marzo 2016,

http://www.biobiochile.cl/noticias/2016/03/05/minsal-anuncia-medidas-tras-filtraciones-de-
informacion-confidencial-de-pacientes.shtml
8 The entire Turkish citizenship database has allegedly been leaked online, Brinded Lianna, Abril
2016, http://www.businessinsider.com/turkish-citizenship-database-allegedly-hacked-and-leaked-
2016-4?r=UK&IR=T
42
configurada expuso datos personales sensibles de más de 198 millones de votantes
estadounidenses9. Estos datos fueron expuestos por una empresa llamada Deep
Root Analytics, quienes trabajaban en conjunto con el Partido Republicano Nacional
apoyando la elección del actual presidente de EE.UU., Donald Trump.
La empresa multinacional Yahoo tampoco se ha podido escapar de estas

filtraciones de datos. En el año 2013 10 , más de un 1 billón de cuentas fueron
hackeadas, publicando datos personales, incluyendo los nombres, números de
teléfono, fecha de nacimiento, contraseñas y preguntas de seguridad. Luego, un
año más tarde, en el 201411, su seguridad volvió a verse afectada, siendo robadas
cerca de 500 millones de cuentas de usuarios con sus datos personales, igual como
lo ocurrido en el 2013.
Como se mencionó anteriormente con los ejemplos de filtrado mencionados,

las formas más comunes son las siguientes:
6.1.1. Hackeo
El principal objetivo de que persiguen estos hackers es económico, suelen

solicitar un pago ya sea en dinero o bitcoins para entregar los datos robados y, en
caso de que no se realice este pago, los liberan al público y a internet, quedando a
la mano de quienes quieran utilizarlo. Junto con esta liberación de los datos, las
empresas quedan expuestas y las personas pierden la confianza en ellas.
Al realizar el ataque, las formas más utilizadas son las siguientes:
 Ataque por Inyección: SQLI (Inyección de SQL) es una técnica en la

cual se modifica una cadena de consulta y se le inyecta un nuevo
9 Fuente: The RNC Files: Inside the Largest US Voter Data Leak, O’Sullivan Dan, Julio 2017,
https://www.upguard.com/breaches/the-rnc-files
10 Fuente: Yahoo Says 1 Billion user Accounts were hacked, Goel, Perlroth, Diciembre 2016.
https://www.nytimes.com/2016/12/14/technology/yahoo-hack.html
11 Fuente: Yahoo confirms major breach -and it could be the largest hack of all time, Lesqing Kif,
Septiembre 2016, http://uk.businessinsider.com/yahoo-hack-by-state-sponsored-actor-biggest-of-

all-time-2016-9
43
código de consulta para acceder a las tablas de las bases de datos y
extraer los datos sensibles.
 Detectar las vulnerabilidades de los sistemas: mediante algunas

herramientas conocidas como exploits, se almacenan las
vulnerabilidades de los sistemas y, de acuerdo a esto, se procede a
realizar el ataque.
 Intercepción de mensajes: con esta forma de ataque se busca

interceptar la información de correos electrónicos o documentos.
 Análisis del tráfico: en este tipo se busca observar los datos y los
paquetes que son transferidos por la red.
6.1.2. Falencias y falta de seguridad
Utilizar contraseñas simples y que sean fáciles de predecir hace que los
sistemas informáticos estén más dispuesto a sufrir los ataques anteriormente
señalados. También influyen en esto las faltas de políticas de seguridad y de
personal capacitado para poder administrar la seguridad de los datos.
6.1.3. Errores de configuración
Al momento de utilizar las bases de datos y acceder a ellas (donde se

almacenan) estas pueden ser expuestas al público (internet). Esto puede suceder
porque las personas que están en constante contacto y manipulación de los datos
no tienen el suficiente conocimiento.
6.1.4. Pérdida de equipos o amenazas internas
Se pueden producir pérdidas de equipos donde se almacenan los datos ya

sea por robo de los servidores, de los discos duros, etc. Los empleados de las
44
organizaciones son clave para que esto no suceda, ya que si se les educa e informa
correctamente se pueden disminuir estos casos.
Mejorar el ambiente de trabajo y hacer que los empleados estén contentos

también ayudaría a evitar esta pérdida ya que como son quienes tienen contacto
directo con los datos, ellos mismos pueden estar robando la información o
vendiéndola.
CISCO encargó un estudio de seguridad realizado por InsightExpress (Fuga

de datos a nivel mundial, 2008) en las cuales de señalan las filtraciones internas
que se podría producir en las empresas, principalmente realizadas por sus
empleados. En dicho estudio se encuestaron más de 200 empleados y
profesionales del área de TI en 10 países seleccionados por sus culturas sociales
y comerciales se determinó que las amenazas internas son capaces de generar
más pérdidas financieras que los propios ataques exteriores, dando como resultado
que el 33% de estos profesionales encuestados tenían como principal
preocupación la pérdida o robo realizado mediante dispositivos USB, el 39% está
más preocupado por las filtraciones que realizan sus propios empleados por sobre
la de los hackers, y un 27% admitió que no conocía ni estaba al tanto de las nuevas
formas de pérdida de datos que se estaban generando. Junto a estos resultados,
se revelaron algunas principales razones de por qué ocurren estas filtraciones
realizadas por los empleados, estos son la ignorancia donde un 43% de los
profesionales de TI afirmaron que no hacían una buena educación a los empleados
y un 19% afirmó que no ha realizado una difusión de las políticas de seguridad
existentes en la empresa; está la falta de negligencia de los empleados que van
desde hablar en voz alta en lugares públicos a cerca de información confidencial a
la pérdida de dispositivos informáticos de las empresas (PC, notebooks, discos
duros, etc.) dando como resultado que el 9% ha perdido o ha sido afectado por el
robo de estos dispositivos anteriormente señalados, un 26% informó que estos
incidentes le ocurrieron más de una vez en el último año; también está el factor del
descontento de los empleados, un 11% de los empleados tuvieron acceso a
información no autorizada y lucraron con ella o robaron computadores, el 60%
45
señaló que la razón para quedarse con los dispositivos al dejar un empleo fue
porque los necesitaban para fines persones; el 20% de los profesionales de TI
señaló que los empleados descontentos era su principal preocupación dentro de
las amenazas internas.
46
CAPITULO VII EVALUACION ECONOMICA
Si bien el uso de Big Data ayuda a que las empresas aumenten sus ingresos
monetarios enfocándose en nichos de mercados específicos sacados de los análisis
pertinentes, esto no deja de ser un riesgo muy alto también.
El costo provocado por los delitos informáticos ha ido en aumento de la mano

con el alcance de la información que se puede obtener. Hoy en día muchas
empresas invierten gran parte del capital en el uso de esta tecnología, pero al
momento de asegurarla no lo hacen de la forma correcta ni necesaria.
Grandes empresas multinacionales como Yahoo han visto comprometidos

sus datos, principalmente la seguridad de estos, pero lo ocultan ya que si se hiciera
público aparte de la pérdida monetaria que esto conlleva, pierden credibilidad, baja
el costo de sus acciones y deben reenfocar su campaña a mejorar la imagen que
queda a causa de esto.
7.1. ¿CUANTO CUESTA LA PERDIDA Y FILTRACION DE DATOS?
Kaspersky Lab realizó un estudio en el cual participaron más de 5500

compañías de 26 países alrededor del mundo, consultando principalmente por el
costo de recuperación cuando tenían brechas de seguridad. Este estudio dio como
resultado que el 90% de las empresas admitieron que tuvieron incidentes de
seguridad y que el 46% perdió datos sensibles debido a amenazas de seguridad
internas o externas. En promedio, estas empresas pagan cerca de 551 mil dólares
para recuperarse de las brechas de seguridad, las PYMES, por su lado, gastan
cerca de 38 mil dólares.
47
Grafico 4: Comparativa Costos Directos y Adicionales
Fuente: Damage Control: The Cost of Security Breaches, Kaspersky Lab
A este monto anteriormente mencionado, se le deben suman los costes

indirectos que son aproximadamente 69 mil dólares para las empresas grandes y 8
mil dólares para las pymes
Grafico 5: Comparativa Empresas y PYMES
Fuente: Damage Control: The Cost of Security Breaches, Kaspersky Lab
48
En este estudio también se mencionan las tres mayores consecuencias de
las brechas: pérdida de acceso a la información crítica del negocio, la reputación de
la empresa se ve seriamente afectada y pérdida temporal de poder transferir datos.
IBM Security dio a conocer también un estudio global realizado por Ponemon
Institute llamado “Cost of Data Breach12” en el cual se tomaron 419 compañías de
13 países y se llegó a las siguientes conclusiones: a) el promedio total del costo por
filtraciones es de $3.62 millones de dólares, b) en un año este promedio ha
disminuido un 10%, c) el promedio per cápita del coste por los datos perdidos o
robados es de $141 dólares, d) ha disminuido este costo en un 11.4%, e) la
probabilidad de que ocurran violaciones de seguridad de los datos en los próximos
dos años es de un 27.7% y f) esta probabilidad ha aumentado en un 2.1%.
7.1.1. Expectativa de pérdida anual (ALE)
La expectativa de pérdida anual (Annualized Loss Expectancy o ALE) es una

herramienta que permite calcular el impacto de los posibles riesgos de seguridad y
que afectan los activos de la organización. Es una fórmula matemática en la cual
previamente necesitamos calcular el SLE (Expectativa de pérdida individual)
multiplicando un Factor de Exposición (EF) por el Valor del Activo. El ALE es el
producto de la multiplicación entre el SLE calculado anteriormente y la Tasa de
Ocurrencia Anual (ARO), quedando de la siguiente manera:
𝑺𝑳𝑬 = 𝑬𝑭 × 𝑽𝒂𝒍𝒐𝒓 𝒅𝒆𝒍 𝑨𝒄𝒕𝒊𝒗𝒐
𝑨𝑳𝑬 = 𝑨𝑹𝑶 × 𝑺𝑳𝑬
Para obtener un resultado más preciso, se debe considerar todos los

riesgos y amenazas que se puedan identificar para el activo y, dependiendo de su
el costo del ALE es mayor al costo del activo, se debe considerar la utilización de
medidas de seguridad para ese activo, siempre y cuando el costo de estas
medidas no supere valor del activo ya que así resultaría inviable. Debe ser
12 Fuente: 2017 Cost of Data Breach Study, Ponemon Institute,Junio 2017
49
realizado por una persona que tenga experiencia y que conozca los riesgos
asociados a los activos existentes en la organización ya que una de las principales
ventajas del ALE es la falta de información, ya que el valor obtenido se basa en
esta información recolectada y, si faltan o sobran datos, puede dar un valor que
difiera mucho de la realidad.
50
CAPITULO VIII SOLUCIONES
Como ya lo vimos anteriormente, con Big Data todos los problemas de

seguridad existentes aumentan considerablemente o los exacerba. Por lo tanto, es
necesario que estemos al mismo nivel de cómo aumentan estos problemas, ya sea
con la infraestructura necesaria o las herramientas de software que se utilicen para
proteger los datos.
Cuando una empresa u organización toma a Big Data como parte de ella,
esta debe identificar, evaluar y gestionar los riesgos que van de la mano con su
adopción. Se deben definir dónde se almacenará estos datos (para más rentabilidad
y eficacia se recomienda el uso de un servicio en la nube), también es importante
definir las responsabilidades del proveedor que está a cargo del almacenamiento y
crear métricas que ayuden a indicar los niveles de integridad de los datos,
confidencialidad y disponibilidad para que sea más fácil un control de la protección
de estos datos.
8.1. ¿COMO EVITAR LAS FILTRACIONES DE DATOS?
Es necesario que el comportamiento de los usuarios cambie, limitando el

riesgo con algunas de las siguientes formas:
 Informar al público que se debe evitar publicar información personal en las

redes sociales.
 Es urgente que las leyes se vayan moviendo al compás de cómo va
avanzado la tecnología, generando nuevas leyes o modificando las ya
existentes.
 Utilizar navegadores de internet anónimos para evitar el envío de información
a sitios que lo soliciten.
CSA (Cloud Security Alliance) también ayuda al momento de elegir cómo

podemos mejorar la seguridad de estos datos con su “Manual de Seguridad y
51
Privacidad de Big Data”, en el cual presenta las 100 mejores prácticas de seguridad
y privacidad, divididas en diez categorías las cuales son:
1. Asegurar la Computación en Frameworks de Programación Distribuida:

en este capítulo se describen las principales necesidades y qué se debe
hacer para garantizar la fiabilidad de las fuentes y seguridad de los datos
y separarlos de fuentes no fiables. También es necesario prevenir la
filtración de información.
2. Mejores prácticas de seguridad para Repositorios de Datos no

relacionales: en este capítulo se sugieren las mejores técnicas para
incorporar a la seguridad ya que las bases de datos no relacionales no
tienen una seguridad muy robusta y, por ejemplo, en el caso de NoSQL,
las soluciones para ataques no están completamente maduras.
3. Asegurar el almacenamiento de los datos y Logs de transacciones: en

este capítulo se describen las prácticas más óptimas que deben ser
implementadas para evitar amenazas de seguridad.
4. Validación de entrada en los Endpoints: en este capítulo se describen las

prácticas recomendables para validar el material de entrada generado
por ciertas fuentes ya que, como se sabe, no todas las fuentes son
confiables y se debe asegurar que la que se está utilizando lo es.
5. Seguridad en Tiempo real: debido a que Big Data es generado mediante

diversas fuentes de datos, como lo son sensores, internet, etc., se debe
mantener una seguridad en tiempo real. En este capítulo se describen
las mejores prácticas para mejorar el monitoreo de la seguridad en
tiempo real.
52
6. Análisis escalable y componible13 para preservar la privacidad: asegurar
los datos mediante la anonimización es insuficiente para garantizar la
privacidad de los usuarios y en este capítulo se enumeran las mejores
técnicas para asegurar la privacidad en ambientes de Big Data.
7. Tecnologías de Encriptación para Big Data: en este capítulo se muestra

que se debe construir un sistema para buscar, filtrado por los datos
encriptados, pudiendo utilizarse un sistema desarrollado por Boneh y
Waters basado en claves públicas que soportan consultas de
comparación o utilizando el Protocolo de Encriptación Simétrica (SSE por
sus siglas en inglés), presentado por David Cash, Stanislaw Jarecki,
Charanjit Jutla, Hugo Krawczyk, Marcel Rosu y Michael Steiner. Otra
opción es asegurar con cifrado homomórfico, el cual permite hacer
operaciones sobre los datos encriptados sin la necesidad de
desencriptarlos, pero limitando los datos cifrados con esta técnica sólo a
aquellos que son fundamentales o personales ya que es costosa y poca
práctica debido a que el coste del cálculo es muy alto para la totalidad de
los datos almacenados.
8. Control de acceso granular: aquí se enumeran las mejores prácticas para

garantizar el control de acceso granular y evitar que puedan ingresar
extraños a las bases de datos o los sistemas para el uso de Big Data.
9. Auditorías granulares.
10. Procedencia de los Datos: en este capítulo se muestran las mejores

prácticas para asegurar la procedencia de los datos.
13 Que puede componerse o formarse uniendo varios elementos.
53
Además de este manual de seguridad, CSA España entrega una serie de
Implicaciones de seguridad para tener en cuenta al momento de usar Big Data:
 Gobierno, Riesgo y Cumplimiento Normativo: se debe tomar en cuenta

que, al momento de utilizar Big Data, la información tratada y en
circulación podría dar a conocer datos privados de los individuos, por lo
que es necesario adecuarse a las legislaciones de cada país y definir
cuáles son los riesgos del uso de estos datos.
 Protección de Activos: cómo asegurar los datos, ya sea donde están

almacenados o los softwares y personales que los manejan.
 Gestión del Ciclo de Vida del Dato: mantener controlado cada fase del
ciclo de vida de los datos, desde el momento en que es obtenido, pasando
por los accesos de quienes los manejan, los softwares que van a ser
utilizados, donde se almacenará hasta el producto final. Se debe hacer
hincapié en el hecho de que, durante el ciclo de vida de los datos, éstos
pueden verse corrompidos, afectando su calidad (sobre todo datos
personales) por lo que es necesario también revisar esto frecuentemente.
 Operaciones
 Seguridad en el Desarrollo del Software: debido a la fragilidad de

algunos sistemas y la migración hacia el uso del almacenamiento en la
nube, la seguridad ha tomado un rol importante en las aplicaciones y es
necesario actualizarlas o cambiarlas de acuerdo a las solicitudes de cada
empresa.
Una buena forma de asegurar la seguridad de los datos es mediante la

Norma ISO 27.001 ya que aquí se especifican los requisitos necesarios para
diseñar, crear, mantener, supervisar e implementar un Sistema de Gestión de la
Seguridad de los Datos, SGSI, velando así por los tres principios fundamentales de
54
la seguridad de la información los cuales son la disponibilidad, confidencialidad e
integridad. Debido a la gran cantidad de datos que se almacenan y se utilizan en
Big Data, esta opción es una de las más acertadas ya que permite controlar de
mejor forma la seguridad.
También se pueden realizar mejores prácticas para combatir las amenazas

internas de las organizaciones (Cisco, 2008), fomentando una cultura de seguridad
donde la protección de los datos sea algo normal y natural para cada empleado,
proporcionando herramientas y educación a los empleados para mantener la
información segura, evaluando la conducta de los empleados y sus riesgos
asociados y diseñando la base de la educación para los empleados en base a esa
avaluación, realizando políticas de seguridad sensatas que sean fáciles de
entender, que concuerden con los requisitos laborales y estén integradas en los
procesos, y mejorar el compromiso de los empleados mediante el liderazgo y el
ejemplo de la plana ejecutiva.
55
CAPITULO IX CONCLUSIONES
Como se pudo observar en esta investigación, el tema de la seguridad en Big

Data es algo que aún no ha tenido la atención necesaria, ya que aún queda mucho
para poder mejorar los mecanismos de encriptación y protección de los datos y,
sobre todo, actualizar las leyes para que vayan de la mano con esta tecnología y
futuras que pueden aparecer. Recolectar tal cantidad de datos pone a los titulares
en un peligro inminente, no sólo al entregar a empresas sus datos públicos como el
RUT o su fecha de nacimiento, sino que también al entregar la dirección de dónde
viven, el sueldo que ganan mensualmente e incluso las deudas o morosidades que
puedan tener.
Estos datos tan personales en manos de organizaciones delictuales ponen a

los titulares en un inmenso peligro, haciéndolos propensos a estafas o robos de
información.
Es necesario tomar conciencia del riesgo en el que se está al revelar

información personal en internet, o publicar todo lo que se hace y donde están en
Facebook y evitar hacerlo para mantener la privacidad.
Las empresas que hacen uso de esta tecnología también deben tomar en
consideración esto y comenzar a interesarse más en asegurar los datos que
obtienen, ya que, si bien los gastos de implementar un mejor sistema de seguridad
son elevados, al largo plazo terminan siendo recompensados.
56
BIBLIOGRAFIA
Alcalde, Alejandro. “Lo último en criptografía: Fully Homomorphic Encryption”. Julio

2017. Disponible en: https://elbauldelprogramador.com/lo-ultimo-en-
criptografia-fully-homomorphic-encryption
Armerding, Taylor. “The 5 worst big data privacy risks”. Julio 2017. Disponible en:
https://www.csoonline.com/article/2855641/privacy/the-5-worst-big-data-
privacy-risks-and-how-to-guard-against-them.html/
Boletín 11.144-07 Regula la protección y el tratamiento de los datos personales y

crea la Agencia de Protección de Datos Personales. Santiago, Chile, 15 de
marzo de 2017.
Brinded Lianna. “The entire Turkish citizenship database has allegedly been leaked
online”. Abril 2016. Disponible en: http://www.businessinsider.com/turkish-
citizenship-database-allegedly-hacked-and-leaked-2016-4?r=UK&IR=T/
Cisco. “Fuga de datos a nivel mundial: El elevado costo de las amenazas internas”.
2008. Disponible en:
https://www.cisco.com/web/offer/em/pdfs_innovators/LATAM/data_threat_
sp.pdf/
Cloud Security Alliance España. “Implicaciones de Seguridad de Big Data”. 2015.

Disponible en: https://www.ismsforum.es/ficheros/descargas/implicaciones-
de-seguridad-de-big-data1448462176.pdf/
57
Cloud Security Alliance. “Big Data Security and Privacy Handbook”. 2016.
Disponible en:
https://downloads.cloudsecurityalliance.org/assets/research/big-
data/BigData_Security_and_Privacy_Handbook.pdf/
Electronic Privacy Information Center. “Comments of The Electronic Privacy

Information to the Office of Science and Technology Policy”. Abril 2014.
Disponible en: https://epic.org/privacy/big-data/EPIC-OSTP-Big-Data.pdf/
Gómez, Álvaro. “Tipos de ataques e intrusos en las redes informáticas”.

http://www.edisa.com/wp-content/uploads/2014/08/Ponencia_-
_Tipos_de_ataques_y_de_intrusos_en_las_redes_informaticas.pdf/
González, Alberto. “Minsal anuncia medidas tras filtraciones de información

confidencial de pacientes”. Marzo 2016. Disponible en:
http://www.biobiochile.cl/noticias/2016/03/05/minsal-anuncia-medidas-tras-
filtraciones-de-informacion-confidencial-de-pacientes.shtml/
Herold, Rebecca. “10 Big Data Analytics Privacy Problems”. Disponible en:
http://privacyguidance.com/blog/10-big- data-analytics- privacy-problems//
Instituto de Ingeniería del Conocimiento. “Las 7 V del Big Data: Características más
importantes. Junio 2016. Disponible en:
http://www.iic.uam.es/innovacion/big-data-caracteristicas-mas-importantes-
7-v//
58
Kaspersky Lab. “Damage Control: The Cost of Security Breaches”. 2015. Disponible
en: https://media.kaspersky.com/pdf/it-risks-survey-report-cost-of-security-
breaches.pdf/
Ley N° 19.628. Diario Oficial de la República de Chile, Santiago, Chile, 28 de agosto

de 1999.
Lomparte, Romulo. “Apache Spark flexibilidad y procesamiento en Big Data”.

Disponible en: https://bsgrupo.com/bs-campus/blog/Apache-Spark-
flexibilidad-y-procesamiento-en-Big-Data-124/
McCandelss, David. “World's Biggest Data Breaches”. Abril 2017. Disponible en:
http://www.informationisbeautiful.net/visualizations/worlds-biggest-data-
breaches-hacks//
Mendoza, Miguel Ángel. “Calculando pérdidas monetarias por riesgos de

seguridad”. Julio 2014. Disponible en: https://www.welivesecurity.com/la-
es/2014/07/01/calculando-perdidas-monetarias-riesgos-seguridad//
O’Sullivan, Dan. “The RNC Files: Inside the Largest US Voter Data Leak”. Julio
2017. Disponible en: https://www.upguard.com/breaches/the-rnc-files/
Ponemon Institute. “2017 Cost of Data Breach Study”. Junio 2017. Disponible en:
https://www.ibm.com/security/data-breach//
59
Violler, P.; Velasco, P. “Big Data”. Enero 2016. Disponible en:
https://www.derechosdigitales.org/wp-content/uploads/big-data-
informe.pdf/
60
GLOSARIO
Almacenamiento distribuido: un sistema de almacenamiento distribuido en el cual

los datos se almacenan online en la red, lo que permite que sean más accesibles
para editar o consultar (compartir por la red) y mantener copias de seguridad.
Anonimización: proceso por el que pasan los datos para eliminar todas las
conexiones entre un dato y su titular.
API: Interfaz de Programación de Aplicaciones, es un conjunto de procedimientos

o métodos que permiten la comunicación entre componentes de un software
Arrays: son listas de datos que se almacenan en la memoria de un disco.
Auditoria granular: realizar una auditoría granular es buscar la representación más

simple de los datos.
Automatizar: acción de hacer que un proceso se realice automáticamente.
Base de datos no relacional: son bases de datos que no cumplen con el modelo
convencional de bases de datos
Base de datos no estructurada: es un conjunto de datos desorganizados, sin

estructura pre definida.
BSON: es una representación binaria de estructuras de datos utilizado para el

intercambio de datos que se realiza en MongoDB.
Byte: es una unidad de información básica para medir memoria de computadoras.
Clúster de servidores: es la unión de varios servidores que trabajan como si fueran

uno solo.
Computación paralela: es una técnica en la cual muchas instrucciones se realizan

simultáneamente.
Confidencialidad: garantizar que el acceso a los datos es únicamente hecho por

el personal autorizado
61
Control granular: es realizar un control de ingreso muy detallado.
Data Warehouse: es un almacén donde se almacenan todos los datos recogidos

desde diversas fuentes.
Datasets: conjunto de datos
Disponibilidad: lograr que los datos estén disponibles para todos quienes
necesiten tener acceso a ellos.
Endpoints: son todos los equipos que forman parte de una red de área local
(computadores, teléfonos, etc.)
Escalabilidad: es una propiedad o habilidad de los sistemas para adaptarse y

crecer sin perder calidad de los servicios. En el caso de los datos se habla de
escalabilidad horizontal, que es la capacidad de crecer hacia los lados, o sea,
agregando más máquinas; y la escalabilidad vertical, que es la capacidad de crecer
hacia arriba, o sea, agregando más componentes al servidor donde se encuentra
almacenado.
Exploits: Herramientas que buscan vulnerabilidades en los sistemas y los explotan
Framework: es el marco de trabajo de los sistemas, donde se indican los

programas que pueden ser utilizados o desarrollados y cómo deben hacer.
Fuentes accesibles al público: son bases de datos que se encuentran en la red

sin propietario y que cualquier persona puede tener acceso a ella.
Gigabyte: un gigabyte equivale a mil millones de bytes (1.000.000.000 o 109).
Integridad: lograr que los datos no sean modificables por terceras personas.
Log: registro en el cual aparecen los acontecimientos de una base de datos.
Nodo: punto de unión de uno o más elementos que pertenecen a un sistema.
OCDE: la Organización para la Cooperación y Desarrollo Económico es una

organización donde los países participantes intercambian experiencias para realizar
estándares.
62
Programación distribuida: es un tipo de distribución en el cual se busca repartir el
volumen de la información y compartir recursos entre equipos conectados por una
red.
Programación funcional: es un tipo de programación basado en el uso de

funciones matemáticas.
Programación orientada a objetos: es una forma de programación basada en

como expresamos las cosas en la vida real. Se debe pensar en un objeto (por
ejemplo, un auto), sus características (color, año, carrocería, etc.) y las funciones
que puede realizar (marcha hacia adelante, marcha atrás, frenar, etc.), las que
vendrían siendo clases, variables y funciones, respectivamente.
RDD: un conjunto de datos resilientes y distribuidos es un conjunto de datos a los

que se pueden acceder en paralelo desde los distintos nodos pertenecientes a un
clúster de Spark.
TC Kimlik: es el número de identificación de los ciudadanos turcos.
Terabytes: un terabyte equivale a un billón de bytes (1.000.000.000.000 o 1012).
Titular: el titular es toda persona natural a la que se refieren los datos de carácter
personal de una base de datos.
Transacciones: es una secuencia de operaciones que se deben llevar a cabo para

lograr un resultado.
Tratamiento de datos: cualquier operación o procedimiento de los datos, ya sea

para recolectarlos, almacenarlos, grabarlos, etc.
Yottabyte: un yottabyte equivale a 1024 bytes.
Zettabyte: un zettabyte equivale a 1021 bytes.
63

Tesis Seguridad Datos

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Tesis Seguridad Datos

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tesis Seguridad Datos

Cargado por

Copyright:

Formatos disponibles

SEGURIDAD DE LOS DATOS EN BIG DATA

IVAN ULISES HUILIMAN BAEZA

Tesis para optar al Título de Ingeniero en Informática y Gestión

Profesor Guía: Gustavo Pérez Godoy

FACULTAD DE INGENIERIA Y CIENCIAS

IVAN ULISES HUILIMAN BAEZA

Tesis para optar al Título de Ingeniero en Informática y Gestión

Profesor Guía : Gustavo Pérez Godoy

Profesor Informante : Raúl Riquelme Rojas

Profesor Examinador : Luis Alberto Gaete Millán

FACULTAD DE INGENIERIA Y CIENCIAS

A mis hermanos, cuñadas, sobrinos, primos, tíos, amigos y a todos quienes

A mi profesor guía, Gustavo Pérez, por su ayuda y colaboración en el

Al profesor Raúl Riquelme por haberme orientado y guiado cuando aún no

A las secretarias de la Escuela de Ingeniería Vespertina por siempre

Debido al aumento casi exponencial de aparatos electrónicos que se

Esto sumado a la falta de seguridad, anonimización, complejidad y diversidad

El aumento de los ataques a las fuentes de Big Data de las grandes

En esta investigación se profundizará en las formas más comunes de

Due to the almost exponential increase of electronic devices that are

The above mentioned added to the lack of security, anonymity, complexity

In this investigation, we are going to look at the most common briefs of

RESUMEN EJECUTIVO ......................................................................................... 4

INDICE GENERAL ................................................................................................. 6

INDICE DE ILUSTRACIONES ................................................................................ 8

INDICE DE GRAFICOS .......................................................................................... 9

INDICE DE TABLAS ............................................................................................ 10

CAPITULO I INTRODUCCION ...................................................................... 11

CAPITULO II PRESENTACION DEL PROYECTO .......................................... 12

2.1. OBJETIVOS ............................................................................................. 12

2.1.1. Objetivo General:............................................................................... 12

2.1.2. Objetivos Específicos: ....................................................................... 12

2.2. METODOLOGIA DE TRABAJO ............................................................... 12

2.3. DIAGNOSTICO ........................................................................................ 13

CAPITULO III MARCO CONCEPTUAL............................................................. 15

3.1. ¿QUE ES BIG DATA?.............................................................................. 15

3.1.1. Las 7 “V” de Big Data ........................................................................ 15

3.1.2. Otras definiciones .............................................................................. 16

3.2. SOFTWARE PARA EL MANEJO DE BIG DATA ..................................... 18

3.2.1. MongoDB .......................................................................................... 18

3.2.2. Apache Hive ...................................................................................... 19

3.2.3. Apache Spark .................................................................................... 21

CAPITULO IV LA SEGURIDAD EN BIG DATA ................................................ 27

4.1. ¿CUALES SON LOS PROBLEMAS DE PRIVACIDAD EN BIG DATA? .. 27

CAPITULO V MARCO LEGAL Y LA PRIVACIDAD DE LOS DATOS ............ 30

5.1. LEYES DE PROTECCION DE DATOS EN EL MUNDO.......................... 30

5.2. ¿COMO SE ENCUENTRA CHILE RESPECTO A SUS PARES? ............ 31

CAPITULO VI METODOS DE FILTRADO DE DATOS .................................... 38

6.1. ¿COMO SE FILTRAN LOS DATOS?....................................................... 38

6.1.1. Hackeo .............................................................................................. 43

6.1.2. Falencias y falta de seguridad ........................................................... 44

6.1.3. Errores de configuración ................................................................... 44

6.1.4. Pérdida de equipos o amenazas internas ......................................... 44

CAPITULO VII EVALUACION ECONOMICA ..................................................... 47

7.1. ¿CUANTO CUESTA LA PERDIDA Y FILTRACION DE DATOS? ........... 47

7.1.1. Expectativa de pérdida anual (ALE) .................................................. 49

CAPITULO VIII SOLUCIONES ........................................................................... 51