Tesis Seguridad Datos
Tesis Seguridad Datos
Tesis Seguridad Datos
Santiago, Chile
Diciembre - 2017
SEGURIDAD DE LOS DATOS EN BIG DATA
Santiago, Chile
Diciembre - 2017
DEDICATORIA
Dedico esta tesis a mis padres, quienes me dieron la vida, educación, valores
y que han sido incondicionales durante toda mi vida con sus consejos y
apoyándome en cada decisión que he tomado.
2
AGRADECIMIENTOS
A todos los profesores que he tenido ya que he podido sacar cosas positivas
de cada cosa que me han enseñado y que han estados dispuestos a responder a
mis inquietudes.
A mis padres y familiares por su apoyo y cariño entregado todos estos años.
3
RESUMEN EJECUTIVO
4
ABSTRACT
Increased attacks on Big Data sources from big companies expose our private
data to strangers, who can use them for malicious purposes (fraud, spoofing, etc.).
5
INDICE GENERAL
DEDICATORIA ....................................................................................................... 2
AGRADECIMIENTOS ............................................................................................. 3
ABSTRACT ............................................................................................................ 5
6
3.2.4. Hadoop .............................................................................................. 24
BIBLIOGRAFIA .................................................................................................... 57
GLOSARIO ........................................................................................................... 61
7
INDICE DE ILUSTRACIONES
8
INDICE DE GRAFICOS
9
INDICE DE TABLAS
10
CAPITULO I INTRODUCCION
Big Data es una tecnología que ha tomado mucha importancia dentro de los
últimos años y que cada vez más empresas están apostando por incorporarla a sus
fuentes y utilizarla como mejor les resulte. Debido a que se pueden almacenar gran
cantidad de datos y analizarlos casi en tiempo real, ha aumentado la factibilidad de
ciertos sectores empresariales como, por ejemplo, el financiero o retail, esto gracias
a que, al mantener tantos datos almacenados de las personas, es más fácil poder
predecir sus gustos, enfocándose en nichos de mercados específicos y sacarles
provecho.
1 Fuente: https://www.cnet.com/how-to/your-guide-to-surviving-equifax-data-breach/
11
CAPITULO II PRESENTACION DEL PROYECTO
2.1. OBJETIVOS
12
año 2014, los ciberataques aumentaron cerca de un 120%, principalmente en áreas
relacionadas con Internet de las Cosas (IoT) y la nube2.
Conocer cuáles son los softwares más seguros al momento de manipular Big
Data.
Dar a conocer los riesgos de exponer constantemente nuestra vida personal
por internet.
2.3. DIAGNOSTICO
Si bien las empresas que trabajan con datos o información a gran escala
conocen las problemáticas que el uso indiscriminado de esta herramienta
tecnológica puede provocar en las personas, las empresas de menos tamaño, con
menos uso de tecnologías TI y las personas comunes que no están especializadas
ni familiarizadas con este tema, no conocen ni saben cuáles son los efectos
negativos a los que pueden ser sometidos ya sea directa o indirectamente por
aquellas empresas que hacen utilizan Big Data que pueden ir desde un error en una
dirección postal, evitando que lleguen, por ejemplo, constancias o citaciones
2 Fuente: https://www.sogeti.es/globalassets/spain/explora/noticias/2015/23-03--2015-aumentan-
los-ataques-ciberseguridad-en-un-120.pdf
13
judiciales, hasta asociación de delitos por una mala digitación del RUT o por cruce
de tablas.
14
CAPITULO III MARCO CONCEPTUAL
15
vídeos, etc. También los datos almacenados pueden ser generados por otras
entidades distintas a las que los van a utilizar.
4. Veracidad de los datos: hablar de la veracidad es referirse a la incertidumbre
de los datos, es decir, cuán fiable es la información recibida. Se necesita que
los datos obtenidos sean confiables, de calidad y actualizados, ya que un
error en estos podría generar una mala decisión o acción.
7. Valor de los datos: el dato por sí solo no aporta valor a las empresas, mucho
menos la cantidad de datos almacenados. Lo que aporta valor es el
conocimiento generado por la información obtenida de los datos, ya que este
conocimiento es esencial para tomar decisión y realizar acciones frente a un
suceso. En pocas palabras, los datos se transforman en información, la
información en conocimiento y, a raíz de este conocimiento generado, se
pueden tomar decisiones.
También se puede definir Big Data más literalmente: datasets cuyo tamaño está
más allá de la habilidad de los típicos softwares para la captura, almacenamiento y
análisis de los datos. Pero según el MGI (McKinsey & Company 2011) esta
definición es intencionalmente subjetiva ya que no definimos Big Data en torno a
16
que sean datos de tamaño más grande que un cierto número de terabytes. Es
necesario hacer notar que la definición puede cambiar según el sector y el software
que utiliza.
a. Big Data como tecnología: los softwares de código abierto como Hadoop
y NoSQL han ayudado a mejorar la tecnología que se utilizaba para
almacenar y gestionar datos debido a que Big Data como tecnología de a
información y comunicación no ha dejado de crecer.
b. Big Data como señales: al extraer valor de los datos se utiliza como
“señales” para anticiparse a lo que va a pasar y obtener beneficios de esa
información. Esta información también puede ser utilizada más allá de las
empresas, siendo un instrumento clave en otros ámbitos, por ejemplo, la
administración pública al fomentar la sostenibilidad o la planificación
urbana.
c. Big Data como revolución del conocimiento: como Big Data nos ayuda a
obtener información, nos da cierto grado de “poder”, esto podría ser
tratado como una revolución del conocimiento ya que ayuda a abrir la
mente para que, por ejemplo, los investigadores recurran a los datos para
inspirar nuevas teorías, en vez de utilizarlos para apoyar o rechazarlas.
d. Big Data como metáfora: Big Data en conjunto con IoT puede ser definido
como una especie de red neuronal del sistema nervioso del planeta.
Como dice Rijmenam4, en el año 2014 el 90% de los datos habían sido
creados entre 2012 y 2014
3 Fuente: https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/381767/7-definiciones-de-
big-data
4 Fuente: https://datafloq.com/read/big-data-history/239
17
e. Big Data como negocio: Big Data también puede ser utilizada como una
palabra comodín, ya sea por ignorancia o para ostentar que se emplea,
siendo relacionada con los datos aun cuando no existe relación con el uso
de las nuevas tecnologías y con Big Data propiamente tal.
Con estas definiciones ya se puede hacer una idea de qué es Big Data, o al
menos, a qué se refiere cuando se habla de ello.
Para realizar un buen uso de estos datos obtenidos es necesario poseer las
tecnologías necesarias para sacarle provecho. Por ejemplo, para obtener datos de
las redes sociales es necesario utilizar tecnologías que ayuden a procesar el
lenguaje natural (análisis de texto) y a partir de eso, definir si es un sentimiento
negativo o positivo, utilizándolo junto con algún algoritmo de análisis de las redes
sociales.
3.2.1. MongoDB
18
disponibilidad, ya que si un nodo falla, los demás pueden seguir trabajando
normalmente.
19
en el cual las consultas se hacen mediante comandos basados en lenguaje SQL,
llamado HiveQL.
20
3.2.3. Apache Spark
Fuente: http://spark.apache.org
21
Ilustración 3: Ecosistema de Apache Spark
Fuente: https://www.databricks.com/spark/about
22
Ilustración 4: Arquitectura de Apache Spark.
Fuente: https://academy.datastax.com
23
3.2.4. Hadoop
Fuente: https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
24
Utiliza también MapReduce el cual es un modelo de programación orientado
a la computación paralela, sus dos fases principales, Map y Reduce. Map realiza el
proceso de tomar los datos almacenados y transformarlos en conjuntos de datos
definidos en pares, clave y valor. Este resultado obtenido es tomado por Reduce y
lo transforma en otro conjunto también definido en pares, pero de más fácil
procesamiento. Existe una fase intermedia llamada shuffle donde se ordenarán los
datos obtenidos en la fase Map y que luego utilizará Raduce. A continuación, en la
siguiente figura se muestra un sencillo flujo de datos del proceso MapReduce
Fuente: https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
25
Ilustración 8: Ecosistema de Apache Hadoop
Fuente: https://opensource.com/life/14/8/intro-apache-hadoop-big-data
26
CAPITULO IV LA SEGURIDAD EN BIG DATA
Debido al uso de los análisis a big data que han hecho las empresas y
organizaciones, la privacidad de las personas se ha visto expuesta ya que,
por ejemplo, al buscar algún producto en Google, las publicidades que se
agregan en ciertas páginas se van modificando de acuerdo a esa búsqueda
y puede llegar a mostrar cosas íntimas a personas que utilizan nuestro
computador.
Si bien los análisis de big data pueden ayudar a tomar decisiones, no son
cien por ciento precisos. Dentro de las bases de datos donde se almacena
esta información pueden existir datos inexactos, erróneos que podrían estar
dando una solución totalmente distinta de la real. Se debe tener un control
de las fuentes de información y que estas sean verídicas, respetando la
integridad, confidencialidad y disponibilidad.
27
Con tantos datos que se están recolectando, si no se utiliza una forma de
distinguir estos datos de las personas (separarlos o cambiar ciertos
parámetros), al hacer un cruce entre distintas bases de datos se puede llegar
a identificar de quién se recolectó esos datos, lo que resulta perjudicial ya
que se estaría perdiendo el anonimato.
Dentro de las decisiones poco éticas que las organizaciones podrían tomar
en base al análisis de big data, está la discriminación. Esta discriminación se
realizaría tomando en cuenta ciertos parámetros recopilados en línea
mediante las redes sociales, internet de las cosas, etc. las que serían poco
influyentes en las capacidades de las personas (color de piel, sexo, raza,
orientación sexual, etc.). En Chile esto se veía (aunque no con la cantidad de
datos que existen hoy en día) en ciertas empresas que solicitaban
certificados de DICOM a quienes postulaban a puestos de trabajo, esto ha
sido cambiado con la llamada ley DICOM que prohibía esta práctica dentro
de ese tema.
28
Existen pocos requisitos legales al momento de trabajar con big data, por lo
que quien quiera y tenga la capacidad para recolectar datos de las personas
por internet puede hacerlo, aún sin tener permiso de los involucrados en esta
recolección de datos.
Big data probablemente va a empezar a ser utilizado por cada vez más
empresas, por lo que va a aumentar su disposición a ciertos ciberataques
para tomar los datos almacenados por lo que es necesario que se aumente
la precaución de las empresas entorno a estas brechas de seguridad que van
a ir apareciendo.
29
CAPITULO V MARCO LEGAL Y LA PRIVACIDAD DE LOS DATOS
En la actualidad no existe una ley específica para Big Data, lo cual provoca
gran preocupación ya que los sistemas o técnicas de para proteger los datos
obtenidos no son 100% seguros y se pueden quebrar en cualquier momento.
España y Alemania son unos de los países que tienen una normativa de
protección de datos más dura y exigentes. España tiene la Ley Orgánica de
Protección de Datos y la Unión Europea está tomando las medidas necesarias para
lo que la protección de datos se refiere. En EE. UU., el 4 de marzo de 2014, la
Oficina de Políticas Científicas y Tecnológicas (OSTP) solicitó públicamente que
comentarios acerca de Big Data al cual EPIC (Electronic Privacy Information Center)
luego de que el presidente Obama anunciara en enero de ese año un plan para
tomar medidas sobre la privacidad en Big Data. EPIC se unió a una coalición de
privacidad del consumidor, interés público, científico, y organizaciones
educacionales, a petición del OSTP. Esta Coalición por la Privacidad consideró
algunos problemas de privacidad, incluyendo:
¿Cuáles son los potenciales daños que surgen de la colección de Big Data y
cómo se abordan actualmente estos riegos?
¿Cuáles son los marcos legales que rigen actualmente a Big Data, son
adecuados?
¿Cómo pueden las empresas y organizaciones gubernamentales ser más
transparentes en el uso de Big Data?
¿Qué técnicas de medición pueden promover los beneficios de Big Data
mientras minimizan los riegos de privacidad?
¿Qué experiencia tienen otros países tratando de abordar los retos de Big
Data?
¿Cuáles son las tendencias a futuro relacionadas con Big Data que puedan
informar acerca del debate actual?
30
Pero luego de que la Casa Blanca anunciara esta oportunidad de comentarios
públicos, EPIC solicitó a OSTP incorporar las siguientes observaciones y
recomendaciones al reporte final:
En Chile existe una ley, la Nro. 19.628 que es la encargada de velar por la
protección de la vida privada, aunque se ha descrito como débil o poco efectiva. Las
deficiencias de esta ley incluyen la ausencia de una autoridad que proteja estos
31
datos, y la falta de penas para quienes infrinjan esta ley. A continuación,
ahondaremos en algunos artículos.
A partir del artículo 4° y hasta el artículo 11°, se marcan los límites para la
utilización de los datos personales y su recolección:
El artículo 5° estipula que quién quiera usar los datos puede automatizar los
procedimientos de transmisión, siempre que se guarden los derechos de los
32
propietarios de estos datos y que esta transmisión tenga relación con las tareas y
finalidades de los organismos participantes. Indica también que se debe dejar una
constancia de una individualización de quién solicite los datos, el motivo y el
propósito para su uso y el tipo de dato que se transmitirá, quedando así la restricción
de estos datos exclusivamente para el fin estipulado anteriormente. Nuevamente se
remarca que quedan liberadas de esto las organizaciones que utilicen datos
accesibles al público general.
Según el artículo 6°, los datos personales que carecen de fundamento legal
o sean caducados deben ser eliminados y modificados si son erróneos, inexactos o
incompletos. Lo anterior debe ser realizado por el responsable del banco de datos
y lo puede hacer sin necesidad de requerimiento del titular5.
En el artículo 11° se deja en claro que el responsable de los daños y que, por
ende, deberá velar por el cuidado de los datos es el responsable de los registros o
bases donde se almacenen los datos personales.
A contar del artículo 12°, hasta el artículo 16° se determinan los derechos de
los titulares de los datos:
Según el artículo 12°, toda persona tiene derecho a exigir información sobre
los datos relativos a su persona (al responsable de la base de datos o banco), para
conocer su procedencia, destinatario, propósito y la individualización de las
personas u organismos que utilizan sus datos. Podrá modificarlos, debidamente
acreditado, si es que son erróneos o incompletos y exigir que se eliminen si estos
no tienen fundamento legal, han caducado o no desea que aparezcan en los
registros comerciales, si estos fueron proporcionados voluntariamente. Lo
anteriormente señalado, ya sea modificación o eliminación, deberá ser totalmente
gratis y el titular podrá solicitar un certificado o copia del registro donde aparezcan
5 Entiéndase como titular a toda persona natural a la que se refieren los datos de carácter personal.
33
las modificaciones hechas o los datos que fueron eliminados. Esta copia del registro
actualizado también será gratis, siempre y cuando hayan transcurrido a los menos
seis meses desde la última oportunidad que fue solicitada la última copia y esto
debe ser realizado personalmente. En el último párrafo de este artículo se ve una
clara ineficiencia ya que el responsable del banco o base de datos es quien deberá
comunicar las modificaciones o eliminaciones a los que utilizan dicha base, esto sin
una autoridad que pueda revisar si realmente se cumplió con lo solicitado o no.
34
comunicando los datos luego de haber sido pagado o exigida de algún otro modo
legal (artículo 18°).
Para los datos de niños y niñas, sólo se puede hacer el tratamiento de los
datos bajo la autorización previa y específica de quién esté a cargo de su
cuidado personal. Para los adolescentes, solo para los datos sensibles es
necesaria la autorización de quién esté a cargo de su cuidado personal. Para
los demás datos personales se debe regir con las normas generales de
autorización.
35
la coordinación, cooperación y colaboración además de evitar conflictos de
normas.
36
Los organismos públicos pueden realizar tratamientos a datos personales sin
el consentimiento del titular siempre y cuando esto sea para el cumplimiento
de funciones legales centro del ámbito de sus competencias. También se les
da la facultad de comunicar o ceder datos personales a otros órganos
públicos, siempre y cuando sea para el cumplimiento de funciones legales y
ambos órganos actúen dentro del ámbito de sus competencias o para otorgar
beneficios al titular.
37
CAPITULO VI METODOS DE FILTRADO DE DATOS
38
Organización Año N° de Tipo de Método de
Registros organización filtración de
perdidos datos
Privatization 2016 5.190.396 Gubernamental Publicación
Agency of the
accidental
Republic of
Serbia
Syrian 2016 274.477 Gubernamental Hackeado
government
Minecraft 2016 7.000.000 Web Hackeado
Mossack 2016 11.500.000 Legal Hackeado
Fonseca
Mail. ru 2016 25.000.000 Web Hackeado
Fling 2016 40.000.000 Web Hackeado
Turkish 2016 49.611.709 Gubernamental Hackeado
citizenship
database
Philippines’ 2016 55.000.000 Gubernamental Hackeado
Commission
on Elections
Anthem 2016 80.000.000 Salud Hackeado
VK 2016 100.544.934 Web Hackeado
Wendy's 2016 1.025 Retail Hackeado
MySpace 2016 164.000.000 Web Hackeado
Linux Ubuntu 2016 2.000.000 Web Hackeado
forums
uTorrent 2016 35.000 Web Hackeado
Banner Health 2016 3.700.000 Salud Hackeado
Mutuelle 2016 112.000 Salud Interior de la
Generale de empresa
la Police
39
World Check 2016 2.200.000 Media Falta de
seguridad
Red Cross 2017 550.000 Salud Publicación
Blood Service accidental
River City 2017 1.370.000.000 Web Publicación
Media accidental
CEX 2017 2.000.000 Retail Publicación
accidental
Quest 2017 34.000 Salud Hackeado
Diagnostics
Three 2017 200.000 Telecomunicaciones Hackeado
Wonga 2017 270.000 Finanzas Hackeado
PayAsUGym 2017 300.000 Web Hackeado
DaFont 2017 700.000 Web Hackeado
Brazzers 2017 790.724 Web Hackeado
Snapchat 2017 1.700.000 App Hackeado
Bell 2017 1.900.000 Telecomunicaciones Hackeado
Cellebrite 2017 3.000.000 Tecnología Hackeado
Clinton 2017 5.000.000 Gubernamental Hackeado
campaign
ClixSense 2017 6.600.000 Web Hackeado
Lynda.com 2017 9.500.000 Web Hackeado
Interpark 2017 10.000.000 Web Hackeado
Zomato 2017 17.000.000 Web Hackeado
Yahoo 2017 32.000.000 Web Hackeado
Weebly 2017 43.000.000 Web Hackeado
Dailymotion 2017 85.200.000 Web Hackeado
Friend Finder 2017 412.000.000 Web Hackeado
Network
Telegram 2017 15.000.000 Tecnología Hackeado
40
Instagram 2017 6.000.000 Web Hackeado
Equifax 2017 143.000.000 Finanzas Hackeado
Waterly 2017 1.000.000 App Falta de
seguridad
Swedish 2017 3.000.000 Gubernamental Falta de
Transport seguridad
Agency
Spambot 2017 711.000.000 Web Falta de
seguridad
Fuente: http://www.informationisbeautiful.net/visualizations/worlds-biggest-data-breaches-
hacks/
41
Como se muestra en el gráfico anterior, en el último año los métodos de
filtrado de datos más comunes a los que han sido afectadas las empresas son el
hackeo de sus bases de datos, vulneraciones por falta de seguridad y publicación
accidental de los datos. River City Media6 es uno de los últimos afectados por estas
filtraciones debido a su falta de seguridad, revelando cerca de 1,37 billones de
direcciones de correo electrónico, nombres, direcciones reales de las personas y
direcciones IP de quienes estaban dentro de su base de datos, exponiendo las
operaciones ilegales de spam que realizaba esta empresa.
6 Fuente: Huge database leak reveals 1.37 billion email addresses and exposes illegal spam
operation, Mycislik-Wilson, Marzo 2017 https://betanews.com/2017/03/06/river-city-media-spam-
database-leak/
7 Fuente: Minsal anuncia medidas tras filtraciones de información confidencial de pacientes,
2016, http://www.businessinsider.com/turkish-citizenship-database-allegedly-hacked-and-leaked-
2016-4?r=UK&IR=T
42
configurada expuso datos personales sensibles de más de 198 millones de votantes
estadounidenses9. Estos datos fueron expuestos por una empresa llamada Deep
Root Analytics, quienes trabajaban en conjunto con el Partido Republicano Nacional
apoyando la elección del actual presidente de EE.UU., Donald Trump.
6.1.1. Hackeo
9 Fuente: The RNC Files: Inside the Largest US Voter Data Leak, O’Sullivan Dan, Julio 2017,
https://www.upguard.com/breaches/the-rnc-files
10 Fuente: Yahoo Says 1 Billion user Accounts were hacked, Goel, Perlroth, Diciembre 2016.
https://www.nytimes.com/2016/12/14/technology/yahoo-hack.html
11 Fuente: Yahoo confirms major breach -and it could be the largest hack of all time, Lesqing Kif,
43
código de consulta para acceder a las tablas de las bases de datos y
extraer los datos sensibles.
Análisis del tráfico: en este tipo se busca observar los datos y los
paquetes que son transferidos por la red.
Utilizar contraseñas simples y que sean fáciles de predecir hace que los
sistemas informáticos estén más dispuesto a sufrir los ataques anteriormente
señalados. También influyen en esto las faltas de políticas de seguridad y de
personal capacitado para poder administrar la seguridad de los datos.
44
organizaciones son clave para que esto no suceda, ya que si se les educa e informa
correctamente se pueden disminuir estos casos.
45
señaló que la razón para quedarse con los dispositivos al dejar un empleo fue
porque los necesitaban para fines persones; el 20% de los profesionales de TI
señaló que los empleados descontentos era su principal preocupación dentro de
las amenazas internas.
46
CAPITULO VII EVALUACION ECONOMICA
Si bien el uso de Big Data ayuda a que las empresas aumenten sus ingresos
monetarios enfocándose en nichos de mercados específicos sacados de los análisis
pertinentes, esto no deja de ser un riesgo muy alto también.
47
Grafico 4: Comparativa Costos Directos y Adicionales
Fuente: Damage Control: The Cost of Security Breaches, Kaspersky Lab
48
En este estudio también se mencionan las tres mayores consecuencias de
las brechas: pérdida de acceso a la información crítica del negocio, la reputación de
la empresa se ve seriamente afectada y pérdida temporal de poder transferir datos.
IBM Security dio a conocer también un estudio global realizado por Ponemon
Institute llamado “Cost of Data Breach12” en el cual se tomaron 419 compañías de
13 países y se llegó a las siguientes conclusiones: a) el promedio total del costo por
filtraciones es de $3.62 millones de dólares, b) en un año este promedio ha
disminuido un 10%, c) el promedio per cápita del coste por los datos perdidos o
robados es de $141 dólares, d) ha disminuido este costo en un 11.4%, e) la
probabilidad de que ocurran violaciones de seguridad de los datos en los próximos
dos años es de un 27.7% y f) esta probabilidad ha aumentado en un 2.1%.
49
realizado por una persona que tenga experiencia y que conozca los riesgos
asociados a los activos existentes en la organización ya que una de las principales
ventajas del ALE es la falta de información, ya que el valor obtenido se basa en
esta información recolectada y, si faltan o sobran datos, puede dar un valor que
difiera mucho de la realidad.
50
CAPITULO VIII SOLUCIONES
Cuando una empresa u organización toma a Big Data como parte de ella,
esta debe identificar, evaluar y gestionar los riesgos que van de la mano con su
adopción. Se deben definir dónde se almacenará estos datos (para más rentabilidad
y eficacia se recomienda el uso de un servicio en la nube), también es importante
definir las responsabilidades del proveedor que está a cargo del almacenamiento y
crear métricas que ayuden a indicar los niveles de integridad de los datos,
confidencialidad y disponibilidad para que sea más fácil un control de la protección
de estos datos.
51
Privacidad de Big Data”, en el cual presenta las 100 mejores prácticas de seguridad
y privacidad, divididas en diez categorías las cuales son:
52
6. Análisis escalable y componible13 para preservar la privacidad: asegurar
los datos mediante la anonimización es insuficiente para garantizar la
privacidad de los usuarios y en este capítulo se enumeran las mejores
técnicas para asegurar la privacidad en ambientes de Big Data.
9. Auditorías granulares.
53
Además de este manual de seguridad, CSA España entrega una serie de
Implicaciones de seguridad para tener en cuenta al momento de usar Big Data:
Gestión del Ciclo de Vida del Dato: mantener controlado cada fase del
ciclo de vida de los datos, desde el momento en que es obtenido, pasando
por los accesos de quienes los manejan, los softwares que van a ser
utilizados, donde se almacenará hasta el producto final. Se debe hacer
hincapié en el hecho de que, durante el ciclo de vida de los datos, éstos
pueden verse corrompidos, afectando su calidad (sobre todo datos
personales) por lo que es necesario también revisar esto frecuentemente.
Operaciones
54
la seguridad de la información los cuales son la disponibilidad, confidencialidad e
integridad. Debido a la gran cantidad de datos que se almacenan y se utilizan en
Big Data, esta opción es una de las más acertadas ya que permite controlar de
mejor forma la seguridad.
55
CAPITULO IX CONCLUSIONES
Las empresas que hacen uso de esta tecnología también deben tomar en
consideración esto y comenzar a interesarse más en asegurar los datos que
obtienen, ya que, si bien los gastos de implementar un mejor sistema de seguridad
son elevados, al largo plazo terminan siendo recompensados.
56
BIBLIOGRAFIA
Armerding, Taylor. “The 5 worst big data privacy risks”. Julio 2017. Disponible en:
https://www.csoonline.com/article/2855641/privacy/the-5-worst-big-data-
privacy-risks-and-how-to-guard-against-them.html/
Brinded Lianna. “The entire Turkish citizenship database has allegedly been leaked
online”. Abril 2016. Disponible en: http://www.businessinsider.com/turkish-
citizenship-database-allegedly-hacked-and-leaked-2016-4?r=UK&IR=T/
Cisco. “Fuga de datos a nivel mundial: El elevado costo de las amenazas internas”.
2008. Disponible en:
https://www.cisco.com/web/offer/em/pdfs_innovators/LATAM/data_threat_
sp.pdf/
57
Cloud Security Alliance. “Big Data Security and Privacy Handbook”. 2016.
Disponible en:
https://downloads.cloudsecurityalliance.org/assets/research/big-
data/BigData_Security_and_Privacy_Handbook.pdf/
Herold, Rebecca. “10 Big Data Analytics Privacy Problems”. Disponible en:
http://privacyguidance.com/blog/10-big- data-analytics- privacy-problems//
Instituto de Ingeniería del Conocimiento. “Las 7 V del Big Data: Características más
importantes. Junio 2016. Disponible en:
http://www.iic.uam.es/innovacion/big-data-caracteristicas-mas-importantes-
7-v//
58
Kaspersky Lab. “Damage Control: The Cost of Security Breaches”. 2015. Disponible
en: https://media.kaspersky.com/pdf/it-risks-survey-report-cost-of-security-
breaches.pdf/
McCandelss, David. “World's Biggest Data Breaches”. Abril 2017. Disponible en:
http://www.informationisbeautiful.net/visualizations/worlds-biggest-data-
breaches-hacks//
O’Sullivan, Dan. “The RNC Files: Inside the Largest US Voter Data Leak”. Julio
2017. Disponible en: https://www.upguard.com/breaches/the-rnc-files/
Ponemon Institute. “2017 Cost of Data Breach Study”. Junio 2017. Disponible en:
https://www.ibm.com/security/data-breach//
59
Violler, P.; Velasco, P. “Big Data”. Enero 2016. Disponible en:
https://www.derechosdigitales.org/wp-content/uploads/big-data-
informe.pdf/
60
GLOSARIO
Anonimización: proceso por el que pasan los datos para eliminar todas las
conexiones entre un dato y su titular.
Base de datos no relacional: son bases de datos que no cumplen con el modelo
convencional de bases de datos
61
Control granular: es realizar un control de ingreso muy detallado.
Disponibilidad: lograr que los datos estén disponibles para todos quienes
necesiten tener acceso a ellos.
Endpoints: son todos los equipos que forman parte de una red de área local
(computadores, teléfonos, etc.)
Integridad: lograr que los datos no sean modificables por terceras personas.
62
Programación distribuida: es un tipo de distribución en el cual se busca repartir el
volumen de la información y compartir recursos entre equipos conectados por una
red.
Titular: el titular es toda persona natural a la que se refieren los datos de carácter
personal de una base de datos.
63