PEC2
PEC2
PEC2
1 de 18
Ejercicio 1 (2,5 puntos)
Leed el contenido del artículo y responded a las siguientes preguntas (Podéis usar más
información de la que incluye el artículo para responderlas):
a) (0,5 puntos) Describe con tus palabras cuales son las características descritas en el
artículo que debe cumplir un buen modelo que garantice la privacidad de los datos
en un entorno Big Data.
Vinculación: En los grandes datos (Big Data), la información que se obtiene es de varias
fuentes independientes, de esta manera se puede ver que la vinculación de los datos
de un individuo es la base de la creación de Big Data, teniendo en cuenta la protección
de su privacidad.
Se debe tener mucho cuidado que antes de liberar los datos, los mismo deben ser
anonimizados, sin embargo, esta puede ser un limitante para fusión de los datos, lo que
restringe su análisis y su uso consecuentemente.
Busca limitar el riesgo de divulgación, limitando la capacidad de los intrusos para volver
a identificar lo registros originales, una versión modificada de estos datos no se pueda
volver al origen de los datos reales. Se dice que un conjunto de datos publicados tiene
la propiedad k-anonimato si la informción de todas y cada una de las personas
contenidas en este conjunto es identica al menos con otras k-1 personas que también
aparecen en dicho conjunto.
Ejemplo:
Datos privados
Códgo
Edad ¿Diabético?
postal
330781 21 Sí
2 de 18
330087 35 Sí
339876 20 No
334527 65 Sí
339089 78 No
Códgo
Edad ¿Diabético?
postal
33*** 20< Edad <=30 Sí
33*** 31< Edad <=40 Sí
33*** 10< Edad <=20 No
33*** 60< Edad <=70 Sí
33*** 70< Edad <=80 No
Este modelo ofrece fuertes garantías de privacidad, este modelo busca reducir el
impacto de un sujeto a nivel individual en un análisis, basándose en una parte real del
sujeto y cuando se realiza una consulta los datos devueltos con respuestas aleatorias
del conjunto de datos original, de esta manera se garantiza la privacidad diferencial.
Ejemplo:
d) (0,5 puntos) Compara estos dos métodos, describiendo como mínimo las diferencias
que hay entre los dos métodos con respecto a las características identificadas en el
punto (a).
3 de 18
Ejercicio 2 (2,5 puntos)
Tal como se explica a los materiales del curso, la red Tor es una conocida herramienta
que permite anonimizar el tráfico de datos entre dos nodos situados de forma remota en
Internet. Una utilidad habitual de esta herramienta es la de esconder la IP de un cliente
que se conecta a un cierto servidor Web. No obstante, Tor también permite crear los
llamados hidden services, los cuales son servidores web ocultos que ofrecen servicios
sin hacer pública su localización (el cliente no conoce la IP del servidor web). The Silk
Road, un mercado virtual de productos ilegales que fue clausurado por el FBI, es un
ejemplo claro de servicio oculto.
a) (0.5 puntos) Describe brevemente y expone las diferencias de deep web, dark web
y dark net.
deep web: Término acuñado para referirse a contenidos no indexables, como solicitudes
de bases de datos dinámicas, los paywalls (barreras de pago digital, cierto tipo ofertas
digitales), elementos difíciles de encontrar mediante buscadores convencionales. Pero
más tarde llega el caso de Silk Road (página para venta de drogas), y los medios de
comunicación utilizaron este término para referirse a otros elementos como las dark
webs.
También conocida como red invisible o hidden web (web oculta), engloba toda esa
información que está online, pero a la que no se puede acceder de forma pública. Puede
tratarse por un parte de páginas convencionales protegidas por un paywall, o también
archivos guardados en Dropbox o correos electrónicos guardados en los servidores de
los proveedores.
dark web: confundida con la deep web, aunque forma parte de ella, es un fragmento de
internet al que sólo se puede acceder mediante aplicaciones especificas. De esta
manera se puede decir que deep web ocuparía un 90% del contenido de la WWW y la
dark web únicamente el 0,1%.
Suelen formarse por páginas que con enlaces muy particulares como .onion de TOR o
las .i2p de los eepsites de I2P, pero que no se puede ingresar si no se tiene el software
necesario para navegar por las darknets en las que se alojan.
dark net: este término fue acuñado en el 2002 en el documento “The Darknet and the
Future of Content Distribution” escrito por Peter Biddle, Paul England, Marcus Peinado
y Bryan Willman, cuatro investigadores de Microsoft.
En él se refieren a ella como una colección de redes y tecnologías que podría suponer
una revolución a la hora de compartir contenido digital.
Para dar una explicación se puede decir que mientras la dark web es todo un contenido
deliberadamente oculto que nos encontramos en Internet, las darknets son esas redes
especificas como TOR o I2P que alojan esas páginas, aunque internet sólo hay uno, en
las profundidades de la WWW hay varios contenidos ocultos que componen la dark web.
4 de 18
Las más conocidas son la red friend-to-friend Freenet, I2P o Invisible Internet
Project con sus Eepsites con extensión .i2p o ZeroNet. con sus múltiples servicios. Pero
la más popular de todas es TOR, una red de anonimización que tiene también su propia
Darknet, y es básicamente a la que suele referirse todo el mundo cuando habla de ellas.
b) (0.75 puntos) Compara Epicbrowser con TOR browser. ¿Qué ventajas en privacidad
y anonimato ofrecen?
En cambio
TOR es anonimato de nivel profesional. Utiliza su red privada para conectarse a la web
normal, así como a darknet.
Solo se puede acceder a Darknet a través de TOR, ya que solo se puede conectar a su
red .onion.
TOR es algo que no querrá que las autoridades de vigilancia sepan que está utilizando,
ya que probablemente lo pondrán bajo vigilancia, estupendo para evitar el rastreo ya
que todo el tráfico recorre una ruta de servidores intermediarios
Para que nos hagamos una idea de lo seguro que es Tor, baste decir que es el
navegador que usa la armada estadounidense. Por lo demás, funciona de forma muy
similar a Firefox, ya que está basado en este.
Ambas son redes P2P o redes entre pares, vienen a ser redes de ordenadores que
permiten el intercambio directo de información entre ordenadores interconectados a
través de una serie de nodos en las que cada ordenador actúa a su vez como cliente y
servidor respecto al resto de nodos de la red.
Estas dos redes permiten el anonimato y una mayor privacidad, pero no son iguales, ni
funcionan del mismo modo.
Tor es una red fácil de configurar, muy fácil de instalar y sobre todo porque permite
salida a Internet utilizando los repetidores que se encuentran dentro de la red. Esto es
una solución outproxy en donde los usuarios pueden salir hacia Internet utilizando la
plataforma de anonimato, los repetidores que se encuentran disponibles en la red.
Las redes inproxy, por el contrario no permiten esto, solamente permiten la navegación
dentro de la red. Es el concepto más puro de una VPN en donde todos los repetidores
se pueden comunicar entre ellos pero no permiten salir afuera de esa VPN y este es el
concepto clave para diferenciar entre una red como Tor y una red como Freenet que es
una red del tipo inproxy bastante especial, ya que es una red completamente aislada, y
5 de 18
dentro de esta se pueden crear grupos más pequeños que a su ves estan
completamente aislados de esa gran red, de lo que es Freenet. ¿Esto qué quiere decir?
Que tenemos una red que es Deep Web, que es Darknet, y dentro de esos repetidores
pueden haber grupos pequeños de personas, de "amigos", de "friends" que pueden
crear sus propios nichos que solamente se pueden comunicar entre ellos.
Esto es una posibilidad enorme para que por ejemplo grupos con 'malas' intenciones,
por ejemplo grupos islamistas entre otros, pues se puedan comunicar de forma privada
incluso de una red privada. Tienen muchas características que son muy interesantes
como por ejemplo la resistencia a la censura. Esta es una de las características más
importantes que tiene Freenet que es superior con respecto a otras soluciones como
Tor o I2P.
d) (0.5 puntos) Que es un TOR relay, describe los distintos tipos y comenta que
información sobre la conexión ver cada uno de ellos al usar TOR para acceder a la
internet convencional.
• nodos intermedios.
• nodos de salida y
• nodos puentes (“bridge relays”, en inglés).
Dando una mayor seguridad el tráfico para siempre a través de tres “relays” antes de
llegar a su destinatario, los dos primeros son intermedio, que reciben el tráfico y lo pasan
a un último “relay” de salida.
6 de 18
Ejercicio 3 (2,5 puntos)
Cada vez que se accede a una página web, el proveedor de esa web puede hacer uso
de mecanismos como galletas (cookies), balizas web (web beacons) o tecnologías
similares. Normalmente, estos mecanismos tienen fines publicitarios o de
personalización para ofrecer una mejor experiencia de usuario, pero en algunos casos
pueden suponer un problema de seguridad. En este ejercicio analizaremos algunas de
estas técnicas:
7 de 18
otros sitios web afiliados, podrá reconocer al usuario por medio de esta galleta, y hacer
un perfil bastante preciso.
c) (1,5 punto) Además de las galletas de "terceros", los sitios webs utilizan
diferentes técnicas para poder registrar las visitas de los diferentes usuarios y
comprender en profundidad sus patrones de uso (por ejemplo, para poder ver
qué páginas web son populares, el efecto de las campañas de publicidad en
línea etc.).
Instálate el complemento "Ghostery" en tu navegador habitual (está disponible para los
navegadores Opera, Firefox, Google Chrome, Safari e Internet Explorer). Para ello, es
necesario que visites el sitio web https://www.ghostery.com/try-us/download-browser-
extension/. Una vez hecho el ejercicio, lo podrás desinstalar sin ningún problema.
Una vez lo tengas instalado en tu navegador, debes acceder a un conjunto de páginas
web y registrar la información sobre los trackers que encontrarás en la extensión en la
pestaña “Detailed View”. Debes visitar y documentar:
- 5 páginas web de periódicos o sitios de noticias.
No. de
Rastreadores Sitio Rastreadores Companias rastreadoras
en el sitio
Escencial 1 Google Tag Manager
OnThe.io
Hotjar
Estadisticas de Alexa Metrics
6
sitios Lucky Orange
Google Analytics
https://www.elcomer
cio.com/ GA Audiences
DoubleClick
cXense
Publicidad 5 AppNews
Google Safeframe
Google Adsense
Redes sociales 1 Facebook Social Graph
Escencial 1 Adobe Dynamic Tag Management
SOASTA mPulse
Chartbeat
Estadisticas de
4 ScoreCard Research Beacon
sitios https://elpais.com/a Lucky Orange
merica/
Omniture (Adobe Analytics)
Krux Digital
Adobe Audience Manager
Publicidad 5
Adobe Test & Target
Google Dynamic Remarketing
8 de 18
Facebook Custom Audience
Redes sociales 1 Facebook Connect
Escencial 1 Google Tag Manager
Mather Analytics
Chartbeat
Hotjar
Estadisticas de
6 Lucky Orange
sitios
Google Analytics
ScoreCard Research Beacon
https://www.clarin.co Gigya
Interacción con el m/
1 Gigya Socialize
cliente
BlueKai
Lotame
Publicidad 5 Google AdWords Conversion
Bing Ads
Facebook Custom Audience
Redes sociales 1 Facebook Connect
Escencial 1 Google Tag Manager
DataDome
ScoreCard Research Beacon
Estadisticas de
4 Google Analytics
sitios
Chartbeat
Google Analytics
https://www.nytimes.
BlueKai
com/es/
Media.net
Publicidad 5 DoubleClick
Amazon Associates
DoubleClick Floodlight
Google
Desconocidos 1
The New York Times
Escencial 1 Cookie Consent
Estadisticas de ScoreCard Research Beacon
2
sitios http://kiosko.net/us/ Google Analytics
Publicidad 1 Google Publisher Tags
Desconocidos 1 kiosko.net
9 de 18
- 6 páginas web de universidades, entre ellas www.uoc.edu, www.urv.cat y
www.uab.cat.
No. de
Rastreadores Sitio Rastreadores Companias rastreadoras
en el sitio
https://www.uoc.edu/portal Google Analytics
Estadisticas de sitios 2
/es/index.html Hotjar
Estadisticas de sitios 1 Google Analytics
https://www.uce.edu.ec/
Desconocidos 1 Google
Estadisticas de sitios 1 Google Analytics
Interacción con el
1 Google Translate
cliente https://www.epn.edu.ec/
Facebook Custom
Publicidad 1
Audience
Redes sociales 1 Facebook Connect
Escencial 1 Google Tag Manager
Google Analytics
Estadisticas de sitios 2
Alexa Metrics
Google AdWords
https://www.urv.cat/ca/
Conversion
Publicidad 2
Facebook Custom
Audience
Redes sociales 1 Facebook Connect
Escencial 1 Google Tag Manager
Google Analytics
Estadisticas de sitios 2
Sitelmprove Analytics
https://www.uab.cat/ Google Publisher Tags
Publicidad Facebook Custom
1
Audience
Redes Sociales 1 Facebook Connect
Publicidad 1 DoubleClick
Twitter Button
Redes sociales http://www.ug.edu.ec/ 3 Facebook Connect
Twitter Syndication
Desconocidos 1 Google
10 de 18
- 3 redes sociales.
No. de
Rastreador
Rastreadores Sitio Companias rastreadoras
es en el
sitio
https://www.instagram.com/a
Redes Sociales 1 Facebook Connect
ccounts/signup/
- 3 tiendas online.
No. de
Rastreadores Sitio Rastreadores Companias rastreadoras
en el sitio
Sois libres de ampliar el número de páginas web visitadas para mejorar los resultados
obtenidos.
Una vez recogida toda esta información, comenta los resultados obtenidos. En tu
análisis debes comentar, al menos:
- Qué tipo de páginas incluyen mayor seguimiento.
Las páginas que tienen mayor seguimiento son las de los periódicos esto puede ser por
la publicidad inmersa de los medios de comunicación, ya que son mucho más masivos.
- Todas las páginas del mismo “tipo” incluyen o no el mismo tipo de seguimiento.
Relativamente tienen el mismo tipo de seguimiento, incluyo las mismas empresas de
seguimiento.
11 de 18
- Qué resultados te han sorprendido y cuáles de ellos no te han sorprendido,
expón tus razones.
Me sorprendió mucho más las páginas de tiendas online ya que no tienen mucho
seguimiento y si existe es de empresa propia tienda.
Por otro lado, las páginas de las universidades no me sorprendieron ya que por su origen
no tienen mucho seguimiento.
12 de 18
Ejercicio 4 (2,5 puntos)
Pierre Laperdrix, Walter Rudametkin, Benoit Baudry. Beauty and the Beast: Diverting
modern web browsers to build unique browser fingerprints. 37th IEEE Symposium
on Security and Privacy (S&P 2016), May 2016, San Jose, United States.
Consiste en comprobar ciertas propiedades del navegador y del operador donde esta
corriendo el navegador para intentar generar una huella digital, de la información que se
recoge el User Agent String “UAS, es decir, una línea de texto que incluye la mayoría
de la información sobre el sistema y el navegador del usuario” los parámetros incluidos
en las peticiones HTTP, la lista de extensiones del navegador, la zona horaria, la
resolución de la pantalla, etc. De esta información el “browser fingerprinting”, calcula
una huella digital que pueda ser utilizada como identificador global, el mismo que actua
como una galleta la cual no se puede elminar a no ser por cambio de configuración del
navegador, por lo tanto como galletas de terceros y las balizas web, esta práctica
vulnera la privacidad de los usuarios de una forma muy importante.
Según el análisis de la web menciona que el navegador mantiene una única huella
digital y que puedo ser rastreado.
13 de 18
Los atributos que contribuyen a esta identificación son:
14 de 18
15 de 18
16 de 18
c) (0,5 puntos) Indica y describe que técnicas se pueden utilizar para combatir el
“browser fingerprinting”.
d) (0,5 puntos) Indicad, junto con una breve descripción, los principales atributos que se
suelen utilizar para realizar la huella digital de nuestro navegador
• User agent: cadena de caracteres que permite identificar el protocolo de red que
ayuda a descubrir el tipo de aplicación, sistema operativo, proveedor del software
o la versión del software de la petición del agente de usuario.
17 de 18
• Content encoding: campo de la cabecera HTTP de respuesta que identifica el
tipo de codificación de los datos.
• Content language: campo de la cabecera HTTP de respuesta que indica el
lenguaje utilizado.
• List of plugins: lista de plugins usados por Javascript.
• Cookies enabled: booleano que indica si las galletas están activadas o no.
• Use of local/session storage: booleano que indica el tipo de almacenamiento de
los datos (si no expira o si dura solo la session).
• Timezone: zona horaria.
• Screen resolution and color depth: resolución y profundidad de color de la
pantalla.
• List of fonts: lista de fuentes del sistema usadas por Flash
• Lista de encabezados HTTP: al conectarse a un servidor, los navegadores
envían el agente de usuario, el idioma deseado para una página web y el tipo de
codificación compatible con el navegador, entre otros encabezados.
• Plataforma: el valor en la propiedad "navigator.platform" proporciona información
sobre el sistema operativo del usuario.
• Do Not Track/Use of an ad blocker: estos dos atributos están directamente
relacionados con la privacidad y sus valores pueden ayudar a diferenciar a los
usuarios conscientes de su privacidad de el resto.
• WebGL Vendor and Renderer: estos dos atributos se agregaron con la API
WebGL HTML para proporcionar información sobre la GPU subyacente del
dispositivo.
• Canvas: El elemento Canvas de HTML5 permite realizar pruebas tanto en el
hardware como en el sistema operativo solicitando al navegador que muestre
una imagen siguiendo un conjunto de instrucciones fijas.
d) (0,5 puntos) Indicad las principales conclusiones a las que llegan los autores del
trabajo en relación al browser fingerprinting en dispositivos móviles.
Se observa que 81% de las huellas digitales de un conjunto de 13105 dispositivos son
únicas. Esto demuestra que las cabeceras HTTP y el lienzo de HTML5 juegan un papel
fundamental en la identificación de los navegadores en esos dispositivos.
Por otra parte, se debe tomar en cuanta el plugin de flash para proporcionar un alista de
fuentes, no se detectan atributos principales de discriminación, por lo que la
identificación se basa en la recopilación de muchos otros atributos menores que parecen
inofensivos por sí mismos, pero cuando se agregan conducen a huellas digitales únicas.
Referencias
18 de 18