Internet Profunda
Internet Profunda
Origen[editar]
La principal causa de la existencia de la internet profunda es la imposibilidad
de los motores de búsqueda (ejemplo: Google, Yahoo y Bing, y otros) de
encontrar o indexar gran parte de la información existente en Internet. Si los
buscadores tuvieran la capacidad para acceder a toda la información
entonces la magnitud de la «internet profunda» se reduciría casi en su
totalidad. No obstante, aunque los motores de búsqueda pudieran indexar la
información de la internet profunda esto no significaría que esta dejara de
existir, ya que siempre existirán las páginas privadas. Los motores de
búsqueda no pueden acceder a la información de estas páginas y solo
determinados usuarios, aquellos con contraseñas o códigos especiales,
pueden hacerlo.
Los motivos por los que los motores de búsqueda no pueden indexar
algunas páginas pueden ser:
Denominación[editar]
Bergman, en un artículo semanal sobre la Web profunda publicado en
el Journal of Electronic Publishing, mencionó que Jill Ellsworth utilizó el
término «Web invisible» en 1994 para referirse a los sitios web que no están
registrados por ningún motor de búsqueda.8
En su artículo, Bergman citó la entrevista que Frank García hizo a Ellsworth
en 1996:9
Sería un sitio que, posiblemente, esté diseñado razonablemente, pero no se molestaron
en registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto, nadie puede
encontrarlos! Estás oculto. Yo llamo a esto la Web invisible.
Otro uso temprano del término Web Invisible o web profunda fue por Bruce
Monte y Mateo B. Koll de Personal Library Software, en una descripción de
la herramienta @ 1 de web profunda, en un comunicado de prensa de
diciembre de 1996.10
La importancia potencial de las bases de datos de búsqueda también se
reflejó en el primer sitio de búsqueda dedicado a ellos, el motor AT1 que se
anunció a bombo y platillo a principios de 1997. Sin embargo, PLS,
propietario de AT1, fue adquirida por AOL en 1998, y poco después el
servicio AT1 fue abandonado.8
El primer uso del término específico de web profunda, ahora generalmente
aceptada, ocurrió en el estudio de Bergman de 2001 mencionado
anteriormente.
Por otra parte, el término web invisible se dice que es inexacto porque:
Magnitud[editar]
La internet profunda es un conjunto de sitios web y bases de datos que
buscadores comunes no pueden encontrar ya que no están indexadas. El
contenido que se puede hallar dentro de la internet profunda es muy
amplio.12
El internet se ve dividido en dos ramas, la internet profunda y la superficial.
La internet superficial se compone de páginas indexadas en servidores
DNS con una alfabetización y codificación de página perfectamente
entendible por los motores de búsqueda, mientras que la internet profunda
está compuesta de páginas cuyos dominios están registrados con
extensiones .onion y los nombres de los dominios están codificados en una
trama hash. Estas páginas se sirven de forma ad hoc, y no necesitan
registrarse, basta con que tu ordenador tenga funcionando un servicio
onion, que hará las veces de un servicio dns, pero especial para las páginas
del internet profundo. Mediante una red P2P, se replican las bases de datos
que contienen la resolución de nombres hash.
Mientras que las páginas normales son identificadas mediante el protocolo
UDP/IP, las páginas .onion son repetidas por el ramal al que se ha
conectado el navegador especializado para tal sistema de navegación
segura. El sistema de búsqueda es el mismo que usa BitTorrent. El
contenido se coloca en una base de datos y se proporciona solamente
cuando lo solicite el usuario.13
En 2010 se estimó que la información que se encuentra en la internet
profunda es de 7500 terabytes, lo que equivale a aproximadamente 550
billones de documentos individuales. En comparación, se estima que la
internet superficial contiene solo 19 terabytes de contenido y un billón de
documentos individuales.
También en 2010 se estimó que existían más de 200 000 sitios en la
internet profunda.14
Estimaciones basadas en la extrapolación de un estudio de la Universidad
de California en Berkeley especula que actualmente la internet profunda
debe tener unos 91 000 terabytes.15
La Association for Computing Machinery (ACM) publicó en 2007 que Google
y Yahoo indexaban el 32 % de los objetos de la internet profunda, y MSN
tenía la cobertura más pequeña con el 11 %. Sin embargo, la cobertura de
los tres motores era de 37 %, lo que indicaba que estaban indexando casi
los mismos objetos.16
Métodos de profundización[editar]
Las arañas (web crawlers)[editar]
Cuando se ingresa a un buscador y se realiza una consulta, el buscador no
recorre la totalidad de internet en busca de las posibles respuestas, sino
que busca en su propia base de datos, que ha sido generada e indexada
previamente. Se utiliza el término «araña web» (en inglés web crawler) o
robots (por software, comúnmente llamados "bots") inteligentes que van
haciendo búsquedas por enlaces de hipertexto de página en página,
registrando la información ahí disponible.19
Cuando una persona realiza una consulta, el buscador no recorre la totalidad de internet
en busca de las posibles respuestas, lo cual supondría una capacidad de reacción
bastante lenta. Lo que hace es buscar en su propia base de datos, que ha sido generada
e indizada previamente. En sus labores de búsqueda, indización y catalogación, utilizan
las llamadas arañas (o robots inteligentes) que van saltando de una página web a otra
siguiendo los enlaces de hipertexto y registran la información allí disponible.
[...] datos que se generan en tiempo real, como pueden ser valores de Bolsa, información
del tiempo, horarios de trenes.
Logo de Tor
The Onion Router (abreviado como TOR) es un proyecto diseñado e
implementado por la marina de los Estados Unidos lanzado el 20 de
septiembre de 2002. Posteriormente fue patrocinado por la EFF (Electronic
Frontier Foundation, una organización en defensa de los derechos
digitales). Al presente (2022), subsiste como The Tor Project, una
organización sin ánimo de lucro galardonada en 2011 por la Free Software
Foundation por permitir que millones de personas en el mundo tengan
libertad de acceso y expresión en internet manteniendo su privacidad y
anonimato.21
A diferencia de los navegadores de internet convencionales, Tor le permite
a los usuarios navegar por la Web de forma anónima. Tor es descargado de
30 millones a 50 millones de veces al año, hay 0,8 millones de usuarios
diarios de Tor y un incremento del 20 % solamente en 2013. Tor puede
acceder a unos 6 500 sitios web ocultos.22
Cuando se ejecuta el software de Tor, para acceder a la internet profunda,
los datos de la computadora se cifran en capas. El software envía los datos
a través de una red de enlaces a otros equipos ―llamados en
inglés «relays» (‘nodos’)― y lo va retransmitiendo quitando una capa antes
de retransmitirlo de nuevo, esta trayectoria cambia con frecuencia. Tor
cuenta con más de 4 000 retransmisiones y todos los datos cifrados pasan a
través de ―por lo menos― tres de estos relays. Una vez que la última capa
de cifrado es retirado por un nodo de salida, se conecta a la página web que
desea visitar.
El contenido que puede ser encontrado dentro de la internet profunda es
muy vasto, se encuentran por ejemplo, datos que se generan en tiempo
real, como pueden ser valores de Bolsa, información del tiempo, horarios de
trenes, bases de datos sobre agencias de inteligencia, disidentes políticos y
contenidos criminales.19
Criptomoneda[editar]
Artículo principal: Criptomoneda