Web superficial
Es la porción de Internet indexada por los robots de los motores de
búsqueda, se compone de páginas estáticas o fijas. Las páginas estáticas
no dependen de una base de datos para desplegar su contenido, sino que residen
en un servidor en espera de ser recuperadas, y son básicamente archivos HTML
cuyo contenido nunca cambia.
Los robots de los buscadores van recorriendo las páginas web, almacenando
información y buscando enlaces a otros sitios web para seguir actualizando sus
bases de datos. Con el tiempo acaban recorriendo todas las páginas de Internet
que tienen enlaces desde otras. Pero por distintos motivos (enlaces generados
por JavaScript y Flash, páginas protegidas con contraseña, fichero de exclusión
de robots, etc.) algunas páginas no pueden ser alcanzadas por las arañas de los
buscadores. Estas páginas forman la Internet Profunda.
En enero de 2005, según un estudio que investigó distintos motores
de búsqueda (Google, MSN, Yahoo y Ask Jeeves) se determinó que había 11.500
millones de páginas web en los índices de los buscadores. En junio de 2008 los índices contenían más de 63.000 millones de páginas
Web.
Web profunda
Es
un conjunto de sitios web y bases de datos que buscadores comunes no pueden
encontrar ya que no están indexadas. Está compuesta de
páginas dinámicas.
Motivos por los que los motores de búsqueda no pueden indexar algunas
páginas:
- Web contextual: páginas cuyo contenido varía dependiendo
del contexto (por ejemplo, la dirección IP del cliente, de las visitas
anteriores, etc).
- Contenido dinámico: páginas dinámicas obtenidas como
respuesta a parámetros, por ejemplo, datos enviados a través de un formulario.
- Contenido de aceso restringido: páginas
protegidas con contraseña, contenido protegido por un Captcha, etc.
- Contenido No HTML: contenido textual en archivos multimedia,
otras extensiones como exe, rar, zip, etc.
- Software: Contenido oculto intencionadamente, que
requiere un programa o protocolo específico para poder acceder (Ejemplos:
Tor, I2P)
- Páginas no enlazadas: páginas que los
buscadores no tienen referencia de su existencia, por ejemplo, páginas que
no tienen enlaces desde otras páginas.
Dentro de la de Web Profunda se realiza la siguiente
clasificación:
La
Web opaca está
compuesta por archivos que, si bien podrían estar incluidos en los índices de
los buscadores, no lo están por algún motivo.
La
Web privada consiste en las páginas Web que podrían estar
indizadas en los buscadores, pero son excluidas deliberadamente por algún
motivo. Son los dueños de la información que contienen, los que deciden que no
se encuentre disponible.
La
Web propietaria incluye aquellas páginas en las que es necesario
registrarse para tener acceso al contenido, ya sea de forma gratuita o
arancelada.
La
Web invisible se compone de páginas que no pueden ser indizadas por
limitaciones técnicas de los buscadores, programas ejecutables y archivos
comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir
de datos que introduce el usuario, información almacenada en bases de datos
relacionales, que no puede ser extraída a menos que se realice una petición
específica.
TOR
The Onion Router (abreviado como
TOR) es un proyecto diseñado e implementado por la marina de los Estados Unidos
lanzado el 20 de septiembre de 2002. Posteriormente fue patrocinado por la EFF
(Electronic Frontier Foundation, una organización en defensa de los derechos digitales).
Actualmente subsiste como TOR Project, una organización sin ánimo de lucro
galardonada en 2011 por la Free Software Foundation por permitir que millones
de personas en el mundo tengan libertad de acceso y expresión en internet
manteniendo su privacidad y anonimato.
A diferencia de los navegadores de internet
convencionales, Tor le permite a los usuarios navegar por la Web de forma
anónima. Tor es descargado de 30 millones a 50 millones de veces al año, hay
0,8 millones de usuarios diarios de Tor y un incremento del 20 % solamente en
2013. Tor puede acceder a unos 6500 sitios web ocultos.
Cuando se ejecuta el software de Tor, para acceder a
la internet profunda, los datos de la computadora se cifran en capas. El
software envía los datos a través de una red de enlaces a otros equipos o nodos
y lo va retransmitiendo quitando una capa antes de retransmitirlo de nuevo,
esta trayectoria cambia con frecuencia. Tor cuenta con más de 4000
retransmisiones y todos los datos cifrados pasan a través de, por lo menos,
tres de estos nodos. Una vez que la última capa de cifrado es retirada por un
nodo de salida, se conecta a la página web que desea visitar.
El contenido que puede ser encontrado dentro de la
Internet profunda es muy vasto, se encuentran, por ejemplo, datos que se
generan en tiempo real, como pueden ser valores de Bolsa, información del
tiempo, horarios de trenes; bases de datos sobre agencias de inteligencia,
disidentes políticos y contenidos criminales.
Bitcoin
Mercados ilegales están alojados en servidores que son
exclusivos para usuarios de Tor. En estos sitios, se pueden encontrar drogas,
armas, o incluso asesinos a sueldo. Se utiliza la moneda digital llamada
Bitcoin, que tiene sus orígenes en 2009, pero que se ha vuelto todo un fenómeno
desde 2012, que se intercambia a través de billeteras digitales entre el
usuario y el vendedor, lo que hace que sea prácticamente imposible de rastrear.
Existen muchos mitos acerca de la Internet profunda.
La Internet profunda no es una región prohibida o mística de Internet, y la
tecnología relacionada con ella no es malévola. Ya que en ella también se
alberga lo que ahora se conoce como AIW (Academic Invisible Web: ‘Internet Académica Invisible’ por sus siglas en inglés) y se refiere a todas las bases de
datos que contienen avances tecnológicos, publicaciones científicas, y material
académico en general.