sábado, 27 de febrero de 2016

Web Superficial y Web Profunda



Web superficial

Es la porción de Internet indexada por los robots de los motores de búsqueda, se compone de páginas estáticas o fijas. Las páginas estáticas no dependen de una base de datos para desplegar su contenido, sino que residen en un servidor en espera de ser recuperadas, y son básicamente archivos HTML cuyo contenido nunca cambia.

Los robots de los buscadores van recorriendo las páginas web, almacenando información y buscando enlaces a otros sitios web para seguir actualizando sus bases de datos. Con el tiempo acaban recorriendo todas las páginas de Internet que tienen enlaces desde otras. Pero por distintos motivos (enlaces generados por JavaScript y Flash, páginas protegidas con contraseña, fichero de exclusión de robots, etc.) algunas páginas no pueden ser alcanzadas por las arañas de los buscadores. Estas páginas forman la Internet Profunda.

En enero de 2005, según un estudio que investigó distintos motores de búsqueda (Google, MSN, Yahoo y Ask Jeeves) se determinó que había 11.500 millones de páginas web en los índices de los buscadores. En junio de 2008 los índices contenían más de 63.000 millones de páginas Web.


Web profunda

Es un conjunto de sitios web y bases de datos que buscadores comunes no pueden encontrar ya que no están indexadas. Está compuesta de páginas dinámicas.

Motivos por los que los motores de búsqueda no pueden indexar algunas páginas:
  • Web contextual: páginas cuyo contenido varía dependiendo del contexto (por ejemplo, la dirección IP del cliente, de las visitas anteriores, etc).
  • Contenido dinámico: páginas dinámicas obtenidas como respuesta a parámetros, por ejemplo, datos enviados a través de un formulario.
  • Contenido de aceso restringido: páginas protegidas con contraseña, contenido protegido por un Captcha, etc.
  • Contenido No HTML: contenido textual en archivos multimedia, otras extensiones como exe, rar, zip, etc.
  • Software: Contenido oculto intencionadamente, que requiere un programa o protocolo específico para poder acceder (Ejemplos: Tor, I2P)
  • Páginas no enlazadas: páginas que los buscadores no tienen referencia de su existencia, por ejemplo, páginas que no tienen enlaces desde otras páginas.

Dentro de la de Web Profunda se realiza la siguiente clasificación:

La Web opaca está compuesta por archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están por algún motivo.

La Web privada consiste en las páginas Web que podrían estar indizadas en los buscadores, pero son excluidas deliberadamente por algún motivo. Son los dueños de la información que contienen, los que deciden que no se encuentre disponible.

La Web propietaria incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.

 La Web invisible se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.

TOR

The Onion Router (abreviado como TOR) es un proyecto diseñado e implementado por la marina de los Estados Unidos lanzado el 20 de septiembre de 2002. Posteriormente fue patrocinado por la EFF (Electronic Frontier Foundation, una organización en defensa de los derechos digitales). Actualmente subsiste como TOR Project, una organización sin ánimo de lucro galardonada en 2011 por la Free Software Foundation por permitir que millones de personas en el mundo tengan libertad de acceso y expresión en internet manteniendo su privacidad y anonimato.

A diferencia de los navegadores de internet convencionales, Tor le permite a los usuarios navegar por la Web de forma anónima. Tor es descargado de 30 millones a 50 millones de veces al año, hay 0,8 millones de usuarios diarios de Tor y un incremento del 20 % solamente en 2013. Tor puede acceder a unos 6500 sitios web ocultos.

Cuando se ejecuta el software de Tor, para acceder a la internet profunda, los datos de la computadora se cifran en capas. El software envía los datos a través de una red de enlaces a otros equipos o nodos y lo va retransmitiendo quitando una capa antes de retransmitirlo de nuevo, esta trayectoria cambia con frecuencia. Tor cuenta con más de 4000 retransmisiones y todos los datos cifrados pasan a través de, por lo menos, tres de estos nodos. Una vez que la última capa de cifrado es retirada por un nodo de salida, se conecta a la página web que desea visitar.

El contenido que puede ser encontrado dentro de la Internet profunda es muy vasto, se encuentran, por ejemplo, datos que se generan en tiempo real, como pueden ser valores de Bolsa, información del tiempo, horarios de trenes; bases de datos sobre agencias de inteligencia, disidentes políticos y contenidos criminales.

Bitcoin

Mercados ilegales están alojados en servidores que son exclusivos para usuarios de Tor. En estos sitios, se pueden encontrar drogas, armas, o incluso asesinos a sueldo. Se utiliza la moneda digital llamada Bitcoin, que tiene sus orígenes en 2009, pero que se ha vuelto todo un fenómeno desde 2012, que se intercambia a través de billeteras digitales entre el usuario y el vendedor, lo que hace que sea prácticamente imposible de rastrear.

Existen muchos mitos acerca de la Internet profunda. La Internet profunda no es una región prohibida o mística de Internet, y la tecnología relacionada con ella no es malévola. Ya que en ella también se alberga lo que ahora se conoce como AIW (Academic Invisible Web: ‘Internet Académica Invisible’ por sus siglas en inglés) y se refiere a todas las bases de datos que contienen avances tecnológicos, publicaciones científicas, y material académico en general.


No hay comentarios.:

Publicar un comentario