1.Se conoce como Internet profunda o Internet invisible (en inglés: Deepnet, Invisible Web,"Deep web",Dark Web o Hidden Web) a todo el contenido de Internet que no forma parte del Internet
Superficial, es decir, de las páginas indexadas por
las redes de los motores
de búsqueda de Internet. Esto es debido a las limitaciones que tienen
las redes para acceder a todas las webs por distintos motivos.
2. La
principal causa de la existencia de la Internet Profunda es la
imposibilidad de los motores de búsqueda de encontrar o indexar el 95% de la
información existente en Internet. Si los buscadores pudieran acceder a toda la
información entonces la "Internet profunda" desaparecería, pero esto
es imposible porque siempre existirán páginas privadas. Los siguientes son
algunos de los motivos por los que los buscadores son incapaces de indexar la Internet
Profunda:
§ Páginas protegidas con contraseña
§ Documentos en formatos no indexables
§ Enciclopedias, diccionarios, revistas en las que para acceder
a la información hay que interrogar a la base de datos (Por ejemplo RAE)
3. En el año 2000 se estimaba que el tamaño del Internet Profundo era de 7.500 Terabytes de datos en unos 550.000 millones de documentos. Para comparar se estima
que en aquella época la Internet Superficial ocupaba 167 Terabytes y el contenido de la Biblioteca del Congreso de Estados
Unidos tenía unos 3.000 Terabytes que no eran accesibles por los motores de
búsqueda.
Estimaciones basadas en la extrapolación de un estudio de la Universidad de California
en Berkeley especula que actualmente el Internet Profundo debe tener unos 91.000 Terabytes.
Mike Bergman ha dicho que la búsqueda en el Internet hoy en día se puede comparar con
una red de arrastre a través de la superficie del océano: una gran cantidad
puede ser atrapada en la red, pero hay una gran cantidad de información que
está en lo profundo y por lo tanto, se pierde. La mayor parte de la información
de la Web está enterrada muy abajo en sitios generados dinámicamente, y los
motores de búsqueda estándar no la encuentran. Los buscadores tradicionales no
pueden "ver" o recuperar el contenido de la Web profunda, esas
páginas no existen hasta que se crea de forma dinámica, como resultado de una
búsqueda específica. La Web profunda es la orden más grande que la web de la superficie.
Autor: The Journal of Electronic Publishing(Agosto 2001)
Fecha de Investigación: 10/11/2012
4. Los motores de búsqueda como
Google tienen indexados más de un trillón de sitios web, pero muchos de los
resultados de búsqueda pueden ser poco útiles o relevantes. Existen, sin
embargo, otras partes de la red global (World Wide Web) que no son tan
accesibles a los procesos normales de búsqueda con un motor como Google. Se
estima que la "red profunda" (también conocida como "internet
oculta", "red invisible" o "Deepnet") es varias veces
superior en tamaño a la "red de la superficie", o Internet
convencional.
5. La red profunda contiene
información que no puede ser indexada por un motor de búsqueda; por ejemplo,
las bases de datos generan un contenido temporal con sus resultados, pero no
tiene páginas permanentes que puedan indexarse para búsquedas. La red profunda
también contiene ensayos y estudios académicos, investigaciones científicas,
publicaciones gubernamentales, libros electrónicos, bandejas de memorándums y
boletines, listas de direcciones de correos, catálogos de clientes y productos,
artículos, directorios, diarios y publicaciones a los que se puede acceder sólo
por suscripción, videos o imágenes archivados, y más. Buscar en la red profunda
no es nada complicado; cualquier persona puede hacerlo, y este artículo te
ayudará a dar tus primeros pasos en la búsqueda de esas regiones de la web.
Autor: Wiki How
Fecha de Investigación: 10/11/2012
6. Se calcula que Internet profunda alberga unas 500 veces más
información de la que es posible encontrar a través de una
búsqueda simple, es decir, se encuentra la mayoría de la información pero solo accedes a ella si sabes que existe y cómo acceder.
A menudo, muchas personas huyen de las arañas y sumergen sus datos en la Internet profunda de forma intencionada para conseguir privacidad y anonimato. Como puedes imaginar, muchas de ellas también lo hacen con fines delictivos y no será difícil encontrar en ella redes de sicarios, camellos, crackers, pedófilos y otros monstruos.
A menudo, muchas personas huyen de las arañas y sumergen sus datos en la Internet profunda de forma intencionada para conseguir privacidad y anonimato. Como puedes imaginar, muchas de ellas también lo hacen con fines delictivos y no será difícil encontrar en ella redes de sicarios, camellos, crackers, pedófilos y otros monstruos.
Autor: Vicente Motos
Fecha de Investigación: 10/11/2012
7. Los buscadores rastrean la red con un programas denominados "arañas", indizando el contenido de las páginas y saltando de una a otra siguiendo los enlaces hipertexto que contienen. Sin embargo estos programas no pueden indizar o extraer el contenido de esas páginas cuando esta información se encuentra en bases de datos, cuya información aparece solo dinámicamente, en respuesta a una consulta realizada por el usuario. Para los motores de búsqueda esta parte de la información contenida en Internet o esta "Internet profunda", les resulta completamente invisible. Según un estudio (realizado en el año 2000), de la empresa Bright Planet, esta web profunda es actualmente de 400 a 550 veces más grande que el World Wide Web comúnmente definido, o la web superficial. El Web profundo contiene casi 550 mil millones documentos individuales comparados a los 2500 millones de documentos del Web superficial (estimación, esta última realizada por Cyveillance). Briht Planet afirma además, que la web profunda (compuesta en su mayoría de información de acceso público y gratuito), crece a mayor velocidad, que la web superficial.
8. La World Wide Web es solo una parte del contenido de Internet, hay otros protocolos de Internet, no indizables por los motores de búsqueda, y que forman la Internet Invisible: Ftp (File Transfer Protocol), e-mail, grupos de noticias, Internet Relay Chat (IRC). Según Isidro F. Aguillo, atendiendo a criterios documentales, podríamos agrupar dentro de la Intenet profunda, los siguientes documentos:
- Catálogos de bibliotecas y bases de datos bibliográficas
- Bases de datos no bibliográficas
- Revistas electrónicas, en las que es necesario un registro previo y las que solo se puede recuperar la información mediante búsquedas en su base de datos
- Documentos en formatos no indizables, como documentos en pdf, word...
- Obras de referencia: enciclopedias, diccionarios... en las que es necesario interrogar a la base de datos para acceder al contenido.
9. Como localizar la información
La Invisibilidad para los motores de búsqueda hace que la recuperación de esa información deba hacerse por otros medios.
Una buena forma de localizar la información contenida en la Internet profunda, será a través de las secciones de referencia de las bibliotecas virtuales, como el caso del Servicio de referencia de la Biblioteca de la UNED.
10. A la hora de realizar las búsquedas en los motores tradicionales, vamos a encontrar una serie de dificultades; en primer lugar, utilizar operadores lógicos para acotar la búsqueda y no encontrar demasiado "ruido" documental. En segundo lugar, y suponiendo que hayamos realizado bien nuestra búsqueda, habrá que tener en cuenta que en la lista de resultados no siempre los primero van a ser los más relevantes, ya que en muchos buscadores se negocia con los primeros puestos de cada categoría, no todos los motores de búsquedas son tan "democráticos" como Google, en el que aparecen en los primeros lugares, las páginas que tienen más hipervínculos a ellas.
En tercer lugar, una vez que realicemos nuestra búsqueda, hay que tener en cuenta que los motores de búsqueda, incluso los más potentes, no son capaces de indizar más que una pequeña parte de Internet, como hemos visto, no son capaces de acceder a la información que permanece oculta en las bases de datos.
En conclusión, a la hora de realizar determinadas búsquedas habrá que recurrir a otro tipo de instrumentos de recuperación de la información como los que hemos visto, sino queremos quedarnos en la superficie, sin llegar al fondo de la cuestión.
FUENTE DE INVESTIGACIÓN
Autor: Millán, Jose Antonio. "El libro del medio billón de páginas: (La ecología lingüistica de la red)"
Fecha de Investigación: 11/11/2012