ITCJ: ARTÍCULOS DEL PROYECTO "INTERNET PROFUNDA"

1.Se conoce como Internet profunda o Internet invisible (en inglés: Deepnet, Invisible Web,"Deep web",Dark Web o Hidden Web) a todo el contenido de Internet que no forma parte del Internet Superficial, es decir, de las páginas indexadas por las redes de los motores de búsqueda de Internet. Esto es debido a las limitaciones que tienen las redes para acceder a todas las webs por distintos motivos.

2. La principal causa de la existencia de la Internet Profunda es la imposibilidad de los motores de búsqueda de encontrar o indexar el 95% de la información existente en Internet. Si los buscadores pudieran acceder a toda la información entonces la "Internet profunda" desaparecería, pero esto es imposible porque siempre existirán páginas privadas. Los siguientes son algunos de los motivos por los que los buscadores son incapaces de indexar la Internet Profunda:

§ Páginas protegidas con contraseña

§ Documentos en formatos no indexables

§ Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos (Por ejemplo RAE)

3. En el año 2000 se estimaba que el tamaño del Internet Profundo era de 7.500 Terabytes de datos en unos 550.000 millones de documentos. Para comparar se estima que en aquella época la Internet Superficial ocupaba 167 Terabytes y el contenido de la Biblioteca del Congreso de Estados Unidos tenía unos 3.000 Terabytes que no eran accesibles por los motores de búsqueda.

Estimaciones basadas en la extrapolación de un estudio de la Universidad de California en Berkeley especula que actualmente el Internet Profundo debe tener unos 91.000 Terabytes.

Mike Bergman ha dicho que la búsqueda en el Internet hoy en día se puede comparar con una red de arrastre a través de la superficie del océano: una gran cantidad puede ser atrapada en la red, pero hay una gran cantidad de información que está en lo profundo y por lo tanto, se pierde. La mayor parte de la información de la Web está enterrada muy abajo en sitios generados dinámicamente, y los motores de búsqueda estándar no la encuentran. Los buscadores tradicionales no pueden "ver" o recuperar el contenido de la Web profunda, esas páginas no existen hasta que se crea de forma dinámica, como resultado de una búsqueda específica. La Web profunda es la orden más grande que la web de la superficie.

FUENTE DE INVESTIGACIÓN

Autor: The Journal of Electronic Publishing(Agosto 2001)

Fecha de Investigación: 10/11/2012

4. Los motores de búsqueda como Google tienen indexados más de un trillón de sitios web, pero muchos de los resultados de búsqueda pueden ser poco útiles o relevantes. Existen, sin embargo, otras partes de la red global (World Wide Web) que no son tan accesibles a los procesos normales de búsqueda con un motor como Google. Se estima que la "red profunda" (también conocida como "internet oculta", "red invisible" o "Deepnet") es varias veces superior en tamaño a la "red de la superficie", o Internet convencional.

5. La red profunda contiene información que no puede ser indexada por un motor de búsqueda; por ejemplo, las bases de datos generan un contenido temporal con sus resultados, pero no tiene páginas permanentes que puedan indexarse para búsquedas. La red profunda también contiene ensayos y estudios académicos, investigaciones científicas, publicaciones gubernamentales, libros electrónicos, bandejas de memorándums y boletines, listas de direcciones de correos, catálogos de clientes y productos, artículos, directorios, diarios y publicaciones a los que se puede acceder sólo por suscripción, videos o imágenes archivados, y más. Buscar en la red profunda no es nada complicado; cualquier persona puede hacerlo, y este artículo te ayudará a dar tus primeros pasos en la búsqueda de esas regiones de la web.

FUENTE DE INVESTIGACIÓN

Autor: Wiki How

Fecha de Investigación: 10/11/2012

6. Se calcula que Internet profunda alberga unas 500 veces más información de la que es posible encontrar a través de una búsqueda simple, es decir, se encuentra la mayoría de la información pero solo accedes a ella si sabes que existe y cómo acceder.

A menudo, muchas personas huyen de las arañas y sumergen sus datos en la Internet profunda de forma intencionada para conseguir privacidad y anonimato. Como puedes imaginar, muchas de ellas también lo hacen con fines delictivos y no será difícil encontrar en ella redes de sicarios, camellos, crackers, pedófilos y otros monstruos.

FUENTE DE INVESTIGACIÓN

Autor: Vicente Motos

Fecha de Investigación: 10/11/2012

7. Los buscadores rastrean la red con un programas denominados "arañas", indizando el contenido de las páginas y saltando de una a otra siguiendo los enlaces hipertexto que contienen. Sin embargo estos programas no pueden indizar o extraer el contenido de esas páginas cuando esta información se encuentra en bases de datos, cuya información aparece solo dinámicamente, en respuesta a una consulta realizada por el usuario. Para los motores de búsqueda esta parte de la información contenida en Internet o esta "Internet profunda", les resulta completamente invisible. Según un estudio (realizado en el año 2000), de la empresa Bright Planet, esta web profunda es actualmente de 400 a 550 veces más grande que el World Wide Web comúnmente definido, o la web superficial. El Web profundo contiene casi 550 mil millones documentos individuales comparados a los 2500 millones de documentos del Web superficial (estimación, esta última realizada por Cyveillance). Briht Planet afirma además, que la web profunda (compuesta en su mayoría de información de acceso público y gratuito), crece a mayor velocidad, que la web superficial.
8. La World Wide Web es solo una parte del contenido de Internet, hay otros protocolos de Internet, no indizables por los motores de búsqueda, y que forman la Internet Invisible: Ftp (File Transfer Protocol), e-mail, grupos de noticias, Internet Relay Chat (IRC). Según Isidro F. Aguillo, atendiendo a criterios documentales, podríamos agrupar dentro de la Intenet profunda, los siguientes documentos:
- Catálogos de bibliotecas y bases de datos bibliográficas
- Bases de datos no bibliográficas
- Revistas electrónicas, en las que es necesario un registro previo y las que solo se puede recuperar la información mediante búsquedas en su base de datos
- Documentos en formatos no indizables, como documentos en pdf, word...
- Obras de referencia: enciclopedias, diccionarios... en las que es necesario interrogar a la base de datos para acceder al contenido.
9. Como localizar la información
La Invisibilidad para los motores de búsqueda hace que la recuperación de esa información deba hacerse por otros medios.
Una buena forma de localizar la información contenida en la Internet profunda, será a través de las secciones de referencia de las bibliotecas virtuales, como el caso del Servicio de referencia de la Biblioteca de la UNED.
10. A la hora de realizar las búsquedas en los motores tradicionales, vamos a encontrar una serie de dificultades; en primer lugar, utilizar operadores lógicos para acotar la búsqueda y no encontrar demasiado "ruido" documental. En segundo lugar, y suponiendo que hayamos realizado bien nuestra búsqueda, habrá que tener en cuenta que en la lista de resultados no siempre los primero van a ser los más relevantes, ya que en muchos buscadores se negocia con los primeros puestos de cada categoría, no todos los motores de búsquedas son tan "democráticos" como Google, en el que aparecen en los primeros lugares, las páginas que tienen más hipervínculos a ellas.
En tercer lugar, una vez que realicemos nuestra búsqueda, hay que tener en cuenta que los motores de búsqueda, incluso los más potentes, no son capaces de indizar más que una pequeña parte de Internet, como hemos visto, no son capaces de acceder a la información que permanece oculta en las bases de datos.
En conclusión, a la hora de realizar determinadas búsquedas habrá que recurrir a otro tipo de instrumentos de recuperación de la información como los que hemos visto, sino queremos quedarnos en la superficie, sin llegar al fondo de la cuestión.
FUENTE DE INVESTIGACIÓN
Autor: Millán, Jose Antonio. "El libro del medio billón de páginas: (La ecología lingüistica de la red)"
Fecha de Investigación: 11/11/2012

domingo, 11 de noviembre de 2012

ARTÍCULOS DEL PROYECTO "INTERNET PROFUNDA"

No hay comentarios:

Publicar un comentario