La Web superficial y la Web profunda.
Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito), entre otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.
Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito), entre otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.
¿Qué
es la Web visible?
|
¿Qué
es la Web invisible?
Caracterización de la Web invisible o profunda
Sherman y Price (2001) identifican
cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web),
la Web privada (the private Web), la Web propietaria (the proprietary
Web) y la Web realmente invisible (the truly invisible Web).
La Web opaca:
Se compone de archivos que podrían estar
incluidos en los índices de los motores de búsqueda, pero no lo están por
alguna de estas razones:
ü Extensión de la indización: por economía, no
todas las páginas de un sitio son indizadas en los buscadores.
ü Frecuencia de la indización: los motores de
búsqueda no tienen la capacidad de indizar todas las páginas existentes;
diariamente se añaden, modifican o desaparecen muchas y la indización no se
realiza al mismo ritmo.
ü Número máximo de resultados visibles: aunque los
motores de búsqueda arrojan a veces un gran número de resultados de búsqueda,
generalmente limitan el número de documentos que se muestran (entre 200 y 1000
documentos).
ü URL’s desconectadas: las generaciones más
recientes de buscadores, como Google, presentan los documentos por relevancia basada
en el número de veces que aparecen referenciados o ligados en otros. Si un
documento no tiene un link desde otro documento será imposible que la página
sea descubierta, pues no habrá sido indizada.
No cabe duda
de que los actuales buscadores y directorios de la web están mejorando su
funcionamiento. Más allá de los detalles técnicos que el público no alcanza a
ver, la eficiencia de estas maquinarias ha aumentado y esto se aprecia en los
resultados de las búsquedas. A medida que estas herramientas se vayan haciendo
más poderosas disminuirá la necesidad de la elaboración manual de guías o
concentradores de recursos y quizás más la de orientación en las estrategias de
búsqueda y en el uso y aprovechamiento de los recursos localizados.
Un observador
cuidadoso puede apreciar que persiste la práctica de los robots de no indizar
todas las páginas de un sitio, fijándose en los resultados de las búsquedas que
arrojan las diferentes herramientas. Por ejemplo, se puede tener la referencia
de una base de datos, disponible a través de un sitio web, en una de las
páginas del sitio que contiene un link a ella, y no aparecer, en cambio, la
referencia a la página de acceso directo a la base de datos en ese sitio.
La frecuencia
de la indización puede haber aumentado en algunos buscadores, o incluso hacerse
de forma diferenciada para algunos recursos. Aquellas páginas que, por su naturaleza,
varían más (por ejemplo, la información bursátil) serían visitadas más
frecuentemente por los robots que aquellas que tienden a ser más estables en su
contenido.
El número
máximo de resultados visibles no es un problema cuando los buscadores presentan
los resultados ordenados por relevancia, pues siempre aparecerán primero
aquellos que se ajustan más a la búsqueda realizada. En la medida en que se
pueda realizar una búsqueda avanzada y los criterios de relevancia combinen el
número de ligas con la frecuencia de palabras, la presentación de los
resultados no constituirá un obstáculo para encontrar la información. El
usuario siempre debe tener en cuenta que los buscadores son más apropiados
cuando la búsqueda es específica, es decir, se conocen datos sobre lo que se
busca; mientras que es más adecuado realizar búsquedas temáticas en los
directorios.
Los URLs
desconectados podrían evitarse si existiera la obligación de registrar, aunque
fuera de forma muy sencilla, toda página que se colgara en la web. Pero dada la
gran descentralización de Internet, esto no parece vislumbrarse en un futuro
inmediato.
La web privada:
Consiste en las páginas web que podrían estar indizadas en
los motores de búsqueda pero son excluidas deliberadamente por alguna de estas
causas:
Las páginas están protegidas por contraseñas (passwords).
Contienen un archivo “robots.txt” para evitar ser
indizadas.
Contienen un campo “noindex” para evitar que el buscador
indice la parte correspondiente al cuerpo de la página.
Este segmento
de la web no representa una gran pérdida en términos de valor de la información
que contiene, ya que se trata, en general, de documentos excluidos
deliberadamente por su falta de utilidad. En cualquier caso, son los dueños de
la información los que deciden no hacerla disponible, por lo que difícilmente
se podrán encontrar mecanismos legítimos para franquear esa barrera. Además,
los archivos robots.txt sirven para evitar que los robots caigan en “agujeros
negros”, que les hagan entrar en procesos circulares interminables, mermando
así la eficiencia en su funcionamiento
La Web propietaria:
Incluye aquellas páginas en las que es necesario
registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada.
Se dice que al menos 95% de la Web profunda contiene información de acceso
público y gratuito.
La Web realmente
invisible:
Se compone de páginas que no pueden ser indizadas por
limitaciones técnicas de los buscadores, como las siguientes:
Páginas web que incluyen formatos como PDF, PostScript,
Flash, Shockwave, programas ejecutables y archivos comprimidos.
Páginas generadas dinámicamente, es decir, que se generan
a partir de datos que introduce el usuario.
Información almacenada en bases de datos relacionales, que
no puede ser extraída a menos que se realice una petición específica. Otra
dificultad consiste en la variable estructura y diseño de las bases de datos,
así como en los diferentes procedimientos de búsqueda.
En conclusión, lo que realmente sigue siendo
invisible en la web son:
ü las páginas desconectadas;
ü las páginas no clasificadas que contienen
principalmente imágenes, audio o vídeo;
ü las páginas no clasificadas que contienen
principalmente archivos PDF,
ü PostScript, Flash, Shockwave, ejecutables y
comprimidos;
ü el contenido de las bases de datos relacionales;
ü el contenido que se genera en tiempo real;
ü el contenido que se genera dinámicamente.
Pero:
ü algunos buscadores recuperan archivos PDF y
páginas con imágenes, aunque de forma limitada;
ü es relativamente sencillo llegar hasta la
“puerta” de las bases de datos con contenido importante;
ü ya motores avanzados capaces de realizar
búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la
mayoría requieren de pago, también ofrecen versiones gratuitas;
ü el contenido que se genera en tiempo real pierde
validez con mucha velocidad, salvo para análisis históricos; es relativamente
sencillo llegar hasta la “puerta” de los servicios que ofrecen información en
tiempo real;
ü el contenido que se genera dinámicamente
interesa únicamente a ciertos usuarios con características específicas;
ü
existen es
relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen
contenido generado dinámicamente.