martes, 16 de junio de 2015

La Web superficial y la Web profunda.

Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito), entre otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.

¿Qué es la Web visible?


Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda.

Las características principales de los sitios de la Web visible son:
  • su información no está contenida en bases de datos
  • es de libre acceso
  • no requiere la realización de un proceso de registro para acceder
Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
 
¿Qué es la Web invisible?






Caracterización de la Web invisible o profunda

Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).

La Web opaca:
Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

ü  Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.
ü  Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.
ü  Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).
ü  URL’s desconectadas: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene un link desde otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.

No cabe duda de que los actuales buscadores y directorios de la web están mejorando su funcionamiento. Más allá de los detalles técnicos que el público no alcanza a ver, la eficiencia de estas maquinarias ha aumentado y esto se aprecia en los resultados de las búsquedas. A medida que estas herramientas se vayan haciendo más poderosas disminuirá la necesidad de la elaboración manual de guías o concentradores de recursos y quizás más la de orientación en las estrategias de búsqueda y en el uso y aprovechamiento de los recursos localizados.
Un observador cuidadoso puede apreciar que persiste la práctica de los robots de no indizar todas las páginas de un sitio, fijándose en los resultados de las búsquedas que arrojan las diferentes herramientas. Por ejemplo, se puede tener la referencia de una base de datos, disponible a través de un sitio web, en una de las páginas del sitio que contiene un link a ella, y no aparecer, en cambio, la referencia a la página de acceso directo a la base de datos en ese sitio.
La frecuencia de la indización puede haber aumentado en algunos buscadores, o incluso hacerse de forma diferenciada para algunos recursos. Aquellas páginas que, por su naturaleza, varían más (por ejemplo, la información bursátil) serían visitadas más frecuentemente por los robots que aquellas que tienden a ser más estables en su contenido.
El número máximo de resultados visibles no es un problema cuando los buscadores presentan los resultados ordenados por relevancia, pues siempre aparecerán primero aquellos que se ajustan más a la búsqueda realizada. En la medida en que se pueda realizar una búsqueda avanzada y los criterios de relevancia combinen el número de ligas con la frecuencia de palabras, la presentación de los resultados no constituirá un obstáculo para encontrar la información. El usuario siempre debe tener en cuenta que los buscadores son más apropiados cuando la búsqueda es específica, es decir, se conocen datos sobre lo que se busca; mientras que es más adecuado realizar búsquedas temáticas en los directorios.
Los URLs desconectados podrían evitarse si existiera la obligación de registrar, aunque fuera de forma muy sencilla, toda página que se colgara en la web. Pero dada la gran descentralización de Internet, esto no parece vislumbrarse en un futuro inmediato.

La web privada:
Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:
Las páginas están protegidas por contraseñas (passwords).
Contienen un archivo “robots.txt” para evitar ser indizadas.
Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad. En cualquier caso, son los dueños de la información los que deciden no hacerla disponible, por lo que difícilmente se podrán encontrar mecanismos legítimos para franquear esa barrera. Además, los archivos robots.txt sirven para evitar que los robots caigan en “agujeros negros”, que les hagan entrar en procesos circulares interminables, mermando así la eficiencia en su funcionamiento

La Web propietaria:
Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.


La Web realmente invisible:
Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.


En conclusión, lo que realmente sigue siendo invisible en la web son:

ü  las páginas desconectadas;
ü  las páginas no clasificadas que contienen principalmente imágenes, audio o vídeo;
ü las páginas no clasificadas que contienen principalmente archivos PDF,
ü PostScript, Flash, Shockwave, ejecutables y comprimidos;
ü el contenido de las bases de datos relacionales;
ü el contenido que se genera en tiempo real;
ü el contenido que se genera dinámicamente.

Pero:

ü algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada;
ü es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante;
ü ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas;
ü el contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos; es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real;
ü el contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas;

ü existen es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen contenido generado dinámicamente.

jueves, 28 de mayo de 2015

"Encontrando Tesoros en la red"
  1. ¿Qué es la infoxicación? 

   Como se sabe, el concepto de infoxicación viene dado sobre la idea de que la sobrecarga de información que recibe un usuario de las herramientas electrónicas (en particular, de internet en todas sus formas) puede causarle la sensación de que no puede abarcarlas ni gestionarlas y, por tanto, llegar a generarle una gran angustia (Isaías, 2011). No es nada extraño encontrarse con casos habituales de personas que les cuesta interactuar con el mundo 2.0 o que, directamente, han decidido no hacerlo tras haber sufrido una mala experiencia de sobrecarga informativa. Tiene hasta diferentes modalidades: Dispersión, explosión, aspersión, implosión, ocultación y polarización (García de Diego, 2007: 299)
   Los datos de tráfico no dejan dudas al respecto. Cada segundo que pasa se envían 3 millones de emails, en un minuto se suben más de 20 horas de vídeo a YouTube, cada día se publican 50 millones de tuits, la plataforma de compras Amazon recibe 73 pedidos cada segundo y cada mes los usuarios de Facebook pasan 700 billones de minutos conectados a esa red social (Castro, 2010). Según la empresa de servicios online Pingdom, actualmente existen 2.200 millones de usuarios de e-mails, se mandan cada día 144.000 millones de correos electrónicos, hay 425 millones de usuarios de Gmail activos, 1.000 millones en Facebook y 200 en Twitter y existen 1.100 millones de usuarios de smartphones. De los 2.400 millones de usuarios de internet 1.100 están en Asia (y solo 274 en América del Norte), que ponen de media mensual 85.962 actualizaciones de estado solo en Facebook (y solo en Brasil, país donde más usuarios hay) y que generan 1,3 exabytes de datos mensuales (VV.AA., 2013). 
   Según la consultora Contactlab cada español recibe de media unos 23 correos electrónicos al día y se envían solo en nuestro país 563 millones de mensajes mientras que la Asociación para la Investigación de Medios de Comunicación (AIMC) afirma que el 37% de los españoles se conecta entre 10 y 30 horas semanales y el 9% lo hace más de sesenta horas (Fanjul, 2011). El aumento de la carga de creación y gestión de contenidos ha sido tan explosiva, que la capacidad de asimilación de los usuarios ha sido, en muchos casos, sobrepasada de forma evidente.

   Los problemas derivados de la sobreinformación pueden afectar al rendimiento personal y profesional. Según la consultora Basex tan solo durante el año 2007 el 28% de la jornada laboral de los trabajadores estadounidenses se perdió por culpa de la exposición prolongada a las fuentes masivas de datos, lo que ya se ha dado a conocer como la “Atención parcial continuada”. Cuando se presta mucha atención a una gran cantidad de información de manera sostenida en el tiempo y no se finaliza la tarea para continuar con otra diferente, se dificulta la desconexión de la mente, obligándola a realizar un sobreesfuerzo (VV.AA., 2011).
    “La efervescencia de contenidos e interacciones digitales genera una economía de la atención en la que el recurso más escaso es el tiempo” (Velilla, 2013). 
    La infoxicación, la sobresaturación de información, el ruido-interferencia, puede llegar a generar angustia en el usuario por no sentirse en condiciones de encontrar la información buscada. “Todo este fenómeno de multiplicación de la cantidad de información que existe en el mundo se ha venido a llamar la ‘explosión de la información’, aunque más bien debería llamarse la ‘explosión de la desinformación’, indigerible y confundidora” (Cobo, 2007).

2. Intereses, expectativas.

   Trabajo como enfermera en un Centro Penitenciario, Murcia I. Dentro de mi ámbito de trabajo estoy interesada fundamentalmente en la Educación para la Salud, Intervenciones psicosociales en drogodependencias y salud mental.
   Actualmente estoy haciendo mi doctorado, ahora que ya me he descargado de otras obligaciones personales. Disfrutando y como reto personal, estoy muy motivada en aprender a utilizar las herramientas más importantes que me brinda Internet para poder comunicar en salud.
   Aunque nacida en Madrid, soy hija adoptiva de Cartagena en Murcia. Enamorada de estas playas, y entusiasta deportista.