Ayudame con la TESIS: FAQ sobre robots WWW

Uno de mis alumnos me planteó sus dudas acerca de los robots WWW o motores de búsqueda, lo que me dio una idea... ¿por qué no recopilar alguna info acerca de ellos?

Espero sea útil, saludos!

¿Qué es un robot WWW?

Un robot es un programa que atraviesa automáticamente la estructura del hipertexto del Web extrayendo un documento, y recurrentemente extrae todos los documentos que estén referenciados.

Observe que "recurrente" aquí no limita la definición a ningún algoritmo traversal específico; incluso si un robot aplica algo de heurística a la selección y orden de documentos a visitar y espacia mucho las peticiones en el tiempo, sigue siendo un robot.

Los browsers normales del Web no son robots, porque funcionan poracción de un ser humano, y no extraen automáticamente los documentos referidos (con excepción de imágenes en línea).

A los robots del Web a veces se les llama Web Wanderers, Web Crawlers o Spiders (arañas). Estos nombres dan la impresión de que el software tiene vida propia; esto no es exactamente así, un robot simplemente visita sitios solicitando documentos.

¿Qué es un agente?

La palabra 'agente' tiene muchos significados en informática en estos días. Algunos de ellos son:

Agentes autónomos

son programas que viajan a través de los Webs, decidiendo por sí mismos cuándo moverse y qué hacer (p.e. General Magic's Telescript). Este sólo puede viajar entre servidores especialesy no está muy extendido en InterNet.

Agentes inteligentes

son programas que ayudan a los usuarios a realizar determinadas acciones, eligiendo productos o guiando al usuariopara rellenar formularios correctamente o para encontrar cosas. Por lo general, tienen poco que hacer en el entramado de unared.

Agente de usuario

es un nombre técnico para los programas que realizan tareas de red para un usuario, p.e. agentes de usuario para Web como Netscape Explorer, agentes de usuario para e-mail como Qualcomm Eudora, etc.

¿Qué es un motor de búsqueda?

Un motor de búsqueda es un programa que busca a través de unconjunto de datos. En el contexto del Web, la palabra 'motor de búsqueda' se usa para referirse a programas que buscan en una basede datos de documentos HTML indexados por un robot.

¿Cómo decide un robot qué visitar?

Depende del robot; cada uno usa sus propias estrategias. En general comienzan por un listado 'histórico' de URLs, especialmente de documentos que tienen enlaces a muchos Webs, como listas de servidores, páginas de novedades y los Webs más populares de InterNet.

La mayoría de servicios de indexación te permiten mandar URLs manualmente, que entran a formar parte de una cola para que el robot las visite.

A veces, se usan otras fuentes de URLs, desde escáners hasta gruposde USENET, archivos de listas de distribución públicos, etc.

Una vez dados estos puntos de comienzo, un robot puede seleccionar URLs a visitar e indexar y tomarlas como fuentes para otras URLs.

¿Cómo decide un robot que indexa qué indexar?

Si un robots que indexa tiene constancia de la existencia de un documento, puede decidir indexarlo y añadirlo en su base de datos. Cómo lo haga depende del robot: algunos, indexan los títulos HTML o los primeros párrafos, o miran todo el código HTML e indexan todas laspalabras, con un peso determinado que depende de las construcciones HTML, etc. Algunos tienen en cuenta los META tags u otras etiquetas ocultas especiales.

¿Cómo puedo saber si me ha visitado un robot?

Puedes buscar en los registros los sitios web desde los que se solicitan muchos documentos, especialmente en un periodo corto de tiempo. Si tu servidor soporta conexiones de agentes de usuario, puedes buscar peticiones con cabeceras de agentes de usuario inusuales. Finalmente, si te das cuenta de que desde un sitio web se solicita repetidamente el fichero '/robots.txt', seguramente es un robot, también.

Me ha visitado un robot. ¿Y ahora qué?

Bien, no pasa nada :-) La idea es que son automáticos; así que no tienes que hacer nada.

¿Por qué encuentro accesos al fichero /robots.txt en mis ficheros de registro?

Probablemente son de robots que intentan ver si has especificado algunas normas para ellos usando el estándar para la exclusión de robots. Mira la sección de abajo.

Si no te importan los robots y no quieres que te aparezca un error en tus ficheros de registro, crea un fichero robots.txt vacío y ponlo en el directorio raiz de tu Web.

¿Cómo puedo conseguir que los robots no indexen mi Web?

La forma más rápida de hacerlo es poniendo estas dos líneas en el fichero /robots.txt:

User-agent: *

Disallow: /

pero es mejor ser un poco más cuidadoso con esto.

¿Hay algún libro sobre robots?

Internet Agents: Spiders, Wanderers, Brokers, and Bots de Fah-Chun Cheong.

Este libro trata de los robots de WWW, agentes detransacciones comerciales, agentes Mud y unos cuantos más. Incluye el fuente de un robot simple basado en libwww-perl4.

Su cobertura de HTTP, HTML y librerías Web es escasa para construir un robot, pero proporciona una muy buena visión deltema si no dispones de tiempo para buscar toda la información en el WWW.

Publicado por New Riders, ISBN 1-56205-463-5.

Bots and Other Internet Beasties por Joseph Williams

Publicado por Sam's, ISBN: 1-57521-016-9

Web Client Programming with Perl por Clinton Wong

Puedes encontrar algunos más en The Software Agents Mailing List FAQ

Fuente: http://www.alipso.com/monografias/2857_motores/
Consultado el 21/02/2010

Páginas

lunes, 21 de febrero de 2011

FAQ sobre robots WWW

No hay comentarios:

Publicar un comentario

Etiquetas

Links interesantes...

Seguidores