En este blog voy a postear artículos que me hayan resultado interesantes,
ideas que se me ocurran, etc. A modo de corcho virtual, qué mejor que
un blog para hablar de redes sociales.


lunes, 21 de febrero de 2011

FAQ sobre robots WWW

Uno de mis alumnos me planteó sus dudas acerca de los robots WWW o motores de búsqueda, lo que me dio una idea... ¿por qué no recopilar alguna info acerca de ellos?

Espero sea útil, saludos!



¿Qué es un robot WWW?

Un robot es un programa que atraviesa automáticamente la estructura del hipertexto del Web extrayendo un documento, y recurrentemente extrae todos los documentos que estén referenciados.
Observe que "recurrente" aquí no limita la definición a ningún algoritmo traversal específico; incluso si un robot aplica algo de heurística a la selección y orden de documentos a visitar y espacia mucho las peticiones en el tiempo, sigue siendo un robot.
Los browsers normales del Web no son robots, porque funcionan poracción de un ser humano, y no extraen automáticamente los documentos referidos (con excepción de imágenes en línea).
A los robots del Web a veces se les llama Web Wanderers, Web Crawlers o Spiders (arañas). Estos nombres dan la impresión de que el software tiene vida propia; esto no es exactamente así, un robot simplemente visita sitios solicitando documentos.




¿Qué es un agente?
La palabra 'agente' tiene muchos significados en informática en estos días. Algunos de ellos son:
Agentes autónomos
son programas que viajan a través de los Webs, decidiendo por sí mismos cuándo moverse y qué hacer (p.e. General Magic's Telescript). Este sólo puede viajar entre servidores especialesy no está muy extendido en InterNet.
Agentes inteligentes
son programas que ayudan a los usuarios a realizar determinadas acciones, eligiendo productos o guiando al usuariopara rellenar formularios correctamente o para encontrar cosas. Por lo general, tienen poco que hacer en el entramado de unared.
Agente de usuario
es un nombre técnico para los programas que realizan tareas de red para un usuario, p.e. agentes de usuario para Web como Netscape Explorer, agentes de usuario para e-mail como Qualcomm Eudora, etc.




¿Qué es un motor de búsqueda?
Un motor de búsqueda es un programa que busca a través de unconjunto de datos. En el contexto del Web, la palabra 'motor de búsqueda' se usa para referirse a programas que buscan en una basede datos de documentos HTML indexados por un robot.




¿Cómo decide un robot qué visitar?
Depende del robot; cada uno usa sus propias estrategias. En general comienzan por un listado 'histórico' de URLs, especialmente de documentos que tienen enlaces a muchos Webs, como listas de servidores, páginas de novedades y los Webs más populares de InterNet.
La mayoría de servicios de indexación te permiten mandar URLs manualmente, que entran a formar parte de una cola para que el robot las visite.
A veces, se usan otras fuentes de URLs, desde escáners hasta gruposde USENET, archivos de listas de distribución públicos, etc.
Una vez dados estos puntos de comienzo, un robot puede seleccionar URLs a visitar e indexar y tomarlas como fuentes para otras URLs.




¿Cómo decide un robot que indexa qué indexar?
Si un robots que indexa tiene constancia de la existencia de un documento, puede decidir indexarlo y añadirlo en su base de datos. Cómo lo haga depende del robot: algunos, indexan los títulos HTML o los primeros párrafos, o miran todo el código HTML e indexan todas laspalabras, con un peso determinado que depende de las construcciones HTML, etc. Algunos tienen en cuenta los META tags u otras etiquetas ocultas especiales.




¿Cómo puedo saber si me ha visitado un robot?
Puedes buscar en los registros los sitios web desde los que se solicitan muchos documentos, especialmente en un periodo corto de tiempo. Si tu servidor soporta conexiones de agentes de usuario, puedes buscar peticiones con cabeceras de agentes de usuario inusuales. Finalmente, si te das cuenta de que desde un sitio web se solicita repetidamente el fichero '/robots.txt', seguramente es un robot, también.




Me ha visitado un robot. ¿Y ahora qué?
Bien, no pasa nada :-) La idea es que son automáticos; así que no tienes que hacer nada.


¿Por qué encuentro accesos al fichero /robots.txt en mis ficheros de registro?
Probablemente son de robots que intentan ver si has especificado algunas normas para ellos usando el estándar para la exclusión de robots. Mira la sección de abajo.
Si no te importan los robots y no quieres que te aparezca un error en tus ficheros de registro, crea un fichero robots.txt vacío y ponlo en el directorio raiz de tu Web.




¿Cómo puedo conseguir que los robots no indexen mi Web?
La forma más rápida de hacerlo es poniendo estas dos líneas en el fichero /robots.txt:
User-agent: *
Disallow: /
pero es mejor ser un poco más cuidadoso con esto.




¿Hay algún libro sobre robots?
Este libro trata de los robots de WWW, agentes detransacciones comerciales, agentes Mud y unos cuantos más. Incluye el fuente de un robot simple basado en libwww-perl4.
Su cobertura de HTTP, HTML y librerías Web es escasa para construir un robot, pero proporciona una muy buena visión deltema si no dispones de tiempo para buscar toda la información en el WWW.
Publicado por New Riders, ISBN 1-56205-463-5.
Publicado por Sam's, ISBN: 1-57521-016-9
Puedes encontrar algunos más en The Software Agents Mailing List FAQ


Fuente: http://www.alipso.com/monografias/2857_motores/
Consultado el 21/02/2010

sábado, 19 de febrero de 2011

Para aquellos interesados en seguir participando...

El Grupo Dircom es un lugar de encuentro para aquellos curiosos, investigadores, profesionales y fanáticos interesados en temáticas como comunicación, relaciones públicas, marketing, publicidad, tecnologías, entre otros. Puede visitarse en www.grupodircom.com.

Para los que no estaban anoticiados, sería bueno que puedan darse una vuelta y conocer algo más. Para quienes ya han escuchado hablar del Grupo y están interesados en la comunicación corporativa ligada a las nuevas tecnologías, quizás este post pueda resultarles de utilidad.

El Número 89 de la revista que edita Dircom trata específicamente el tema de la comunicación 2.0, y puede resultar un buen insumo para tener algo de información actual sobre las reflexiones de sus autores. Para serles sinceros, aún no los leí. Espero hacerlo en estos días, comentaré mis conclusiones cuando lo haga.

En fin, me resultó interesante compartirlo.

Ah! Inauguro el blog en 2011 con este post. Perdón por la desaparición, ya retornará la frecuencia en las publicaciones. Saludos para todos!


Revista DIRCOM N° 89: Comunicación Corporativa 2.0, Social Media, Gobierno 3.0, Comunicación Interna, Comunicación Estratégica




21 interesantes artículos escritos por expertos profesionales de Argentina, Colombia, Chile, España, México y Venezuela.

Joan Costa relata las experiencias de su exitoso recorrido profesional y presenta su nuevo libro "La Comunicación, 10 voces esenciales".

Marcelo Angulo Abarca, desde Chile, explica cómo afectó a la imagen del presidente de su país, Sebastián Piñera, el evento de los 33 mineros atrapados durante más de tres meses en la Mina de Atacama. El argentino Daniel Ivoskus habla sobre el éxito del Gobierno de la Provincia de Buenos Aires, en la implementación de la comunicación 3.0.

El español Rafael Alberto Pérez cierra la mini serie, que inició tres números atrás, con una excelente comparativa entre las propuestas realizadas por FISEC y HMB, para mejorar los paradigmas y esquemas actuales del management.

¿Cómo crear una publicación corporativa sin morir en el intento? El venezolano Mayol Marcó describe aquellos puntos en los que hay que poner mayor atención para planificar una de las principales herramientas de la comunicación interna: el boletín.

Notas sobre la revolución de las redes sociales y el nuevo paradigma 3.0; las relaciones públicas como factor estratégico comunicacional, la importancia de la palabra verbal y no verbal y el buen uso de la comunicación interna son otros de los títulos que conforman la presente edición.

Entrevistamos a los decanos de las facultades de comunicación de dos importantes universidades Latinoamericanas y conversamos sobre las nuevas propuestas en la formación profesional de los futuros comunicadores.

Como siempre recomendamos la lectura de dos libros que seguramente nos servirán para actualizarnos y seguir vigentes ante los nuevos desafíos comunicacionales.

Ver todos los temas en PDF, clic aquí.
Revista DIRCOM se imprime en Argentina y Colombia.