Actualizado el 09/05/2007 < > 1 Comentario
Resúmen: Características y preguntas comunes acerca de los robots de los buscadores.
Usando nuestra terminología de "andar por casa" son robots que entran en todos los servidores de todo el mundo, buscan los documentos que están alojados en ellos, los incluyen en su index y luego nosotros podamos ir a ese index a buscar lo que necesitamos.
El www robot penetra en el servidor y recupera todos los documentos alojados en él indexándolos para su Agente, nosotros con nuestro navegador sólo podemos acceder a los documentos que el servidor quiere facilitarnos.
Podemos distinguir tres tipos de agentes:
Los Directorios no poseen robots, están operados por humanos y no recuperan automáticamente los enlaces incluídos en las páginas web, sino que sólo se limitan a hallar lo que las personas manualmente incluyen en ellos. Tienen una ventaja respecto a los robots , pueden clasificar por secciones la temática de las web al hacerse mediante un proceso manual.
A los robots se les suele denominar "Web Wanderers", "Web Crawlers", o "Spiders" hay quién piensa que son virus pero no es así, un robot simplemente visita los sitios y extrae los enlaces que están incluidos dentro de estos.
Un Search Engine es un programa que busca en una determinada base de datos. En el contexto del Web la palabra "Search Engine" se utiliza para denominar las formas de búsqueda que se realizan en una bases de datos de documentos HTML recopilados por un determinado robot. Para entendernos, "search engine" son Google, Altavista etc… y cada uno tiene su www robot de búsqueda.
La principal ventaja es su capacidad de indexar documentos, ya no sólo por el título o las palabras clave que queramos asignarles, si no por la capacidad de buscar en TODO el documento cómo tienen algunos. Es fácil hacer una prueba, vas a google cuál pitonis@ modern@, pones entre comillas una frase de una canción que no sabes ni quién la canta ni cómo se llama, pero de la que en algún momento escuchaste el estribillo, por ejemplo: " baila morena" , y nuestro " Oráculo" , con enorme generosidad, informa de todos los documentos en los que está incluida la frase:
2.860 resultados en 0, 14 segundos de búsqueda, ¿cómo no amarlo?.
Evidentemente nadie es perfecto, algunas desventajas tenía que tener el invento.
Los robots de búsqueda, con su afán de indexar, colapsaron ciertas redes en el pasado ya que cuando un www robot investiga un servidor adopta la apariencia de usuarios que visitan las web alojadas en él y cuanta más información exista en el servidor, más usuarios creará el robot para analizarla. Hoy en día existen mecanismos para que no se produzcan y la información suficiente para diseñar robots más eficientes.
No hay que perder de vista que son máquinas, diseñadas con los conceptos más pluscuamperfectos del momento, pero máquinas que no son capaces de discernir entre un documento privado, un documento que sólo le interesa a mi grupo de trabajo, un borrador de una tarea pendiente, un documento temporal….. Lo indexan todo y este fue el motivo por el que se crearon los archivos " robots.txt", para indicar a los robots de búsqueda qué documentos tenían o no tenían que añadir a su base de datos.
Depende del robot y de su estrategia de búsqueda. Por lo general empiezan con una lista histórica de URLs, especialmente de aquellos documentos con muchos enlaces a otras webs y con aquellos sitios populares en el Web, es decir, a los que apuntan muchos enlaces de otras webs.
La mayoría de los buscadores permiten también que se ingrese una dirección manualmente de manera que después la visite el robot para su indexación definitiva.
Usan también otros recursos como listas de correo, grupos de discusión, etc. Todo esto les da un punto de partida para comenzar a seleccionar url’s para visitar, analizarlas y usarlas como recurso para incluirlas dentro de su base de datos.
Depende también del robot: algunos ponen en su índice los títulos de los documentos HTML, o los primeros párrafos del texto, o analizan el HTML entero y ponen en un índice todas las palabras, otros analizan la etiqueta del META, o los textos de las imágenes…
Comprobando los registros del servidor: Si existen solicitudes de muchos documentos en un cortísimo espacio de tiempo, imposible de realizar de forma manual, seguramente será porque un robot ha visitado el sitio. También se puede deducir cuantos robots nos han visitado comprobando las solicitudes realizadas al archivo robots.txt.
Los robots que van buscando páginas para indexar en la base de datos de su Agente, lo primero que hacen al visitar un sitio es llamar al fichero robots.txt. Lo primero que busca el robot cuando llega a nuestra web es el fichero http//www.dominio.com/robots.txt. El número de peticiones que reciba este fichero y que constará en las estadísticas, nos indicará el número de veces que hemos sido visitados por un robot de búsqueda.
Nada, déjate querer :-). él trabaja de manera automática y sabe perfectamente qué tiene que hacer.
Creando un archivo llamado robots.txt y alojándolo en la raíz del sitio, ahí mismo dónde situamos la página index. En él se especifican las zonas del sitio que los robots NO TIENEN que indexar, no se especifican NUNCA las zonas que sí queremos que aparezcan en la base de datos de los buscadores, sólo indicaremos lo que NO QUEREMOS que un robot determinado o todos los robots de búsqueda indexen. Mucho ojo con este dato.
Pero si hago una relación de los archivos que no quiero que un robot añada a su índice, le estoy diciendo al resto de la gente qué documentos privados tengo. Los hago invisibles a los robots de búsqueda pero accesibles tecleando la dirección.
La manera óptima de organizar un sitio es incluir en un directorio secundario todos los documentos y archivos que no queremos que indexen los buscadores, prohibir la entrada de los robots en ese directorio y configurar el servidor con unas buenas medidas de seguridad en el caso de tener documentación sensible. El robots.txt no es una medida de seguridad que garantiza la privacidad de los documentos, para eso existen otros métodos, el robots.txt es el resultado de un consenso para evitar que los robots añadan automáticamente a sus índices esos documentos.
Si, en los META de los documentos.
Ya he comentado que lo primero que hace un robot cuando entra en nuestro sitio siguiendo el estándar de exclusión, es una llamada al fichero robots.txt. Seguramente son esas las llamadas, son los robots que intentan ver si se ha especificado alguna norma para el acceso a los ficheros.
Publicado el 09/05/2007, última actualización 09/05/2007.
Seguir @laweberaAutor: t0m|ta, Pimienta y Amanda
Añadir Comentario
Últimas Novedades
2006 - 2012 © LaWebera.es
Aviso Legal - Privacidad
Alojado en CyberNETicos
1 Comentario
Gracias pro laifnormación me queda mas claro y ademas fue divertida la lectura =)
Viernes, 19 de noviembre 2010