Robots de búsqueda. ¿Qué son los robots de los motores de búsqueda Yandex y Google en palabras simples? ¿Qué trabajo hacen los robots araña?

  • Definiciones y terminología
  • Nombres de robots
  • Una pequeña historia
  • ¿Qué hacen los robots de los motores de búsqueda?
  • Comportamiento de los robots en el sitio.
  • control de robots
  • conclusiones

¿Qué son los robots de los motores de búsqueda? ¿Qué función cumplían?¿lo entiendes? ¿Cuáles son las características de los robots de búsqueda? Aquí nosotrosIntentaremos responder a estas y algunas otras preguntas relacionadas conrelacionado con el trabajo de los robots.

Definiciones y terminología

EN idioma en Inglés Hay varias opciones para los nombres de los robots de búsqueda: robots, web bots, rastreadores, arañas; En el idioma ruso, realmente se ha arraigado un término: robots, o bots para abreviar.

En el sitio web www. robotstxt. org define los robots de la siguiente manera:

"Un robot web es un programa que atraviesa la estructura de hipertexto de la WWW consultando y recuperando documentos de forma recursiva".

La palabra clave en esta definición es recursivamente, aquellos. Esto significa que después de recibir el documento, el robot solicitará documentos utilizando enlaces del mismo, etc.

Nombresrobots

La mayoría de los robots de búsqueda tienen su propio nombre único (excepto aquellos robots que por alguna razón se disfrazan de navegadores de usuario).

El nombre del robot se puede ver en el campo Agente de usuario de los archivos de registro del servidor, en los informes de los sistemas de estadísticas del servidor y en las páginas de ayuda de los motores de búsqueda.

Por lo tanto, el robot Yandex se llama colectivamente Yandex, el robot Rambler es StackRambler, ¡el robot Yahoo! - Sorber, etc. Incluso programas de usuario, que recopilan contenido para verlo más tarde, se pueden representar específicamente utilizando información en el campo Usuario-agente.

Además del nombre del robot, el campo Usuario-agente puede contener más información: versión del robot, propósito y dirección de la página con información adicional.

Un pococuentos

En la primera mitad de la década de 1990, durante el desarrollo de Internet, hubo un problema con los robots web, asociado con el hecho de que algunos de los primeros robots podían cargar significativamente el servidor web, incluso hasta el punto de fallar, debido al hecho de que estaban realizando una gran cantidad de solicitudes al sitio en un tiempo demasiado corto. Administradores de sistemas y los administradores de servidores web no tenían la capacidad de controlar el comportamiento del robot dentro de sus sitios, sino que solo podían bloquear completamente el acceso del robot no solo al sitio, sino también al servidor.

En 1994, se desarrolló el protocolo robots.txt para establecer excepciones para los robots y permitir a los usuarios controlar los robots de búsqueda dentro de sus sitios. Lea acerca de estas características en el Capítulo 6, “Hacer que su sitio sea accesible para los motores de búsqueda”.

Posteriormente, a medida que la Red crecía, aumentó el número de robots de búsqueda y su funcionalidad se amplió constantemente. Algunos robots de búsqueda no han sobrevivido hasta el día de hoy y solo permanecen en los archivos de registro del servidor de finales de los años 1990. ¿Quién recuerda ahora al robot T-Rex recopilando información para el sistema Lycos? Extinto como el dinosaurio que le dio nombre. ¿O dónde puedo encontrar Scooter, el robot del sistema Altavista? ¡En ningún lugar! Pero en 2002 todavía estaba indexando documentos de forma activa.

Incluso en el nombre del robot principal de Yandex se puede encontrar un eco de tiempos pasados: un fragmento de su nombre completo “compatible; Win16;” Se agregó por compatibilidad con algunos servidores web más antiguos.

Quéhacerrobotslos motores de búsquedasistemas

¿Qué funciones pueden realizar los robots?

Hay varios robots diferentes que operan en el motor de búsqueda y cada uno tiene su propio propósito. Enumeremos algunas de las tareas realizadas por los robots:

  • procesar solicitudes y recuperar documentos;
  • comprobar enlaces;
  • monitorear actualizaciones; verificar la disponibilidad del sitio o del servidor;
  • análisis del contenido de la página para la posterior colocación de publicidad contextual;
  • recopilación de contenidos en formatos alternativos (gráficos, datos en formatos RSSnAtom).

A modo de ejemplo, aquí hay una lista de robots de Yandex. Yandex utiliza varios tipos de robots con diferentes funciones. Pueden identificarse por la línea Usuario-agente.

  1. Yandex/1.01.001 (compatible; Win 16; I) - el principal robot de indexación.
  2. Yandex/1.01.001 (compatible; Win 16; P) - indexador de imágenes.
  3. Yandex/1.01.001 (compatible; Win 16; H): un robot que detecta sitios espejo.
  4. Yandex/1.03.003 (compatible; Win 16; D): un robot que accede a una página al agregarla a través del formulario "Agregar URL".
  5. Yandex/1.03.000 (compatible; Win 16; M): un robot que accede al enlace "Palabras encontradas" al abrir una página.
  6. YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; В;robot): un robot que indexa archivos xml para búsquedas de blogs.
  7. YandexSomething/1.0: un robot que indexa los flujos de noticias de los socios de Yandex.News y los archivos de robots. txt para el robot de búsqueda de blogs.

Además, Yandex emplea varios robots de escaneo: "justo-asentir", que sólo verifican la disponibilidad de los documentos, pero no los indexan.

  1. Yandex/2.01.000 (compatible; Win 16; Dyatel; C) - "simple guiño" de Yandex.Catalog. Si un sitio no está disponible durante varios días, se elimina de la publicación. Tan pronto como el sitio comienza a responder, aparece automáticamente en el directorio.
  2. Yandex/2.01.000 (compatible; Win 16; Dyatel; Z) - "simple guiño" para Yandex.Bookmarks. Los enlaces a sitios no disponibles están resaltados en gris.
  3. Yandex/2.01.000 (compatible; Win 16; Dyatel; D) - "procrastinación" de Yandex.Direct. Ella verifica la exactitud de los enlaces de los anuncios antes de la moderación.

Aún así, los robots más comunes son los que solicitan, reciben y archivan documentos para su posterior procesamiento mediante otros mecanismos. buscador. Aquí sería apropiado separar el robot del indexador.

El robot de búsqueda rastrea sitios y recibe documentos de acuerdo con su lista interna de direcciones. En algunos casos, el robot puede realizar un análisis básico de documentos para completar la lista de direcciones. El indexador del motor de búsqueda lleva a cabo el procesamiento posterior de los documentos y la construcción del índice del motor de búsqueda. El robot de este esquema es simplemente un "mensajero" para recopilar datos.

Comportamiento de los robots en el sitio.

¿En qué se diferencia el comportamiento de un robot en un sitio web del de un usuario normal?

  1. Controlabilidad. En primer lugar, un robot "inteligente" debe solicitar un archivo de robots al servidor. txt con instrucciones de indexación.
  2. Bombeo selectivo. Al solicitar un documento, el robot indica claramente los tipos de datos solicitados, a diferencia de un navegador normal, que está dispuesto a aceptarlo todo. Los principales robots de los motores de búsqueda populares solicitarán principalmente hipertexto y mensajes regulares. documentos de texto, dejando archivos desatendidos Estilo CSS, imágenes, vídeos. Archivos zip, etc. Actualmente, la información también está en demanda. formatos PDF, Texto enriquecido, MS Word, MS Excel y algunos otros.
  3. Imprevisibilidad. Es imposible rastrear o predecir la ruta de un robot a un sitio, ya que no deja información en el campo Referer: la dirección de la página de donde vino; el robot simplemente solicita una lista de documentos, aparentemente en orden aleatorio, pero en realidad de acuerdo con su lista interna o cola de indexación.
  4. Velocidad. Poco tiempo entre solicitudes de diferentes documentos. Aquí estamos hablando de segundos o fracciones de segundo entre solicitudes de dos documentos diferentes. Algunos robots incluso tienen instrucciones especiales que se especifican en el archivo de robots. txt, para limitar la velocidad de solicitud de documentos para no sobrecargar el sitio.

No sabemos cómo se vería una página HTML a los ojos de un robot, pero podemos intentar imaginarla desactivando la visualización de gráficos y estilos en el navegador.

Por tanto, podemos concluir que los robots de búsqueda cargan la estructura HTML de la página en su índice, pero sin elementos de diseño ni imágenes.

control de robots

¿Cómo puede un webmaster controlar el comportamiento de los robots de búsqueda en su sitio web?

Como se mencionó anteriormente, en 1994, como resultado de un debate abierto entre los webmasters, se desarrolló un protocolo de excepción especial para robots. Hasta la fecha, este protocolo no se ha convertido en un estándar que obligado cumpla con todos los robots sin excepción, permaneciendo solo en el estado de recomendaciones estrictas. No existe ninguna autoridad donde pueda quejarse de un robot que no cumple con las reglas de exclusión; solo puede negar el acceso al sitio utilizando la configuración del servidor web o las interfaces de red para las direcciones IP desde las cuales los "no inteligentes" El robot envió sus solicitudes.

Sin embargo, los robots de los principales motores de búsqueda siguen reglas de exclusión y, además, les añaden sus propias extensiones.

Acerca de las instrucciones en el archivo especial robots.txt. y la metaetiqueta especial robots se analizó en detalle en el Capítulo 6, “Cómo hacer que su sitio sea accesible para los motores de búsqueda”.

Al utilizar instrucciones adicionales en robots.txt que no están incluidas en el estándar, algunos motores de búsqueda le permiten controlar de manera más flexible el comportamiento de sus robots. Así, utilizando la instrucción Crawl-dela, un webmaster puede establecer el intervalo de tiempo entre solicitudes sucesivas de dos documentos para los robots de Yahoo! y MSN, y utilizando las instrucciones No-; t especifique la dirección del espejo del sitio principal de Yandex. Sin embargo, trabajar con instrucciones no estándar en robots. txi debe tener mucho cuidado, ya que el robot de otro buscador puede ignorar no sólo instrucciones que no comprende, sino también todo el conjunto de reglas asociadas a él.

También puedes gestionar las visitas de los robots de búsqueda de forma indirecta, por ejemplo, un robot de búsqueda. sistemas de google a menudo volverá a recuperar aquellos documentos a los que se hace mucha referencia en otros sitios.

Las arañas de los motores de búsqueda son robots de Internet cuya tarea es rastrear sistemáticamente páginas en la World Wide Web para garantizar la indexación web. Tradicionalmente, el escaneo del espacio WWW se realiza para actualizar información sobre el contenido publicado en la red con el fin de proporcionar a los usuarios información actualizada sobre el contenido de un recurso en particular. En este artículo se analizarán los tipos de robots de búsqueda y sus características.

buscar arañas También se puede llamar de otra manera: robots, arañas web, rastreadores. Sin embargo, independientemente del nombre, todos se dedican a un estudio constante y continuo de los contenidos del espacio virtual. El robot mantiene una lista de URL desde las que se descargan documentos periódicamente. Si la araña encuentra un nuevo enlace durante el proceso de indexación, se agrega a esta lista.

Por lo tanto, las acciones de un rastreador se pueden comparar con las de una persona común y corriente que utiliza un navegador. La única diferencia es que nosotros abrimos sólo los enlaces que nos interesan, y el robot abre todo aquello sobre lo que tiene información. Además, el robot, una vez familiarizado con el contenido de la página indexada, transmite datos sobre ella en un formulario especial a los servidores del motor de búsqueda para su almacenamiento hasta que el usuario lo solicite.

Al mismo tiempo, cada robot realiza su propia tarea específica: algunos indexan el contenido de texto, otros indexan los gráficos, otros guardan el contenido en un archivo, etc.

La principal tarea de los motores de búsqueda.- crear un algoritmo que le permitirá obtener información de forma rápida y completa, porque ni siquiera los gigantes de las búsquedas tienen la capacidad de proporcionar un proceso de escaneo completo. Por lo tanto, cada empresa ofrece a los robots fórmulas matemáticas únicas, tras las cuales el robot selecciona una página para visitar en el siguiente paso. Esto, junto con los algoritmos de clasificación, es uno de los criterios más importantes por los que los usuarios eligen un motor de búsqueda: donde la información sobre los sitios es más completa, actualizada y útil.

Es posible que un robot de motor de búsqueda no conozca su sitio si no hay enlaces a él (lo cual quizás sea raro: hoy, después de registrar un nombre de dominio, se encuentran referencias al mismo en Internet). Si no hay enlaces, debe comunicárselo al motor de búsqueda. Para ello, por regla general, “ cuentas personales» administradores de web.

¿Cuál es la principal tarea de los robots de búsqueda?

Por mucho que nos guste, la tarea principal de un robot de búsqueda no es en absoluto informar al mundo sobre la existencia de nuestro sitio. Es difícil formularlo, pero aún así, partiendo del hecho de que los motores de búsqueda funcionan sólo gracias a sus clientes, es decir, los usuarios, el robot debe proporcionar una búsqueda e indexación rápida de los datos publicados en la red. Sólo esto permite que el motor de búsqueda satisfaga la necesidad de la audiencia de obtener resultados de búsqueda relevantes y relevantes.

Por supuesto, los robots no pueden indexar el 100% de los sitios web. Según una investigación, el número de páginas cargadas por los líderes de búsqueda no supera el 70% del número total de URL publicadas en Internet. Sin embargo, la profundidad con la que el bot estudie su recurso también afectará la cantidad de usuarios que siguen las consultas de la búsqueda. Por eso los optimizadores se atormentan al intentar "alimentar" al robot para que se familiarice con los cambios lo más rápido posible.

En Runet, solo en 2016 Yandex ascendió al segundo lugar en términos de cobertura de audiencia mensual, detrás de Google. Por lo tanto, no es sorprendente que tenga la mayor cantidad de arañas que exploran el espacio entre las PS domésticas. No tiene sentido enumerarlos por completo: se puede ver en el apartado “Ayuda al webmaster” > Administrar un robot de búsqueda > Cómo comprobar que el robot pertenece a Yandex.

Todos los rastreadores de motores de búsqueda tienen un agente de usuario estrictamente regulado. Entre los que un creador de sitios definitivamente deberá cumplir:

  • Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) - robot de indexación principal;
  • Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 como Mac OS X) AppleWebKit/600.1.4 (KHTML, como Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex .com/bots) - araña de indexación;
  • Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) - bot Yandex.Images;
  • Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) - indexa materiales multimedia;
  • Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots): indexa los iconos del sitio.

Para atraer arañas Yandex a su sitio, se recomienda seguir unos sencillos pasos:

  • configurar robots.txt correctamente;
  • crear una fuente RSS;
  • colocar un mapa del sitio con una lista completa de páginas indexadas;
  • crear una página (o páginas) que contendrá enlaces a todos los documentos del recurso;
  • configurar estados HTTP;
  • asegurar la actividad social después de la publicación de los materiales (y no sólo comentarios, sino también compartir el documento);
  • Colocación intensiva de nuevos textos únicos.

Este último argumento está respaldado por la capacidad de los robots para recordar la velocidad a la que se actualiza el contenido y llegar al sitio con la frecuencia detectada de agregar nuevos materiales.

Si desea denegar a los rastreadores de Yandex el acceso a páginas (por ejemplo, secciones técnicas), debe configurar el archivo robots.txt. Las arañas PS pueden comprender las excepciones estándar de los bots, por lo que normalmente no surgen dificultades al crear un archivo.

Agente de usuario: Yandex

No permitir: /

prohibirá al PS indexar todo el sitio.

Además, los robots de Yandex pueden tener en cuenta las recomendaciones especificadas en las metaetiquetas. Ejemplo: prohibirá la manifestación en la emisión de un enlace a una copia de un documento del archivo. Y agregando una etiqueta al código de la página. indicará que este documento no es necesario indexar.

Lista llena Los valores válidos se pueden encontrar en la sección "Uso de elementos HTML" de la Ayuda para webmasters.

robots de búsqueda de Google

El principal mecanismo de Google para indexar contenido WWW se llama Googlebot. Su motor está configurado para examinar miles de millones de páginas todos los días para encontrar documentos nuevos o modificados. Al mismo tiempo, el propio robot determina qué páginas escanear y cuáles ignorar.

Para este rastreador, es importante que el sitio tenga un archivo de mapa del sitio proporcionado por el propietario del recurso. La red de computadoras que asegura su funcionamiento es tan poderosa que el bot puede realizar solicitudes a las páginas de su sitio una vez cada dos segundos. Y el bot está configurado para analizar una mayor cantidad de páginas de una sola vez, para no provocar una carga en el servidor. Si su sitio se ve ralentizado por solicitudes frecuentes de arañas, puede cambiar la velocidad de rastreo ajustando Consola de búsqueda. Lamentablemente, no es posible aumentar la velocidad de escaneo.

Se le puede pedir al robot de Google que vuelva a rastrear el sitio. Para hacer esto, debe abrir Search Console y buscar la función Agregar al índice, que está disponible para los usuarios de la herramienta Explorar como Googlebot. Después de escanear, aparecerá el botón Agregar al índice. Sin embargo, Google no garantiza que todos los cambios serán indexados, ya que el proceso implica el trabajo de “algoritmos complejos”.

Herramientas útiles

Es bastante difícil enumerar todas las herramientas que ayudan a los optimizadores a trabajar con bots, ya que hay muchas. Además del "Ver como Googlebot" mencionado anteriormente, vale la pena señalar los analizadores de archivos robots.txt de Google y Yandex, los analizadores de archivos de mapas de sitios y el servicio "Verificar la respuesta del servidor" del PS ruso. Gracias a sus capacidades, podrás imaginar cómo se ve tu sitio a los ojos de una araña, lo que te ayudará a evitar errores y garantizar el rastreo más rápido de tu sitio.

¡Hola a todos! Hoy les contaré cómo funciona un robot de búsqueda. También aprenderás qué son los robots de búsqueda. Su finalidad y características.

Para empezar, comenzaré con una definición.

Un robot de búsqueda es un tipo de programa que visita enlaces de hipertexto, extrae todos los documentos posteriores de un recurso en particular y los ingresa en el índice del motor de búsqueda.

Cada robot de búsqueda tiene su propio nombre exclusivo: Crawler, Spider, etc.

¿Qué hace un robot de búsqueda?

Como ya dije, cada robot tiene su propio nombre único y, en consecuencia, cada uno realiza su trabajo específico, o digamos, su propósito.

Veamos qué funciones realizan:

  • Solicitud de acceso al sitio;
  • Solicitud de procesamiento y recuperación de páginas;
  • Solicitud de análisis de contenido;
  • Buscar enlaces;
  • Actualizaciones de seguimiento;
  • Consulta de datos RSS (recopilación de contenidos);
  • Indexación.

Por ejemplo, Yandex tiene varios robots que indexan, analizan y recopilan información por separado sobre los siguientes datos:

  • Video;
  • Imágenes;
  • Espejo del sitio;
  • Archivos XML;
  • Archivo robots.txt;
  • Comentarios;

En general, en esencia, un robot de búsqueda simplemente visita los recursos de Internet y recopila los datos necesarios, que luego transfiere al indexador del motor de búsqueda.

Es el indexador del motor de búsqueda el que procesa los datos recibidos y crea el índice del motor de búsqueda correctamente. Incluso diría que el robot es un “mensajero” que simplemente recopila información.

Cómo se comportan los robots y cómo controlarlos

Las diferencias entre el comportamiento de un robot y el de un usuario habitual en el sitio son las siguientes:

1. En primer lugar, se trata de la controlabilidad. En primer lugar, el robot solicita a tu hosting () el archivo robots.txt, que indica qué se puede indexar y qué no.

2. Lo que hace especial al robot es su velocidad. Entre cada solicitud que pertenece a dos varios documentos, su velocidad es de segundos, o incluso fracciones de segundo.

Incluso para esto, existe una regla especial que se puede especificar en el archivo robots.txt para que el robot del motor de búsqueda pueda establecer un límite de solicitudes, reduciendo así la carga en el blog.

3. Además, me gustaría señalar su imprevisibilidad. Cuando un robot visita tu blog, no se pueden rastrear sus acciones, es imposible saber de dónde vino, etc. Funciona según su propio principio y en el orden en que se construye la cola de indexación.

4. Y un punto más es cuando el robot presta atención en primer lugar a los documentos de hipertexto y de texto, y no a ningún archivo relacionado con el diseño CSS, etc.

¿Quieres ver cómo se ve la página de tu blog en un motor de búsqueda? Simplemente desactive Flash, las imágenes y los estilos de diseño en su navegador.

Y verás que cualquier robot de búsqueda introduce en el índice sólo el código HTML de la página, sin imágenes ni otro contenido.

Y ahora toca hablar de cómo gestionarlos. Como dije antes, puedes controlar los robots a través de un archivo especial robots.txt, en el que puedes escribir las instrucciones y excepciones que necesitamos para controlar su comportamiento en tu blog.

Es una parte integral de un motor de búsqueda y está diseñado para clasificar páginas de Internet para ingresar información sobre ellas en la base de datos del motor de búsqueda. El principio de funcionamiento de la araña se parece al de un navegador normal. Analiza el contenido de la página, lo almacena de alguna forma especial en el servidor del motor de búsqueda al que pertenece y envía enlaces a páginas posteriores. Los propietarios de motores de búsqueda a menudo limitan la profundidad de la penetración de las arañas dentro de un sitio y el tamaño máximo del texto escaneado, por lo que es posible que el motor de búsqueda no indexe completamente los sitios demasiado grandes. Además de las arañas comunes, existen las llamadas " pájaros carpinteros”: robots que “tocan” un sitio indexado para determinar si es accesible.

El orden de recorrido de las páginas, la frecuencia de las visitas, la protección contra bucles y los criterios para resaltar información importante están determinados por algoritmos de recuperación de información.

En la mayoría de los casos, la transición de una página a otra se realiza siguiendo los enlaces contenidos en la primera página y en las siguientes.

Además, muchos motores de búsqueda brindan al usuario la oportunidad de agregar de forma independiente un sitio a la cola para su indexación. Por lo general, esto acelera significativamente la indexación del sitio y, en los casos en que no hay enlaces externos que conduzcan al sitio, resulta ser prácticamente la única forma de indicar su existencia. De otra manera indexación rápida El sitio está agregando al sitio sistemas de análisis web pertenecientes a servicios de búsqueda. Por ejemplo, Google Analytics, Yandex.Metrica y [email protected] de Google, Yandex y Mail.Ru, respectivamente.

Puede limitar la indexación de sitios utilizando el archivo robots.txt. Se puede proporcionar protección total contra la indexación mediante otros mecanismos, como establecer una contraseña en la página o solicitarle que complete un formulario de registro antes de acceder al contenido.

YouTube enciclopédico

  • 1 / 3

    Puntos de vista:

Al revisar los registros del servidor, a veces se puede observar un interés excesivo en los sitios por parte de los robots de búsqueda. Si los bots son útiles (por ejemplo, los bots de indexación de PS), solo queda observar, incluso si aumenta la carga en el servidor. Pero también hay muchos robots menores cuyo acceso al sitio no es necesario. Para mí y para usted, querido lector, recopilé la información y la convertí en una cómoda tableta.

¿Quiénes son los robots de búsqueda?

robot de búsqueda, o como también se les llama, robot, rastreador, araña, nada más que un programa que busca y escanea el contenido de sitios web siguiendo enlaces en las páginas. No son sólo los motores de búsqueda los que tienen robots de búsqueda. Por ejemplo, el servicio Ahrefs utiliza arañas para mejorar los datos de los vínculos de retroceso, Facebook realiza un raspado web del código de la página para mostrar vínculos vueltos a publicar con títulos, imágenes y descripciones. El web scraping es la recopilación de información de diversos recursos.

Usando nombres de araña en robots.txt

Como puedes ver, cualquier proyecto serio relacionado con la búsqueda de contenidos tiene sus propias arañas. Y a veces la tarea urgente es restringir el acceso de determinadas arañas al sitio o a sus secciones individuales. Esto se puede hacer a través del archivo robots.txt en el directorio raíz del sitio. Escribí más sobre la configuración de robots anteriormente, te recomiendo que lo leas.

Tenga en cuenta que los robots de búsqueda pueden ignorar el archivo robots.txt y sus directivas. Las directivas son sólo recomendaciones para los bots.

Puede configurar una directiva para un robot de búsqueda utilizando la sección: contactar al agente de usuario de este robot. Las secciones para diferentes arañas están separadas por una línea en blanco.

Agente de usuario: Googlebot Permitir: /

Agente de usuario: robot de Google

Permitir: /

Arriba se muestra un ejemplo de una llamada al principal motor de búsqueda de Google.

Inicialmente, planeé agregar entradas a la tabla sobre cómo se identifican los robots de búsqueda en los registros del servidor. Pero como estos datos tienen poca importancia para SEO y para cada token de agente puede haber varios tipos de registros, se decidió conformarse únicamente con el nombre de los bots y su propósito.

Robots de búsqueda Google

Agente de usuario Funciones
robot de Google El principal rastreador-indexador de páginas para PC y optimizado para smartphones
Mediapartners-Google Robot de la red publicitaria AdSense
API-Google API-Agente de usuario de Google
AdsBot-Google Comprueba la calidad de la publicidad en páginas web destinadas a PC.
AdsBot-Google-Móvil Comprueba la calidad de la publicidad en páginas web diseñadas para dispositivos móviles
Imagen del robot de Google (Googlebot) Indexa imágenes en páginas web
Googlebot-Noticias (Googlebot) Busca páginas para agregar a Google Noticias
Googlebot-Video (Googlebot) Índices de materiales de vídeo.
AdsBot-Google-Aplicaciones-móviles Comprueba la calidad de la publicidad en aplicaciones de Dispositivos Android, funciona según los mismos principios que el AdsBot normal.

Buscar índice de robots

Agente de usuario Funciones
yandex Cuando especifica este token de agente en robots.txt, la solicitud se envía a todos los bots de Yandex.
YandexBot Robot de indexación básico
YandexDirecto Descarga información sobre el contenido de los sitios asociados de YAN
YandexImágenes Indexa imágenes de sitios web
YandexMetrika Robot Yandex.Metrica
YandexMobileBot Descarga documentos para analizar la presencia de diseño para dispositivos móviles.
YandexMedia Robot indexando datos multimedia
YandexNoticias Yandex.Indizador de noticias
YandexPagechecker Validador de micromarcado
YandexMercado Robot Yandex.Market;
YandexCalenda Yandex.Calendario robot
YandexDirectDyn Genera banners dinámicos (Directo)
YaDirectFetcher Descarga páginas de anuncios para consultar su disponibilidad y aclarar temas (YAN)
YandexAccesibilidadBot Descargas de páginas para comprobar su disponibilidad para los usuarios.
YandexCaptura de pantallaBot Toma una instantánea (captura de pantalla) de la página.
YandexVideoParser Araña del servicio Yandex.Video
YandexBuscarTienda Descarga archivos YML de catálogos de productos.
YandexOntoDBAPI Bot de respuesta a objetos descargando datos dinámicos

Otros robots de búsqueda populares

Agente de usuario Funciones
Baiduspider Araña del motor de búsqueda chino Baidu
Cliqzbot Robot del buscador anónimo Cliqz
AhrefsBot Bot de búsqueda de Ahrefs (análisis de enlaces)
Genio robot de servicio genio
Bingbot Rastreador del motor de búsqueda Bing
Sorber Rastreador del motor de búsqueda de Yahoo
PatoPatoBot Rastreador web PS DuckDuckGo
facebot Robot de Facebook para rastreo web
WebAlta (rastreador WebAlta/2.0) Rastreador de búsqueda PS WebAlta
BombaBot Escanea páginas involucradas en el proyecto Bombora.
CCBot Rastreador basado en Nutch que utiliza el proyecto Apache Hadoop
MSNBot Bot de PS MSN
correo.ru Rastreador del motor de búsqueda Mail.Ru
ia_archiver Eliminación de datos para el servicio Alexa
Teoma Preguntar al robot de servicio

Hay muchos robots de búsqueda, seleccioné solo los más populares y famosos. Si hay bots que ha encontrado debido al escaneo agresivo y persistente de sitios, indíquelo en los comentarios, también los agregaré a la tabla.