Que es un crawler o robot web y como funciona

En español se les conoce como arañas web, su función es rastrear todas las url que puedan encontrar a través de hipervínculos. Leen el contenido de los enlaces para después ir agregando las URLs a una lista según el algoritmos de cada robot. Los crawler, son creados frecuentemente por buscadores como: Google, Bing, Apple, MSN, Facebook, Twitter, entre otros.

La periodicidad para que el crawler visite tu sitio es proporcional a la frecuencia que actualizas o generas nuevo contenido.

Los crawlers siguen ciertas reglas de indexación

Existe un archivo llamado robots.txt donde le indicas cual sería el contenido que los buscadores deban tomar en cuenta. Con la información obtenida de tus sitios, los servidores crean un indice en su bases de datos. El uso que cada empresa le dé, depende mucho de su modelo de negocio.
Como funciona un crawler o araña web
Flujo de las arañas web

Los crawlers más frecuentes

Todas cumplen un objetivo similar, indexar información actualizada constantemente

Googlebot

Su función es descubrir nuevas páginas o contenido actualizado de ellas. Googlebot, utiliza un algoritmo para medir la frecuencia de rastreo en todo el universo web al que pueden tener alcance. La forma en que hace el rastreo es a través de enlaces provenientes de sus páginas indexadas.
 
Google maneja políticas de rastreo, el primer paso es indexar para después dar una calificación del valor del contenido. Si quieres que Google indexe más rápido tu contenido, debes crear contenido de calidad de manera constante y periódica.
 
Si deseas medir la frecuencia de rastreo, puedes consultarlo en Google Search Console para ver este tipo de resultados:
Estadística de rastreo de la araña web de Google
Frecuencia de rastreo de un crawler

Como te podrás dar cuenta, Google Webmaster Tools solo almacena datos históricos por hasta 90 días. Pero esto deberías proporcionarle toda la información necesaria para descubrir los hábitos de rastreo de Google relacionados con tu sitio. En este caso, tenemos un promedio de rastreo de 7 páginas por día.

Bingbot

Funciona de la misma manera que Googlebot, también se puede controlar las tasas de rastreo por hora con su propia herramienta de rastreo.
Estadística de rastreo de la araña web de Bing
Estadística de rastreo de Bingbot

Applebot

Hace unos días, estaba revisando las peticiones que se realizan a Mexlike en el analytics de Cloudflare. Me llamó la atención de que existiera un bot llamada Applebot.

Analytics de Cloudflare donde muestra los crawler que indexan tu sitio
Analytics de Cloudflare

Según el sitio oficial de apple, es un agente de búsqueda utilizado para  mejorar sus servicios a través de Siri y Spotlight. Aunque han surgido algunas dudas de su uso, porque apple ha solicitado sus búsquedas en índices de BingWolfram Alpha. Solo podría deducir que apple siempre busca enriquecer su ecosistema de servicio con la calidad que los caracteriza sin depender de terceros.

Como Recomendación

Si quieres controlar lo que deseas que vean en tu sitio, te sugiero que sigas los estándares de robots.txt, así evitarás mandar información innecesaria que al final podría afectar tu reputación.

Espero haberte ayudado con esta información. Para cualquier alguna duda o sugerencia, quedaré al pendiente de tus comentarios. Agradecería mucho si me ayudaras a compartir esta información si crees que le podría servir a alguien más.