¿Qué es un bot de rastreador web?


¿Qué es un bot de rastreador web?

Los rastreadores web, arañas o bots de motor de búsqueda descargan e indexan contenido de todo Internet. El objetivo de estos bots es descubrir de qué tratan (casi) todas las páginas web, para que se pueda recuperar la información cuando sea necesario. Se conocen como «rastreadores web» porque rastrear es el término técnico para acceder automáticamente a un sitio web y obtener datos mediante un programa de software.

Estos bots los operan casi siempre motores de búsqueda. Mediante la aplicación de un algoritmo de búsqueda a los datos recopilados por los rastreadores web, los motores de búsqueda pueden proporcionar enlaces relevantes en respuesta a las consultas de búsqueda de los usuarios, lo cual genera la lista de páginas web que aparece después de que un usuario realice una búsqueda en Google o Bing (o cualquier otro motor de búsqueda).

Un bot de rastreador web es como alguien que repasa todos los libros de una biblioteca desorganizada, y crea un catálogo de fichas para que cualquiera que visite la biblioteca pueda encontrar de forma rápida y fácil la información que necesita. Para poder catalogar y clasificar los libros de la biblioteca por tema, el organizador tendrá que leer el título, el resumen y parte del texto de cada libro para descubrir de qué trata.

Sin embargo, a diferencia de una biblioteca, Internet no está formado por pilas de libros, y eso dificulta saber si toda la información necesaria se ha indexado correctamente o si se ha pasado por una gran cantidad de información. Para tratar de encontrar toda la información relevante que ofrece Internet, un bot de rastreador web empezará con un determinado conjunto de páginas web conocidas y seguirá los hipervínculos de esas páginas a otras páginas, seguirá los hipervínculos de esas otras páginas a páginas adicionales, y así sucesivamente.

No se conoce cuánto del Internet disponible públicamente llegan a rastrear los bots de motores de búsqueda. Algunas fuentes estiman que solo el 40-70 % de Internet está indexado para su búsqueda: eso supone miles de millones de páginas web.