Existen hoy muchas opciones para crear nuestro propio spider, soluciones de código abierto que son realmente potentes.

Nutch es posiblemente la mejor opción para crear tu propia araña o rastreador de páginas web. Este fue construido sobre el concepto de Lucene (tiene una opción comercial) y soportado por Hadoop usando MapReduce (similar a Google) para grandes volúmenes y consultas de datos. Todos estos están basados en Java, pero existen versiones basadas en .net como Lucene.NETNutch.NET y Hadoop.NET que han sido portados a C#.

Pero la cosa no queda aquí y aunque Nutch es posiblemente la mejor opción para crear un rastreador y tener tu propio Google o Bing, hay otras opciones que os detallamos en esta pequeña lista:

  • Arachnode. Basado en C# y .net
  • Scrapy es una herramienta rápida para el rastreo de sitio web y extraer datos de la estructura de sus páginas.
  • Heritrix es un proyecto de rastreo de Internet Archive.
  • ASPseek es una araña desarrollada por Plesk en C++ aunque abandonado en su desarrollo.
  • Crawler4j es un rastreador de código abierto que proporciona una sencilla interfaz para el rastreo de sitios web.
  • HTTrack es una aplicación gratis y de código abierto para rastrear sitios webs desde tu escritorio y poder navegar offline por las webs.
  • Open Search Server es una solución para crear un buscador de código abierto.
  • YaYy otra opción para rastrear y crear un buscador de código abierto y en castellano.
  • Sphider.eu. Un rastreador hecho en PHP.
  • ¿Qué es un rastreador web? según Wikipedia en inglés
  • Más buscadores de código abierto (algunos con rastreadores).