Existen hoy muchas opciones para crear nuestro propio spider, soluciones de código abierto que son realmente potentes.
Nutch es posiblemente la mejor opción para crear tu propia araña o rastreador de páginas web. Este fue construido sobre el concepto de Lucene (tiene una opción comercial) y soportado por Hadoop usando MapReduce (similar a Google) para grandes volúmenes y consultas de datos. Todos estos están basados en Java, pero existen versiones basadas en .net como Lucene.NET, Nutch.NET y Hadoop.NET que han sido portados a C#.
Pero la cosa no queda aquí y aunque Nutch es posiblemente la mejor opción para crear un rastreador y tener tu propio Google o Bing, hay otras opciones que os detallamos en esta pequeña lista:
- Arachnode. Basado en C# y .net
- Scrapy es una herramienta rápida para el rastreo de sitio web y extraer datos de la estructura de sus páginas.
- Heritrix es un proyecto de rastreo de Internet Archive.
- ASPseek es una araña desarrollada por Plesk en C++ aunque abandonado en su desarrollo.
- Crawler4j es un rastreador de código abierto que proporciona una sencilla interfaz para el rastreo de sitios web.
- HTTrack es una aplicación gratis y de código abierto para rastrear sitios webs desde tu escritorio y poder navegar offline por las webs.
- Open Search Server es una solución para crear un buscador de código abierto.
- YaYy otra opción para rastrear y crear un buscador de código abierto y en castellano.
- Sphider.eu. Un rastreador hecho en PHP.
- ¿Qué es un rastreador web? según Wikipedia en inglés
- Más buscadores de código abierto (algunos con rastreadores).