El archivo robots.txt se coloca en el directorio principal de la web y lo leerán todas las arañas y robots de búsqueda.
El formato del robots.txt será el siguiente:
User-agent: * Disallow:
Donde User-agent es el robot al que haremos referencia y las lineas sucesivas serán interpretadas por el robot.
Con Disallow hacemos que el robot se salte archivos o directorios en concreto.
Los User-agent los podemos encontrar en la siguiente web http://www.robotstxt.org/db.html en donde también hay información sobre ellos.
Ejemplos de uso del robots.txt:
Evitar que los robots rastreen la web:
User-agent: * Disallow: /
Dar acceso completo a la web
User-agent: * Disallow:
Excluir ciertas partes de la web
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/
Excluir solo un robot
User-agent: BadBot Disallow: /
Permitir acceso sólo a un robot (Google)
User-agent: Google Disallow: User-agent: * Disallow: /
Excluir el rastreo de toda la web menos algunos archivos o carpetas
User-agent: * Disallow: /~joe/junk.html Disallow: /~joe/foo.html Disallow: /~joe/bar.html