Robots.txt principios básicos

El archivo robots.txt se coloca en el directorio principal de la web y lo leerán todas las arañas y robots de búsqueda.

El formato del robots.txt será el siguiente:

User-agent: *
Disallow: 

Donde User-agent es el robot al que haremos referencia y las lineas sucesivas serán interpretadas por el robot.
Con Disallow hacemos que el robot se salte archivos o directorios en concreto.

Los User-agent los podemos encontrar en la siguiente web http://www.robotstxt.org/db.html en donde también hay información sobre ellos.

Ejemplos de uso del robots.txt:
Evitar que los robots rastreen la web:

User-agent: *
Disallow: /

Dar acceso completo a la web

User-agent: *
Disallow:

Excluir ciertas partes de la web

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Excluir solo un robot

User-agent: BadBot
Disallow: /

Permitir acceso sólo a un robot (Google)

User-agent: Google
Disallow:

User-agent: *
Disallow: /

Excluir el rastreo de toda la web menos algunos archivos o carpetas

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html