Robots.txt no es un archivo inútil, es realmente útil sobre todo si utilizas algún CMS como WordPress, sobre todo para evitar el contenido duplicado.
El archivo robots.txt le indica a los robots de los buscadores, cuales páginas de tu sitio pueden agregar al buscador y cuales no. ¿Para qué hacer eso? Primero, para evitar el contenido duplicado y segundo, debido a que a lo mejor hay ciertas páginas o carpetas de tu sitio, que no quieres que la gente las encuentre a través de un buscador.
Ahora empezemos, vamos a crear un archivo llamado Robots.txt y dentro de ese archivo, agregar lo siguiente:
sitemap: http://www.TUBLOG.com/sitemap.xml
User-agent: *
Disallow: /cgi-bin/Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /author/
Disallow: /archives/
Disallow: /trackback/
Disallow: /feed/
User-agent: Googlebot-Image
Allow: /*
User-agent: Mediapartners-Google
Allow: /*
¿Qué es eso te preguntarás? Pues te explicaré.
http://www.TUBLOG.com/sitemap.xml, sustituye tublog.com con el link de tu blog. Esto lo que hace es indicarle a los bots de los buscadores, cual es el sitemap de tu blog.
“Disallow” se encarga es decirle a los buscadores, que no tomen en cuenta esoas páginas o carpetas.
Recuerda, el robots.txt que te acabo de mostrar es si usas WordPress. Si no lo usas, puedes crear un robots.txt donde indiques que carpetas o archivos quieres que los buscadores no tomen encuenta agregando lo siguiente:
User-agent: *
Disallow: /carpeta/
User-agent: * significa que todos los buscadores deben seguir las instrucciones que darás a continuación
Disallow: /carpeta/ significa que no deberan indexar esa “carpeta” a los buscadores