Robots.txt – ¿Qué es y cómo configurarlo? La guia definitiva 2019
¿Qué es el archivo robots.txt?
El archivo robots.txt, es un archivo de texto plano (.txt) que sirve priniciplamente para indicar a los robots que partes de nuestra web pueden o no pueden visitar siguiendo una sintaxis que veremos más adelante. También tiene otras funciones como informar a los robots de la URL del Sitemap de nuestro site o especificar un delay.
Donde se ubica
Es un archivo que siempre se tiene que crear en la raíz de nuestro dominio. Esto significa que si nuestra web es: dominio.com la URL del robots.txt tiene que ser dominio.com/robots.txt. En el caso de los subdominios, tendremos que subir un robots.txt para cada uno de ellos. Por ejemplo:
dominio.com/robots.txt
sub1.dominio.com/robots.txt
sub2.dominio.com/robots.txt
Es importante tener en cuenta que el único sitio donde se puede poner el robots.txt es en la raíz del dominio, ya que muchos webmasters cometen el error de querer especificar reglas dentro de directorios y quedan cosas como estas (domino.com/actualidad/robots.txt) que son completamente erróneas:
Como se crea el archivo robots.txt
Para crear el archivo robots.txt no se necesitan grandes conocimientos. Es tan fácil cómo crear un archivo .txt con cualquier editor de texto que tengamos instalado (Notepad, Sublime, Atom, Editor de notas…) y guardarlo con el nombre robots.txt. Una vez creado, lo rellenaremos según como nos interese, tal y como veremos en el siguiente punto y ya sólo faltará subirlo por FTP a la raíz del dominio. ¿Fácil, no? Una vez subido, solo nos faltará comprobar que funcione intentando acceder a él desde el navegador: https://TUDOMINIO.com/robots.txt
Sintaxis y cómo funciona el robots.txt
Tal y cómo hemos visto anteriormente este archivo nos permite indicar varias directrices a los robots. A continuación os muestro como crear y como funciona cada una de las principales directrices de los robots.txt.
User-agent
Los User-agent son los distintos robots que existen. Suele haber un robot para cada servicio/empresa. Por ejemplo, en el siguiente listado, podemos ver como Google tiene el suyo, Bing otro… Más adelante veremos una lista con los más populares.
User-agent: Googlebot Allow: / Disallow: /privado User-agent: Bingbot Allow: / Disallow: /nobing
User-agent: *
Allow: /
En el ejemplo anterior podemos ver lo siguiente:
A los robots de Google les permitimos rastrear todo el site, excepto el directorio /privado.
A los robots de Bing, les permitimos acceder a todo el site, excepto al directorio /nobing.
A todo el resto de robots (User-agent: *), les permitimos acceder a todo el sitio incluso a /privado y /onlyforgoogle.
Así pues, vemos como podemos especificar diferentes reglas para diferentes user agents.
Los 8 user agents más conocidos
Servicio | User-agent |
---|---|
Googlebot | |
Bing | Bingbot |
Yahoo | Slurp |
Yandex | YandexBot |
Facebot | |
Alexa | ia_archiver |
DuckDuckGo | DuckDuckBot |
Baidu | Baiduspider |
Disallow
Disallow podríamos decir que es el comando que más se utiliza. Con este comando, lo que hacemos es decirle a los robots, a que URLs no puede acceder y por lo tanto son URLs que no se rastrearán. OJO Más adelante trataremos este punto, pero no hay que utilizar el Disallow para desindexar o evitar que se indexe una URL.
1.- Disallow: /
2.- Disallow: /admin
3.- Disallow: /*.htm
En el ejemplo anterior podemos ver lo siguiente:
1.- No permitimos rastrear ninguna página del site.
2.- No permitimos rastrear ninguna página a partir de /admin. Por ejemplo dominio.com/admin/mi-perfil no se podría rastrear
3.- No permitimos rastrear ningún archivo .htm de todo el site.
Como ejemplo curioso os adjunto una captura del robots.txt que tenía la web de la casa real cuando salió a la luz el caso de Urdangarin.
¿En que casos puede ser útil?
Principalmente, deberíamos usar el Disallow cuando tenemos URLs que no queremos que los robots rastreen o que no son importantes y sabemos que no nos van a aportar tráfico a través de SEO. Lo que conseguimos con esto es optimizar el Crawl Budget y por lo tanto aprovechar más el tiempo que los robots dedican a nuestro site para que rastree las páginas que realmente nos interesa posicionar.
Allow
Allow: /admin/perfil-publico
Allow indica que los robots pueden acceder a una URL en concreto. Por defecto sino ponemos ni allow ni disallow, los robots entienden que pueden rastrear una URL. ¿Entonces, si por defecto ya es todo Allow, porque nos interesa especificarlo? Pues bien, os pongo un ejemplo en donde sería útil.
¿En que casos puede ser útil?
Imaginaos que hacemos un disallow del siguiente directorio:
Disallow: /wp-content/plugins/
Esto haría que los robots no pudieran acceder a ningún archivo que estuviera dentro de la carpeta plugins. Pero resulta que si que queremos indexar los ficheros css y js que están dentro de plugins. Entonces podemos hacer lo siguiente:
Allow: /wp-content/plugins/*.css
Con estas dos líneas (disallow y allow), lo que conseguimos es que los robots solo puedan rastrear los archivos css y js de dentro la carpeta plugins.
Sitemap
Una recomendación que muchas veces pasan por alto los webmasters, es indicar la URL del sitemap de la web en el robots.txt. Si seguimos la recomendación y lo indicamos, los robots podrán rastrear de una forma más optima nuestra web.
Sitemap: https://dominio.com/sitemap.xml
#Comentarios
Podemos introducir comentarios dentro del archivo robots.txt. Estos comentarios no serán leídos por los robots, sino que simplemente son comentarios que podemos dejar en el archivo para nosotros mismos o para los curiosos que vengan a chafardear nuestro robots.txt. Hay que tener en cuenta que el archivo robots.txt es publico y por lo tanto lo puede leer cualquiera.
Tal y como vemos en el siguiente ejemplo, para poner un comentario, solo hay que poner un # al principio de la línea que sea un comentario.
#Esto es una linea de ejemplo de como se introduce un comentario
Aquí os dejo el robots.txt de una web, que han decidido jugar un poco con los comentarios y les ha quedado una obra de arte.

www.fastfwd.com/robots.txt
Uitlizar el robots.txt para desindexar o no indexar una URL es un error
Imaginaos que tenemos una URL que queremos que deje de aparecer en Google o cualquier otro buscador. Podría parecer una buena idea poner un disallow en el robots.txt y así Google ya no la podrá rastrear. Pues bien, esto no funciona para desindexar. La URL seguiría indexada y por lo tanto seguiría apareciendo en los resultados pero con el problema añadido de que se vería con este mensaje:

crédito: www.elladodelmal.com
En este post, os explico como desindexar o evitar que se indexe correctamente una URL. Otro error muy común a la hora de querer desindexar una URL, es poner la meta etiqueta robots = noindex (esto es correcto) pero luego el error está en añadir también el disallow en el robots.txt. Esto lo que hace, es que Google no pueda acceder a la URL y por lo tanto no puede ver que esa URL no tiene que indexarse. Por lo tanto, sucederá lo mismo que en el punto anterior, la URL se indexará pero se mostrará como bloqueada.
Ejemplo completo de un robots.txt
Sitemap: https://www.angelayach.com
User-agent: *
Disallow: /wp-admin
Allow: /wp-admin/admin-ajax.php
Herramientas para comprobar que funcione correctamente
Una vez ya tengamos nuestro archivo de robots.txt listo, ya lo podemos subir a la raíz de nuestro servidor, para que los robots empiecen a actuar como nosotros queremos.
De todas formas, es MUY importante, realizar algunas pruebas para asegurarnos que todas las reglas que hemos puesto son correctas y que no estamos impidiendo el rastreo de páginas importantes ya que esto podría suponer un grave problema de indexación y consecuentemente de posicionamiento.
Para comprobar el archivo de robots.txt, en Search Console de Google, tenemos una herramienta para probar nuestro archivo.
Para abrir la herramienta hay que abrir la versión antigua de Search Console -> Rastreo -> Probador de robots.txt

Probador Robots.txt Search Console
Leave a Reply
Want to join the discussion?Feel free to contribute!