Robots.txt

Robots.txt – ¿Qué es y cómo configurarlo? La guia definitiva 2019

¿Qué es el archivo robots.txt?

El archivo robots.txt, es un archivo de texto plano (.txt) que sirve priniciplamente para indicar a los robots que partes de nuestra web pueden o no pueden visitar siguiendo una sintaxis que veremos más adelante. También tiene otras funciones como informar a los robots de la URL del Sitemap de nuestro site o especificar un delay.

Donde se ubica

Es un archivo que siempre se tiene que crear en la raíz de nuestro dominio. Esto significa que si nuestra web es: dominio.com la URL del robots.txt tiene que ser dominio.com/robots.txt. En el caso de los subdominios, tendremos que subir un robots.txt para cada uno de ellos. Por ejemplo:

dominio.com/robots.txt

sub1.dominio.com/robots.txt

sub2.dominio.com/robots.txt

Es importante tener en cuenta que el único sitio donde se puede poner el robots.txt es en la raíz del dominio, ya que muchos webmasters cometen el error de querer especificar reglas dentro de directorios y quedan cosas como estas (domino.com/actualidad/robots.txt) que son completamente erróneas:

Como se crea el archivo robots.txt

Para crear el archivo robots.txt no se necesitan grandes conocimientos. Es tan fácil cómo crear un archivo .txt con cualquier editor de texto que tengamos instalado (Notepad, Sublime, Atom, Editor de notas…) y guardarlo con el nombre robots.txt. Una vez creado, lo rellenaremos según como nos interese, tal y como veremos en el siguiente punto y ya sólo faltará subirlo por FTP a la raíz del dominio. ¿Fácil, no? Una vez subido, solo nos faltará comprobar que funcione intentando acceder a él desde el navegador: https://TUDOMINIO.com/robots.txt

Sintaxis y cómo funciona el robots.txt

Tal y cómo hemos visto anteriormente este archivo nos permite indicar varias directrices a los robots. A continuación os muestro como crear y como funciona cada una de las principales directrices de los robots.txt.

User-agent

Los User-agent son los distintos robots que existen. Suele haber un robot para cada servicio/empresa. Por ejemplo, en el siguiente listado, podemos ver como Google tiene el suyo, Bing otro… Más adelante veremos una lista con los más populares.

User-agent: Googlebot
Allow: /
Disallow: /privado

User-agent: Bingbot
Allow: /
Disallow: /nobing

User-agent: *
Allow: /

En el ejemplo anterior podemos ver lo siguiente:

A los robots de Google les permitimos rastrear todo el site, excepto el directorio /privado.

A los robots de Bing, les permitimos acceder a todo el site, excepto al directorio /nobing.

A todo el resto de robots (User-agent: *), les permitimos acceder a todo el sitio incluso a /privado y /onlyforgoogle.

Así pues, vemos como podemos especificar diferentes reglas para diferentes user agents.

Los 8 user agents más conocidos

ServicioUser-agent
GoogleGooglebot
BingBingbot
YahooSlurp
YandexYandexBot
FacebookFacebot
Alexaia_archiver
DuckDuckGoDuckDuckBot
BaiduBaiduspider

Disallow

Disallow podríamos decir que es el comando que más se utiliza. Con este comando, lo que hacemos es decirle a los robots, a que URLs no puede acceder y por lo tanto son URLs que no se rastrearán. OJO Más adelante trataremos este punto, pero no hay que utilizar el Disallow para desindexar o evitar que se indexe una URL.

1.- Disallow: /

2.- Disallow: /admin

3.- Disallow: /*.htm

En el ejemplo anterior podemos ver lo siguiente:

1.- No permitimos rastrear ninguna página del site.

2.- No permitimos rastrear ninguna página a partir de /admin. Por ejemplo dominio.com/admin/mi-perfil no se podría rastrear

3.- No permitimos rastrear ningún archivo .htm de todo el site.

Como ejemplo curioso os adjunto una captura del robots.txt que tenía la web de la casa real cuando salió a la luz el caso de Urdangarin. 

archivorobotstxtdelacasareal - Robots.txt - ¿Qué es y cómo configurarlo? La guia definitiva 2019

¿En que casos puede ser útil?

Principalmente, deberíamos usar el Disallow cuando tenemos URLs que no queremos que los robots rastreen o que no son importantes y sabemos que no nos van a aportar tráfico a través de SEO. Lo que conseguimos con esto es optimizar el Crawl Budget y por lo tanto aprovechar más el tiempo que los robots dedican a nuestro site para que rastree las páginas que realmente nos interesa posicionar.

Allow

Allow: /admin/perfil-publico

Allow indica que los robots pueden acceder a una URL en concreto. Por defecto sino ponemos ni allow ni disallow, los robots entienden que pueden rastrear una URL. ¿Entonces, si por defecto ya es todo Allow, porque nos interesa especificarlo? Pues bien, os pongo un ejemplo en donde sería útil.

¿En que casos puede ser útil?

Imaginaos que hacemos un disallow del siguiente directorio:

Disallow: /wp-content/plugins/

Esto haría que los robots no pudieran acceder a ningún archivo que estuviera dentro de la carpeta plugins. Pero resulta que si que queremos indexar los ficheros css y js que están dentro de plugins. Entonces podemos hacer lo siguiente:

Allow: /wp-content/plugins/*.css

Con estas dos líneas (disallow y allow), lo que conseguimos es que los robots solo puedan rastrear los archivos css y js de dentro la carpeta plugins.

Sitemap

Una recomendación que muchas veces pasan por alto los webmasters, es indicar la URL del sitemap de la web en el robots.txt. Si seguimos la recomendación y lo indicamos, los robots podrán rastrear de una forma más optima nuestra web.

Sitemap: https://dominio.com/sitemap.xml

#Comentarios

Podemos introducir comentarios dentro del archivo robots.txt. Estos comentarios no serán leídos por los robots, sino que simplemente son comentarios que podemos dejar en el archivo para nosotros mismos o para los curiosos que vengan a chafardear nuestro robots.txt. Hay que tener en cuenta que el archivo robots.txt es publico y por lo tanto lo puede leer cualquiera.
Tal y como vemos en el siguiente ejemplo, para poner un comentario, solo hay que poner un # al principio de la línea que sea un comentario.

#Esto es una linea de ejemplo de como se introduce un comentario

Aquí os dejo el robots.txt de una web, que han decidido jugar un poco con los comentarios y les ha quedado una obra de arte.

robots.txt curioso

www.fastfwd.com/robots.txt

Uitlizar el robots.txt para desindexar o no indexar una URL es un error

Imaginaos que tenemos una URL que queremos que deje de aparecer en Google o cualquier otro buscador. Podría parecer una buena idea poner un disallow en el robots.txt y así Google ya no la podrá rastrear. Pues bien, esto no funciona para desindexar. La URL seguiría indexada y por lo tanto seguiría apareciendo en los resultados pero con el problema añadido de que se vería con este mensaje:

Resultado de imagen de no hay disponible una descripcion de este resultado

crédito: www.elladodelmal.com

En este post, os explico como desindexar o evitar que se indexe correctamente una URL. Otro error muy común a la hora de querer desindexar una URL, es poner la meta etiqueta robots = noindex (esto es correcto) pero luego el error está en añadir también el disallow en el robots.txt. Esto lo que hace, es que Google no pueda acceder a la URL y por lo tanto no puede ver que esa URL no tiene que indexarse. Por lo tanto, sucederá lo mismo que en el punto anterior, la URL se indexará pero se mostrará como bloqueada.

Ejemplo completo de un robots.txt

Sitemap: https://www.angelayach.com

User-agent: *
Disallow: /wp-admin
Allow: /wp-admin/admin-ajax.php

Herramientas para comprobar que funcione correctamente

Una vez ya tengamos nuestro archivo de robots.txt listo, ya lo podemos subir a la raíz de nuestro servidor, para que los robots empiecen a actuar como nosotros queremos.

De todas formas, es MUY importante, realizar algunas pruebas para asegurarnos que todas las reglas que hemos puesto son correctas y que no estamos impidiendo el rastreo de páginas importantes ya que esto podría suponer un grave problema de indexación y consecuentemente de posicionamiento.

Para comprobar el archivo de robots.txt, en Search Console de Google, tenemos una herramienta para probar nuestro archivo. 

Para abrir la herramienta hay que abrir la versión antigua de Search Console -> Rastreo -> Probador de robots.txt

probador robots.txt

Probador Robots.txt Search Console

Referencias

Documentación oficial de Google sobre los robots.txt

0 replies

Leave a Reply

Want to join the discussion?
Feel free to contribute!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *