SEO

Guía de robots.txt en WordPress

10/07/2019

Si conoces algo sobre SEO, más de una vez habrás oído sobre la importancia del archivo robots.txt para ayudar a los buscadores a rastrear el contenido que tiene que indexar.

Robots.txt es un fichero de texto que contiene una serie de reglas que le indican a los web crawlers, programas que utilizan los buscadores para rastrear la web, las páginas a las que se les permite acceder y a las que no.

De esta manera podemos bloquear el acceso a partes de la web que no queremos que se indexen porque pueden contener contenido técnico o que no es relevante para posicionar como los directorios y archivos que se encuentran en el directorio wp-admin en WordPress. Además podemos indicar la ruta de nuestro sitemap.xml, lo que facilita la indexación del sitio web.

Lo que debes saber sobre robots.txt en WordPress

Aunque el archivo robots.txt de WordPress no es obligatorio, crearlo es una buena práctica para que los buscadores indexen ciertas páginas o directorios y que aparezcan en los resultados de búsqueda.

El fichero robots.txt de WordPress lo encontramos en el directorio raíz de nuestra instalación y es importante tener en cuenta que el nombre exacto debe ser robots.txt. Si se nombra con cualquier variación de ese nombre los crawlers no lo reconocerán.

¿Cómo puedo crear el fichero robots.txt en WordPress?
Si haces uso de un plugin de SEO como Yoast SEO o All in One SEO el archivo robots.txt se creará automáticamente en el directorio raíz.

De no ser así se puede crear de forma manual. Con cualquier editor de texto como bloc de notas o Notepad, luego tendrás que subirlo al directorio raíz con un cliente FTP como FileZilla.

¿Qué debo poner en mi robots.txt?
Eso depende de tu sitio web y de qué quieras que se indexe.
Un ejemplo válido podría ser el siguiente:

Ten en cuenta que las reglas se aplican de arriba a abajo, así que si por ejemplo deniegas todo en la primera línea, no importa si en la segunda permites algo, pues nunca llegará a evaluarse dicha regla.

Sintaxis del fichero robots.txt

Hay varias directivas que puedes utilizar en el fichero.

  • User-agent: Especifica el bot al que van dirigidas las reglas. Puedes ver la lista de los bots más conocidos aquí.
    Para hacer referencia a todos los bots, pon un asterisco *.
  • Disallow: Indica qué URLs no pueden ser indexadas.
  • Allow: Indica qué URLs pueden ser indexadas. Esta directiva no es una de las directivas originales, así que la mayoría de bots no entienden esta directiva, por lo que es mejor limitar su uso.
  • Crawl-delay: Tiempo en milisegundos que debe esperar un crawler para cargar cada página.
  • Sitemap: Sirve para indicar la localización del sitemap de la web.

Más ejemplos de robots.txt

Podemos hacer diferentes combinaciones de comandos dependiendo del comporatmiento que queremos que tengan los bots.
Es importante respetar la sintaxis a la hora de declarar los comandos:

  • Respetar las mayúsculas/minúsculas, signos de puntuación y espacios
  • Cada grupo User-agent/Disallow se deben separar por un salto de línea
  • Para incluir comentarios se utiliza el símbolo de almohadilla (#)

Permitir la indexación de todo el contenido
User-agent: *
Disallow:
Bloquear la indexación de todo el contenido
User-agent: *
Disallow: /
Bloquear un directorio a un crawler específico
User-agent: Googlebot
Disallow: /imagenes/
Bloquear una página a todos los crawlers salvo el robot de Google
User-agent: Googlebot
Allow: /privado/index.html
User-agent: *
Disallow: /privado/index.html
Bloquear un directorio
User-agent: *
Disallow: /directorio/
Bloquear una página
User-agent: *
Disallow: /pagina-web.htm
Bloquear la extensión .gif
Disallow: /*.gif$
Indicar el mapa del sitio
Sitemap: http://www.example.com/sitemap.xml

Algunos consejos del uso de robots.txt

Bloquea la indexación de todo aquel contenido que creas irrelevante, como por ejemplo las etiquetas (a menos que las utilices para clasificar los posts correctamente). Para bloquear las etiquetas basta con meter en el robots.txt la línea Disallow:/tag/. Si has llamado a la etiqueta de otra forma, sustituye "tag" por el nombre que hayas en elegido en Ajustes > Enlaces Permanentes > Etiqueta base.

Si no quieres que tus imágenes se muestren en los navegadores, puedes bloquearlas. Para ello pon en el robots.txt la línea Disallow:/*.png$. Utiliza la extensión en la que guardes tus imágenes.
Las imágenes son una posible fuente de visitas, por lo que es recomendable que permitas indexar las imágenes que sean relevantes para el artículo en el que aparezcan. Si hay imágenes que no quieres indexar, puedes bloquear sólo esas imágenes.

El símbolo * se interpreta como uno o varios caracteres, por lo que al poner "*.png", se hace referencia a los siguientes ficheros: "img01.png", "fdss978.png", "000.png000". Para indicar sólo las que acaben en ".png", utilizamos el símbolo $. Al poner *.png$, sólo habría coincidencia en los dos primeros ejemplos.

En el caso de que tus páginas no tengan extensión, para bloquear la indexación de una página es importante que utilices el símbolo $, pues de lo contrario podrías bloquear más páginas sin querer.
Un ejemplo podría ser: Disallow:/futbol. En este caso, queremos bloquear la página /futbol, pero además de ésa, estamos bloqueando cualquier url que tenga la coincidencia /futbol*, como podría ser "/fulbol-sala", "/futbol-fotos/*", etc.

Validar el archivo robots.txt

Para evitar errores en los comandos y que repercuta negativamente en la indexación de nuestro sitio, podemos comprobar que nuestro fichero no tenga errores.

Para comprobar nuestro archivo robots.txt iniciamos sesión en Google Search Console  mediante la herramienta de Probador de robots.txt  Esta comprobación deberíamos hacerla cada vez modifiques tu archivo.

Resumen de nuestra Guía de robots.txt en WordPress

  • El fichero robots.txt es importante de cara a indicar qué páginas de tu sitio web quieres que se muestren en los buscadores. Dicho fichero se debe llamar exactamente robots.txt y debes situarlo en la raíz del directorio principal del dominio.
  • Es importante que elijas bien la configuración, pues una mala configuración puede hacer que pierdas muchos puntos en el posicionamiento SEO de tu web, pues podrías bloquear la indexación de alguna de tus páginas con mejor contenido, permitir contenido duplicado o bloquear todo el contenido incluso.
  • Bloquea el contenido irrelevante, y utiliza los símbolos * y $ para indicar exáctamente los elementos a los que quieres hacer referencia.
    También deberás asegurarte que el sitemap y el robots.txt no se contradicen, es decir, que el sitemap no muestre una url que estás bloqueando en el robots.txt.
  • Muchos bots ignoran el robots.txt, por lo que para bloquear los llamados bad bots, lo mejor es bloquearlos a nivel de servidor web.

En nuestro hosting WordPress nos encargamos de ésto y mucho más, por lo que tú sólo deberás preocuparte del contenido de tu web.

Con el fichero bien configurado podrás mejorar notablemente el SEO de tu sitio web al bloquear la indexación de contenido irrelevante, así como las páginas con peor puntuación y el contendido duplicado, permitiendo únicamente la indexación de tus mejores contenidos.

Te animamos a que nos dejes un comentario con tus dudas o experiencias con el archivo robots.txt en WordPress y recuerda que si te ha gustado nuestro post puedes compartirlo en las redes sociales.

Suscríbete y recibe nuestra newsletter GRATUITA con novedades en nuestro Hosting y consejos de WordPress para hacer tu negocio más rápido, más fuerte y más seguro