Crear robots.txtCrea el fichero robots.txt y decide qué contenido tienen permitido indexar los buscadores

 

Una forma de mejorar tu SEO notablemente es indicarle a los buscadores qué páginas pueden indexar y qué páginas no pueden indexar de tu sitio web.
Así, puedes indexar únicamente las páginas con buen contenido, lo que aumentará la puntuación SEO de tu web.

Antes de hablar de robots.txt, vamos a definir ciertos términos que debes conocer.

Un web crawler, o spider, es un bot que recorre constantemente páginas de Internet con el objetivo de indexar dichas páginas.
A esta acción de recorrer las páginas web se le denomina crawl.
En este artículo, cada vez que mencionamos la palabra crawl nos referimos a la acción por parte de los bots, de recorrer todo el contenido (páginas web, imágenes y demás ficheros) que se encuentran en un mismo dominio.

Lo que debes saber sobre robots.txt

¿Qué es robots.txt?

Robots.txt es un fichero de texto que contiene una serie de reglas que le indican a los web crawlers las páginas a las que se les permite acceder y a las que no.
El fichero se debe poner en el documentroot, pues es donde buscan los crawlers, y si no lo encuentran ahí entenderán que no hay nada que se quiera denegar.
Además el nombre exacto debe ser robots.txt. Si lo nombres con cualquier variación de ese nombre los crawlers no lo reconocerán.

¿Cómo funciona?

Cuando los bots llegan a tu página web, buscan el fichero robots.txt para saber cómo deben hacer el crawl. Si no hay ningún fichero llamado robots.txt, o si éste está vacío, el bot entiende que tiene permiso para acceder a todo el contenido, sin ninguna restricción.
Puedes denegar el acceso a los bots a posts antiguos que no cumplen con el mínimo de calidad, o ficheros de cualquier tipo que no quieras que sean indexados por los buscadores.

Debes entender cómo funciona el fichero, pues con una mala configuración puedes hacer que los buscadores no indexen tu web.

Sintaxis del fichero robots.txt

Hay varias directivas que puedes utilizar en el fichero.

User-agent

Especifica el bot al que van dirigidas las reglas. Puedes ver la lista de los bots más conocidos aquí.
Para hacer referencia a todos los bots, pon un asterisco *.

Disallow

Indica qué URLs no pueden ser indexadas.

Allow

Indica qué URLs pueden ser indexadas. Esta directiva no es una de las directivas originales, así que la mayoría de bots no entienden esta directiva, por lo que es mejor limitar su uso.

Crawl-delay

Tiempo en milisegundos que debe esperar un crawler para cargar cada página.

Sitemap

Sirve para indicar la localización del sitemap de la web.

¿Qué debo poner en mi robots.txt?

Eso depende de tu sitio web y qué quieras permitir que se indexe.
Como ya hemos comentado, la mayoría de bots no interpretan la directiva Allow, por lo que deberías indicar con las directivas Disallow qué URLs no quieres que se indexen y permitir el resto por omisión.

Un ejemplo válido podría ser el siguiente:

User-agent: *
Disallow:/wp-admin/
Disallow:/imagenes/
Sitemap:https://ejemplo.com/sitemap.xml

Ten en cuenta que las reglas se aplican de arriba a abajo, así que si por ejemplo deniegas todo en la primera línea, no importa si en la segunda permites algo, pues nunca llegará a evaluarse dicha regla.
El orden de las reglas importa para los navegadores que siguen el estándar, según se nos indica en Wikipedia, pero no para los que no lo siguen, como Google o Bing.

Más ejemplos de robots.txt

A continuación vamos a poner algunos ejemplos de cómo se usa el fichero robots.txt.

Permitir la indexación de todo el contenido

Los navegadores indexarán todo el contenido si no encuentran un fichero llamado exáctamente robots.txt, o si éste está vacío. También indexarán todo si se encuentra lo siguiente en el fichero:

User-agent: *
Disallow:

Bloquear la indexación de todo el contenido

User-agent: *
Disallow: /

Bloquear un directorio a un crawler específico

User-agent: Googlebot
Disallow: /imagenes/

Bloquear una página a todos los cralers salvo a uno

User-agent: Googlebot
Allow: /privado/index.html
User-agent: *
Disallow: /privado/index.html

¿Cómo puedo crear el fichero robots.txt?

El fichero robots.txt es un simple fichero de texto, por lo que no tienes que hacer nada especial.
Si tienes acceso por SSH puedes conectarte y crear el fichero ahí mismo (touch robots.txt).
También puedes crearte un fichero con un editor de textos y subir el fichero por FTP/SFTP.
En caso de tener tu sitio web en WordPress, otra opción es instalar un plugin que lo cree por tí.

Algunos consejos del uso de robots.txt

Bloquea la indexación de todo aquel contenido que creas irrelevante, como por ejemplo las etiquetas (a menos que las utilices para clasificar los posts correctamente). Para bloquear las etiquetas basta con meter en el robots.txt la línea Disallow:/tag/. Si has llamado a la etiqueta de otra forma, sustituye "tag" por el nombre que hayas en elegido en Ajustes > Enlaces Permanentes > Etiqueta base.

Si no quieres que tus imágenes se muestren en los navegadores, puedes bloquearlas. Para ello pon en el robots.txt la línea Disallow:/*.png$. Utiliza la extensión en la que guardes tus imágenes.
Las imágenes son una posible fuente de visitas, por lo que es recomendable que permitas indexar las imágenes que sean relevantes para el artículo en el que aparezcan. Si hay imágenes que no quieres indexar, puedes bloquear sólo esas imágenes.

El símbolo * se interpreta como uno o varios caracteres, por lo que al poner "*.png", se hace referencia a los siguientes ficheros: "img01.png", "fdss978.png","000.png000". Para indicar sólo las que acaben en ".png", utilizamos el símbolo $. Al poner *.png$, sólo habría coincidencia en los dos primeros ejemplos.

En el caso de que tus páginas no tengan extensión, para bloquear la indexación de una página es importante que utilices el símbolo $, pues de lo contrario podrías bloquear más páginas sin querer.
Un ejemplo podría ser: Disallow:/futbol. En este caso, queremos bloquear la página /futbol, pero además de ésa, estamos bloqueando cualquier url que tenga la coincidencia /futbol*, como podría ser "/fulbol-sala", "/futbol-fotos/*", etc.

En resumen

El fichero robots.txt es importante de cara a indicar qué páginas de tu sitio web quieres que se muestren en los buscadores. Dicho fichero se debe llamar exactamente robots.txt y debes situarlo en el documentroot, esto es, en la raíz del directorio principal del dominio.

Es importante que elijas bien la configuración, pues una mala configuración puede hacer que pierdas muchos puntos en el posicionamiento SEO de tu web, pues podrías bloquear la indexación de alguna de tus páginas con mejor contenido, permitir contenido duplicado o bloquear todo el contenido incluso.

Bloquea el contenido irrelevante, y utiliza los símbolos * y $ para indicar exáctamente los elementos a los que quieres hacer referencia.
También deberás asegurarte que el sitemap y el robots.txt no se contradicen, es decir, que el sitemap no muestre una url que estás bloqueando en el robots.txt.
Es recomendable probar el fichero robots.txt en una herramienta como el Probador de robots.txt del Webmaster Tools de Google.

Muchos bots ignoran el robots.txt, por lo que para bloquear los llamados bad bots, lo mejor es bloquearlos a nivel de servidor web.
En nuestro hosting WordPress administrado nos encargamos de ésto y mucho más, por lo que tú sólo deberás preocuparte del contenido de tu web.

Con el fichero bien configurado podrás mejorar notablemente el SEO de tu sitio web al bloquear la indexación de contenido irrelevante, así como las páginas con peor puntuación y el contendido duplicado, permitiendo únicamente la indexación de tus mejores contenidos.

 
Utilizamos cookies propias para garantizar el correcto funcionamiento de la web. Accede a nuestra Política de Cookies para más información. Aceptar y Continuar
Suscríbete y recibe nuestra newsletter GRATUITA con novedades en nuestro Hosting y consejos de WordPress para hacer tu negocio más rápido, más fuerte y más seguro