El archivo robots.txt es uno de los
olvidados dentro de las páginas web en general, tanto en ecommerce como en blogs o en landing pages. Pero este archivo bien
optimizado puede ayudarte mucho en el
SEO, es decir, el
escalado de posiciones en Google.
En este artículo os voy a enseñar a
crear y optimizar un archivo robots.txt perfecto el cual espero que os ayude en vuestro posicionamiento web.
¡Ojo! No os voy a dar una plantilla para que copiéis y peguéis en un archivo .txt ya que cada página tiene es única y tiene sus entresijos.
Lo que yo os voy a enseñar es a optimizar y conocer este archivo para que vosotros adecuéis estos consejos de forma que, seáis unos expertos en la optimización del robots.txt en tu sitio.
Así que vamos a ello, empecemos a optimizar este archivo tan olvidado e importante a la vez.
¿Qué es robots.txt?
El archivo robots.txt es el encargado de
impedir el rastreo e indexación de ciertas páginas de tu web a Google.
Y os preguntaréis ¿y por qué debería impedir que Google entre en alguna de mis páginas? Pues muy fácil, porque o bien
no poseen contenido suficiente para obtener un buen posicionamiento o porque es parte del
panel de administración o por algún follón de
programación.
Sabiendo esto, deberíais hacer un
análisis de vuestra página web y elegir qué páginas queréis que sean indexadas y cuales no.
En el caso de que estés perdido y no tengas idea de por dónde empezar a impedir el acceso a Google en tu ecommerce, presta
atención al siguiente punto.
Páginas que Normalmente se Añaden en robots.txt
En este punto del artículo te voy a enseñar las
principales páginas a las que todo el mundo suele impedir el acceso a Google.
Páginas de Administración: Ya sea que utilices WordPress, Magento, Prestashop o una plataforma propia, es altamente recomendable que bloquees en el archivo robots.txt el panel de administración del mismo. Un ejemplo sería el
/wp-admin/ de un WordPress.
Páginas de Login o Registro: En el caso de que las páginas de acceso de personas registradas esté
nulo de contenido, recomiendo también su bloqueo en el archivo robots.txt.
Páginas "Puente": En mi caso, en muchas webs en las que he trabajado habían páginas puentes que simplemente ejecutaban un
script de código para hacer alguna acción dentro de la web. Estas páginas también deberían ser denegadas por nuestro archivo robots.txt.
Páginas sin Apenas Contenido: Todos los ecommerce tienen ciertas páginas las cuales carecen de contenido, estás páginas pueden
afectarte negativamente en el posicionamiento, por lo que te recomiendo que las añadas también al archivo robots.txt de tu sitio.
Estas serían para mí las principales páginas a las cuales
denegaría el acceso a Google para que las rastree e indexe.
A continuación te explicaré
cómo configurar el archivo robots.txt para que puedas empezar a trabajar sobre él.
Cómo Configurar el Archivo robots.txt
Para configurar el archivo robots.txt de nuestra web, primero tendremos que
crearlo, esto se hace a partir de un
bloc de notas, lo abrimos y en él empezamos a escribir lo siguiente.
User-agent: *
En los archivos robots.txt que creemos ésta debe ser
siempre nuestra primera línea.
Lo que pretendemos añadiendo esta línea es decirle a Google que queremos que
todos sus robots rastreen nuestra web.
Es bueno
tener en cuenta los tipos de robots rastreadores que hay en Google para que si queremos bloquear el acceso a alguno, sepamos su nombre y cómo hacerlo. En este
enlace podrás ver los
nombres de todos nuestros amigos de hojalata provenientes de Google.
Tras esta línea empezaremos a colocar las paginas que queremos que Google no indexe ni rastree.
Para ello
colocaremos una línea con el código.
Disallow: /

Como bien dice la palabra "Disallow" con este comando
deshabilitaremos el acceso a los robots de Google a las páginas que pongamos tras el Disallow.
En el caso de poner como en el ejemplo "Disallow: /" haremos que Google
no rastree ninguna de las páginas internas de nuestro ecommerce.
Si queremos
denegar el acceso a ciertas páginas, por ejemplo wp-admin como dije anteriormente, pondremos
"Disallow: /wp-admin/". Este formato lo utilizaremos con todas las páginas a las que queramos deshabilitar.
¡Cuidado! Al poner una ruta, vas a capar tanto la
página de esa ruta como todas las subpáginas que cuelgan de ella, por lo que si por ejemplo solo queremos denegar el acceso a la pagina-1 dentro de la pagina-master, pondremos:
"Disallow /pagina-master/pagina-1".
En el caso de que queramos prohibir el acceso a todas las páginas excepto una con un Disallow, tenemos la opción de poner
Allow para permitir a esa página ser indexada.
Allow: /wp-admin/pagina-1/
De esta forma permitiremos a Google
rastrear la página-1 dentro de /wp-admin/. Para tener un seguimiento de cómo quedaría un archivo
robots.txt completo con esta opción os lo facilito a continuación:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/pagina-1/
Con este robots.txt
no se indexará ninguna página de /wp-admin/ excepto /pagina-1/.
Es recomendable adjuntar el
sitemap.xml de nuestro ecommerce en el archivo robots.txt.
Para ello utilizaremos el código:
Sitemap: http://midominio.com/sitemap.xml
De esta forma ayudaremos a Google a
conocer un poco más la estructura de nuestra web.
Para crear un sitemap en WordPress podemos utilizar
plugins como
"XML Sitemap" o
"Yoast SEO" aunque yo
recomiendo utilizar el primero.
Hay otras opciones como las de
"nofollow" y
"noindex" que también podemos añadirlas a nuestro archivo robots.txt. Sin embargo, estas opciones recomiendo ponerlas en nuestro archivo
html dentro de la etiqueta
<head>.
Lo haremos de la siguiente forma:
<meta name="robots" content="noindex,nofollow">

Ojo con esto, ya que
impediríamos a Google rastrear e indexar todo nuestro sitio, por lo que si lo pones por alguna razón acuérdate de quitarlo luego (que ya me he encontrado alguna web con esta etiquetita puesta).
Si simplemente queremos que
Google no nos indexe pondremos:
<meta name="robots" content="noindex">
En el caso de que
no queramos que nos rastree lo que colocaríamos sería:
<meta name="robots" content="nofollow">
Con esto deberíais saber
crear un robots.txt perfecto en vuestra web, por lo que os animo a poneros a ello.
Lo que nos faltaría por saber es cómo subirlo para que Google lo tenga en cuenta.
Cómo Enviar el Archivo robots.txt
Para
subirlo y que Google nos tenga en cuenta, deberemos ir a nuestra
Search Console de Google, dentro de la opción
Rastreo > Probador de robots.txt y copiar todo en la caja de texto y darle a enviar.
También recomiendo ponerlo en el
directorio raíz de nuestra web, esto lo podremos hacer con un
cliente de FTP como
Filezilla.
Pero ojo, con un archivo robots.txt perfecto
no posicionarás como un Dios por lo que te recomiendo que eches un ojo a nuestros
Másters en Ecommerce y Marketing Digital, tanto en su versión
presencial como en la
online.
ECOMMASTER