ROBOTS.TXT TUTORIAL BASICO PARA SEO

El Robots.txt o protocolo de exclusión de robots, sirve para evitar que los robots de los motores de búsqueda sean capaces de analizar parte o la totalidad de las páginas de un sitio web. Esta orden funciona a modo de recomendación, por lo que algunos robots podrán hacer caso omiso de ello.

Esto puede tener diferentes utilidades:

  • Se utiliza en ocasiones para hacer algunas secciones privadas, aunque los archivos de robots.txt están disponibles de forma pública por lo que cualquier persona con un navegador y conocimientos informáticos medios puede acceder a dicha información.

En cuanto al posicionamiento web (SEO) se refiere:

  • Sirve para optimizar específicamente el sitio para cada uno de los motores de búsqueda importantes, y excluir en el robots.txt la visita de los demás buscadores a los contenidos dirigidos a uno de ellos.
  • Sirve para impedir el acceso de un robot a contenido duplicado, contenido al que se pueda acceder por diferentes vías. El contenido duplicado no gusta en absoluto a los buscadores y la eliminación del mismo hace que el que queda gana muchos puntos para su posicionamiento.
  • Sirve para reducir la sobrecarga del servidor en los casos en los que algunos robots envían excesivas peticiones. Se puede averiguar revisando estadísticas. Se podría conseguir así:

User-agent: nombredelrobot

Crawl-delay: 30

  • Sirve para fijar un sitemap en su interior. Ej:

Sitemap: http://www.posicionatuweb.com/sitemap.xml

  • Sirve para prohibir zonas y que no aparezcan en los buscadores, cuando si nos interesa que las puedan ver los usuarios en la navegación.

 

A CONTINUACIÓN SE EXPLICA CÓMO SE CONSTRUYE UN FICHERO ROBOTS.TXT

–          “User-agent” es el robot al que se le envía la orden, un * indica que la orden es para todos los robots.

–          “Disallow: /” prohíbe la entrada al sitio indicado a continuación, como “Disallow: /chat/” que prohíbe la entrada al chat.

–          “#” permite añadir texto que no será interpretado por el robot.

 

EJEMPLO

User-agent: Googlebot
Disallow: /*.js$
Disallow: /2009/*
Disallow: /2010/*
Disallow: /articulos/*/pagina/*

 

User-agent indica que la orden es para el robot de Google (Googlebot), el primer disallow indica que no indexe los ficheros que terminen en .js (JavaScript), el segundo y tercero indican que no se indexen las direcciones que empiecen por 2009 y 2010, y el cuarto indica que tampoco se indexen artículos con la palabra página.