Top
Cómo crear un robot.txt: La mega-guía

Cómo crear un robot.txt de forma fácil y funcional: La mega-guía

Hoy te voy a enseñar cómo crear un robots.txt de manera fácil y funcional.

 

En anterior artículo que publiqué en el blog de mis amigas de Oink my God, titulado “Errores SEO a evitar cuando lanzas una nueva web “comentaba los típicos errores que hay que evitar al lanzar una nueva web.

 

Sobre este respecto, un seguidor de Twitter me preguntó si podía profundizar en el tema de los robots.txt, evidentemente le dije sí. Así que voy a ver si puedo aclarar un poco este tema, que seguro interesará a más de uno. Vamos por el principio.

 

Que es el robot.txt

¿Qué es Robots.txt?

 

Robots.txt es un archivo público, que debe estar en la raíz de tu web, donde se hacen una serie de recomendaciones a los robots qué deben y qué no deben indexar en los buscadores.

 

Los robots, en este caso, no son ni los simpáticos personajes de Star Wars ni ese cacharro que tienes en la cocina y hace un gazpacho buenísimo, no. Los robots son unos programitas que dedican a recorrer las páginas webs para recoger la información que, después, los buscadores indexan y tú ves como resultado de una búsqueda.

 

Si, ya sé que tú eres un SEO experimentado y esta explicación se te queda un poco corta, así que si quieres profundizar más en esto de los robots te aconsejo que leas este artículo de María Jesús Lamarca, titulado “Robots y agentes”.

 

Bien, pues estos robots siguen todos los enlaces que va encontrando en las webs.

 

Claro, y tú me preguntarás ¿Qué hago si no quiero que me indexen una parte de la web?

 

Buena pregunta. Puede haber partes de la web que por ser privadas, por contener contenido que, por la razón que sea, no quieres que estén indexadas. Pues para eso usarás el archivo Robots.txt.

 

Hay muchos tipos de robots y cada uno tiene una misión.

  • Googlebot: El robot de Google.
  • Googlebot-Image: El indexador de imágenes de Google.
  • Bingbot: El robot de Bing.
  • YandexBot: De Yandex, el buscador ruso.
  • Roger: De Moz
  • BaiduSpider: El del buscador chino Baidu.
  • ia_archiver: El de Alexa, que también utiliza Wayback Machine (una web que presenta webs antiguas. En este enlace puedes ver cómo era la web que tenía en 1998)

 

Si quieres saber más sobre los tipos de robots (también se les llaman “Bots”), en estos enlaces encontrarás listas completas:

 

 

¿Para qué sirve robots.txt?

 

Robots.txt sirve, básicamente, para decirle a susodicho robot (ya sea del buscador que sea) qué le recomiendas que visite y qué no.

 

Recalco la idea de que le recomiendas, porque el archivo en sí mismo ha de ser una serie de recomendaciones no de prohibiciones. Esto es importante que quede claro.

 

Así que con Robots.txt le podemos decir a un crawler (no me flipado, es su nombre en inglés) cosas como estas:

 

  • Partes de tu web que no quieres que sean accesibles
  • Partes de tu web que sí quieres que sean accesibles
  • Impedir que el buscador valore diferentes entradas a un mismo contenido como contenido duplicado
  • Decirle que no acceda a partes de la web con código u otros elementos
  • Decirle al robot donde está el xml

 

Estarás de acuerdo conmigo que este archivo es un inventazo.

 

Vamos al lío: cómo crear un robots.txt

 

Supongo que a estas alturas ya estarás convencido que tu web debe tener un robots.txt funcional y efectivo. Antes de nada, debo decirte que tener un archivo Robots.txt en tu web no una obligación, es también una recomendación.

 

Tu web no funcionará mejor o peor por tenerlo, aunque los buscadores (especialmente Google) sí te verán con mejores ojos a la hora de valorar tu posicionamiento si lo tienes.

 

Para crear un Robots.txt simplemente tendrás que:

  • Crear un archivo de texto.
  • Renómbralo como “robots.txt”
  • Crea las instrucciones que creas necesarias con un editor de texto (te recomiendo Notepad++, que además es gratuito)
  • Subirlo a tu hosting y alojarlo en la raíz de tu web
  • Comprobarlo en Search Console (antes Webmaster tools, por si no lo sabías)

 

El proceso, como ves, es muy muy sencillo.

 

Pero, como siempre, debes saber antes qué quieres hacer con él.
Cómo crear un robot txt para WordPress

Editando Robots.txt

 

No te voy a explicar cómo hacer un archivo de texto ni a renombrarlo (si no sabemos esto… vamos mal, muy mal ;P)

 

Pero por si acaso, te aconsejo que nunca hagas este archivo ni ninguno que lleve algún tipo de código con Word o con algún otro programa que contenga formato.

 

  • Si usas Windows lo indicado es el blog de notas o Notepad++.
  • Si usas Mac, el equivalente puede ser TextWrangler, que además es gratis.

 

Abre el archivo que acabas de crear y al que has llamado “Robots.txt” y añade este código:

User-agent: *
Disallow:

 

Con el código anterior acabas de decirle a cualquier buscador que tiene acceso a toda la web.

 

User-agent

 

Se refiere a los robots que puedan llegar a tu web.

 

Al usar el asterisco (un comodín que sirve para cualquier contenido), te estas refiriendo a cualquier robot.

 

Podrías especificar a qué robot quieres darle las consignas simplemente refiriéndote a él.

 

Por ejemplo, si quieres referirte sólo al bot de Google puedes usar este código:

 

User-agent: Googlebot

 

 

Disallow

 

Este código se refiere a las partes de la web a las que queremos restringir el acceso del robot.

 

Las opciones son las siguientes:

 

Disallow:

Si no añades nada más, estás dando vía libre al Robot para que cotillee allá por donde quiera de tu web

 

Disallow: /

Así, tal cual, no dejas que el robot pueda entrar en ninguna parte de la web.

 

Disallow: /directorio o archivo

Si cambias la palabra directorio o archivo por la carpeta o archivo que tú creas conveniente de tu web, estarás dejando entrar al robot por donde quiera menos por el directorio que le has dicho.

 

Por ejemplo. Yo no quiero que el robot llegue hasta una carpeta donde tengo mis archivos javascript, pues usaría este código:

 

Disallow: /js

 

Si quisiera denegar el acceso a la página “Quién soy” de mi web

 

Disallow: /quien-soy.html

 

Fácil, ¿no?

 

 

Allow

 

Por defecto, todo lo que no está restringido por Disallow es que está abierto. ¿Entonces para que quiero el comando Allow (permitir)?

 

Aunque no se suele usar mucho, ya que hay algunos robots que no entienden esta orden, puede ser útil para forzar la visita del robot a una parte concreta de la web.

 

Su funcionalidad es exactamente igual pero inversa a la de Disallow, es decir, que si quiero que los robots visiten sí o sí mi blog, puedo forzarlo escribiendo:

 

Allow: /blog

 

 

Comentarios

 

Antes te comentaba que mediante User-agent, puedes dirigirte a un robot en concreto y darle órdenes a ese robot en concreto. Por lo tanto, en el mismo archivo Robots.txt puede especificar dónde puede ir o no a cada robot que llegue a tu web.

 

En algunos casos, la cantidad de código que se puede generar en un sólo robots.txt puede ser considerable y por eso es muy práctico hacer uso de los comentarios para saber que es cada cosa.

 

Los comentarios son parte del código que no se ejecuta ni se visualiza y se usa exclusivamente para escribir notas aclaratorias, comentarios sobre el código y otros contenidos que puedan ayudar al programador a entender el código.

 

Para crear un comentario sólo debes iniciar la línea de texto con el símbolo: #

 

Por ejemplo:

 

# Dejo pasar a todos los robots

User-agent: *
Disallow:

 

El texto “# Dejo pasar a todos los robots “ no lo verá nadie más que el programador.

Comodines

 

También puedes usar los comodines. Los comodines sirven para sustituir texto por un criterio más amplio.

 

Asterisco (*)

 

Lo has usado con “User-Agent” para referirte a cualquier robot. Por lo tanto lo usarás para referirte a cualquier texto.

 

Veamos un ejemplo.

 

Si quieres limitar el acceso a cualquier archivo que esté dentro de la carpeta de lo publicado en 2015, puedes hacer:

 

Disallow: /2015/*

 

 

Dólar($)

 

El símbolo del dólar ($) lo usarás cuando quieras referirte a algo en concreto.

 

Para usarlo siempre se pone al final de la orden.

 

Por ejemplo, quieres que no se acceda a la carpeta /2015 exclusivamente, puedes usar este código:

 

Disallow: /2015$

 

También puedes combinar ambos.

 

Por ejemplo, quieres bloquear el acceso a todos los archivos CSS, pero sólo a esos sin que afecte a los demás de la carpeta o directorio.

 

Disallow: /*.css$

 

Estarás de acuerdo conmigo en que es muy práctico, útil y muy fácil.

Crawl-Delay

 

También puede ocurrir que la frecuencia de rastreo de los robots para con tu web sea excesiva y se hinche a hacer peticiones al servidor, con todo lo que eso conlleva.

 

Puedes hacer una recomendación para que dejen pasar cierto tiempo entre una y otra.

 

Por ejemplo, le dirás a Googlebot que espere 30 segunditos.

 

User-agent: Googleblot

 

Crawl-delay: 30

 

 

Sitemap.xml

 

Te comentaba antes que también es interesante decirle a los robots donde está tu sitemap.xml (otro día igual hago otra mega-guía sobre este interesante archivo).

 

Para eso usarás el código:

 

Sitemap: wwww.tudominio.com/sitemap.xml

 

Evidentemente has de sustituir wwww.tudominio.com/sitemap.xml por la URL real de tu sitemap.xml

 

 

El Robots.txt perfecto para WordPress

 

Sé que alguno estará pensando “Bah! menudo rollo. Dame el código para pegar en mi WordPress y no me marees más con el código”.

 

A quién pensase eso lo iba a desilusionar diciéndole que no, que lo suyo es que decida él que quiere permitir y qué no, que debe formar parte de su plan, que si objetivos, que sí crawlers…

 

Pero quién es vago es vago y no se puede hacer nada.

 

Así que me he dado una vuelta por algunas webs y he descubierto a alguien que dice tener el Robots.txt perfecto para WordPress.

 

Yo no me responsabilizo de este código, pero lo voy a poner el enlace para quién no quiera entretenerse en hacer de forma más personalizada.

 

Se encuentra aquí, en el blog de Jonathan Valenzuela.

Conclusiones

 

El uso de Robots.txt es una muy buena práctica para limitar el acceso a robots de diferentes buscadores en tu web.

 

Como has podido ver, el proceso es muy sencillo y sólo necesita de un buen conocimiento de tu web y algunos comandos que limiten o no según qué partes de tu web.

 

Si quieres aportar a lo ya explicado con código propio o comentar algún problema que te puedas haber encontrado, dejo a tu disposición los comentarios.

 


 

Este artículo lo ha escrito Luis A. Román (sigue su blog LuisLAR). Te dejamos con su bíografía para que lo conozcas un poco más, su blog y las Redes Sociales por las que se mueve.

 

Luis A. Román

Luis A. RománSoy consultor de Marketing Online y de proyectos web orientados principalmente a PYMES. Cuento con más de 20 años de experiencia y estoy especializado en SEO, Marketing Digital Estratégico  y Usabilidad. Además, soy formador docente de Comunicación Digital para empresas.

Puedes aprender sobre posicionamiento, e-commerce, Diseño web, Marketing Digital y SEM, Analítica y Usabilidad web en mi blog. 

Web: http://www.luislar.es

Linked Inhttps://es.linkedin.com/in/luisaroman

Twitterhttps://twitter.com/luislar_es

Facebook: https://www.facebook.com/luislarconsultorademarketingonline

Google+https://plus.google.com/u/0/+LuisRomandesarrollowebymarketingonline

 

 

hola@oinkmygod.com

En Oink my God somos especialistas en Marketing Online. Lo damos todo por nuestros clientes y suscriptores. Ofrecemos servicios de blogging, social media, inobound marketing, email marketing, publicidad online, SEO, diseño web y analítica web.

9 Comments
  • Luis A. Román
    junio 7, 2016 at 9:09 am

    Gracias!!!

  • Kapital Bitcoin
    junio 7, 2016 at 2:25 pm

    mejor decir programa jajaj, la programaciòn se abrirà màs con el enfoque de hacer la sencilla para todos.

  • Jose Alvarado
    junio 10, 2016 at 5:13 am

    Excelente. Tiene varias cosas que desconocía de robots.txt. Sí que es una mega guía, suficientemente completa y aprovechable. 😉

  • Dinaneo. Internet Rentable
    junio 21, 2016 at 7:02 pm

    Muy buena información y muy útil para los usuarios que no lo han incluido.

  • Jordan Malpica
    octubre 18, 2016 at 7:37 pm

    Excelente post peeeeero sigo sin entender del todo. He revisado el fichero publico robots.txt de varios blog referentes y solo restringen al /wp-admin al /wp-inclues/ y hay un comando que es Allow: /wp-admin/admin-ajax.php

    En resumidas cuentas me perdí.

    Cuál sería tu recomendación para un blog en WordPress que está empezando de cero y no vende de momento ni da cursos de formación “de momento”.

    Ah por cierto revise el post de jonathan y me mareo más pero su “plantilla estándar” se ve aceptable

Post a Comment

Uso de cookies

Este sitio web utiliza cookies para que tengas la mejor experiencia de usuario. Si continúas navegando estás dando tu consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies