robots.txt para WordPress

via WordPress Hacks by Neri Aispuro on 7/23/10

En innumerables ocasiones he leído en foros consultas, dudas y problemas relacionados al robots.txt, también un par de veces me han preguntado y la respuesta es la misma que suelo dar la mayoría de las veces que me preguntan algo sobre un sitio: DEPENDE.

Para entender que robots.txt es el que más se ajusta a nuestras necesidades, primero hay que entender en que consiste, una breve explicación:

El protocolo de robots.txt es un método para evitar que ciertos bots que analizan los sitios Web agreguen información innecesaria a los resultados de búsqueda.(Wikipedia)

Básicamente un robots.txt consiste en indicar el robot y lo que queremos que haga, el robot se indica como “User-agent: nombre del bot” y las órdenes “Allow :”, “Disallow :”

Por ejemplo si queremos que ningún robot pueda acceder al directorio “privado” vamos a poner lo siguiente:

User-agent: *
Disallow : /privado/

El caracter “*” es usado como comodín para indicar todos los robots, por ejemplo si quisiéramos que solo el robot de Yahoo no ingrese a la carpeta “privado” vamos a poner lo siguiente:

User-agent: Slurp
Disallow : /privado/

Hace bastante tiempo, WordPress (o sus desarrolladores) eran medios torpe y no incluían las meta tags noindex y nofollow en el área de administración y había que decirle al bot que no indexe el login por ejemplo, hoy ya eso no es un problema.

Como dije al principio, el robots.txt depende de que necesitemos y de las preferencias nuestras, por ejemplo a mi no me gusta que se indexe el archivo (2009/03), ni tampoco lo de autor (/author/*), ni las páginas (/page/*).

En el robots.txt también podemos incluir la dirección de nuestro sitemap del modo “Sitemap: http://dominio.com/sitemap.xml”

La orden “Allow” no suele ser muy utilizada, en mi caso la uso si creo algún directorio y quiero que google lo indexe más rápido, o para las categorías, tags e imagenes, aunque a veces no es necesario.

Muchos siguen teniendo en cuenta robots.txt de hace 3 años llenos de código innecesario, mi recomendación es que hagan un robot que sea lo más corto posible, como por ejemplo:

User-agent: *
Disallow:
Sitemap: http://dominio.com/sitemap.xml

Tengan en cuenta que los bots son case sensitive, esto quiere decir que no es lo mismo decirles que un directorio se llama “Privado” o “privado”.

Pueden encontrar información más detallada sobre los robots.txt en la web de los robots.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: