PreguntasLinux

Versión Completa: [howto] Robots.txt: Gestionar los accesos de los spiderbots a nuestra web
Actualmente estas viendo una versión simplificada de nuestro contenido. Para ver la versión completa en el formato correcto, dale click aquí
Este artículo pretende mostrarte cómo evitar que se publique el contenido "no deseado" a traves de los spiderbots. En ningún momento debe tomarse como un "manual de seguridad".


Introducción:
Es muy común que los principales buscadores (Google, Altavista, etc.) utilicen spiderbots para automatizar la tarea de indexar los contenidos de los sitios Web. Esto es suele ser muy útil pero en ocasiones no queremos que algunos contenidos sean publicados, ya sea porque tenemos imagenes que no queremos que nos "roben", porque tenemos "nuestras" páginas personales o de prueba, etc. (esto último esta muy mal desde el punto de vista de la seguridad informática, pero bue! 1-wink ), o  simplemente queremos bloquear aquellos bots de spam que van buscando direcciones de e-mail en nuestras páginas para después llenar nuestra casilla de basura.    


El Archivo robots.txt:

El archivo robots.txt es un archivo de texto que se pone en el raiz de nuestro sitio Web. La estructura del archivo es la siguiente:

    <Field> ":" <value>
    

En <Field> podemos usar el campo User-agent de tal forma que si nos interesa podamos especificar distintas configuraciones para cada bot, La sintaxis es:

    User-agent : <bot>


Aca les dejo una página que tiene una lista de los pricipales spiderbots que utilizan los buscadores:

http://www.robotstxt.org/wc/active/html/index.html


Lo que nos interesa a todos: Los ejemplos

Si queremos establecer unas reglas para el robot de Google (Googlebot) tendríamos que especificarlo con:

User-agent: googlebot


Para hacer referencia a todos los bots:

User-agent: *


Una vez indicado el User-agent sólo nos queda marcar aquellos archivos a los que NO queremos que entre el bot, para esto utilizamos lo siguiente:

Disallow: <archivo o directorio>


Por ejemplo para deshabilitar el acceso al directorio /cgi-bin/:

Disallow: /cgi-bin/


Si queremos evitar el acceso a personal.html:

Disallow: personal.html


Un error muy común es usar Disallow: * ya que esto NO funciona. Si querés desabilitar el acceso a todo se debe usar Disallow: / (ah!, tampoco existe allow Confused )

Si querés comentar alguna línea podes usar el símbolo numeral (#)


Ejemplos útiles:

# --- Impedir acceso al directorio /gallery
User-agent: *
Disallow: /gallery/
# ---


# --- Sólo permitir el acceso a googlebot y altavista
User-agent: googlebot
Disallow:

User-agent: Scooter
Disallow:

User-agent: *
Disallow: /
# ---


# -- Impedir acceso a un bot en concreto (googlebot) y dejar a los demás que accedan donde quieran menos a /gallery/
User-agent: googlebot
Disallow: /

User-agent: *
Disallow: /gallery/
# ---


# -- Impedir el acceso de google a todos los archivos .txt
User-agent: googlebot
Disallow: *.txt
# --



Una vez terminado nuestro robots.txt podes ir a http://tool.motoricerca.info/robots-checker.phtml o a http://validator.czweb.org/robots-txt.php y verificar si la sintaxis es correcta...


Mas información San Google! 1-razz

Espero que les sirva.
Sludos!!... 1-wink
URLs de Referencia