Enviar Respuesta  Enviar Tema 
1 Votos - 5 en Promedio   [howto] Robots.txt: Gestionar los accesos de los spiderbots a nuestra web
Autor Mensaje
Hermes
El Alquimista


Mensajes: 461
Grupo: Registrado
Registro en: May 2005
Estado: Sin Conexión
Reputación: 8
Mensaje: #1
[howto] Robots.txt: Gestionar los accesos de los spiderbots a nuestra web

Este artículo pretende mostrarte cómo evitar que se publique el contenido "no deseado" a traves de los spiderbots. En ningún momento debe tomarse como un "manual de seguridad".


Introducción:
Es muy común que los principales buscadores (Google, Altavista, etc.) utilicen spiderbots para automatizar la tarea de indexar los contenidos de los sitios Web. Esto es suele ser muy útil pero en ocasiones no queremos que algunos contenidos sean publicados, ya sea porque tenemos imagenes que no queremos que nos "roben", porque tenemos "nuestras" páginas personales o de prueba, etc. (esto último esta muy mal desde el punto de vista de la seguridad informática, pero bue! 1-wink ), o  simplemente queremos bloquear aquellos bots de spam que van buscando direcciones de e-mail en nuestras páginas para después llenar nuestra casilla de basura.    


El Archivo robots.txt:

El archivo robots.txt es un archivo de texto que se pone en el raiz de nuestro sitio Web. La estructura del archivo es la siguiente:

    <Field> ":" <value>
    

En <Field> podemos usar el campo User-agent de tal forma que si nos interesa podamos especificar distintas configuraciones para cada bot, La sintaxis es:

    User-agent : <bot>


Aca les dejo una página que tiene una lista de los pricipales spiderbots que utilizan los buscadores:

http://www.robotstxt.org/wc/active/html/index.html


Lo que nos interesa a todos: Los ejemplos

Si queremos establecer unas reglas para el robot de Google (Googlebot) tendríamos que especificarlo con:

User-agent: googlebot


Para hacer referencia a todos los bots:

User-agent: *


Una vez indicado el User-agent sólo nos queda marcar aquellos archivos a los que NO queremos que entre el bot, para esto utilizamos lo siguiente:

Disallow: <archivo o directorio>


Por ejemplo para deshabilitar el acceso al directorio /cgi-bin/:

Disallow: /cgi-bin/


Si queremos evitar el acceso a personal.html:

Disallow: personal.html


Un error muy común es usar Disallow: * ya que esto NO funciona. Si querés desabilitar el acceso a todo se debe usar Disallow: / (ah!, tampoco existe allow Confused )

Si querés comentar alguna línea podes usar el símbolo numeral (#)


Ejemplos útiles:

# --- Impedir acceso al directorio /gallery
User-agent: *
Disallow: /gallery/
# ---


# --- Sólo permitir el acceso a googlebot y altavista
User-agent: googlebot
Disallow:

User-agent: Scooter
Disallow:

User-agent: *
Disallow: /
# ---


# -- Impedir acceso a un bot en concreto (googlebot) y dejar a los demás que accedan donde quieran menos a /gallery/
User-agent: googlebot
Disallow: /

User-agent: *
Disallow: /gallery/
# ---


# -- Impedir el acceso de google a todos los archivos .txt
User-agent: googlebot
Disallow: *.txt
# --



Una vez terminado nuestro robots.txt podes ir a http://tool.motoricerca.info/robots-checker.phtml o a http://validator.czweb.org/robots-txt.php y verificar si la sintaxis es correcta...


Mas información San Google! 1-razz

Espero que les sirva.
Sludos!!... 1-wink


/****
Si entendemos todo lo que estamos haciendo,
no estamos aprendiendo nada...
****/

06-10-2005 12:56 PM
Visita el website del usuario Encuentra todos los mensajes de este usuario Cita este mensaje en tu respuesta
Enviar Respuesta  Enviar Tema 

Posibles Temas Similares...
Tema: Autor Respuestas: Vistas: Ultimo Mensaje
  [howto]Portada PDF para servico impresin bajo demanda p_eter 0 57 12-13-2008 10:40 AM
Ultimo Mensaje: p_eter
  [howto]VSFTPD en Ubuntu dragonauta 0 916 08-29-2008 06:55 PM
Ultimo Mensaje: dragonauta
  [howto]Diseo Web en Linux OpenSUSE p_eter 0 261 08-19-2008 05:01 PM
Ultimo Mensaje: p_eter
  [howto] TrueCrypt p_eter 0 205 07-30-2008 01:44 AM
Ultimo Mensaje: p_eter

Ver la Versión para Impresión
Mandar este Tema a algún Amigo
Subscríbete a este Tema | Agrega este Tema a Tus Favoritos

Salto de Foro: