Logotipo de dnx group

IDEAS

ARTÍCULOS

El log de visitas ayuda a conocer a tus usuarios

Mayo de 2003Equipo DNX

Resumen:
1. Qué es un log y partes que lo componen

El log de visitas es una fuente de información que debemos tener presente para valorar el rendimiento de nuestro site asi como el extraer información sobre nuestros productos. El log nos dará información sobre qué información están solicitando los usuarios, qué información les resulta más interesante, cuando la necesitas, rutas de información...

Es muy importante que esta fuente de información esté accesible por todos los departamentos en un formato sencillo de entender y fácil de usar. Es esencial que la comunicación entre los departamentos (o individuos) que tienen la información del log y aquellos que la pueden necesitar sea fluida para no desaprovechar la riqueza de información que se puede extraer del log.

Técnicamente el "log de visitas" es un archivo creado por el servidor donde se registran las acciones que los usuarios generan en la web.

El archivo en bruto presenta un formato bastante espeso y su tamaño puede ser un problema a la hora de manejarlo (un log de 20.000 visitas puede pesar 3 megas).

Ejemplo de línea de un log:

200.66.196.132 - - [03/Mar/2002:23:59:20 +0100] "GET /directorio/16.html HTTP/1.1" 304 - "http://www.dominio.com/directorio/index.html" "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)"

El formato de los logs varía dentro de cada servidor y dentro de cada servidor de la configuración del mismo.

Cada vez que se produce una llamada a un archivo dentro de nuestra web, el servidor escribirá una línea como esta. Cada visita, cada HTML, cada imagen dentro de ese HTML generará una línea. Es esta "redundancia" de información lo que hace que el log sea bastante difícil de manejar en bruto.

Explicación de cada elemento dentro del log

200.66.196.132 I.P. del usuario (número de identificación del ordenador desde el que el usuario accede)
- Usuario - para sites con identificación
- Password
[03/Mar/2002:23:59:20 +0100] Fecha
"GET /directorio/16.html HTTP/1.1" Archivo pedido
304 ID de contestación (2xx es OK | 3xx son de redireción | 4xx son de autentificación | 5xx son de errores de servicio)
- Número de bytes enviados
"http://www.dominio.com/directorio/index.html" Página desde la que se pide el archivo
"Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)" Información sobre versión del navegador, terminal del usuario...

2. Cómo extraer información. Excel puede ser un primer paso muy útil

Extraer información de un log de visitas en crudo usando una herramienta como excel no es fácil y presenta muchos problemas, pero nos puede ayudar a entender mejor cómo funciona el proceso de representación de un log.

Resultados que se obtienen ordenando el log

  Si ordenamos por... ... obtenemos.
200.66.196.132 I.P. del usuario número de usuarios únicos, rutas de dichos usuarios, páginas de salida...
- Usuario - para sites con identificación Número de usuarios registrados frente a usuario anónimos, ratio de conversión...
- Password Número de errores a la hora de introducir el password, longitud de password preferida...
[03/Mar/2002:23:59:20 +0100] Fecha Fechas con más visitas, duración de la visita (combinado con el IP), identificación geográfica (global) de los visitantes...
"GET /directorio/16.html HTTP/1.1" Archivo pedido Páginas más vistas - si lo combinamos con IPs sacamos las rutas.
304 ID de contestación (2xx es OK | 3xx son de redireción | 4xx son de autentificación | 5xx son de errores de servicio) Errores de peticiones, movimiento de archivos...
- Número de bytes enviados Envío total de datos (transferencia). El tiempo de visita se puede ver afectado por el peso de los archivos solicitados.
"http://www.dominio.com/
directorio/index.html"
Página desde la que se pide el archivo qué páginas están dirigiendo el tráfico, qué enlaces dentro de que páginas son los mas usados, resultado de búsquedas (internos y externos), páginas externas con enlaces a nuestro site...
"Mozilla/4.0 (compatible;
MSIE 5.5; Windows 98; Win 9x 4.90)"
Información sobre versión del navegador, terminal del usuario... Estadística sobre versiones, target real del site...

La idea de abrir un log en crudo requiere dedicación y algo de tiempo, pero nos ayudará a entender de forma más clara la información que estamos manejando y cómo pedir los resultados que realmente nos ayudarán a mejorar nuestro site.

Como alternativa siempre podemos disponer de alguna aplicación de análisis de logs. Disponibles en una amplia gama (gratuitos, de pago, caros, baratos, buenos, malos....) el uso de estas herramientas suele requerir algo de dedicación para poder extraer los datos en un formato que nos ofrezca resultados válidos. Por lo general todos los fabricantes ofrecen un tiempo de prueba o versiones demo con lo que podemos comparar antes de comprar. Al final de este artículo se ofrecerán algunas recomendaciones.

3. Qué hacer con los resultados. Presentación de datos, pruebas, confirmar teorías.

Para valorar los resultados de nuestro log, debemos comparar. Lo más normal es comparar los datos de forma interna viendo la evolución en el tiempo (comparando el número de visitas mes a mes, número de páginas vistas, duración de las visitas). Esta comparación nos dará una idea sobre la evolución del site, cómo cambios en la portada pueden afectar al número de páginas vistas, reducción del peso del site y la evolución de tiempo de permanencia, etc...

A la hora de comparar debemos seleccionar elementos que presenten equivalencias. A parte de comparar valores absolutos en distintos períodos de tiempo, debemos ser capaces de comparar los resultados de páginas similares. Páginas de menú, fichas de producto, formularios... deben ser extraídas del log para ver información sobre el tiempo de permanencia, siguiente página, página de referencia, etc... Esta comparación resultará más sencilla cuanto más homogeneo sea nuestro site (ya que podremos aislar las variables). Un ejemplo sencillo de comparación es crear X plantillas de resultados de búsquedas, lanzar las páginas en el site y estudiando el log identificar virtudes y debilidades en los diferentes modelos.

Otra forma de utilizar el log es para monitorizar campañas, comprobar la eficacia de una oferta, comparación de productos... el log es una fuente de información válida para poder realizar test de forma rápida y económica en el desarrollo de productos. Al ser información que se colecta sin ser solicitada de forma directa, presenta algo más de validez que datos recogidos bajo formularios o encuestas.

El ser capaz de representar los datos de forma comprensible para nuestra audiencia es un paso muy importante para mostrar la validez del sistema y poder justificar el desarrollo de esta fuente de información.

4. El análisis de log no es una ciencia exacta (pero se acerca).

Como todo metodo de recogida de información el log presenta una toleración en su precisión. El principal problema que tiene el log es que nos puede dar menos visitas de las que realmente se estan produciendo. La caché (del navegador o del servidor proxy) harán que múltiples visitas cuenten como una única visita y que movimientos de avance y retroceso puedan no quedar registrados en el log.

El otro problema es el no poder contar con la velocidad de conexión del usuario. Al no tener esta referencia, el tiempo de conexión se convierte en un parámetro algo incierto. Del tiempo de conexión, cuánto se dedica a la bajada de datos y cuánto a tiempo de lectura? Difícil de adivinar, pero de nuevo la comparación nos debería dar algún índice sobre el que poder crear una referencia.

Estos problemas están comentados de forma precisa en este artículo.

Agradecimientos

Agradecimientos a Colman López por su ayuda a la hora de preparar este artículo y a Jose Manuel Suárez y Jeff Miller por la información aportada.

Enlaces de interés:

Para eliminar las líneas dentro del log que no nos interesan debemos utilizar un editor del estilo KEDIT ($159) (permite abrir cualquier documento de texto y realizar eliminaciones de líneas según parámetros).

Jeff Miller desarrolló una aplicación (.zip 1.5 Mgs) para eliminar líneas. Está desarrollado usando director y en el ZIP puedes encontrar la aplicación en sí y el archivo director para modificar el código y ajustarlo a tus necesidades. La aplicación es un poco lenta por que no modifica el archivo original, si no que crea uno nuevo a partir del log original. Otra característica es que el archivo y la aplicación deben residir en el mismo directorio.

http://usability.gov/serverlog/index.htm. FAQs y ejemplos de logs de visitas.

http://www.microsoft.com/usability/webconf/fuller/fuller.htm. Excelente artículo sobre circunstancias a la hora de extraer información de un log de visitas.

Juan C. Dursteler recomienda un par de artículos:
http://www.analog.cx/docs/webworks.html. Errores comunes a la hora de leer un log de visitas. Un tono algo negativo.
http://www.infovis.net/Revista/num_65.htm. Artículo dentro de infovis.net sobre visualización de logs.

http://directory.google.com/Top/Computers/Software/Internet/.../Log_Analysis/
Directorio de google sobre analizadores de tráfico.

http://www.acm.org/archives. Archivos de ACM.org sobre logs.

Archivos de Cadius sobre preferencias a la hora de usar herramientas de log. Ver opiniones.

 

2005 DNXGROUP S.L. DIRECTIVA DE PRIVACIDAD