Sauter les liens de navigation (touche d'accès : Z)Bibliothèque et Archives Canada / Library and Archives Canada
Élément graphique EnglishContactez-nousAideRechercheSite du Canada
AccueilÀ notre sujetQuoi de neuf?À l'affichePublications


Évaluation de l'utilisation d'un site Web : Analyse d'un fichier journal

par Susan Haigh et Janette Megarity
Flash Réseau no57
ISSN 1200-5304
Services de technologie de l'information
Bibliothèque nationale du Canada

Le 4 août 1998


1.0 Introduction

Compte tenu que de plus en plus d'organismes considèrent le Web comme faisant partie intégrante de leurs activités et de leurs communications externes, l'intérêt suscité pour l'évaluation de l'utilisation d'un site Web est à la hausse.

Il est possible d'utiliser des journaux de serveurs afin de recueillir certain renseignements sur l'utilisation quantitative. Lorsqu'ils sont compilés et interprétés correctement, les renseignements contenus dans les journaux offrent une ligne de base de données statistiques qui indique les niveaux d'utilisation et les comparaisons de l'utilisation de mesures de soutien ou de la croissance, qu'il s'agisse des parties d'un site ou d'une mesure étalée dans le temps. Une telle analyse fournit également certains renseignements techniques relatifs au chargement du serveur, à l'activité inhabituelle ou aux demandes infructueuses; elle peut contribuer au développement et à la commercialisation du site ainsi qu'aux activités de gestion.

2.0 Utilisation du site Web : l'image en plus grande perspective

Une analyse de l'utilisation pourrait comporter une étude précise d'un vaste éventail de questions, à savoir non seulement quoi, quand et par qui, mais aussi comment et pourquoi les renseignements ont été (ou non) cherchés et utilisés. L'évaluation de manière explicite de l'utilisation d'un site Web ne constitue pas une activité sans valeur. Il est essentiel de commencer en déterminant les questions relatives à l'utilisation auxquelles il faut répondre, puis de choisir un ou plusieurs mécanismes d'évaluation appropriés afin de fournir des réponses cohérentes.

L'analyse de journaux n'est qu'un mécanisme de ce genre parmi plusieurs. Des méthodes qualitatives de collecte de données, tels les sondages sur les utilisateurs, les groupes de discussion et les autres mécanismes de rétroaction, peuvent réunir les opinions des utilisateurs sur le contenu d'un site, la navigation ou l'apparence du site et le confort de l'utilisation. Elles peuvent évaluer la satisfaction des utilisateurs et les raisons pour lesquelles ils ont visité le site ou y ont navigué de telle ou telle façon. Il est possible d'évaluer la capacité d'exploitation d'un site, laquelle aura des incidences tant sur le taux que la manière d'utilisation, par diverses méthodes afin de savoir si le site est accessible, s'il est facile d'y naviguer et s'il est attrayant pour les utilisateurs. Les points de référence auxquels sont comparés et évalués les chiffres sur l'utilisation les rendent plus cohérents. Quelle est la croissance de mon site par rapport aux taux de croissance globaux du Web? Quelle volatilité des niveaux d'utilisation est normale ou jusqu'à quel point les niveaux d'utilisation peuvent être attribués à nos efforts promotionnels? Pouvons-nous trouver des sites comparables aux nôtres qui emploient leurs journaux de serveurs en utilisant des paramètres et des soins semblables ?

Le présent Flash Réseau a comme priorité l'analyse de fichiers journaux comme étant une méthode de recherche quantitative aux fins de l'analyse de l'utilisation, en offrant un aperçu de ce qui peut ou non être recueilli des données et des outils logiciels qui servent actuellement au soutien de l'analyse de journaux.

3.0 Le contenu d'un fichier journal

Toute communication entre un navigateur client et un serveur Web mène à une entrée au journal du serveur qui consigne la transaction. Un site Web occupé, tel celui de la Bibliothèque nationale du Canada, produit des centaines ou des milliers d'entrées au journal par heure et les compile dans un fichier journal. Les données saisies dans un fichier journal varient selon le type de serveur utilisé et le ou les formats de fichier journal qu'elles soutiennent. Les formats les plus utilisés sont le format de fichier journal commun et le format de fichier journal combiné ou étendu. En règle générale, une entrée au fichier journal contient :

l'adresse de l'ordinateur demandant le fichier
la date et l'heure de la demande
l'adresse URL du fichier demandé
le protocole utilisé pour la demande
le volume du fichier demandé
l'adresse URL de renvoi
les systèmes de navigation et d'exploitation utilisés par l'ordinateur soumettant la demande.

Deux entrées au fichier journal sont indiquées ci-dessous. Il s'agit dans le premier cas d'une demande pour un message sur le droit d'auteur provenant d'une notice bibliographique de resAnet, le catalogue de la Bibliothèque nationale. La deuxième demande une image incorporée à une page du produit numérique de la Bibliothèque nationale « Femmes à l'honneur : leurs réalisations ». Les deux demandes ont été consignées à zéro heure quatre secondes le 24 juillet 1998.

192.117.240.3 - - [24/Jul/1998:00:00:04 -0400]

"www.collectionscanada.ca/femmes/002026-221-f.html

4.0 Que pouvez-vous apprendre d'un fichier journal ?

Les données provenant d'un fichier journal peuvent être compilées et combinées de diverses façons, offrant les données statistiques ou les inscriptions suivantes :

nombre de demandes effectuées («réponses obtenues»)

nombre total de fichiers et de kilos-octets servis avec succès

nombre de demandes par type de fichier, comme les visualisations de pages HTML

adresses IP distinctes servies et nombre de demandes effectuées par chacune

nombre de demandes par suffixe de domaine (provenant d'adresses IP)

nombre de demandes pour des fichiers ou répertoires particuliers

nombre de demandes par code d'état HTTP (réussi, échoué, redirigé, informationnel) totaux et moyennes par périodes de temps particulières (heures, jours, semaines, mois, années)

adresses URL à partir desquelles l'utilisateur est arrivé sur le site (pages de renvoi)

navigateurs et versions soumettant les demandes.

5.0 Qu'est-ce que vous ne pouvez pas apprendre d'un fichier journal ?

Les lacunes des fichiers journaux en tant qu'indicateurs de l'utilisation se divisent en trois catégories principales : certains types de données sur l'utilisation ne sont pas consignés; les données consignées peuvent être incomplètes et il est tentant d'extraire des inférences peu valables de certaines de ces données.

5.1. Données non consignées dans les journaux

  • Identité des gens : à l'exception des transactions nécessitant une autorisation (mots de passe), aucune donnée consignée dans les fichiers des serveurs ne révèle le nom d'un utilisateur ou tout autre identificateur, comme une adresse électronique.
  • Nombre d'utilisateurs : un «utilisateur», tel qu'exprimé dans un journal, est une adresse IP  -  un ordinateur. Cela ne correspond pas nécessairement à un ratio égal pour chaque personne. Une adresse IP peut représenter :
  • une araignée ou un autre agent, non pas une personne, mais un navigateur automatique, une antémémoire, un serveur de remplacement comme un pare-feu ou un fournisseur de services Internet. Tous peuvent représenter l'utilisation de nombreux particuliers et un utilisateur d'un OP exécutant les commandes sur son navigateur.
    • Données qualitatives : les données de fichiers journaux ne font pas la lumière sur les raisons qui ont motivé les demandes, ce qui incite un utilisateur à visiter un site, les réactions face au contenu du site, l'utilisation pratique des fichiers servis et tout autre aspect qualitatif de l'utilisation.
    • Fichiers non visualisés : les fichiers journaux n'ont pas de dossier de fichiers dans lesquels il n'y pas eu d'activités. Par conséquent, un rapport d'analyse de journal intitulé «Pages les moins utilisées» ne fera pas ressprtir les pages non utilisées.
    • Où l'utilisateur est ensuite allé: cette transaction ne serait consignée que dans le journal du site visité ultérieurement.

    5.2 Données consignées, mais fondamentalement incomplètes

    Nombre de demandes (et toute autre donnée statistique établie à partir de ce chiffre) : les journaux de serveurs ne donnent une image exacte de l'utilisation en raison de la mise en antémémoire. Une page téléchargée est automatiquement mise dans l'antémémoire du client pour une période (déterminée par la quantité de mémoire allouée à cette fonction). Par conséquent, un document qui est souvent demandé peut être directement extrait de l'antémémoire et le serveur n'a pas de dossier sur ce qui a été visionné. Le serveur ne consigne les cas que lorsque le document à antémémoire est comparé à la version du serveur aux fins de la mise à jour. Si cela se produit, cela dépend des paramètres du navigateur. L'exemple le plus simple de ce qui est dénombré est la «visualisation» de pages au cours d'une séance avec un navigateur : les gens qui utilisent les boutons Précédent et Suivant ou les caractéristiques Allez ne sont pas dénombrés au serveur, tandis que ceux qui utilisent le bouton Recharger le sont.

    Partout dans Internet, on utilise de plus en plus des blocs de mémoire d'envergure ou des antémémoires afin de réduire le temps de réponse. Cela signifie qu'un fichier peut avoir une antémémoire à divers autres points dans le réseau sur la voie qui sépare le serveur et le navigateur, telle que l'antémémoire d'un site, une antémémoire locale régionale, l'antémémoire d'un fournisseur de services ou même une antémémoire nationale. Si le navigateur trouve le fichier dans une antémémoire intermédiaire, le serveur ne consigne pas le moment du visionnement de ce fichier.

    Le nombre d'utilisations consignées par le serveur est donc réduit à l'extrême à cause de ces facteurs. Les totaux des fichiers journaux sont, par conséquent, tout au plus des indicateurs du nombre d'utilisations saisi dans les journaux.

    5.3 Inférences peu valables provenant de données consignées

    Les fichiers journaux ne peuvent soutenir les inférences suivantes, bien qu'elles soient tentantes, étendues et, à un degré élevé ou moindre, encouragées par la plupart des logiciels d'analyse de journaux :

    • Que les réponses obtenues sont égales à l'utilisation : les «réponses obtenues» constituent toutes des échanges entre le client et le serveur. Afin de présenter une page HTML à un utilisateur, le serveur se sert du fichier HTML et de tous les fichiers images compris dans cette page (à mois que l'utilisateur n'ait éteint les images sur son navigateur), ce qui fait des «réponses obtenues» un chiffre très exagéré.
    • Que les «séances de l'utilisateur» peuvent être isolées et dénombrées : les «séances de l'utilisateur» sont calculées au moyen de certains produits d'analyse de journaux en faisant un suivi des demandes reçues d'adresses IP jusqu'à ce qu'une période d'inactivité (disons 30 minutes) indique au logiciel que la «séance» est terminée. Comme ce calcul est basé sur deux hypothèses sans valeur  -  selon lesquelles un serveur correspond à un particulier et que ce dernier ne s'arrêterait normalement pas (pour aller à un autre site ou exécuter une autre tâche) dans une visite de site  -  les séances de l'utilisateur sont, au mieux, des estimations brutes.
    • Qu'il est possible de calculer les visualisations moyennes de pages par séance, la longueur moyenne d'une séance, la longueur moyenne d'une visualisation de page, la première entrée et les pages de sortie, les pages à utilisation unique et les premiers parcours d'un site. Ces données statistiques proviennent d'une construction artificielle d'une «séance de l'utilisateur». De plus, parce que l'on peut obtenir des fichiers qui sont plus souvent demandés à partir d'une antémémoire, le premier fichier consigné tel que demandé peut, en effet, être au milieu d'une visite concrète d'un site d'un utilisateur.
    • Que toutes les utilisations sont les mêmes : une hypothèse propre à la totalisation d'entrées aux fichiers journaux en un seul chiffre sur l'utilisation prétend que toutes les utilisations sont les mêmes. Les demandes effectuées par des araignées (navigateurs automatisés) sont comprises dans les journaux de serveurs, bien qu'elles ne constituent pas une forme d'utilisation comparable à celle des navigateurs Web (c.-à-d. les ordinateurs commandés par des gens). Certains produits d'analyse de journaux peuvent fournir des rapports isolant les utilisateurs reconnus par le logiciel comme étant des araignées. Toutefois, les totaux d'indicateurs d'utilisation globale ont tendance à inclure automatiquement l'utilisation d'araignées.
    • Que la distribution géographique des utilisateurs et le type d'organisation peuvent être extrapolés de façon précise : les fichiers journaux n'offrent pas de base valable à partir de laquelle on peut catégoriser le type d'utilisateur ou suivre la distribution géographique. Tel que noté ci-dessus, une adresse IP consiste en un numéro unique joint à une machine plutôt qu'un identificateur de personne. Deuxièmement, les progiciels d'analyse de journaux Web tendent à baser leurs données statistiques géographiques sur l'endroit où une adresse IP a été consignée. Cependant, l'ordinateur personnel d'un utilisateur peut être situé dans un emplacement géographique différent de l'endroit où l'adresse IP a été consignée. C'est généralement le cas pour les fournisseurs de services Internet. Par exemple, les gens en Amérique du Nord ayant accès à un site par l'entremise d'America Online sont saisis dans le fichier journal comme étant des gens de l'état de la Virginie. La structure du système d'identification du domaine cause des problèmes de désignation de l'emplacement géographique et du type d'organisation de l'utilisateur parce que, en effet, le système confond les deux. Au niveau géographique, les suffixes de domaines tels que .com, .org et .net pourraient faire référence à des entreprises commerciales, à des organismes et à des réseaux de n'importe quel pays. Les autre suffixes, tels que .edu et .gov, lorsqu'ils sont utilisés comme des suffixes de domaines supérieurs, font particulièrement référence aux domaines des É.-U. (à savoir, l'enseignement supérieur et les domaines relevant du gouvernement fédéral, respectivement). En termes de données statistiques canadiennes, la principale lacune des catégories géographiques et du type d'organisme vient du fait que des compagnies canadiennes peuvent utiliser le suffixe .ca ou .com, mais elles peuvent ne pas utiliser les deux. Pour résoudre ce problème, il faudrait modifier la structure d'identification du domaine et adopter universellement le schéma révisé, une solution peu réaliste. Par conséquent, les rapports d'analyseurs de fichiers présentant des répartitions géographiques et des données par type d'organisme sous forme de tableaux distincts sont très trompeurs.
    • Enfin, dans la plupart des fichiers journaux, un important pourcentage des réponses obtenues peut rester sans explication en termes de consultations inverses de DNS (convertir des numéros IP en noms de domaine, et, de cette façon, fournir le suffixe nécessaire à l'interprétation). Ces adresses numériques restent en grande partie d'origine inconnue, bien qu'un niveau élevé d'utilisation provenant d'un numéro IP non résolu peut indiquer qu'il s'agit d'une araignée.

    6.0 Autres considérations en matière d'utilisation de données du fichier journal

    • Inclusions et exclusions dans des rapports : la plupart des progiciels permettent l'élimination du journal intégral de certains types de fichiers (p. ex., les fichiers images), de répertoires, d'adresses IP (p. ex., les utilisateurs internes) ou de toute autre chaîne de données. Inversement, on peut parfois combiner de nouveaux journaux de serveurs ou des parties de journaux dans un seul rapport. De telles exclusions ou inclusions doivent être exécutées correctement et expliquées clairement aux personnes interprétant les rapports statistiques ou comparant l'utilisation d'un site à un autre.
    • Miroirs du site : si un site est doublé, les fichiers journaux de tous les sites devraient être compilés afin d'établir le degré d'utilisation du même contenu de divers sites.
    • Volume du site : les visualisations de pages constituent des entrées aux journaux uniquement pour les pages HTML; les autres types de fichiers (tels que les images, les fichiers de fonction de développement des programmes, les fichiers textes et les fichiers exécutables) sont exclus. Toutefois, pour être utilisé à des fins de comparaison cohérente entre des sites ou des produits (c.-à-d. comme un indicateur global du «taux d'utilisation»), un tel chiffre devrait être mis en parallèle avec un certain nombre de pages HTML possibles, c.-à-d. le volume du site.
    • Structure du site: la connaissance approfondie de la structure d'un site Web est essentielle à la production de rapports précis d'analyse de journaux. Afin d'examiner seulement les répertoires particuliers et ou les fichiers d'un site, un fichier journal doit être analysé ou «filtré» de façon précise. Dans le contexte complexe d'un serveur ou lorsqu'il s'agit d'un site vaste et occupé, il est trop facile de produire des chiffres plausibles, mais imprécis en commettant des erreurs dans la compilation des données.
    • Volatilité du trafic du Web : le trafic du Web à court terme est extrêmement volatil, de sorte que les chiffres d'une semaine peuvent être le double ou la moitié de ceux de la semaine précédente (Nielsen). De telles variations signifient que les tendances dans le trafic du site n'apparaissent qu'avec une analyse à long terme des données.

    7.0 Logiciel d'analyse de journaux

    On retrouve sur le marché bon nombre de progiciels d'analyse de journaux comportant plusieurs caractéristiques. Chez certains fournisseurs l'analyse de journaux fait partie d'un ensemble de logiciels de gestion globale du Web qui effectue également une analyse des liens et du rendement. Les outils d'analyse de journaux offrent aussi les caractéristiques suivantes :

    Interface conviviale

    Divers formats de sortie (HTML, Word, Excel, texte, courrier électronique)

    Fonctions de rapports solides

    Soutien pour divers formats de fichier journal

    Bon nombre d'options de filtrage

    Analyse en temps réel

    Traitement de fichier journal compressé

    Base de données sommaire incorporée

    Accès à distance au logiciel

    Rapport d'analyse d'approximation

    Ordonnancement d'un rapport automatique

    Consultations inverses du DNS

    On retrouve une liste des visualisations de logiciels des outils d'analyse de fichier Web à la fin de ce document.

    8.0 Conclusion

    Actuellement, l'analyse de fichier journaux est peut-être d'abord perçue comme un art déguisé en science. Les limites des données d'un fichier journal, d'un logiciel d'analyse d'un journal Web et la nature inhérente du Web signifient que les données statistiques du fichier journal devraient faire l'objet d'une analyse minutieuse et être interprétées avec la plus grande prudence. Dans unb proche avenir, au fur et à mesure que l'utilisation d'antémémoires et de logiciels agents au sein des réseaux va augmenter, la précision des fichiers journaux et l'utilisation d'indicateurs vont diminuer. D'un autre côté, l'utilisation accrue de témoins ou de nouveaux protocoles de communication et de serveurs peuvent nous aider à mieux connaître les utilisateurs et nous éclairer davantage sur l'utilisation.

    Pour le moment, on doit se rappeler que l'ampleur de l'utilisation et le nombre véritable d'utilisateurs du site nous sont inconnus. Toutefois, si les fichiers journaux de serveurs Web sont compilés de façon adéquate et interprétés de façon sérieuse, ils peuvent encore fournir certains indicateurs statistiques cohérents en matière d'utilisation d'un site Web.

    Choix de lectures

    Goldberg, Jeff. Why web usage statistics are (worse than) meaningless. (Pourquoi les données statistiques utilisées sur le Web sont-elles sans signification)
    http://www.cranfield.ac.uk/docs/stats/

    Linder, Doug. Interpreting WWW Statistics (Interprétation des données statistiques du Web)
    gopher.nara.gov:70/0h/what/stats/webanal.html

    Neilsen, Jakob. Tracking the Growth of a Site (Suivre la croissance d'un site).
    http://www.useit.com/alertbox/980222.html

    Stehle, Tim. Getting Real About Usage Statistics.  (À propos de l'utilisation des données statistiques)
    http://www.wprc.com/wpl/stats.html.

    Turner, Stephen. Readme for analog 3.0 : How the web works (Mise à jour de l'analogie 3.0 : Le fonctionnement du Web)
    http://www.statslab.cam.ac.uk/~sret1/analog/docs/webworks.html.

    Critiques de logiciels d'analyse de fichiers Web

    Randell, Neil. (10 mars 1998). The Results Are In. (Voici les résultats) PC Magazine [online].

    http://www.zdnet.com/pcmag/features/webanalysis2/index.html

    Randell, Neil. (10 mars 1998). Web Site Analysis Tools: The Under-$100 Crowd. PC Magazine [online] (Outils d'analyse du site Web à des prix inférieurs à 100 $) http://www.zdnet.com/pcmag/features/webanalysis2/sb5.html.

    Randell, Neil. (7 octobre 1997). Who Goes There? Seven Inexpensive Web Analysis Tools Can Help You Determine Who's Visiting Your Site. PC Magazine [online].(Qui va là? Sept outils bon marché et utiles pour l'analyse du Web Vous déterminez qui visite votre site)
    http://www.zdnet.com/products/content/pcmg/1617/prmg0029.html.

    Taschek, James. (avril 1997). Analyzing Your Website. ZD Internet Magazine [online].

    www5.zdnet.com/products/content/zdim/0204/

    zdim0012.html. (Analysez votre site Web)

    Zieger, Anne. (13 octobre 1997). Tracking Tools: Your Next Stop. Internet Week [online].

    techweb.cmp.com/internetwk/trends/1013a.htm. (Outils d'analyse : votre prochain arrêt)