• Analyse, Indexation documentaire dans un Centre de Documentation
  • Marie-Thérèse Mercier*

    Définition de l'indexation

    « Opération qui consiste à décrire et à caractériser un document à l'aide de représentations des concepts contenus dans ce document, c'est à dire à transcrire en langage documentaire les concepts après les avoir extraits du document par une analyse. La transcription documentaire se fait grâce à des outils d'indexation tels que thesaurus, classification, etc... qui permettent le choix et l'attribution de descripteurs ou mots-clés décrivant de la façon la plus exhaustive le contenu conceptuel d'un document ».

    « L'indexation est la partie la plus importante de l'analyse documentaire. C'est elle qui conditionne la valeur d'un système documentaire. Une mauvaise indexation ou une indexation insuffisante représente 90 % des causes essentielles de l'apparition, lors d'une recherche, de "bruits" ou de "silences". On appelle "bruit", les documents non pertinents par rapport à la question, lors de l'interrogation du fichier. Par contre, les documents pertinents existant dans le fonds documentaire et non retrouvés lors de la recherche produisent ce qu'on appelle "silence" (absence de réponse) ».

    L'objectif lors d'une recherche documentaire est que le lecteur trouve ce qu'il cherche, tout ce qu'il cherche, tout ce qu'il n'aurait pas pensé à chercher, mais seulement ce dont il a besoin pour mener à bien son travail.

    Pour ce faire deux stratégies vont se combiner : d'une part , en amont l'analyse documentaire suivie de l'indexation, qui font appel aux techniques proprement documentaires, d'autre part, en aval, la recherche documentaire proprement dite.

    Donc, dans une premier temps sera procédé à l'analyse du document, en fonction d'un certain nombre de critères, faisant appel à la connaissance de l'environnement et des lecteurs, et dans un deuxième temps, à l'indexation pour en extraire ce qui fait sa pertinence et l'exprimer au moyen de concepts les plus exhaustifs possibles.

    « L'indexation humaine est une activité fondée sur le jugement d'un être humain ». Elle se caractérise par sa profondeur d'indexation, sa cohérence (ce qui est fondamental pour la cohérence du fonds et des fichiers), sa qualité (exhaustivité - spécificité).

    « L'indexation automatique reconnait, d'abord, des chaînes de caractères constitutives de mots non vides ; l'indexation humaine, elle, distingue des concepts, c'est à dire, des représentations mentales d'objets de la connaissance ». Pour indexer valablement un texte, il faut commencer par le comprendre, l'apprécier, le juger et dans ce domaine, l'ordinateur est plutôt faible !

    La classification , elle, se situe au niveau le plus synthétique, celui de l'expression la plus générale du contenu (le sujet du document) qui détermine sa position physique dans un fonds (cotation d'un ouvrage).

    Analyse et indexation des documents

    Quels documents ?

  • Articles de périodiques

  • Ouvrages

  • Thèses, mémoires, rapports

  • Congrès

  • Littérature grise

  • Etc...

    Pour quoi faire?

  • Identifier le document

  • Le retrouver

  • Le fournir

    Comment ?

    Par une analyse attentive du texte, pour en extraire les concepts significatifs, explicites ou implicites, exprimés dans un ordre logique reflétant l'ensemble du contenu textuel.

    Avec quel outil ?

  • Technique documentaire

  • Langage d'indexation

  • Outils d'indexation (listes mots-clés, thésaurus, classifications)

  • Thésaurus : « C'est un langage contrôlé, constitué de descripteurs pouvant se combiner entre eux lors de l'indexation pour exprimer des notions complexes.

    Ces descripteurs servent à traduire en langage artificiel dépourvu d'ambiguité, dit langage documentaire, des notions exprimées en langage naturel.

    C'est un ensemble de termes normalisés, hiérarchisés, découpés en champs sémantiques ou domaines ».

    Par quel processus ?

  • Analyse de l'environnement

  • Analyse au niveau du public

  • Prise en compte du contenu du "fonds" documentaire

  • Connaissance personnelle du domaine

    Méthodologie de l'analyse documentaire

    Exemple : un article de périodique

    Prise de connaissance

  • Titre

  • Discipline

    u Spécificité

    Questions ?

  • Quel public ?

    - Médecin ?

    - Infirmière ?

    - Personnel administratif ?

    - Etudiant (de quel niveau) ?

    - Aide-soignant ?

    - Travailleurs sociaux?

    - Etc...

  • Quel vocabulaire utiliser ?

  • Quels sont les documents traitant de ce sujet dans mon fonds documentaire ?

  • Quel est mon niveau de connaissance du domaine ?

  • Ai-je besoin de demander à un spécialiste son avis ?

  • Quels sont les centres d'intérêt actuels de l'établissement ?

  • Y a t-il des groupes de travail sur ce thème ?

  • Quels sont les concepts, les mots-clés, les descripteurs , les candidats descripteurs que j'ai déjà dans ma base ?

  • Comment le lecteur me posera-t-il la question à propos de cet article ?

  • Quel vocabulaire utilisera-t-il ?

  • Les mots-clés mentionnés par l'auteur (quand ils existent), sont-ils suffisants ? sont-ils trop précis, pointus, esotériques? trop vagues ? ne précisent pas l'essentiel (dans une revue de psychiatrie infantile par exemple, le mot enfant ne figure pas) ? Si ces mots-clés sont repris tel quels, sans référence à un quelconque vocabulaire contrôlé, on assistera à une dispersion totale d'où impossibilité de retrouver le document.

    L'analyse d'un document, se fait de façon critique ; elle porte donc à la fois sur son contenant, sur son contenu.pour un devenir prévisible.

    Tous les éléments suivants sont à analyser successivement et à prendre en compte :

    - Contenant :

    Titre

    Auteurs

    Sommaire

    Têtes de chapitre

    Introduction

    Conclusion

    Editeur

    Collection

    Source

    Date d'édition

    - Contenu :

    Lecture rapide ou approfondie du texte lui-même

    - Réflexion sur le contenu :

    Quel public ? Quel niveau de connaissance ?

    Quels concepts ? Explicites ? Implicites ?

    Quelle question sera posée par le lecteur à ce sujet ?

    Sous quelle forme ? Avec quel vocabulaire ?

    Qu'avons-nous déjà sur ce sujet ?

    Méthodologie de l'indexation

    Choix des concepts et traduction en descripteurs

    Sujet principal

    Sujets connexes

    Sujets secondaires ý d'où hiérarchie et pondération des concepts

    Liaisons syntaxiques entre descripteurs : juxtaposition, pondération, spécification de point de vue, lien, rôle

    Domaine

    Cotation (pour ouvrages selon classification)

    Choix des descripteurs

    Concept

    Mot-clé ­> Liste alphabétique de mots-clés

    Descripteur ­> Liste structure sémantique (thesaurus)

    Un descripteur doit : représenter un concept, être composé de préférence d'un seul mot, être au singulier, choix entre terme populaire ou scientifique , le plus susceptible d'être cherché par l'utilisateur.

    Les synonymes ou quasi synonymes servent de renvoi vers un descripteur ; si polysémie, une note d'application précisera les modalités d'emploi, pour ne laisser subsister aucune ambiguité du langage naturel.

    Les relations entre descripteurs

    Equivalence ­> descripteur/ non descripteur : employer/ employé pour

    Hiérarchie ­> terme générique/ terme spécifique

    Association ­> voir aussi

    Il convient donc, en ayant en tête ou sous les yeux le vocabulaire contrôlé de référence (liste de mot-clé ou thesaurus), de comparer, d'évaluer la pertinence de son analyse ou des mot-clés de l'auteur, en référence à ce vocabulaire.

    Si on ne s'appuie pas sur ce support indispensable, on assistera inévitablement à un éparpillement de l'information. Le vocabulaire libre (mots du titre ou texte intégral), produit un "bruit" considérable, une perte majeure de pertinence.

    Les objectifs de l'indexation

    Trouver tous les documents pertinents répondant à une question et seulement ceux-là.

    Recherche d'adéquation entre entrée des documents dans la base et sortie de ceux-ci suite à une question, d'où :

    Cohérence - Exhaustivité - Pertinence

    Pas de Bruit - Pas de Silence

    Pas de vocabulaire contrôlé

    Impossibilité de trouver le document

    Sous quel mot clé le document a t-il bien pû être saisi ?

    Interrogation de la base décevante

    Document perdu, introuvable

    Dispersion de l'information

    Non pertinence

    Recherche nulle

    Recherche sur texte intégral ou mots du titre : beaucoup de bruit

    Vocabulaire contrôlé :

    Réponse adaptée

    Sélection adéquate

    Recherche fructueuse

    Pourquoi est-il nécessaire d'indexer ses propres documents ?

    Les ouvrages ne se trouvent pas dans les bases de données (Pascal/Medline)

    La littérature grise non plus

    Les base de données internationales sont extrêmement pauvres en documents psy et en français.

    L'accès aux bases de données extérieures est couteux et nécessite un matériel pas nécessairement possédé par tous les Centres de Documentation

    Le fonds local par contre est d'un accès immédiat pour tous.

    La Recherche documentaire

    L'opération d'indexation se réalise non seulement sur les documents (indexation à l'entrée), mais aussi sur les questions (indexation à la sortie).

    Lors de l'indexation des questions, l'on retrouve les mêmes phases que lors de l'indexation des documents : prise de connaissance de la question - reconnaissance des concepts - traduction des concepts en langage documentaire. Cependant l'indexation "en sortie", diffère sur deux points qui viennent s'ajouter aux précédents.

    D'abord lors de la prise de connaissance de la question, le dialogue avec l'utilisateur prend une importance capitale : « c'est bien souvent une véritable maïeutique » qui ne relève pas essentiellement des techniques documentaires, mais beaucoup plus des techniques d'entretien de face à face. Au documentaliste de le guider de proche en proche vers une définition précise de son besoin, en fonction du fonds documentaire.

    Mais l'indexation de la question ne s'arrête pas à la traduction des concepts en langage documentaire ; elle se poursuit jusqu'à la formulation de l'équation logique constituée par l'ensemble des descripteurs retenus pour la question, reliés entre eux par les conditions logiques de l'algèbre booléenne.

    Dialogue avec l'utilisateur

  • Le lecteur

    Qui est-il ?

    Quel est son niveau ?

    Sa profession ?

  • Objectif de sa recherche

    Information personnelle ?

    Travail de groupe ?

    Recherche clinique ?

    Cours ? A qui ?

    Conférence ? Quel public ?

    Examen / niveau ?

    Etudes / lesquelles ?

  • Formulation de la recherche

    En langage naturel

    Claire ? Précise ? Floue ? Mal formulée ?

    Sujet réel très différent de la première formulation

    Etendue de la recherche ? Dans le domaine ? Dans le temps ?

    Langue ?

    Recherche exhaustive ? Limitée ?

  • Transcription par la documentaliste :

    Est-ce que je sais de quoi il me parle ?

    Reformulation de la question

    Traduction en mot-clé ou descripteur : langage d'indexation

  • Choix et interrogation de la base :

    Quelle base me fournira une réponse adaptée ?

    Quelle base interroger ? La plus pertinente ? La plus fiable ?

    Choix des descripteurs propre à cette base

    Etablissement de l'équation de recherche

    Stratégie de recherche, navigation dans la base

    Recherche d'exhaustivité

    Recherche de spécificité

    Sélection documents pertinents

    Degré de pertinence (pondération)

  • Fourniture des documents

    Une base de données ne donne généralement que des références de documents, il faut ensuite se les procurer (prêt entre-bibliothèques).

    Bases de données

    Les caractéristiques :

    Elles visent à faciliter l'accès à des gisements d'information, et le travail de la documentaliste consiste à rapprocher informations et utilisateurs.

    « Valoriser des informations brutes ou en faciliter l'accès grâce à une banque de données nécessite tout un travail préalable de la part du producteur de cette banque de données. Il s'agit notamment de structurer les informations de base. La simplicité de l'accès en aval, impose en effet, une grande sophistication du traitement de l'information en amont ».

    Les utilisateurs :

    « Pendant longtemps un débat quasi théologique a encombré les discussions dans les milieux de l'information professionnelle : vaut-il mieux, est-il plus efficace et plus rentable de confier l'interrogation des banques de données aux utilisateurs ou bien ceux-ci doivent-ils déléguer leurs recherches aux documentalistes ? »

    « Aujourd'hui on s'accorde à penser que beaucoup de services d'information électroniques sont accessibles directement par l'utilisateur final, car les procédures d'interrogation se sont heureusement simplifiées et le développement du texte intégral est une réalité ».

    « Le problème essentiel n'est plus tellement aujourd'hui de savoir interroger une base de données, mais d'être capable de repérer la base de données la plus pertinente et la plus fiable pour répondre à un besoin précis ».

    Quant à moi, la pratique m'enseigne, qu'au niveau des médecins et pharmaciens , en particulier, les uns et les autres, n'ont ni le temps, ni les compétences nécessaires pour faire eux-mêmes leur recherche bibliographique et sont absolument ravis de s'adresser pour cela au documentaliste !

    Les limites

    « Une base de données ne satisfait que l'utilisateur qui sait précisément ce qu'il cherche. N'attendons pas d'un tel outil qui aide chacun à préciser sa pensée. Celui qui trouve une réponse, c'est celui qui sait chercher et qui sait ce qu'il cherche ».

    L'interrogation des bases de données coûte cher, il convient donc d'optimiser le temps d'interrogation.

    Les avantages

    Mise à disposition immédiate de quantités d'informations quels que soient leurs lieux d'émission ou de production.

    Virtuellement...

    On peut tout à fait concevoir un Centre de Documentation sans documentation. Mais,

    il faudra se procurer tous les documents nécessaires à l'extérieur, d'où :

    - Attente

    - Coût

    - Réservé à certaines personnes privilégiées seulement.

    Bibliographie

    BARES Michel, La recherche documentaire dans le contexte télématique. Modalités d'automatisation et utilisation des bases de données.6 technique et documentation Lavoisier, 1985.

    CHAUMIER Jacques, travail et méthodes du/ de la documentaliste, ESF, 1980.

    TREFFEL Jacques, Les centres de documentation et les nouvelles technologies de l'information.- Documentation Française, 1994.

    VAN SLYPE Georges, Les langages d'indexation : conception, construction et utilisation dans les systèmes documentaires, Editions d'organisation, 1986.

    St-Egrève, le 12 février 1997

    ___________

    Marie-Thérèse MERCIER,

    Bibliothécaire, Documentaliste

    CENTRE HOSPITALIER

    B.P. 100

    38521 SAINT-EGREVE CEDEX

    Tél. : 04 76 56 42 38/ Fax : 04 76 56 45 87



    Retour accueil journée du 6 mars 1997