Tutoriel : la recherche plein texte dans Gallica

Une importante partie des livres et des fascicules de presse et revues accessible dans Gallica en mode image l’est aussi en mode texte, ce qui permet d’effectuer des recherches d’occurrences de mots à l’intérieur d’un document ou d’une ensemble de documents. Le module de recherche plein texte a récemment évolué : c’est l’occasion de revenir sur cette fonctionnalité offerte par l’interface de Gallica.

 

Comment savoir si le document que je consulte est disponible en mode texte ?

Lorsque vous consultez un livre ou fascicule de presse ou de revue dans Gallica, plusieurs éléments vous permettent de voir au premier coup d’œil si le document est disponible en mode texte, comme ici avec le premier tome des Œuvres complètes de Buffon :

Le pictogramme situé à droite du titre du document est doté d’un petit « a » signalant la présence du mode texte pour ce document (, par opposition au pictogramme utilisé pour les livres ne disposant pas de mode texte : ). Le principe est le même pour les fascicules de presse et de revues (, par opposition à ).
Le menu déroulant  situé dans la partie supérieure gauche du document permet d’accéder directement au mode texte :

Pour la très grande majorité des documents accessibles en mode texte dans Gallica, le texte a été généré automatiquement par reconnaissance optique de caractères (OCR). Le taux de qualité de l’OCR est spécifié pour chaque document. Ici, le taux de 99,96% garantit une bonne fiabilité de la recherche dans le plein texte.

Comment retrouver les occurrences d’un mot ou d’une expression dans un document ?

Un module de recherche est situé à gauche de chaque document accessible en mode texte :

Une fois déplié, ce module propose un champ de saisie permettant de formuler une requête sur un ou plusieurs mots :

Une fois la requête lancée (ici, elle porte sur la présence du terme « cétacés » dans le tome 1 des Œuvres complètes de Buffon), le module affiche toutes les pages qui contiennent au moins une occurrence du mot recherché :
-le nombre de pages concernées est indiqué dans le résumé de la recherche (ici, « cétacés : 7 pages trouvées ») ;
-le nombre d’occurrences dans la page est indiqué entre parenthèses après chaque numéro de page (un clic sur le numéro de page permet d’y accéder directement) ;
-pour chaque page concernée, la première occurrence est citée dans son contexte (c’est là une nouveauté par rapport aux précédentes versions de Gallica).

Pour les requêtes concernant une expression exacte, utilisez les guillemets pour limiter le bruit dans les résultats, comme avec cette édition des Fables de La Fontaine  :

 

Comment rechercher à l’intérieur d’un ensemble de documents ?

Le module de recherche permet également, dans le cas des livres, de retrouver tous les tomes d’une série, si le volume fait partie d’un ensemble d’œuvres complètes, par exemple. Ainsi, à partir du tome 1 des Œuvres complètes de Buffon, on pourra cliquer sur le lien « Voir tous les volumes du même ensemble éditorial » situé sous le champ de saisie dans le module de recherche. S’affichera alors la liste de tous les autres tomes :

La colonne d’affinage située à gauche permet d’effectuer une recherche dans l’ensemble des tomes listés.

Cette fonctionnalité est également déclinée pour les titres de presse et revues. A partir d’un fascicule donné, le module de recherche permet :
-de retrouver les occurrences d’un mot ou d’une expression dans le document ;
-de retrouver les occurrences d’un mot ou d’une expression dans l’ensemble des fascicules du périodique ;
-de retrouver l’ensemble des fascicules publiés la même année ou l’ensemble des fascicules du périodique, comme on peut le voir avec ce numéro du Petit Parisien publié il y a tout juste 80 ans :

 

Cette entrée a été publiée dans Nouvelles fonctionnalités, Numérisation et OCR, avec comme mot(s)-clef(s) , . Vous pouvez la mettre en favoris avec ce permalien.

4 réponses à Tutoriel : la recherche plein texte dans Gallica

  1. DAHAN dit :

    La mention, à propos du Parisien « publié il y a cent ans » m’a étonné en voyant un numéro de 1932? N’y aurait-il pas une contradiction interne?

  2. Antonin dit :

    Excellente implémentation ! Il est vrai qu’on est habitué, avec l’informatique, à pouvoir rechercher en un clic (ctrl+f) un mot ou une expression dans un blog voir même dans un ensemble de documents avec des moteurs de recherche.

    Et on ne se rend compte que cette fonctionnalité est merveilleuse que quand on se retrouve face à un livre et qu’on cherche un passage qu’on a lu il y a quelques temps. Là, plus de ctrl+f – mais heureusement des technologies comme l’OCR nous permettent de transposer cette recherche au livre !

  3. Lerat-Gentet Claude dit :

    Je découvre le site et vous remercie vivement pour ce tutoriel simple et accessible
    Cordialement

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*


+ 6 = sept

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>