Europeana Newspapers : 18 partenaires européens s’unissent pour faciliter l’accès à la presse numérisée

Environnement numérique Europeana Newspapers

Lancé en février 2012, le projet Europeana Newspapers entend donner d’ici trois ans une meilleure visibilité à la presse ancienne numérisée.

Depuis cette phase de lancement, le projet se poursuit à mesure des réunions d’avancement qui réunissent 18 partenaires issus de 12 pays. L’objectif affiché est de faciliter l’accès aux articles de presse des quotidiens européens numérisés. En effet si de nombreuses hémérothèques existent d’ores et déjà sur Internet (AustriaN Newspapers Online, British Newspapers, Gallica…), ces fonds de journaux numérisés souffrent parfois de leur dispersion. C’est cette lacune qu’Europeana Newspapers entend combler en offrant aux internautes un accès simplifié à un large corpus issus des diverses institutions partenaires. L’interface unique d’interrogation permet de dépasser l’hétérogénéité technique de chaque projet pris isolément. Cette recherche fédérée concernera à terme près de 18 millions de pages libres de droit dont trois millions seront fournies par la BnF. 26 titres ont été choisis parmi les quelques 1 800 titres de presse présents dans Gallica.

Page de présentation d'un journal dans Europeana NewspapersOutre l’interface de recherche unique sur ce vaste ensemble, le projet offrira des potentialités de recherche amplifiées au regard de ce que permet Gallica. La recherche plein texte restera naturellement possible grâce au procédé de reconnaissance optique de caractères (Optical Caracter Recognition ou OCR) mais cette reconnaissance visuelle se doublera désormais d’une reconnaissance structurelle. L’accent sera ainsi porté sur des dispositifs de reconnaissance au niveau des articles (Optical Layout Recognition ou OLR). Il sera donc possible de rechercher par types d’articles ou de ne s’intéresser qu’à certaines rubriques d’un journal (pages internationales, rubrique sportive, pages de publicité…). Tout ceci permettra d’affiner les interrogations et d’obtenir de meilleurs résultats de recherche. Dès juillet 2013, ces nouveaux modes d’interrogation seront opérationnels. Ils concerneront à terme près d’un million de pages dont la moitié issue de Gallica.

Par ailleurs, des traitements issus du programme de recherche IMPACT regroupant partenaires privés, centres de recherches et bibliothèques sont prévus pour enrichir les données et les métadonnées. A titre d’exemple, grâce à la reconnaissance des entités nommées (Named-entity recognition ou NER), il sera plus aisé de rechercher des noms de personnes ou de lieux et ceci malgré le caractère multilingue du corpus.

Toutes ces avancées seront, dans un premier temps, disponibles sur le site d’Europeana newspapers à partir duquel il conviendra d’effectuer ce type de recherche. Les résultats de la recherche seront en revanche consultables dans Gallica, s’agissant des journaux numérisés par la BnF.

Benjamin Prémel – département Droit, économie, politique

Cette entrée a été publiée dans Collections, Partenaires. Vous pouvez la mettre en favoris avec ce permalien.

3 réponses à Europeana Newspapers : 18 partenaires européens s’unissent pour faciliter l’accès à la presse numérisée

  1. A quand la mise en ligne un temps promise de la Dépêche de Toulouse ??

    B.

    • gallica-catherine-blum dit :

      Bonjour,

      La BnF et La Dépêche du Midi ont signé, en janvier 2007, une convention relative à la numérisation de La Dépêche. Ce document prévoit l’hébergement et la conservation par la BnF de l’édition toulousaine de La Dépêche tandis que la numérisation et l’océrisation sont à la charge de La Dépêche du Midi. Faute d’un financement par le partenaire, le projet n’a pas abouti jusqu’à présent.

      Cordialement

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*


cinq + 6 =

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>