Patrimoine imprimé et crowdsourcing : le projet FUI12 Ozalid

Depuis janvier 2012, la BnF participe, avec 8 autres partenaires (Orange, Jamespot, Urbilog, I2S, ISEP, INSA Lyon, Université Lyon 1 – LIRIS, Université Paris 8), au projet de recherche et développement FUI12 OZALID. Il s’agit de concevoir une plateforme collaborative de correction et d’enrichissement des documents numériques.

Le projet FUI12 OZALID repose sur trois objectifs principaux qui consistent à favoriser une approche par crowdsourcing, répondre à une exigence d’accessibilité numérique (pour tous les types d’utilisateurs et pour tous les modes et dispositifs d’accès) et développer des outils et méthodes innovants.

Ce projet de recherche se déroule en plusieurs phases :
-2012-2013 : mise en place d’une interface permettant de corriger des textes numérisés ;
-2013-2014 : mise en place de fonctionnalités permettant, pour un texte donné, de reconstruire la mise en forme du document et de reconstituer un ordre logique de lecture ;
-2014-2015 : mise en place de fonctionnalités permettant un enrichissement éditorial des textes (indexation, vocalisation, annotation, etc.).

Dans le cadre de la première phase du projet, la BnF a fourni des documents numériques provenant de Gallica. Le mode texte de ces documents contient des erreurs, car il n’existe pas à ce jour de solution d’OCR* infaillible permettant de passer d’un document numérisé en mode image à une version en mode texte parfaitement fidèle à l’original. Le seul moyen d’y parvenir est de passer par une phase de correction manuelle pour détecter et éliminer les erreurs restantes (caractères mal reconnus, coquilles, etc.).

Ce projet de recherche envisage une nouvelle méthode de correction collaborative des documents qui s’appuie sur un réseau social pour soutenir et organiser cette collaboration. Avec le premier prototype de la plateforme, il vous sera bientôt possible de tester la correction collaborative :

Prototype de la plateforme de correction : image et texte

Prototype de la plateforme de correction : image et texte

L’amélioration du mode texte des documents de Gallica est un enjeu important, car plus la qualité du mode texte est élevée, plus la recherche au sein de ces documents est performante.

Les autres phases du projet vont permettre de proposer des documents accessibles à l’ensemble des utilisateurs et adaptés aux nouveaux usages mais également d’explorer les possibilités offertes par le crowdsourcing pour l’enrichissement des documents.
Ce projet de recherche s’inscrit dans une approche expérimentale qui vise à tester diverses fonctionnalités collaboratives et sociales – lesquelles pourraient, à terme, être intégrées partiellement ou entièrement dans l’environnement de Gallica.

Les 17, 18 et 19 avril 2013 a eu lieu une première expérimentation à la bibliothèque universitaire de Paris 8 : les étudiants ont pu y tester un prototype de la plateforme, sur ordinateur et sur tablette.

Pour en savoir plus sur les projets de crowdsourcing en bibliothèques, consultez cet état de l’art effectué par les équipes de la BnF en février 2013.

Mise à jour du 30/05/2013 : le 19 juin 2013, la BnF vous invite à participer, de chez vous ou sur le site François-Mitterrand, à une expérimentation en réseau pour tester le prototype de la plateforme de correction collaborative sur un corpus de documents extraits de Gallica. En savoir plus.

Isabelle Josse – Département de la conservation

 

*****************************************

*l’OCR (Optical Character Recognition = Reconnaissance optique des caractères) permet de situer et de reconnaître les chaînes de caractères dans une image pour faire la conversion des mots dans un fichier texte. Cette conversion est assurée automatiquement par un logiciel.

 

Cette entrée a été publiée dans On en parle..., Partenaires, avec comme mot(s)-clef(s) , , . Vous pouvez la mettre en favoris avec ce permalien.

2 réponses à Patrimoine imprimé et crowdsourcing : le projet FUI12 Ozalid

  1. Patrick dit :

    Bonjour,
    je suis surpris de ne pas trouver dans le benchmark distributed proofreaders http://www.pgdp.net et http://dp.rastko.net/ qui ont aussi Gallica comme source

    • Equipe Gallica dit :

      Bonjour,

      merci pour votre commentaire. L’état de l’art publié sur bnf.fr n’a pas vocation à l’exhaustivité, et il pourra être complété si nécessaire tout au long du projet.

      Par ailleurs, ce document est centré sur les bibliothèques : quels enjeux du crowdsourcing pour les institutions culturelles, quels retours pour l’accès aux documents dans les bibliothèques numériques, etc. Les projets non exclusivement institutionnels qui ont pu être étudiés (Wikisource, Ancient Lives) ne l’ont été que sous l’angle d’un partenariat avec une bibliothèque.

      Bien cordialement

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*


un × 4 =

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>