BnF, Collections et patrimoine, Services

Un instantané du Web français en 2011

8 février 2012
Dépôt légal du web en 2011 - © BnF

Dépôt légal du web en 2011 - © BnF

Afin de remplir sa mission de dépôt légal de l’Internet, la BnF constitue annuellement une collection d’archives de sites Web, qui vise à donner une photographie instantanée du Web national.

Ces représentations sont nécessairement lacunaires, mais elles n’en sont pas moins uniques par l’amplitude de leur couverture, leur diversité et leur richesse.

  • Internet français : que collecte-t-on ?

Le Code du patrimoine définit le périmètre des collectes :
- l’ensemble des sites enregistrés sous le domaine de premier niveau (Top Level Domain ou TLD) « .fr »,
- les sites ayant une autre extension (.com, .net, .eu, etc) mais édités par des personnes physiques ou morales domiciliées en France,
- et les publications produites sur le territoire national, même si elles sont diffusées par une société étrangère.

Cette photographie annuelle, la « collecte large », porte aujourd’hui essentiellement sur le domaine .fr, grâce à un partenariat avec l’AFNIC, l’association en charge de ce domaine. La dernière capture en date a eu lieu d’octobre à décembre 2011. Elle était composée de 2,6 millions de domaines, dont 95% en .fr, mais aussi 3% en .com et 2% pour les autres TLD : afin d’élargir le champ de ces collectes, la BnF capture aussi les sites qui lui sont signalés par ses bibliothécaires ou des partenaires extérieurs, ainsi que les sites qui bénéficient d’une redirection à partir d’un domaine en .fr.

Web Archiving and the IIPC - French from Abbey Potter on Vimeo.

  • jusqu’à cinq clics

Pour chaque domaine de départ, le robot archive un volume maximum de 10 000 fichiers (qu’il s’agisse d’une page HTML, d’une image ou encore d’une vidéo). Ce « budget », qui permet généralement de capturer tous les contenus à 4 ou 5 clics depuis la page d’accueil du site, apparaît suffisant pour plus de 90% des sites archivés. L’objectif est de donner à chaque site, quel qu’en soit le contenu et l’auteur, la possibilité d’être présent dans la collection nationale, dans la tradition du dépôt légal, qui vise à constituer une collection représentative de la production éditoriale française.

  • tendances du Web 2011

L’opération de 2011 a permis de collecter plus d’un 1 milliard de fichiers, pour un poids de
32 téraoctets. Le fonds constitué révèle un panorama sommaire de l’état du Web en France, avec deux tendances fortes en 2011. D’un côté, on peut y voir un Web qui permet aux grandes et aux petites entreprises de promouvoir leurs activités et leur image auprès des consommateurs. De l’autre, cette collection montre et montrera aux futurs chercheurs comment le Web est devenu un outil du quotidien des Français : communiquer et partager autour d’un même centre d’intérêt, se divertir ou trouver des informations pratiques…

BnF, point d’entrée vers les Archives de l Internet © Nicolas Taffin/BnF

BnF, point d’entrée vers les Archives de l Internet © Nicolas Taffin/BnF

Tous les sites collectés rejoignent les autres collectes larges ainsi que les collectes ciblées (des collectes plus profondes, plus fréquentes ou sur des thématiques plus précises) dans les archives de l’Internet, consultables par les lecteurs accrédités à la Bibliothèque de recherche de la BnF.

Pour information : si un éditeur (particulier ou société) souhaite que son site Web soit ajouté à l’une des prochaines collectes effectués par la Bibliothèque nationale de France au titre du dépôt légal de l’Internet, il peut adresser sa demande par courriel à la boîte électronique depot.legal.web (arobase) bnf (point) fr

Annick Lorthios (BnF)

______

Source des images :
Bibliothèque nationale de France
______

Vous serez peut-être intéressés par d’autres billets précédemment publiés dans le Blog Lecteurs de la BnF sur les archives de l’Internet et le dépôt légal du web :
Billets

Partager ce billet
  • TwitThis
  • Facebook
  • E-mail this story to a friend!
  • Print this article!
  • LinkedIn
Adresse du rétrolien (trackback) pour ce billet :
http://blog.bnf.fr/lecteurs/index.php/2012/02/un-instantane-du-web-francais-en-2011/trackback/

 

Laissez un commentaire