La numérisation des collections patrimoniales
La BULAC rassemble des collections patrimoniales d’une grande richesse, couvrant de nombreuses aires géographiques et linguistiques du monde. Depuis 2016, elle font l'objet de programmes annuels de numérisation.
Numérisation des manuscrits moyen-orientaux de la BULAC (Maxime Ruscio / BULAC).
Conserver, diffuser, réutiliser
Catalogage des plaques de verre par Martina Massullo (Grégoire Maisonneuve / BULAC)
La numérisation des collections répond à plusieurs objectifs :
- Elle facilite l'accès aux documents les plus rares des collections, y compris pour des publics lointains.
- Elle permet des usages renouvelés pour la recherche : comparaison d'éditions, extraction de texte par reconnaissance optique, annotation d'images, etc.
- Elle contribue à la conservation des documents les plus fragiles en limitant leur exposition à la lumière et à la manipulation au profit d'une copie numérique de haute qualité.
Numériser : En route pour l'éternité ?
Les documents numérisés en priorité
Crédits : Maxime Ruscio /BULAC.
Depuis 2016, la BULAC a choisi de numériser en priorité ses collections de manuscrits arabes, turcs et persans. Ce travail est mené en parallèle d'un chantier pluriannuel de publication du catalogue enrichi de ces corpus. Cet ensemble de document est le plus important de France, par sa variété et sa diversité, après la collection des manuscrits orientaux de la Bibliothèque.
Chaque année, la BULAC s'efforce de consacrer une part de son budget à l'avancement de ce chantier au long cours.
Indicateurs de progression du chantier de catalogage et de numérisation des manuscrits de la BULAC au 31 décembre 2024
Ce travail systématique est complété par de la numérisation de corpus, réalisée dans le cadre de partenariats de recherche en mobilisant des contributions et des sources de financement extérieures.
Des numérisations largement diffusées et accessibles
Exemple d'affichage d'un texte transcrit par HTR/OCR sur un document numérisé dans la visionneuse IIIF.
Portée par l’outil Omeka-S, la Bibliothèque numérique aréale (BiNA) permet aux chercheurs et curieux du monde entier de consulter les documents numérisés mais aussi de bénéficier d’un certain nombre de services :
- des formulaires de recherche simple et avancée,
- des index de recherche concernant les auteurs, les sujets ou encore les langues des documents,
- un affichage qui respecte le sens de lecture du document (gauche à droite ou droite à gauche),
- des parcours thématiques présentant certains fonds numérisés.
Mieux, grâce au protocole IIIF, images et métadonnées peuvent ainsi être consultées même en dehors de la BiNA dans n’importe quelle visionneuse compatible. Cela facilite dès lors les études comparées entre plusieurs manuscrits qui seraient conservés à la BULAC comme dans d’autres institutions de conservation de par le monde.
Cela est notamment possible avec la visionneuse Mirador qui a été choisie pour la BiNA. Développée à l’origine par l’université de Stanford, elle est portée désormais par une large communauté internationale d’utilisateurs, comme par exemple l’IRHT en France. Cette visionneuse est construite justement sur les préconisations liées au standard IIIF et permet la consultation en simultanée d’images issues de bibliothèques numériques distinctes.
Récemment, des projets de recherche ont permis d’enrichir la numérisation de certains corpus dans la BiNA grâce au traitement de reconnaissance automatique de caractères imprimés (OCR) ou d’écriture manuscrite (HTR). Dans les deux cas, il est possible de donner accès à la transcription des documents et aux données textuelles qu'ils contiennent.
Ainsi, de tels traitements ouvrent de nouvelles perspectives dans l'analyse profonde de grands ensembles de données textuelles et contribuent au mouvement des humanités numériques appliquées aux études aréales.
Une numérisation de haute qualité, à l'aide de logiciels libres
Numérisation d'un ouvrage en caractères chinois (BSB).
Les opérations de numérisation sont confiées par la bibliothèque à un prestataire spécialisé dans la numérisation patrimoniale. La BULAC prend par ailleurs toutes les précautions nécessaires pour la sécurité des collections traitées et leur conservation. Notamment, l’atelier du prestataire est installé dans les locaux de la bibliothèque, ce qui réduit les déplacements des documents et permet aussi un dialogue permanent entre les opérateurs du prestataire et les équipes de la bibliothèque qui peuvent, à tout moment, venir répondre aux questions nouvelles et guider leur pratique dans les meilleures conditions pour la bonne manipulation et conservation des documents.
La numérisation est réalisée selon les dernières préconisations en la matière et suit les recommandations de la BnF :
- numérisation à 90°, 120°, 180° ou numérisation à plat selon l’état du document
- numérisation au format JPEG2000 avec une résolution de 400 DPI, selon le référentiel de production d’images de la BnF
- numérisation intégrale des documents, y compris les pages blanches et les éléments de la reliure
- cadrage au bord extérieur de la page, avec le début de la page qui fait face visible, et le fond de cahier visible, pour montrer que l’intégralité de la page est bien visible sur l’image.
- utilisation d’une vitre pour maintenir le document
- prise de vue sans vitre visible ni ombre portée
- utilisation systématique d’un cache blanc pour toutes les pages présentant des lacunes, des trous, ou déchirures, afin de masquer les écritures parasites dues à la transparence du papier ainsi que les pages suivantes, notamment en gouttière
- ajout d’une mire colorimétrique pour permettre de vérifier la qualité des images produites
Une attention toute particulière est portée au respect, dans la livraison des images produites, du sens de lecture du document numérisé (de gauche à droite ou de droite à gauche) et du bon enchaînement des différentes prises de vues.
Le prestataire effectue la livraison des documents sur le serveur FTP connecté à NumaHOP, plate-forme de gestion de contenus numérisés utilisée par la BULAC pour le suivi de l'ensemble des différentes étapes du projet de numérisation (états conjoints des documents, réception des images produites, contrôle qualité, archivage, entre autres).
Une fois les images livrées par le prestataire, le contrôle qualité exhaustif, image par image, est assuré par plusieurs agents de la BULAC avec le document en main afin d’être le plus précis et cohérent possible par rapport à l’état du document physique. Les images non conformes sont rejetées et le prestataire est chargé de livrer une version corrigée du document concerné.
Parallèlement à leur diffusion auprès du public, les images en haute définition et leurs métadonnées sont archivées pour une préservation de longue durée auprès du Centre informatique national de l'enseignement supérieur (Cines).
À l'occasion de la 3e édition du Festival des idées Paris USPC, sur le thème « Jeunesse éternelle », la BULAC ouvre un espace de dialogue entre professionnels des bibliothèques, experts de l’archivage numérique et utilisateurs, autour des enjeux de la numérisation des collections.