Publié : 24/10/2021, mis à jour: 05/05/2022 à 09:22
http://www.bulac.fr/node/2344

Partenariat autour de la philologie numérique des textes arabes

D’octobre 2020 à août 2021, la BULAC a accueilli Noëmie Lucas, post-doctorante auprès du GIS MOMM, pour organiser et animer une série de hackathons et de colloques autour des enjeux de philologie numérique des textes en écriture arabe, et plus particulièrement de la reconnaissance optique des caractères dans les manuscrits maghrébins.

Portrait de Noëmie Lucas

Portrait de Noëmie Lucas (Maxime Ruscio / BULAC).

Noëmie Lucas, chercheuse en résidence à la BULAC

Photographie de Noëmie Lucas

Noëmie Lucas (Maxime Ruscio / BULAC)

Noëmie Lucas, post-doctorante auprès du Groupement d’intérêt scientifique Moyen-Orient et mondes musulmans (GIS MOMM) dans le cadre du plan SHS 2020 (ministère de l'Enseignement supérieur, de la recherche et de l'innovation), était chargée de mettre en œuvre une des recommandations du Livre blanc Vers la science ouverte ? La transition numérique et la recherche sur le Moyen-Orient et les mondes musulmans en France.

Elle a travaillé ainsi autour de la « structuration, du développement et de l’internationalisation des capacités de recherche françaises en matière de philologie numérique des textes en écriture arabe ».

La BULAC, engagée dans des projets de collaboration avec le GIS MOMM dans le cadre d'initiatives prises pour développer les humanités numériques dans le domaine de la recherche aréale, lui a proposé un soutien logistique, documentaire et scientifique, et a accueilli les divers événements qu'elle a été amenée à organiser : hackathons, rendez-vous de la philologie numérique, dont elle s'est fait le relais sur son carnet de recherche, Philaranum.

Le Livre blanc « Vers la science ouverte ? »

Le Livre blanc publié par le GIS MOMM en septembre 2020 propose un bilan de la transition numérique dans le champ de la recherche aréale française sur le Maghreb, le Moyen-Orient et les mondes de l’Islam à l’heure de la science ouverte.

J’approfondis cette année mon intérêt pour les humanités numériques, en étudiant plus spécifiquement l’usage qui peut être fait des techniques informatiques dans l’analyse des textes anciens.

Une première saison de hackathons pour entraîner un moteur d'HTR sur des manuscrits maghrébins de la BULAC

Séance de hackathon animée par Noëmie Lucas et Chahan Vidal-Gorène

Séance de hackathon animée par Noëmie Lucas et Chahan Vidal-Gorène (Maxime Ruscio / BULAC).

Entre janvier et avril 2021 ont été organisées des séances de travail dans les salles de formation de la bibliothèque en coopération avec l'association Calfa, avec laquelle la BULAC avait déjà noué précédemment un partenariat. L’objectif de ces séances, animées conjointement par Noëmie Lucas et Chahan Vidal-Gorène, était d’entraîner un moteur de reconnaissance automatique de l’écriture en vue d’élaborer un modèle spécifique pour la graphie arabe dite maghrébine, qui pourra bénéficier à toute la communauté des chercheurs et des étudiants travaillant sur des manuscrits maghrébins dans le cadre de projet d’édition, de fouille de texte, etc. Les quatre hackathons se sont fondés sur trois manuscrits de la BULAC en écriture maghribî, le MS.ARA.1977, le MS.ARA.609 et le MS.ARA.417 pour développer le moteur OCR/HCR.

 

La mise au point d'une preuve de concept

Graphique d'évoution du taux d'erreur par nombre de pages d'entraînement

Évolution du taux d'erreur de reconnaissance des caractères et du temps de relecture en fonction du nombre de pages apprises par le moteur d'HTR

Les résultats de cette résidence numérique ont abouti à une preuve de concept, validant la robustesse du moteur d'apprentissage Calfa pour le traitement des écritures manuscrites maghrébines. À l'issue des hackathons, le taux d'erreur dans la reconnaissance des caractères (ECR) atteint 4,8% pour les documents du corpus d'entraînement, tandis que la mise en page (texte principal, gloses marginales, organisation des lignes) est correctement interprétée. Ce bilan a été présenté à Lausanne en septembre 2021 dans le cadre de la conférence annuelle de l'ICDAR (International Conference on Document Analysis and Recognition). Le jeu de données produit est publié sous licence ouverte.

Il reste désormais à valider la polyvalence de ce modèle en l'entraînant sur des documents maghrébins plus diversifiés : c'est l'objet d'une seconde saison de hackathons, organisée de décembre 2021 à mai 2022 par Antoine Perrier (CNRS, IREMAM) avec la participation d'une vingtaine d'étudiants en master et doctorat issus de différents établissements. L'organisation de cette seconde saison est réalisée avec le soutien scientifique et financier du GIS Moyen-Orient et mondes musulmans, dans le cadre du plan SHS 2021 (MESRI).

Le jeu de données RASAM propose les images et les extractions corrigées de texte au format XML ; il peut être utilisé pour entraîner un moteur OCR/HTR à la reconnaissance optique des écritures manuscrites arabes maghrébines.

L'élaboration d'un état des lieux des technologies de reconnaissance des écritures arabes

Le GIS Moyen-Orient et mondes musulmans a publié en avril 2022 le rapport élaboré par Noëmie Lucas à l'issue de sa résidence : « OCR / HTR et graphie arabe, Les manuscrits arabes à l’heure de la reconnaissance automatique des écritures ».

Le document rend compte de l'état de l'art sur la reconnaissance automatique des écritures arabes et le recours à des technologies d'intelligence artificielle. Il dresse le bilan de l'expérimentation menée par Noëmie Lucas sur la constitution de modèle d'entraînement de reconnaissance des graphies manuscrites maghrébines, à partir du corpus conservé à la BULAC.

Les rendez-vous de la philologie numérique

Rendez-vous de la philologie numérique, le 8 juin 2021

5e rendez-vous de la philologie numérique, Intelligence artificielle et khaṭṭ maghribī, le 8 juin 2021 (Maxime Ruscio / BULAC).

Dans le cadre de sa résidence à la BULAC, Noëmie Lucas, post-doctorante en philologie numérique des textes en alphabet arabe au sein du GIS MOMM, a proposé un cycle de rencontres autour des nouvelles philologies numériques de mai à juin 2021.

(Re)voir les rencontres consacrées à la philologie numérique

  • Big data et sources chinoises. Nouvelles perspectives pour l’histoire de la Chine moderne. Entretien avec Christian Henriot
  • Le numérique au service des textes éthiopiens. Encodage, transcription et publication. Entretien avec Anaïs Wion
  • eScriptorium : de la transcription automatique à l’édition numérique. Le cas des manuscrits hébreux. Entretien avec Daniel Stökl Ben Ezra
  • Lumière sur des projets numériques autour des inscriptions et manuscrits en tamoul : catalogage, encodage et édition. Entretien avec Emmanuel Francis
  • Intelligence artificielle et khaṭṭ maghribī. Résultats d’un hackathon pour la reconnaissance de texte automatique de l’arabe manuscrit. Chahan Vidal-Gorène et Noëmie Lucas
  • Étudier et analyser des textes chinois avec le numérique : possibles, enjeux et perspectives. Entretien avec Catherine Jami

Une nouvelle saison de hackathons en 2022 : la mise au point d'un modèle d’HTR plus robuste et polyvalent pour l’arabe maghrébin

Texte arabe maghrébins en colonnes avec encadrement, alternant le rouge et le noire, première et dernière colonnes chapeautées par un demi-cercle dessinant un dôme

النفحة المسكية والتحفة المكية, petite encyclopédie de rhétorique arabe. Extrait du recueil sans titre MS.ARA.65

Entre novembre 2021 et avril 2022, un nouveau hackathon a été organisé par le GIS Moyen-Orient Mondes Musulmans sous la responsabilité d'Antoine Perrier (CNRS, IREMAM) et Calfa (Chahan Vidal-Gorène). L'objectif était d'améliorer le précédent modèle de reconnaissance automatique des caractères de l’arabe maghrébin manuscrit (HTR), en l'outillant pour prendre en charge de façon efficace une plus grande variété d’écritures, de mises en pages et de vocabulaire.

En partenariat avec des enseignants-chercheurs, une équipe de 20 étudiants de master et de doctorants de l’Inalco, de Sorbonne Université, de la Sorbonne-Nouvelle, d’Aix-Marseille Université et de l’université de Strasbourg, ont transcrit 300 images et préparé leur mise en page sur Calfa vision.

Le corpus sélectionné comportait quinze manuscrits de genres délibérément variés : ouvrages d’histoire, livres de piété, recueil de jurisprudence, traités de droit ou de grammaire, commentaires littéraires, tous écrits en arabe maghrébin. 

Le hackathon a abouti à la création d’un nouveau modèle d’HTR plus performant, avec un taux d’erreur inférieur à 3 %. Le bilan détaillé de cette deuxième saison fait l'objet d'une présentation dans le cadre de l'école de printemps consacrée aux humanités numériques pour l'étude des manuscrits maghrébins, organisée à la BULAC par le CNRS les 2 et 3 mai 2022.

Finalement, ce sont plus de 6 000 pages des manuscrits de la BULAC dont le texte a été extrait. Une refonte prochaine de la Bibliothèque numérique aréale, depuis un environnement Omeka Classic vers Omeka-S, doit s'accompagner de la mise en plage d'outils de visualisation permettant d'exploiter ces données textuelles pour la recherche plein texte et le déchiffrement des manuscrits traités.

École de printemps : les manuscrits maghrébins et les humanités numériques
2 mai 2022 > 4 mai 2022

Deux journées de conférences et une journée d'ateliers organisées à la BULAC et au Campus Condorcet par le Groupement d'intérêt scientifique Moyen-Orient et mondes musulmans (GIS MOMM).

Humanités numériques et études aréales

À l'occasion de l'École de printemps sur les manuscrits maghrébins et les humanités numériques en France, découvrez les potentiels ouverts par les humanités numériques aux différentes disciplines des études aréales.

Séance de hackathon avec l'association Calfa

Calfa est un projet de traitement automatique de la langue arménienne classique. Un partenariat conclu entre la BULAC et Calfa en 2019 a permis à l’association Calfa de se pencher sur des écritures arméniennes contemporaines.

Portrait de Manel Belhadjali

De septembre 2021 à août 2022, la BULAC accueille dans ses murs une chercheuse en résidence, Manel Belhadj Ali, post-doctorante auprès du Groupement d’intérêt scientifique Moyen-Orient et mondes musulmans (GIS MOMM), auteur d'une thèse sur le rôle des traductions dans...

Dala'il al-khayrat

Le domaine arabe constitue un des fonds les plus anciens de la bibliothèque et les plus riches de France. Il couvre un espace géographique compris entre l’Afrique du Nord et le Moyen-Orient et comprend une vingtaine de pays. On estime...