Publié : 24/10/2021, mis à jour: 24/10/2021 à 11:04
http://www.bulac.fr/node/2345

Partenariat Calfa-BULAC, autour de l'OCR et des textes arméniens

Calfa est un projet de traitement automatique de la langue arménienne classique. Un partenariat conclu entre la BULAC et Calfa en 2019 a permis à l’association Calfa de se pencher sur des écritures arméniennes contemporaines.

Séance de hackathon avec l'association Calfa

Séance de hackathon avec l'association Calfa (Maxime Ruscio / BULAC).

Le projet et l'association Calfa

Logo de Calfa

Logo de Calfa

Calfa est un projet de traitement automatique de la langue arménienne classique. Ce projet développé en partenariat avec la BULAC est porté par une association à but non lucratif, l’Association Calfa, fondée par Chahan Vidal-Gorène (ancien étudiant de l’Inalco).

L'association s’attache à la conception et au développement d’outils et de ressources pour l’étude de l’arménien, développant par exemple des bases de données lexicales (des dictionnaires multilingues, étymologiques, de synonymes, consultables gratuitement sur le site calfa.fr), de lemmatiseur, d’analyseur de texte et de reconnaissance de caractères. Le projet d’un moteur de reconnaissance de caractères pour les manuscrits arméniens grâce à une intelligence artificielle (deep Learning), dont les premiers résultats sont d’ores et déjà visibles sur vision.calfa.fr, a favorisé le rapprochement avec la BULAC, dépositaire de riches fonds dans le domaine arménien.

L’association Calfa a été lauréate du Prix Télécoms Innovations 2019.

Le partenariat Calfa-BULAC

Découpage de séquences de caractères manuscrits pour l’entraînement de l’OCR

Découpage de séquences de caractères manuscrits pour l’entraînement de l’OCR (calfa.fr)

Un partenariat conclu entre la BULAC et Calfa en 2019 a permis à l’association Calfa de se pencher sur des écritures arméniennes contemporaines.

La BULAC a mis à la disposition de l’association ses collections, en l’occurrence le fonds d’archives Dulaurier. Les documents sélectionnés par l’association Calfa ont été numérisés par le service de numérisation à la demande de la BULAC, qui répond aux besoins de numérisation de tous les lecteurs. 

Titulaire de la chaire d'arménien à l'École des langues orientales en 1862, Édouard Dulaurier se consacra à l'étude de l'Orient chrétien, et notamment à celle de l'arménien ; ses archives, constituées de correspondances, manuscrits et notices bibliographiques ont offert, du fait de la variété et de la difficulté des types d’écritures représentées, une occasion d’entraîner et de spécialiser le moteur d’OCR (reconnaissance optique de caractères) et d’améliorer une intelligence artificielle dédiée à la reconnaissance de l’écriture manuscrite arménienne moderne. L’objectif plus largement poursuivi est de promouvoir ces collections en facilitant l’accès non seulement à l’objet physique mais aussi à son contenu, par le biais d’une version éditable et annotée de ces documents.

Un billet publié sur le Carreau de la BULAC revient en détail sur la méthodologie adoptée.

Intelligence artificielle et khaṭṭ maghribī. Résultats d’un hackathon

Le jeudi 8 juin 2021, dans le cadre des Rendez-vous de la philologie numériqueChahan Vidal-Gorène et Noëmie Lucas ont présenté les résultats du hackathon mené à la BULAC pour la reconnaissance de texte automatique de l’arabe manuscrit.

Les résultats du projet ont également été présentés lors du colloque Digital Armenian qui s’est tenu du 3 au 5 octobre 2019 à l’Inalco, en partenariat avec la BULAC, et dont la captation vidéo est disponible en ligne sur MédiHAL.

Séance de hackathon animée par Noëmie Lucas et Chahan Vidal-Gorène

Séance de hackathon animée par Noëmie Lucas et Chahan Vidal-Gorène (Maxime Ruscio / BULAC).

Séance de hackathon avec l'association Calfa (Maxime Ruscio / BULAC).

Séance de hackathon avec l'association Calfa (Maxime Ruscio / BULAC).

Numérisation à la demande d'un livre

La BULAC vous propose un service de numérisation de ses collections. Vous pouvez ainsi adresser vos demandes de numérisation d'ouvrages libres de droits (auteur décédé depuis plus de 70 ans). Elles sont gratuites pour les 25 premières pages.

Portrait de Noëmie Lucas

D’octobre 2020 à août 2021, la BULAC a accueilli Noëmie Lucas, post-doctorante auprès du GIS MOMM, pour organiser et animer une série de hackathons et de colloques autour des enjeux de philologie numérique des textes en écriture arabe, et...

Journal Haratch

Le journal Haratch | Յառաջ, fondé en 1925 par Chavarche Missakian (1884-1957) et dont l’édition fut poursuivie par sa fille Arpik Missakian (1926-2015) jusqu’en 2009, occupe une place singulière dans l’histoire de la communauté arménienne de France, dont l’influence...