CHI-KNOW-PO Corpus – Poésie et économie des savoirs dans la Chine médiévale
Le projet de constitution et de publication d’une collection de textes chinois médiévaux (IIIe-Xe siècles) CHI-KNOW-PO CORPUS s’inscrit à l’articulation de la recherche et de la valorisation patrimoniale.
Le projet
Le projet CHI-KNOW-PO vise à numériser un corpus d’anthologies poétiques, de commentaires, de dictionnaires et d’encyclopédies de la période médiévale chinoise (ca. 200-1000) et à les traiter par reconnaissance optique des caractères. Il s’agit de constituer un ensemble de données textuelles pour l’étude du rôle de la poésie dans l’économie des savoirs. Celui-ci fait actuellement défaut en format numérique ouvert.
Le projet permet la valorisation de fonds chinois anciens conservés en France.
Il implique également une démarche d’innovation en entraînant une intelligence artificielle sur un corpus de mises en pages anciennes (organisation verticale d’un texte et de sa glose) afin de fournir des modèles ouverts pour l’apprentissage machine. Ces derniers permettront de faciliter l’acquisition de nouveaux corpus d’imprimés chinois anciens par différents moteurs d’OCR/HTR.
Une partie du corpus sera annotée et publiée sur le site du projet CHI-KNOW-PO (en cours de construction) sous forme d’édition enrichie en regard des pages numérisées. Le reste du corpus en plein texte sera mis en ligne, en regard des images correspondantes, dans un but d’enrichissement collaboratif qui se poursuivra au-delà du projet (selon un modèle inspiré par http://bonhum.huma-num.fr/).
L’ensemble du corpus, images et plein texte, sera mis à disposition sous licence ouverte pour des réutilisations libres. Le projet inclut le développement d’un connecteur de NumaHOP vers Nakala. Le projet se conclura par un cycle de conférences réflexives sur les enjeux patrimoniaux et philologiques des humanités numériques.
Les partenaires
Le projet associe les collections et les équipes de la bibliothèque de l'Institut des hautes études chinoises (Collège de France), de l'Institut d'études avancées, des bibliothèques des départements de la Faculté des langues et du Groupe d'études orientales, slaves et néo-helléniques de l'université de Strasbourg, ainsi que la Bibliothèque nationale et universitaire de Strasbourg.
Pour ce troisième appel à projets, CollEx-Persée souhaitait encourager l’innovation, favoriser l’exploitation scientifique de corpus hybrides en associant personnels de la documentation et chercheurs et permettre la montée en compétences dans leur traitement. Deux projets portés par la BULAC ont été sélectionnés...