Stratégies numériques et traitements automatiques dans le développement des applications dédiées aux patrimoines numérisés
Lieu : Université Paris 5, 45 rue des Saint Pères, 75006 Paris, 7e étage,
Espace Turing, salle du conseil
Date : 29 mai de 14h à 17h
Séance coordonnée par Nicole Vincent (Université Paris 5 / UDPN) et Virginie Pringuet (UDPN)
Participants
- Véronique Eglin, Institut National des Sciences Appliquées de Lyon (INSA), Valconum
- Fabrice Issac, Université Paris 13 / UDPN
- Josep Lladós, Université Autonome de Barcelone (UAB) / Centre de Vision par ordinateur (CVC) / Valconum
- Olivier Ritz, Université Paris 7, Centre Jacques-Seebacher / UDPN
Présentation
L’approche transversale adoptée dans l’étude pluridisciplinaire des usages des patrimoines numérisés nous conduit, pour cette séance du séminaire UDPN en collaboration avec plusieurs membres du projet Valconum, à nous interroger sur les questions de mutualisation des recherches et des développements d’applications entre projets de recherche mais aussi avec d’autres partenaires publics et privés (entreprises innovantes, prestataires, partenaires institutionnels, etc.). Une attention particulière sera portée lors de cette séance aux outils (applications notamment) permettant d’automatiser la recherche et la présentation d’informations au sein de divers corpus de patrimoines numérisés (images et textes) qui seront présentés par des membres du projet Valconum et des membres du réseau UDPN.
Valconum : Recherche & Innovation
Depuis plusieurs années, l’Université de La Rochelle s’est engagée avec ses partenaires dans un projet nommé « Valconum ». Celui-ci repose sur l’innovation et la collaboration entre une vaste communauté scientifique européenne reconnue à l’échelle internationale et les entreprises privées qui font de la R&D un facteur clé de leur développement et de leur compétitivité. L’objectif principal poursuivi est de développer de nouvelles opportunités économiques en stimulant les innovations liées au secteur de la dématérialisation et de la valorisation des contenus. “Les problématiques sont nombreuses lorsqu’il s’agit de mettre en œuvre la « coopétition » et des actions de « co-working » par le biais de projets stratégiques engageant l’avenir des organisations qui les portent…” Valconum entend ainsi répondre aux besoins des porteurs de projets (publics ou privés) qui souhaitent initier, développer ou mieux maîtriser leurs projets numériques, en s’appuyant sur l’expertise des acteurs industriels et l’excellence des laboratoires de recherche européens.
https://valconum.org
Programme
- 14h : "Intelligent Reading Systems on Historical Archive Images"
Josep Lladós, Université Autonome de Barcelone (UAB) / Centre de Vision par ordinateur (CVC) / Valconum
Écouter l’intervention de Josep Lladós
“Les documents et les données sur le patrimoine culturel conservés dans les archives, les bibliothèques et les musées reflètent l’identité du passé. Déverrouiller leurs contenus permet aux citoyens d’appréhender la mémoire collective et évolutive de leur société, tout en préservant le patrimoine culturel et intellectuel. L’analyse et la reconnaissance des documents historiques suscitent un vif intérêt car elle permet de préserver les collections de documents historiques provenant des archives et de les convertir en bibliothèques numériques. Cependant le processus de conversion des documents papier en informations utiles peut s’avérer incomplet. Après avoir numérisé les documents papier, il est essentiel d’extraire les informations de ces documents, généralement à l’aide de techniques de reconnaissance de texte manuscrit et de repérage de mots clés. Ainsi l’extraction du contenu sémantique est nécessaire pour rendre cette information vraiment utilisable. Dans cette présentation, nous décrirons le travail développé par le CVC au cours des dernières années s’inspirant du « Big Data du passé » à travers l’extraction de connaissances historiques à partir de dossiers manuscrits historiques, de photographies, d’enregistrements, etc. Notre travail repose sur deux piliers : premièrement, l’extraction d’informations sémantiques à partir de types hétérogènes d’images et de documents (textuelles et non textuelles) en utilisant les dernières avancées en matière de reconnaissance de l’écriture manuscrite, d’apprentissage automatique et de reconnaissance de formes structurelles ; deuxièmement, l’inclusion des utilisateurs dans le processus, en développant des expériences participatives à travers des méthodologies d’innovation sociale, où les citoyens sont habilités à extraire des connaissances à partir de données historiques. Comme cas d’usage, nous décrirons le projet "Réseaux", un navigateur dédié à l’étude spatio-temporelle d’un réseau social historique fonctionnant grâce à la reconnaissance de documents officiels des plus anciens aux plus récents (recensement, actes de naissance, actes de mariage).”
Josep Lladós a obtenu son diplôme en informatique en 1991 de l’Université Polytechnique de Catalogne et son doctorat en informatique en 1997 de l’Université Autonome de Barcelone (UAB, Espagne) et de l’Université Paris 8 (France). Il est actuellement professeur associé au département d’informatique de l’UAB et chercheur au Computer Vision Centre, où il est également directeur depuis janvier 2009. Il est chercheur associé au laboratoire IDAKS de l’Université de la préfecture d’Osaka (Japon). Il est titulaire de la chaire de transfert de connaissances du parc de recherche UAB et de la banque Santander. Il est le coordinateur du groupe de systèmes de lecture intelligents (2017 SGR 1783). Ses domaines de recherche actuels sont l’analyse de documents, la reconnaissance de modèles structurels et syntaxiques et la vision par ordinateur. J. Lladós est un membre actif de l’Association espagnole pour l’analyse d’images et la reconnaissance de formes (AERFAI), société membre de l’IAPR. Il est actuellement président du comité d’éducation (IAPR-EC), membre du comité de liaison industrielle (IAPR-ILC) et membre du conseil consultatif de l’ICDAR. Auparavant, il a été président du comité de liaison industriel IAPR-ILC, du comité technique IAPR TC-10, du comité technique sur la reconnaissance des graphiques, et membre du comité IAPR TC-2 (reconnaissance des modèles de structure), IAPR TC- 11 (Systèmes de lecture) et IAPR TC-15 (Représentations basées sur des graphiques). Il est rédacteur en chef de ELCVIA (Lettres électroniques sur la vision par ordinateur et l’analyse d’images). Il est co-éditeur de la série SMPAI (Perception de la machine et intelligence artificielle) de World Scientific Publishing Company. Il est membre du comité de rédaction de la revue Pattern Recognition, de la revue IJDAR (revue internationale d’analyse et de reconnaissance de documents), de la revue Frontiers in Digital Humanities, et membre de plusieurs conférences internationales sur le PC. En 2002, il a créé la société ICAR Vision Systems, une spin-off du Computer Vision Center travaillant sur l’analyse de documents, après avoir remporté le prix de l’entrepreneur décerné par le gouvernement de Catalogne pour des projets commerciaux liés aux technologies de la société de l’information en 2000.
http://www.cvc.uab.es/?page_id=62
- 14h45 : Analyse de l’écrit et de l’imprimé ancien issus de collections patrimoniales numérisées : cas d’usages pour la conservation, l’accès, et la navigation
Véronique Eglin, INSA Lyon / Valconum
Écouter l’intervention de Véronique Eglin
Professeur en Informatique à l’INSA de Lyon, Responsable de l’équipe Imagine du LIRIS. Domaines de recherche : Analyse d’images de documents par l’exploitation de la perception visuelle humaine, Traitements bas niveau : segmentation et analyse de structures, Identification des contenus par classification, Indexation et accès au contenu dans les images de manuscrits (signatures des formes, recherche par le contenu). Sous-thèmes : Caractérisation et classification des écritures ; Identification de scripteurs ; Analyse de texture ; Recherche d’informations et de similarités dans les documents ; Exploitation de Transformées géométriques multi-échelles type Curvelets, de la multirésolution, de la coloration de graphes.
https://perso.liris.cnrs.fr/veronique.eglin/web_perso
15h15 : Pause
- 15h30 : Fabrice Issac, Université Paris 13 / UDPN
Écouter l’intervention de Fabrice Issac
“L’informatique est à la fois un outil formidable et dangereux pour travailler sur la langue et sur la littérature. Elle permet en effet d’obtenir des résultats très riches, mais il faut toujours se méfier de l’apparente « magie » du traitement automatique.
Pour ces raisons, il est important de se demander qui peut le mieux imaginer et fabriquer les outils pour mener tel ou tel travail de recherche sur la langue. Est-ce un informaticien extérieur qui, parce que la technique est son domaine d’expertise, peut seul concevoir plateforme et interfaces ? Est-ce le spécialiste qui, parce que la recherche est son quotidien, peut seul savoir ce dont il a besoin ? Il apparaît souvent que les projets réussis sont le fruit d’une rencontre et d’une interdisciplinarité originale entre plusieurs personnes.
Nous présenterons une chaîne de traitement dont l’objectif est l’analyse lexicale d’un texte médiéval, et notamment comment traiter les variations. Nous verrons dans un deuxième temps comment aborder la mise à disposition d’un vocabulaire médiéval de manière à ce qu’il soit intelligible à un locuteur moderne."
- 16h-16h30 : Quels traitements automatisés pour l’édition numérique ? Les projets du Centre Jacques-Seebacher
Olivier Ritz, Université Paris 7 / UDPN
Écouter l’intervention d’Olivier Ritz
Le Centre de ressources Jacques-Seebacher de l’université Paris Diderot est engagé dans deux projets d’édition numérique. Le premier projet, intitulé « La Fabrique de la Révolution », entreprend la numérisation des papiers préparatoires de l’Histoire de la Révolution française de Jules Michelet. Les documents d’origine sont deux mille papiers contenant des notes manuscrites de l’historien. Ces notes sont transcrites et encodées au format XML, avant d’être publiées sur un site internet spécifique qui propose à la fois une visualisation des papiers et des outils facilitant leur exploitation scientifique ((http://thomas-lallier.fr/axmaleo/web/). Le deuxième projet est un atelier d’édition critique collaborative, en partie mené sur la plateforme PLANETE, créée pour le Centre Seebacher (https://pcec.app.univ-paris-diderot.fr). Des ouvrages anciens imprimés font l’objet d’un traitement éditorial qui aboutit à la publication de livres numériques. Quatre ouvrages ont été publiés depuis le début du projet (http://seebacher.lac.univ-paris-diderot.fr/page/publications-du-centre-seebacher).
Les protocoles mis en oeuvre pour ces deux projets d’édition ont beaucoup évolué. Le séminaire Valconum - UDPN sera l’occasion de revenir sur les dispositifs qui ont été mis en place, avec plus ou moins de succès, pour automatiser une partie du traitement de l’information et de sa publication. On s’interrogera également sur les évolutions qui, à l’avenir, pourraient permettre de gagner du temps.
Olivier Ritz est maître de conférences en littérature française à l’université Paris Diderot et membre du Centre Jacques-Seebacher. Il est impliqué dans plusieurs projets de recherche sur les patrimoines numérisés relatifs à la Révolution française. D’une part, il participe au programme La Fabrique de la Révolution de transcription et d’édition des papiers préparatoires à l’Histoire de la Révolution française de l’historien Jules Michelet. La constitution d’un index des sources de Michelet, plusieurs travaux de recherche sur les premières histoires de la Révolution et la tenue régulière d’un séminaire de recherche sur les Imaginaires de la Révolution sont le point de départ d’un autre projet, à l’étude : la création d’un catalogue numérique de la Révolution française.
16h30-17h : Échange entre les membres de Valconum et les membres UDPN et avec la salle.
/ Source de l’information : UDPN
Informations pratiques
Mercredi 29 mai 2019 de 14h à 17h
Université Paris 5, 45 rue des Saint Pères, 75006 Paris, 7e étage,
Espace Turing, salle du conseil