Nicole VINCENT
La reconnaissance des formes pour aider à exploiter les documents numérisés
« Au-delà du médical et de la vidéo, les travaux en reconnaissance des formes s’appliquent bien sûr à l’écriture, que ce soit pour traiter des archives administratives, des documents d’entreprise ou des manuscrits (médiévaux ou modernes) et imprimés patrimoniaux.
Dans ce dernier domaine, il s’agit surtout d’améliorer la transcription des documents aux côtés des paléographes, en s’aidant des logiciels d’intelligence artificielle dans leurs missions de décomposition, de transcription, d’identification des éléments d’un document. Les logiciels d’OCR (reconnaissance optique de caractères) peinent par exemple à reconnaître les abréviations. Ou alors c’est parfois l’extraction et la classification des lettrines qui font l’objet de développements informatiques spécifiques. La reconnaissance des formes concerne ainsi tout à la fois le graphisme et les images.
Aujourd’hui, ces travaux se concentrent sur deux types de recherche qui visent à faciliter le travail des utilisateurs de bases numérisées :
le wordspotting, qui permettra de rechercher toutes les occurrences d’un mot ou d’une séquence de lettres dans un document sans passer par l’océrisation (impossible à ce stade pour l’écriture manuscrite).
l’indexation thématique des images, qui permettrait de créer des catégories sans que légendes et classification doivent être intégralement effectuées manuellement.
Ces pratiques intéressent les institutions comme les industriels. On peut penser schématiquement que les seconds cherchent à tirer parti des images et du traitement automatisé des documents, alors que les premières se placent davantage dans une logique de conservation et d’archivage. Mais il ne faut pas oublier l’attraction des belles images, qui peuvent également jouer un rôle touristique important et précieux pour ceux qui les conservent ! »
Biographie/Bibliographie
Quelques publications récentes relatives à la thématique du document et plus particulièrement le document ancien :
Dans des revues
/ K. Khurshid, C. Faure, N. Vincent. Word Spotting in Historical Printed Documents using Shape and Sequence Comparisons,. Pattern Recognition Journal, Elsevier, 45 (7) :2598-2609, 2012.
/ M. Coustaty, R. Pareti, N. Vincent, J.-M. Ogier. Towards historical document indexing : extraction of drop cap letters. International Journal on Document Analysis and Recognition, Springer Berlin / Heidelberg, 14 (3) : 243-254, 2011.
/ F. Cloppet H. Daher, V. Eglin, H. Emptoz, M. Exbrayat, G. Joutel, F. Lebourgeois, L. Martin, I. Moalla, I. Siddiqi, N. Vincent. New Tools for Exploring, Analysing and Categorising Medieval Scripts. In Digital Medievalist, ISSN : 1715-0736 (7) : 243-254, 2011.
/ H. Daher V.Eglin, S.Bres, N.Vincent Étude de la dynamique des écritures médiévales : analyse et classification des formes écrites. In Gazette du livre médiéval (56-57) : 21-41, 2011.
/ I. Siddiqi F. Cloppet, N.Vincent. Writing property descriptors, a proposal for typological groupings. In Gazette du livre médiéval (56-57) : 42-57, 2011.
/ V.Eglin D.Gaceb, H.Daher, S.Bres, N.Vincent Outils d’analyse de la dynamique des écritures médiévales pour l’aide à l’expertise paléographique. In Revue Document Numérique, 41 (1) : 81-104, 2011.
Dans des conférences internationales avec sélection
/ H. Daher D. Gaceb, V. Eglin, S. Bres, N. Vincent. Unsupervised categorization method of graphemes on handwritten manuscripts:application to style recognition. In 19th Document Recognition and Retrieval Conference, San Francisco, CA, USA, 2012
/ I. Siddiqi, K. Khurshid, N. Vincent. Feature Relevance Analysis for Writer Identification. In 18th Document Recognition and Retrieval Conference, San Francisco, CA, USA, 2011.
/ H. Daher, DJ. Gaceb, V. Eglin, N. Vincent, S. Bres. Genetic Algorithm for Features Weighting and Automatic Parametrizing of the Classification Algorithm for Graphemes. In International Conference on Image Processing, Computer Vision, and Pattern Recognition (IPCV), Las Vegas, Nevada, USA, 2011.
/ V. Atanasiu L. Likforman-Sulem, N. Vincent. Writer Retrieval—Exploration of a Novel Biometric Scenario Using Perceptual Features Derived from Script Orientation. In Conference on Document Analysis and Recognition (ICDAR), Pékin, Chine, 2011.
Contact
/ Mél. : Nicole Vincent - nicole.vincent(a)mi.parisdescartes.fr