Membres
Partenaires
Actualités
Bloc-notes

Statistiques et représentations graphiques des données textuelles des cent « grands romans » de la littérature de langue française

Projet en cours
porté par Baptiste Bohet enseignant et chercheur du centre Hubert de Phalèse (THALIM, Université Sorbonne Nouvelle - Paris 3)
Durée estimée : de mars 2015 à juin 2016.

En effectuant des mesures sur le lexique des textes, ce projet explore les procédures et les résultats de l’usage des logiciels informatiques dans les études littéraires,
tout en s’engageant à déterminer et investir les questions épistémologiques et théoriques que posent ces pratiques.

Les recherches de deux enseignants-chercheurs du centre Hubert de Phalèse
Ce projet est issu d’une collaboration entre deux enseignants et chercheurs au sein du centre de recherche de l’Université Paris 3 Sorbonne nouvelle, le centre Hubert de Phalèse. Sous le nom collectif emprunté à celui qui a effectué le premier condordancier de la bible et depuis 1989, sous l’impulsion notamment d’Henri Béhar, une équipe d’enseignants-chercheurs utilise les nouvelles technologies pour leurs travaux en littérature et cherche à en faciliter l’accès aux littéraires à tous niveaux éducatifs. Baptiste Bohet et Michel Bernard ont eu la volonté d’associer leurs recherches en mettant en commun leur expérience, leur expertise, leur questionnement autant sur leur méthode de recherche que sur la diffusion et l’exploitation de leurs résultats.

Ainsi ce projet s’inscrit dans des démarches de recherche qui ne datent pas de la fondation du réseau UDPN. Baptiste Bohet a initié et fondé sa réflexion et sa méthode à l’occasion de sa thèse sur Albert Cohen, « Le système Solal, Corps et séduction dans l’œuvre d’Albert Cohen, Étude assistée par ordinateur ». M. Bernard, aujourd’hui directeur du centre Hubert de Phalèse, est l’auteur d’une thèse "Elaboration d’un thésaurus pour l’indexation thématique d’oeuvres littéraires", et d’une HDR "Études littéraires assistées par ordinateur, Réflexions sur les conditions d’émergence d’une discipline".

Le projet "Statistiques et représentations graphiques des données textuelles des cent « grands romans » de la littérature francophone"
Ce projet cherche à donner une approche statistique des grands textes de la littérature française. Baptiste Bohet et Michel Bernard expliquent qu’ils "sont partis d’un constat simple : il existe ponctuellement quelques approches lexicométriques mais il n’existe pas une espèce de somme qui permettrait d’avoir une approche statistique systématique sur les grands textes de la littérature, et notamment pour pouvoir les comparer entre eux." Et pour chacun des grands romans, ils voudraient proposer une double page qui présente les principales données lexicométriques.

La méthode
Il a fallu d’abord déterminer le corpus .
Le premier problème a été de déterminer quels sont les cent grands romans. L’élaboration d’un algorithme a permis d’établir un classement par rapport au nombre de fois où ils étaient cités dans des listes et de déterminer les cent romans. Les bornes de la liste dans un ordre chronologique sont La princesse de Clèves (1678) et Je m’en vais , J. Echenoz (1999)

La deuxième étape a été de rassembler les textes numérisés. La troisième de préparer les textes pour leur exploitation. Sans rendre compte de détails techniques, la préparation des textes est une étape complexe parce qu’elle fait surgir des questions qui peuvent sembler anecdotiques mais qui ne le sont pas, question telle que "Comment traiter les traits d’union ?" De même à chaque phase, au fur et à mesure de la réalisation du projet se sont posées et se posent des questions d’ordre théorique.

Michel Bernard et Baptiste Bohet se sont lancés dans la production d’énormes tableaux de différents types de données sur tous les romans. Face à ces volumineux résultats, s’est posée la question de l’exploitation des données produites. C’est ainsi qu’ont commencé à être envisagées des doubles pages avec des informations telles que les mots les plus fréquents, les proportions des catégories grammaticales à l’intérieur du texte en s’inscrivant dans la réflexion autour de la visualisation des données et en s’inspirant notamment des travaux de David MCCANDLESS.

C’est cette dernière phase que l’inscription dans le réseau UDPN permet de financer.

La méthodologie a fait l’objet de deux séminaires en 2014 accessibles en ligne.

Réalisations de ce projet : un ouvrage et un site internet
L’ouvrage est envisagé d’abord comme une introduction méthodologique sur les modalités de détermination et de réalisation des différentes étapes de traitement informatique d’un corpus littéraire. Il sera constitué majoritairement de cent double-pages, une pour chacun des romans. En conclusion sera développée une réflexion sur chacune des catégories en menant une étude comparative entre les différents romans. Cette analyse, dans la troisième partie de l’ouvrage, cherchera à ne pas trop orienter l’utilisateur de ces données mais plutôt à l’aider à se familiariser avec ces modèles de représentation et à se les approprier.

Une autre partie du matériau de la recherche serait utilisée pour la conception d’un site qui permettrait de faire des recherches dans un mode interactif, afin de pouvoir accéder à des données plus détaillées que celles présentées au sein de l’ouvrage.

Un projet de recherche qui interroge les rapports entre littérature et informatique
En visant une approche moins subjective des études littéraires et plus libérée de la sensibilité du chercheur, ce projet est aussi mené en enquêtant sur et expérimentant de nouvelles modalités de représentations des données extraites des applications informatiques.
Cette recherche vise à déterminer et à exploiter de nouveaux critères de caractérisation, d’identification, de classification et de comparaison des textes littéraires. Peuvent se manifester ainsi des liens entre des œuvres, des motifs, des mouvements, des idées, des notions qui n’avaient pas été encore envisagés et qui impliquent le renouvellement ou la réforme de questionnements littéraires. M. Bernard a pu dégager des résultats et en montrer les questions théoriques qui en sont issues dans son dernier livre L’Histoire littéraire au risque de l’informatique. La question du canon littéraire, (Presses de la Sorbonne Nouvelle, 2011, 149 p.)
De telles études constituent un observatoire de la langue française comme des phénomènes littéraires. Pourtant, la fécondité de ces études informatisées ne tient pas seulement à l’acquisition de nouvelles données, à l’extension des études à de grandes échelles, mais aussi aux contraintes techniques et méthodologiques qui nécessitent de développer un questionnement théorique en littérature et, réciproquement, aux questionnements littéraires qui permettent le développement de questionnements techniques et théoriques en informatique.

L’application de l’informatique à l’exploitation des corpus textuels au service des sciences humaines et sociales
Ce projet constitue un secours utile et fécond aux études littéraires mais aussi à toutes celles qui explorent et exploitent un discours. En effet, au sein des pratiques et questionnements des Humanités Numériques, l’expérience et l’expertise acquises dans ces disciplines depuis les années 80 en France semblent décisives et éclairantes aussi bien dans une perspective épistémologique que dans celle du développement d’une conscience méthodologique dans l’usage des techniques informatiques et des recherches théoriques qui leur sont associées. Ainsi les résultats et questionnements du projet "Cent romans" concernent chaque domaine des sciences humaines et sociales qui utilisent des sources textuelles numérisées ou numériques.

Une recherche qui est lematériau d’un enseignement
Cette recherche menée dans un axe pédagogique, a donné lieu à la publication d’une série d’études sur les ouvrages au programme de l’agrégation de lettres au sein de la collection « cap’agreg » dont des extraits sont consultables en ligne.

Le matériau et les résultats de ces recherches sont aussi mis au service d’un enseignement destiné à des littéraires (Master 2-Doctorat) au sein d’un séminaire depuis 2003 dont les enregistrements vidéo des dernières séances sont accessibles en ligne.

Les Séances de séminaire Hubert de Phalese sur YouTube.

Il faut envisager ce projet en coordination avec le projet porté par Michel Bernard Établir un état de l’art des outils informatiques pour le traitement d’un corpus textuel numérisé.