Le projet CPER LCHN se structure autour de quatre thématiques :

Ingénierie des langues

Animateurs : Christophe Cerisara & Mathieu Constant

Les ressources, outils et recherches développés conjointement par l’ATILF, l’INIST et le LORIA font de la Lorraine un centre de compétence dans le domaine du traitement automatique des langues (TAL). L’action « Ingénierie des langues » du projet LCHN, bâti sur ces acquis, vise à promouvoir des recherches fondamentales ainsi que le développement d’outils et de méthodes permettant l’observation outillée du texte et de la parole. Il s’agira en particulier (i) de développer des méthodes et des outils permettant d’analyser et de produire du texte et de la parole, avec ou sans corpus d’apprentissage, (ii) d’utiliser des outils de TAL dans des logiciels à visées applicatives comme, par exemple, la veille lexicale, et (iii) de créer des ressources ouvertes, libres, normalisées et exploitables en TAL.

Les problématiques scientifiques abordées incluront l’analyse morphologique, syntaxique, discursive sémantique et la génération de texte ; l’étude de la dynamique du visage et des articulateurs du conduit vocal (langue, lèvres, mâchoire, etc.) ; l’analyse et la modélisation de la parole et de son alignement avec le texte ; et l’utilisation de méthodes d’apprentissage minimisant les besoins en annotations manuelles (i.e., apprentissage faiblement supervisé et techniques dites de crowdsourcing à partir de “Game with a purpose”).

Les applications des recherches développées en ingénierie des langues se situeront en premier lieu à l’intérieur du projet LCHN avec (i) l’extraction et la structuration de connaissances (passer de la réalisation linguistique des concepts aux concepts eux-mêmes) (ii) les humanités numériques (enrichissement de corpus textuels et oraux à l’aide d’outils de TAL) et (iii) l’E-éducation (exploitation des ressources produites et enseignement assisté par ordinateur). Dans un contexte plus large, les retombées des recherches menées en ingénierie des langues apparaissent par exemple dans le domaine de l’aide au diagnostic et processus psychothérapeutiques (en continuation du Projet SLAM MSH-Lorraine) ou encore celui des représentations de la terminologie médicale et paramédicale (troubles du langage) chez le non- spécialiste, et des outils permettant l’amélioration de la communication patient/personnel médical/paramédical grâce à des axes ontoterminologiques et morphologiques (projets QUICHL).

Enfin, l’action « Ingénierie des langues » utilisera ou contribuera à produire des ressources qui pourront être textuelles ou lexicales (Réseau Lexical du Français soutenu à l’origine par l’AME), relever de la langue générale ou spécialisée, être à vocation générique (modélisation de la langue) ou finalisée et concerner une langue (ressources monolingues) ou plusieurs (ressources multilingues). Elles seront enrichies par des annotations multi-niveaux (syntaxiques, morphologique, sémantique) et exploitées pour le développement de systèmes applicatifs tels que l’extraction d’information, la création de ressources (e.g., terminologies spécialisées) ou encore l’observation outillée de corpus textuels. La production, l’hébergement et la maintenance des ressources s’appuieront sur le PIA ORTOLANG.

Extraction et structuration de connaissances

Animateurs : Laurent Schmitt & Yannick Toussaint

Dans une société submergée par la profusion d’informations, capitaliser les connaissances est devenu un besoin omniprésent qui se décline de différentes façons selon qu’il s’agisse d’experts confrontés à un problème pointu ou d’un système automatique d’aide à la décision. Il est donc crucial de pouvoir disposer, maintenir et diffuser des terminologies et référentiels d’acteurs à jour par domaine, de pouvoir détecter des évolutions et des ruptures dans des domaines scientifiques ou technologiques, d’être capable de synthétiser sous forme de connaissances des informations dispersées dans plusieurs milliers de textes ou, au contraire, d’être capable de trouver les nouvelles connaissances parfois très spécifiques qui permettront d’améliorer la réponse d’un système à base de connaissances. Notre particularité en Lorraine est de tirer profit de nos compétences en IST (INIST), en linguistique (ATILF) et en informatique (LORIA) pour répondre à ces questions pluridisciplinaires, de pouvoir ainsi associer traitement de grands volumes de textes, analyse de données ouvertes (Linked Open Data, Big Data) et intégration de connaissances existantes (Open Ontologies).

Pour répondre à la diversité des problèmes posés et à la variabilité liée aux domaines d’expertise, nous travaillons à l’élaboration de méthodes robustes empruntées à la textométrie ou à la classification non supervisée et dynamique appliquées à des textes enrichis au niveau linguistique (morphosyntaxique, syntaxique et sémantique) ou relativement au domaine (termes, entités nommées, bibliographie, acteurs). Mais l’extraction de connaissances et leur structuration vont aussi nécessiter la mise au point d’outils de fouille de données comme l’extraction de motifs (motifs fréquents, rares, motifs séquentiels) ou encore de motifs de graphes permettant de traduire une partie de la complexité des phénomènes observés. Pour être utilisés par des agents humains ou logiciels, en particulier dans le cadre du web sémantique, ces motifs doivent être représentés à l’aide de langages de représentation des connaissances adaptés comme, par exemple, les langages RDFS ou OWL-DL, ce dernier s’appuyant sur les logiques de descriptions et les modes de raisonnement associés.

Notre objectif est de développer une plateforme permettant de valoriser les travaux théoriques et appliqués menés dans le cadre de plusieurs actions nationales telles que ISTEX, BSN et les ANR ISTEX, Termith, KolFlow, Hybride… Cette plateforme mettra à disposition un ensemble d’outils d’enrichissement de textes, d’analyse de l’information, de visualisation et de structuration de connaissances paramétrables et adaptables à de nouveaux problèmes et à de nouveaux domaines d’application. Ainsi, dans le domaine de l’IST, les applications développées porteront sur le développement de nouvelles formes d’accès à l’information scientifique et de son analyse facilitant le pilotage scientifique ou le développement d’une synergie avec le tissu économique.

Humanités Numériques

Animateurs : Christophe Benzitoun & Luc Massou

Les « Humanités Numériques » s’intéressent à (i) la constitution, l’édition et le stockage contrôlé de données numérisées (passer de l’écrit papier à des bases de données structurées et interrogeables, ou encore passer d’enregistrements sonores à des corpus transcrits exploitables) (ii) la représentation d’informations diverses à propos de ces données et (iii) leur diffusion et leur valorisation au travers d’interfaces d’interrogation qui dépendent bien sûr des données, mais aussi des informations en fonction desquelles on veut les interroger. Dans le cadre du projet « Langues textes et documents » du dernier CPER, nous avons permis à un certain nombre d’équipes SHS lorraines de se positionner dans cette problématique. Nous souhaitons poursuivre cet effort en nous focalisant sur les trois problématiques générales :

  • La numérisation des données. Elle s’appuiera sur deux outils que le dernier CPER a mis en place : une plateforme mutualisée de numérisation de documents anciens (numérisation verticale) et une chaîne d’océrisation pour l’ensemble des documents écrits. Ces deux outils continueront d’être utilisés dans le présent CPER et ne nécessiteront pas de développements importants en dehors d’adaptations ponctuelles en fonction des données (ouvrages) à traiter. Sur le plan des données orales dans leur forme transcrite, anonymée et librement disponible (site du CNRTL), la base TCOF (héritage du dernier CPER) continuera de se développer en collaboration avec le projet ANR ORFEO.

  • La représentation des informations ajoutées aux données par les chercheurs qui les étudient se subdivise en deux grandes problématiques : (i) les métadonnées qui décrivent des documents, des corpus ou des bases de données dans leur ensemble (informations bibliographiques, genres, disponibilité, etc.) et (ii) les annotations qui sont des informations ajoutées à l’intérieur des données elles-mêmes (étiquette grammaticale, catégorie sémantique, etc.). Les métadonnées vont guider la manière dont les données numérisées peuvent être interrogées en sous-ensembles contrôlés et pertinents pour le monde de la recherche, de la culture, de l’industrie ou le grand public. Les annotations sur les données, quant à elles, favorisent l’accumulation des savoirs au fur et à mesure des recherches menées (savoirs historiques, patrimoniaux, culturels, sociologiques, linguistiques, etc.) et encouragent le dialogue et la coopération entre disciplines et savoir-faire divers sur des objets partagés (données et leur représentation).

  • Les systèmes d’interrogation et de diffusion des données numériques avec trois objectifs : (i) aider leurs utilisateurs à constituer un sous-ensemble pertinent de données à partir des métadonnées d’une ou de plusieurs bases de données ; (ii) fournir des outils de visualisation à la fois simples et efficaces des données enrichies par leurs annotations. ; (iii) observer les nouveaux usages induits par le numérique afin d’étudier leurs logiques d’évolution.

Ces différentes problématiques seront développées au travers de plusieurs projets clairement identifiés : le projet Mémoires lorraines qui vise la constitution d’une base de données patrimoniale sur l’histoire de la Lorraine ; Outil Collaboratif d’Analyse des processus d’Intégration qui vise à interroger des bases de données prosopographiques (reconstitution de carrières professionnelles) et dont l’une des applications finalisées en partenariat avec Arcelor Mittal sera de faciliter la reconstitution du parcours professionnel d’un individu ; projet AMPLorr autour de la prosographie (identification des personnages) et de la définition des espaces sociopolitiques lorrains au Moyen Âge ; participation au Pôle régional du document numérique pour contribuer à la bibliothèque numérique (BNR) et aux musées numériques (autour de la Première Guerre mondiale) ; le projet HPP (Henri Poincaré Papers) dont l’objet est de poursuivre et d’analyser les travaux de H. Poincaré au travers de la publication et de l’édition critique de ses manuscrits et de ses travaux non encore publiés ; dans le cadre du projet TCOF le projet d’interface d’interrogation de données orales alignées texte-son et annotées automatiquement (ANR ORFEO) par des analyses grammaticales ; le projet Re-Typographe autour de la représentation de typographies ancienne ; enfin, le projet d’Observatoire des usages numériques, continuité des projets ObsWeb, TecMeus, SumTec (axe 3 de la MSHL ) et ANR Info-RSN, sur la circulation et le partage des informations sur les réseaux socionumériques, tel le webjournalisme (LCOMS, CREM).

E‐éducation

Animateurs : Sébastien Genvo & Samuel Nowakowski

Le précédent CPER a vu émerger un thème nouveau, issu de travaux à fort taux d’interdisciplinarité, l’E‐éducation. Il s’est installé comme un thème émergent incontournable tant au niveau local qu’aux niveaux national et international. Les axes qui font maintenant le cœur de cette thématique, se répartissent en quatre grandes catégories, l’apprentissage des langues (français et langues étrangères), la modélisation numérique des compétences, les jeux sérieux, l’identité (étudiants et enseignants) dans les environnements numériques d’apprentissage. Nous allons ainsi poursuivre notre effort en nous focalisant sur une réflexion méthodologique et technique autour des impacts du numérique dans l’éducation en mettant l’accent sur trois domaines particulièrement importants :

  • L’apprentissage des langues, avec pour acteurs principaux le LORIA et l’ATILF, afin de développer des environnements favorisant les apprentissages, en s’appuyant sur les savoir­‐faire en matière de traitements de la parole et de production de plateformes et de ressources pédagogiques numériques adaptées.
  • Les jeux sérieux avec pour certaines des actions, des liens étroits avec le domaine précédent, en vue de proposer des systèmes utilisant les traces web des apprenants ainsi que les interactions Homme/Machine ; l’objectif est de rendre les systèmes adaptatifs et facilitateurs d’apprentissages. Ce domaine s’appuie sur l’expertise acquise au sein du LORIA, du CREM et d’ATILF.
  • L’impact des environnements numériques d’apprentissage sur les pratiques des enseignants et des apprenants visera à proposer des modèles numériques destinés à mieux comprendre l’expression de compétences dans les environnements numériques, mais également en quoi ces environnements impactent les usages, les pratiques et l’identité des enseignants et des apprenants. Les acteurs impliqués ici sont le LORIA, le CREM, le LISEC, le LCOMS, PErSEUs et nombre d’actions menées se font également au sein de la MSH Lorraine.