CORIA-TALN 2018 : le langage, la recherche et l’industrie

--

En mai dernier, j’ai représenté Hubware à la conférence jointe CORIA-TALN à Rennes.

Il s’est passé beaucoup de choses pendant ces trois jours, et le récit dépend du contexte dans lequel vous vous placez.

Le point de vue scientifique

TALN signifie traitement automatique du langage naturel. Le français, l’anglais, le russe, le japonais sont des langages naturels, utilisés couramment par les humains. Ils n’ont pas la régularité absolue des langages de programmation.

Leur grammaire comporte des exceptions, leur vocabulaire évolue, ils possèdent des interprétations innombrables. Une phrase « j’ai sommeil » prend un sens différent si elle est prononcée le matin ou le soir, depuis un canapé, un siège de voiture ou un cinéma.

Les humains sont relativement doués pour naviguer dans cette ambiguïté. Les machines, vraiment pas. C’est justement le but du traitement automatique des langues : rendre accessible à la machine la complexité des informations contenue dans le langage, que ce soit dans le sens de la compréhension ou de l’expression.

Ce n’est pas évident.

Dans CORIA, « RI » fait référence à la recherche d’information. Que vous disposiez d’une bibliothèque, une documentation technique, une base de données, voire le Web tout entier, vous voulez trouver l’information qui répond à vos besoins.

On ne consulte pas un livre comme on consulte un site Web. Les données existent sous des formes multiples : nombres, images, vidéos, sons, résumés, descriptions, rapports, schémas, parmi tant d’autres. Elles ne sont pas nécessairement organisées correctement.

Les humains sont relativement doués pour chercher dans leur propre mémoire. Or, ce n’est pas suffisant. Le but de la recherche d’information est de rendre accessible à l’humain une quantité de données, de connaissances, qui dépasse largement ce qu’il peut garder en tête.

Ce n’est pas évident non plus.

Bien sûr, il en faut plus pour décourager la Science ! Des foules de chercheurs étudient ces deux domaines, et CORIA-TALN était l’occasion pour eux de se rencontrer (car d’habitude, les deux conférences sont séparées).

J’ai donc eu l’opportunité de me joindre à eux et d’échanger avec la communauté francophone des dernières avancées scientifiques. J’en parlerai un peu plus loin.

Le point de vue académique

Durant mon doctorat, j’ai été initié au fonctionnement de la Science en tant qu’institution. C’est un croisement entre une usine à gaz et une tour de Babel idéale, un chemin commun vers le Progrès et la Connaissance avec beaucoup de détours.

Décrire le processus dans le détail prendrait un article entier. Pour résumer, les scientifiques publient leurs résultats pour satisfaire deux objectifs : communication et prestige.

La communication, c’est l’échange des idées, l’exploration d’une nouvelle technique, pour dire « j’ai essayé ça, ça a marché (ou pas), c’est une voie prometteuse (ou pas), avec telle ou telle application ». Le but est de prendre connaissance de ce qui a été fait, afin de ne réinventer la roue à chaque fois.

Le prestige, c’est la visibilité, la réputation, le signal « nous faisons des progrès, écoutez-nous, et donnez-nous des sous pour continuer ». Chaque publication est une nouvelle ligne à ajouter à son CV, et les laboratoires ne se gênent pas pour faire rayonner leur personnel.

Une conférence académique, avec son processus de soumission, d’évaluation par les pairs, et de sélection, agit comme un filtre de qualité. Imparfait certes, mais tout de même. Publier dans une conférence est un gage de reconnaissance de ses recherches par sa communauté scientifique. Une validation précieuse, autant pour les équipes de recherche publique… que privée !

Le point de vue industriel

Les entreprises font de la recherche aussi ! La Science ne fonctionne pas en vase clos. Je travaille, chez Hubware, sur certains problèmes ouverts, qui n’ont pas de solution connue mais qui semblent accessibles. Les techniques que je crée sont originales, et peuvent donc mener à une publication scientifique (ou, dans d’autres domaines, à un brevet).

La recherche industrielle va de pair avec l’innovation, et l’État octroie des avantages fiscaux aux entreprises qui parient sur celle-ci. Mieux, il existe des partenariats entre laboratoires et entreprises, via des thèses CIFRE ou des projets communs (encore trop rares en France) !

Afin de valoriser ce lien, CORIA-TALN hébergeait un Salon de l’Innovation, avec des stands de présentation, et une table ronde autour des enjeux du TAL dans l’industrie. J’y étais !

Le sujet de la table ronde était « les enjeux du TAL en entreprise », mais tout le monde s’accordant à dire que le TAL était un vaste domaine et que chaque entreprise présente essayait de résoudre des problèmes différents, la conversation a rapidement changé de sujet.

Premièrement, sur la distinction plus ou moins nette entre traitement du langage et recherche d’information au sein des entreprises. Des entreprises qui annoncent faire du TAL n’en font pas forcément, utilisent des méthodes d’autres disciplines… le problème n’est pas le croisement des techniques (qui est une excellente chose), mais la nécessité pour les entreprises d’employer le bon vocabulaire dans leurs communications.

Ensuite, sur le deep learning : très en vogue actuellement, les réseaux neuronaux ne sont pas nécessairement adaptés à toutes les tâches de traitement du langage. Les nombreuses publications sur des tâches d’annotation, de création de ressources linguistiques, etc. rappellent aux entreprises que le deep learning n’est pas une baguette magique. Si l’on se concentre dans un domaine précis (banque, médecine, commerce…) les données de qualité sont rares, et demandent de l’expertise !

Une sélection de travaux intéressants

Parmi les présentations qui ont retenu mon attention, deux concernent le service client et une l’aide à la décision (sans surprise, considérant l’activité d’Hubware).

Le projet DATCHA, issu d’un partenariat entre l’IRIT (Toulouse), le LIS (Marseille) et Orange Labs, étudie des conversations textuelles entre clients et conseillers de support technique. Il en est ressorti cette année un article de Jeremy Auguste et al. sur la question « peut-on savoir si un client est satisfait sans lui demander directement », et de Robin Perrotin et al. sur la question « quelles sont les étapes d’une conversation client-conseiller ? ».

Pour la première question, les performances de la machine sont encore loin d’égaler l’humain, malgré les progrès réalisés sur la détection de sentiment. Il est difficile de déterminer si le problème d’un client a été résolu sans une bonne compréhension de l’ensemble de la conversation de support technique. Une compréhension qui manque encore à la machine, et particulièrement ardue à formaliser.

Le thème du second article est justement ce souci de formalisation : si l’on ne parvient pas à décrire correctement à la machine quel type de structure on veut lui faire détecter, elle n’y parviendra jamais. L’idée est donc de trier chaque intervention du conseiller ou du client suivant son acte de dialogue : salutations, description d’un problème, proposition de solution, demande de clarification, etc.

Le projet DATCHA se poursuit, et j’attends avec curiosité leurs prochaines publications.

Dina Demner-Fushman (vidéo disponible ici) a présenté ses travaux sur l’assistance que le traitement du langage peut apporter à la prise de décision dans le domaine médical.

L’état d’un patient va-t-il se détériorer ? S’améliorer ? Faut-il lui faire passer des examens supplémentaires ? Quels sont les résultats des examens précédents, quel traitement a été fourni ? Quelles sont les ressources disponibles localement ? Autant de décisions qui influent directement sur le soin apporté.

Dans le contexte d’un traitement, la plupart des questions sont formulées en langage naturel, qu’elle proviennent du praticien ou du patient. Les professionnels doivent, pour y répondre, naviguer dans des interfaces peu claires. Les informations nécessaires ne sont pas accessibles facilement, et mêmes si chaque donnée a son utilité, il est crucial de pouvoir retrouver les informations pertinentes au regard de la question posée !

La présentation aborde diverses solutions proposées afin de créer un lien entre ressources en langage naturel, expertise médicale et données chiffrées. Une tâche extrêmement ambitieuse, avec l’objectif d’améliorer la qualité des soins.

Conclusions

https://twitter.com/Hubwa_re/status/997033875183292417

Une conférence est également l’occasion de voyager un peu et de rencontrer des gens. Avec l’aide d’une météo clémente, j’ai pu donc visiter le cœur historique de Rennes, me balader le long de la Vilaine, et manger breton.

Le bénéfice unique d’une conférence vient des rencontres que l’on y fait, de pouvoir poser des questions directes aux auteurs et orateurs, de découvrir des groupes de recherches insoupçonnés, d’échanger des astuces et des idées sur des expérimentations en cours…

Je suis revenu de Rennes avec un bon nombre d’idées, de nouveaux contacts, et l’envie de publier à nouveau. Les travaux d’Hubware pourront certainement intéresser la communauté scientifique !

Tous mes remerciements aux associations ARIA et ATALA, ainsi qu’au comité d’organisation pour une conférence passionnante !

Rendez-vous donc à la prochaine édition de TALN, qui aura lieu en juillet 2019 à… Toulouse !

Ces sujets vous concernent ? Vous souhaitez en savoir plus ?

Contactez-nous dès maintenant !

En attendant, retrouvez nous sur Twitter, Facebook, LinkedIn et notre site hubwa.re !

Si vous aimez cet article, 👏 ci-dessous.

--

--