NLP Trends: les affres du langage

kellepics / Pixabay

Wittgenstein termine en 1921 son ouvrage sur le sens du langage par: « Et sur ce dont on ne peut parler, il faut garder le silence. » Le langage est pourtant le vecteur de communication entre nous et désormais avec les machines. Voici quelques éléments de réflexions sur les tendances du traitement automatisé du langage (NLP).

Soyons clair, le langage n’est pas le meilleur moyen de parler aux machines. Historiquement, le codeurs qui voulurent programmer des robots de discussion (chatbots) ont utilisé des dérivés d’un langage de 2001 AIML. Malheureusement, s’il était amusant de coder des faux psychologues répondant à l’utilisateur par des remarques tellement creuses qu’on pouvait parfois les penser profondes, le résultat était très rarement bon, quand il n’était par carrément ridicule. Voici quelques remarques sur les efforts faits pour se comprendre:

  • L’hypothèse de Sapir-Whorf, qui voudrait que la complexité de la langue influence la complexité de la pensée – hypothèse du film premier contact – semble être fausse. Les langues compliquées ne rendent pas les gens plus intelligents.
  • En période de guerre, 10 à 20% des morts viennent de tirs « amis » consécutifs à 69% à des erreurs de langage ou de compréhension. Malgré cet enjeu, les professions qui utilisent les instructions (militaires, médecins…) traitent ce sujet tabou soit par la reformulation soit par la checklist.
  • Le verbe « être » possède 7 fonctions différentes (identité, appartenance à une classe, inclusion, prédication, auxiliaire, existence et localisation), rendant son usage extrêmement dangereux.
  • Les neurosciences nous apprennent qu’entre le moment où le cerveau conçoit et le moment où on peut l’exprimer il se passe jusqu’à sept secondes.
  • La plupart des gens ne réfléchissent pas à ce qu’il vont dire avant de téléphoner mais concrétisent leur demande en interagissant avec leur interlocuteur

Le langage n’a malheureusement qu’un rapport incertain avec le sens. Plusieurs efforts ont été entrepris pour résoudre ce problème:

  • WORDNET : Une base lexicale de Princeton reliant les mots entre eux par des liens sémantiques (synomymes, antonymes..) sous forme de « synset » mais existant principalement en anglais
  • LIWC : Une base « psychologique » qui relie les mots à des groupes (émotions positives, négatives…) qui existe en plusieurs langues
  • OWL/RDF: Standard du web sémantique, adopté par Wikipedia/DBpedia qui consiste à relier les mots par un triplet (ex: « homme » « appartient à la classe » « humain »).  OWL conduit à des bases de données puissantes auxquelles il est possible de poser des questions complexes. Par exemple une requête SPARQL permet de connaître les relations entre les physiciens Gödel et Einstein (sujets communs, vie privée…). Toutefois, cette approche est très lourde et nécessite une intervention humaine pour vectoriser les connaissances, répondant ainsi à la complexité par la complication.

Ces approches (il y en a d’autres) réduisent les mots à une dimension (catégorie ou synset) pour les rattacher à un sens. Depuis la publication de Tensorflow d’autres découvertes ont été faites:

  • Word2Vec / Gensim : réseau de neurones préentrainé qui relie les mots à des vecteurs en 300 dimensions.

Plusieurs tendances de fonds se dessinent en NLP:

  • Quitter le mot pour le groupe de mots ayant un sens
  • Transformation du sens en vecteur de sens indépendant de la langue et du locuteur
  • Compréhension profonde du contexte intrinsèque (ce dont le texte parle) et extrinsèque (par exemple « cet avocat est pourri » ne veut pas dire la même chose si les coordonnées GPS indiquent un supermarché ou un palais de justice)
  • Prise en compte du locuteur: personnalité, culture, référentiel…
  • Prise en compte de la communication non verbale
  • Amélioration de la qualité littéraire de la sortie, messages cachés (inspirer confiance, méfiance, doute…)
  • Détermination du non-dit ou de l’informulé

Dans ce contexte les expériences de type « système expert », telles que AIML sont largement dépassées, ou seront limitées à des usages dans lesquels le rendu de sorti doit être maîtrisé.

 

Télécharger cet article au format PDF ou ePub

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.