Librairies NLP en anglais VS langues européennes : encore du chemin à faire

Le chat manger le sourire, un exemple expliqué par l’article.

A l’heure où les économistes sont de plus en plus nombreux à remettre en question l’hégémonie américaine, développeurs et IT lovers ont compris qu’elle a juste changé de posture. Qu’elle prenne le nom d’un GAFA ou d’une startup innovante, les innombrables pépites technologiques témoignent de cette position de leader devenue incontestable.

Le NLP ne fait pas exception à ce constat. Témoin de cette transition du marché tech où la connaissance vaut de l’or, les ressources anglaises abondent là où les autres langues peinent toujours à se constituer des bases solides.

L’impact de cet écart est directement mesuré par l’allongement des temps de production. Le manque de ressources ralentit le travail des développeurs et réduit considérablement la compétitivité des jeunes pousses non anglophones dans un contexte technologique où innovation et rapidité priment. La course inéquitable est lancée depuis une décennie et en 2020, l’écart continue de se creuser entre ces développements à deux vitesses.

Illustration du fossé par un exemple standard

Parmi les librairies sémantiques les plus célèbres de la « data place », je nomme pour cet exemple « spacy », le couteau suisse du natural language. Cette librairie incontournable contient des fonctions très souvent utilisées en Text Mining. La lemmatisation en est une.

La lemmatisation, est un traitement lexical qui permet de regrouper les formes dérivées d’un mot en leur forme canonique. Le lemme « grand » renvoie à « grand », « grands », « grande », « grandes ». Ce procédé nécessite d’analyser des dictionnaires pour chaque langue afin de fournir ce type de regroupements.


Voici quelques résultats de lemmatisation française qu’elle propose.

Le rapprochement entre les termes lemmatisés en français (en rouge) requiert un traitement complémentaire. Il faut les identifier, puis associer manuellement ces termes, ce qui peut prendre un certain temps. Certaines phrases perdent même tout leur sens. C’est le cas de « le chat a mangé la souris ».

Le chemin est long et périlleux.

L’Open Source, ingrédient de la recette GAFA

Une cause majeure de cette grande différence vient probablement de la culture de l’Open Source, très ancrée dans le modèle américain. Souvenez vous comment Google a bénéficié du savoir faire de développeurs expérimentés grâce à leurs contribution à des travaux ou librairies en accès libre. Un « win-win », où chacun trouve son compte. De la notoriété d’un côté et un florilège de ressources pour un succès accéléré.

Ailleurs comme en France par exemple, l’Open Source est l’affaire de rares chercheurs qui publient encore leurs travaux. Les librairies en langue française se monnaient. Des startups se spécialisent progressivement dans la production et l’exploitation de ressources dans les langues locales. Leur accès est couteux, là où rappelons le encore, il est libre d’accès en anglais. Dans ce contexte, les développeurs se constituent au fil des années, leurs propres librairies gratuites et surtout individuelles.

Pouvoir de la tarification

Bien sûr il existe des solutions dans une centaine de langues proposées par Google et Amazon. Mais à quel prix ? Lorsqu’il s’agit de sémantique, les couts d’exploitation deviennent systématiquement non négligeables. Les API Google Cloud Natural Language et Amazon Comprehend n’y dérogent pas et les prix peuvent vite décourager les innovations sémantiques étrangères. Une facturation couteuse est sans doute un bon moyen de rester leader du marché de la données non structurée. L’intention est indéniablement présumée, mais le résultat est quant à lui évident.

Vers une initiative européenne ?

Le Vieux Continent a beaucoup de retard dans la conquête de la technologie sémantique mais une initiative européenne peut palier à l’absence de culture de l’Open Source. Une démarche solidaire permettrait d’évangéliser la connaissance afin de fournir aux développeurs européens tous les outils nécessaires à un regain de compétitivité technique. Elle permettrait aux NLP data scientists d’avoir une valeur ajoutée mieux orientée qui s’affranchit de l’amas de connaissances individuelles en langue locale. Un moyen certain de défendre et de promouvoir le patrimoine linguistique européen au format IT.

Pour conclure, le chat mangera la souris.