Le Tf-idf, c’est pas systématique

Appliquer un TF IDF pour transformer le texte en matrice est très souvent une erreur. Peu de jeu de données sont éligibles à l’application de cet indicateur. Explications.

TF IDF ou term frequency-inverse document frequency, est un indicateur puissant qui pondère les mots présents dans un corpus de texte selon leur importance relative. Il joue un rôle important dans la transformation d’un corpus de texte en matrice exploitable par des algorithmes de NLP ou de Machine Learning.

Décryptage de la formule

Le term frequency-inverse document frequency permet de pondérer les mots d’un corpus selon une règle particulière qu’il faut comprendre avant d’appliquer. Sa formule s’écrit ainsi :

Il se décompose donc en 2 métriques au comportement différent. La formule attribue un poids fort aux mots très présents dans un document (TF) et très peu présents dans le corpus (IDF). Ainsi, l’indicateur croit avec la fréquence du mot dans le document et décroit avec le nombre de documents contenants le mot.

En d’autres termes, il a le pouvoir de mettre en valeur les mots rares.

Imaginez que nous disposons d’un corpus qui traite du sujet « alimentaire », découpé en 3 classes de même taille « céréales », « fruits », « condiments ».

  • Le mot « orge » est très présent dans les documents « céréales », mais peu dans l’ensemble du corpus, il aura donc un poids fort.
  • Le verbe « être » est très présent dans un document « céréales », mais aussi dans l’ensemble du corpus, il aura donc une importance faible.

Quand utiliser le Tf-idf ?

On l’utilise lorsqu’on veut étudier les termes caractéristiques d’une classe modérément représentée dans un corpus. Si la classe est statistiquement dominante, ses termes se verront malheureusement attribué un poids faible, à tort, car présents dans beaucoup de documents.

Avant de l’appliquer, une banale description des effectifs par classe suffit à savoir si la catégorie étudiée est correctement représentée.

Les alternatives, voir indicateurs majeurs.

Mesdames, Messieurs, accrochez-vous il existe d’autres indicateurs que le TF-IDF. La liste n’est pas exhaustive mais il s’agit des 2 alternatives les plus récurrentes au TF IDF.

Le TF (Term Frequency)
C’est tout simplement la fréquence des mots dans les documents du corpus. Plus un mot est fréquent, plus il est important. Le nettoyage du texte a toute son importance car les pronoms et les verbes communes (être, avoir) ont tendance à être surreprésentés.

Le TF binaire
Il indique si le mot est présent ou absent du document, quelle que soit son occurrence. Peu de risques avec cet indicateur. Toutefois, le choix dépendra aussi du besoin, car si nous souhaitons pondérer nos termes, il ne nous aidera pas.

Vous l’aurez compris, la règle qui consiste à systématiquement appliquer un TF IDF sur des données textuelles est à bannir. Il n’y a pas de solution miracle. Le choix de l’indicateur n’est pas indépendant du jeu de données et du besoin de pondération.