Même s’il est loin d’être un concept nouveau, le text mining connaît aujourd’hui un nouvel essor. L’émergence du Big Data où le stockage des données numériques n’est plus un problème et où les sources de données disponibles se multiplient font de l’analyse des données textuelles un enjeu crucial.

Qu’est-ce que le text mining ou la fouille de textes ?

Le text mining regroupe l’ensemble des techniques de data management et de data mining permettant le traitement des données particulières que sont les données textuelles. Par données textuelles, on entend par exemple les corpus de textes, les réponses aux questions ouvertes d’un questionnaire, les champs texte d’une application métier où des conseillers clientèle saisissent en temps réel les informations que leur donnent les clients, les mails, les posts sur les réseaux sociaux, les articles, les rapports…

Un des aspects centraux du text mining est de transformer ces données textuelles peu structurées – si ce n’est par la langue utilisée – en données exploitables par les algorithmes classiques de data mining. Il s’agit tout simplement de transformer un texte brut en tableau de données indispensable aux analystes chargés d’en dégager du sens. Il s’agit ensuite de déployer les méthodes statistiques les plus à même de répondre à une problématique donnée.

Comment choisir un bon logiciel statistique pour le traitement de données textuelles ?

La plupart des outils de Data Mining permettent le traitement des données textuelles. Ils sont en mesure de faciliter la mise en place des tableaux de données à analyser tels que des tableaux lexicaux ou des tableaux de contingence par exemple ; mais aussi de représenter graphiquement à l’aide d’une Data Visualisation les indicateurs spécifiques des données textuelles.

Les différences entre ces outils informatiques résident dans leurs réponses à ces questions fonctionnelles :

Est-ce un outil statistique capable de structurer les données textuelles ?

L’outil doit pouvoir construire rapidement et intelligemment les indispensables tableaux de données. Les interfaces permettant de nettoyer le texte, c’est-à-dire de sélectionner les mots d’intérêt et d’enlever tous les mots outils (« il y a », « un », « une », « dans », etc.), doivent être intuitives, pertinentes et performantes.

La phase de lemmatisation dont l’enjeu est de réduire le vocabulaire en regroupant les synonymes, en regroupant les verbes conjugués sous une même racine, en supprimant les articles, mots de liaison etc. est très fastidieuse. Elle doit être facilement réalisable avec l’utilisation d’algorithmes de regroupements automatiques dans lesquels les notions de similarités syntaxiques (mots ayant la même racine) et sémantiques (mots appartenant au même champ lexical) sont prises en compte. La possibilité indispensable d’ajustements métiers ne doit cependant pas être négligée.

Est-un un logiciel text mining capable de traiter les expressions ou groupes de mots spécifiques ?

La solution doit permettre de traiter les expressions ou groupes de mots spécifiques comme des entités verbales à part entière. Par exemple les deux mots Data et Science lorsqu’ils sont placés côte à côte doivent être considérés comme une seule entité : la « Data Science ».

La solution de text mining peut-elle identifier les éléments de contexte d’un mot ?

Il est important de pouvoir observer facilement les éléments de contexte d’un mot. Par exemple la question « quels autres mots sont employés par les clients avec le mot insatisfait ?» doit être facilement adressée par un outil de text mining. Il est alors possible d’identifier spécifiquement les différents motifs d’insatisfaction client.

Propose-t-il une palette d’analyses statistiques adaptées ?

La mise en œuvre des analyses statistiques spécifiques, qu’elles soient descriptives ou prédictives permet de faciliter la prise de décision. On peut par exemple citer les méthodes d’analyse exploratoire multidimensionnelle et de classification pour faire émerger de façon globale ou locale les informations essentielles et les principaux concepts sous-jacents d’un texte ; et les algorithmes de machine learning pour organiser les textes selon leurs contenus de manière automatique et auto-apprenante.

Quelles sont les applications courantes du text mining ?

Le text mining permet d’analyser la base des emails adressés à une entreprise et de répondre sans a priori à la question « quels sont les principaux motifs de contact ? ». Il est ensuite possible d’établir des modèles prédictifs pour classer automatiquement les mails entrants dans les différentes catégories de motifs de contact identifiées. Cette automatisation permet d’adresser rapidement la demande au bon service ou à la bonne personne et par conséquent d’augmenter la satisfaction client.

Un nouveau challenge d’actualité est relatif à la détection des données sensibles contenues dans des zones de texte libre des applications métier (CRM par exemple). Les données sensibles sont relatives à l’origine raciale, aux opinions politiques, aux convictions religieuses, à l’orientation sexuelle, à la santé, etc. de chaque client, collaborateurs, partenaires, etc. et sont interdites par la CNIL. L’entrée en vigueur du prochain Règlement Général sur la Protection des Données (RGPD) ne fera qu’amplifier l’obligation de répondre à cette problématique qui pourra en partie être solutionnée par des algorithmes de text mining développés dans ce cadre.

Une multitude d’autres problématiques peuvent être adressées avec le text mining comme par exemple les campagnes marketing avec l’analyse de certaines actions marketing (réseaux sociaux, formulaires de contact), la gestion de la relation client et particulièrement la fidélisation via l’étude de questionnaires de satisfaction ou encore l’optimisation de contenus web dans une optique de référencement naturel.