Les promesses du Big Data sont belles… mais ne mettent pas les hommes et leurs technologies à l’abri d’erreurs qui peuvent s’avérer douloureuses.

Le Big Data a longtemps été associé à un discours très médiatique, alimenté par un calcul a priori très simple : beaucoup de données + la technologie adéquate = des résultats miraculeux pour l’entreprise. Alors que le concept de Big Data se démocratisait, les capacités de stockages augmentaient drastiquement… et les capacités à traiter intelligemment ces données un peu moins rapidement. En 2013, alors que le Big Data cesse progressivement d’être un buzzword pour voir les premiers projets et retour d’expériences survenir, de plus en plus d’experts prennent conscience que la technologie seule ne résout pas tout.

A ce titre, Bill Wise, Directeur Général de Mediaocean, éditeur de logiciel de publicité et services informatiques, souligne le fait que plus la dépendance aux données existe, plus il est possible de se tromper dans leurs analyses.

Les outils permettant de « travailler » le Big Data et ses milliers de petaoctets de données, supplantent dans les esprits les entrepôts de données (datawarehouses) et les outils de business intelligence traditionnels. Ces nouveaux outils donnent, a priori, la possibilité à tout un chacun de se prétendre data scientist.

« Les données ne parlent pas toutes seules »

En prenant l’exemple de l’attentat de Boston en avril dernier, Bill Wise explique que « les outils de gestions de données [du FBI] ont été inefficaces à cause de simples erreurs [quelques lignes manquantes dans un fichier Excel et une faute d’orthographe dans le nom du suspect, ndr] ». Cet exemple, lui laisse donc penser que le Big Data est loin d’être aussi simple que de « mettre des données dans Hadoop, en ressortir des insights ! ». Au final, les résultats dépendent grandement du recul des data scientists et de leur façon d’appréhender l’océan de données.

Bill Wise insiste sur le fait que plus le nombre de données est grand, plus la probabilité d’une mauvaise lecture l’est elle-aussi. La nouvelle relation humains-données laisse de plus en plus de place à l’erreur, si les processus adéquats ne sont pas respectés. Les résultats risquent alors bien d’être catastrophiques, rendant par exemple des analyses économiques complètement bancales.

Ces arguments confirme ceux du célèbre statisticien, Nate Silver, qui explique, dans son livre « The Signal and the Noise »,  que les données ne parlent pas seules, plus elles sont nombreuses, plus il y a de « bruit » à prendre en compte. « Le bruit augmente plus rapidement que le signal, il y a énormément d’hypothèses à tester, encore plus de données à traiter mais une seule vérité » commente-t-il. Il prend l’exemple du réchauffement planétaire : le fait de disposer de plus en plus de données ne semble pas faciliter l’émergence d’un véritable modèle de consensus sur la forme et les causes de ce réchauffement (notamment aux USA).

Les piliers fondamentaux pour traiter le Big Data

Pour une économie, ou plus précisément une entreprise, une mauvaise compréhension des données se traduit dans la plupart des cas,  par un léger ralentissement de l’activité ou une baisse d’efficacité – qui sera peut-être attribuée à d’autres causes. Mais sur ces questions encore jeune, il parait difficile de ne pas penser que les conséquences pourraient être bien plus douloureuses.

Interroger efficacement ses données, ainsi que connaître leurs provenances, deviennent les deux piliers fondamentaux pour une meilleure analyse du Big Data. C’est ce que soutient Kate Crawford, chercheure en chef chez Microsoft Research et professeure au MIT Center for Civic Media, dans la Harvard Business Review. Avec de nouveaux axes de réflexions nécessaires. « Les data scientists devraient consulter les recherches en sciences sociales, découvrir quelles méthodes sont utilisées pour recueillir et analyser les données sociales et les transposer à leur interprétation » conseille-t-elle.

Alors que le métier de data-scientist devient extrêmement recherché et que leur formation devient un problème des plus préoccupants, il convient donc de rappeler que plus que jamais, il faut aborder les promesses du Big Data avec autant de rigueur que d’humilité.