Qu’est-ce que la datascience ?

Schématiquement, la datascience est la rencontre du monde informatique, des mathématiques et du monde de l’entreprise. Les mathématiques fournissent un formalisme méthodologique (des algorithmes, des équations, des indicateurs,…), le monde informatique fourni des outils (des langages, des implémentations, des logiciels,…) et le monde de l’entreprise s’empare du croisement des deux pour résoudre ses problématiques.

Les outils de la datascience R et Python

Quand on parle de datascience, les deux outils les plus souvent cités sont R et Python.

Avec respectivement 26 et 22 ans d’existence, il serait quelque peu exagéré d’en vanter la nouveauté. Cependant, leur popularité s’est singulièrement accrue lors des dernières années, conjointement avec l’essor du Big-Data et de la Datascience.

Python trouve son origine dans le monde informatique, R dans le monde statistique/mathématique. Partant chacun d’un bout du spectre ils ont fini par se rejoindre sur les fonctionnalités essentielles à la datascience.

De par son héritage informatique Python est naturellement plus adaptable aux volumes importants  de données tandis que R dispose de plus d’outils orientés vers l’analyse statistique. Forts de communautés actives, les deux langages offrent des packages permettant de combler les manques initiaux (ex. pyplot et scikitlearn pour python,  multicore et parallel pour R). Ces deux outils fournissent des outils de gestion des packages afin de les rendre plus facilement accessibles aux moins experts (pip pour python et le cran pour R).

On notera également la montée récente d’un plus jeune langage issu du monde informatique : scala. Ce dernier, apparu en 2004, gagne en popularité dans le monde de la datascience dans le cadre de l’usage de l’infrastructure de calcul distribué Spark. Bien que moins complet en termes d’implémentations algorithmiques, il permet nativement de produire des calculs distribués et ainsi d’adresser « simplement » des volumes toujours plus importants de données.

Nouveaux outils, nouvelles difficultés

L’usage montre qu’aucun outil ne domine totalement les autres et que l’idéal serait logiquement de pouvoir se tourner vers l’un ou l’autre en fonction des besoins et des contraintes que chaque cas pratique nous impose. Toutefois, pour être utilisés, ces outils nécessitent l’apprentissage d’un langage de programmation spécifique à chacun.

Par ailleurs, dans la pratique, de plus en plus d’équipes de datascience sont composées de personnes venant de cultures différentes (informatique/statistique). Il est ainsi de plus en plus fréquent que chacun choisisse son outil de prédilection, auquel il a été formé lors de ses études, plutôt que de se tourner vers le plus adapté à la problématique du jour.

Un prochain enjeu sera donc certainement de trouver des passerelles qui permettront à des équipes hétérogènes de collaborer efficacement tout en valorisant les différentes expertises sur des outils variés. Idéalement, ces passerelles permettront, à l’instar de SPAD,  d’encapsuler des éléments  python, R ou scala dans une vision plus générale du traitement de la donnée et de standardiser la production de visualisation des résultats.