Analytics & Data IntelligenceDatamining & Business Analytics

Coheris Analytics Spad
Module Data Management

Gestion des données, Recodage, Création de variables et Industrialisation de modèles grâce au Data Management

Quelles sont les fonctionnalités comprises dans le module Data Management de SPAD ?

Le logiciel data mining Coheris Analytics SPAD intègre les méthodologies de Data Management suivantes :

Gestion des données

  • Accès aux fichiers Texte en format fixe ou délimité, Excel, Access, SPSS, Triple-S ;
  • Accès natif aux principales bases de données : Oracle, DB2, MS SQL Server, MySQL, SAS monoposte/serveur, Teradata, Sybase, PostgreSQL, Hadoop (Hive)… Accès ODBC aux autres bases de données ;
  • Accès simultané à plusieurs sources de données ;
  • Requêtes SQL sur base de données ;
  • Ajout, insertion et mise à jour de tables dans une base de données ;
  • Typage automatique des variables, gestion des libellés, bibliothèque de formats ;
  • Jointure, empilement, juxtaposition, dédoublonnage, tri ;
  • Agrégation, transposition, verticalisation, horizontalisation, agrégation par tableaux croisés ;
  • Création de sous-populations par filtre logique, tirage aléatoire simple ou stratifié ;
  • Gestion des données manquantes pour les variables qualitatives et quantitatives, algorithme de type EM pour les variables quantitatives ;
  • Le Data Management permet la validation des données : recherche des distributions atypiques, des « outliers », des variables quantitatives quasi constantes, des individus contenant trop de données manquantes ; Gestion des questions multiples.

Recodages & création de variables

  • Recodages statistiques : mise en classes, regroupement de modalités, croisement de variables, binarisation, standardisation, transformation en rangs ;
  • Bibliothèque complète de fonctions de transformation pour la création de variables en mode assisté ;
  • Recodages supervisés (mise en classes, regroupement de modalités, sélection automatique de variables) ;
  • Redressement d’échantillon sur marges (méthode RAS).

Langages externes

  • Accès au langage de programmation Python ;
  • Accès au langage statistique R avec possibilité de créer des interfaces de paramétrage.

Archivage et industrialisation des modèles

  • Le Data Management permet l’archivage des prédictions issues des méthodes de modélisation statistique et de Data Mining ;
  • L’archivage des axes factoriels et des typologies ;
  • L’archivage des modèles sous forme de règles pour les méthodes de modélisation statistique, les algorithmes de Data Mining, les analyses factorielles et les typologies ;
  • L’application des règles sur de nouvelles données importées dans SPAD ou sur une base de données externe via Coheris SPAD Real-Time.

En savoir +

Partager cette page :