LA NOUVELLE BUSINESS INTELLIGENCE

Une solution adaptée aux besoins du marché

Aujourd’hui, la BI change. Cela est en grande partie du au boom du digital. Plus de 40% des personnes vivant sur Terre sont des internautes et il n’est pas rare que ce pourcentage dépasse les 80% dans les pays du Nord (source
Wikipedia). Nous vivons dans un environnement de plus en plus complexe dans lequel les interactions entre humains, entreprises et objets connectés sont en hausse. Tous ces échanges donnent naissance à une très importante quantité de données. Celle-ci est à l’origine des phénomènes du Big Data et de l’Internet des Objets. Désormais Internet permet de chercher, de créer et de partager du contenu audiovisuel. Certains internautes vivent grâce à la publicité et à la revente d’informations. L’analytique et le reporting sont devenus rois, si bien que l’information et sa diffusion se sont retrouvées au cœur de notre économie. Les entreprises ne sont plus les seules à avoir conscience de la valeur de la data car c’est tout leur écosystème qui a évolué autour d’elles. Si les données traitées par l’entreprise étaient auparavant centrées sur elle-même, elles s’élargissent désormais à l’entreprise étendue à son environnement ; qu’il s’agisse de ses clients, de ses partenaires, ou de ses concurrents. Un nombre croissant de paramètres doivent être pris en compte pour se démarquer sur les marchés : La BI a donc tout naturellement évolué pour s’adapter aux besoins des entreprises. La nouvelle BI, se veut radicalement différente. Contrairement à la construction d’un Data Warehouse et son alimentation via un ETL, elle est simple d’utilisation grâce aux nouveaux outils de data preparation. Ces derniers ont été conçus pour que des personnes qui n’ont pas forcément d’expertise informatique soient capables de les utiliser. La data preparation n’est pas le nouvel ETL. Elle se positionne une solution complémentaire de transformation des données permettant aux personnes qui savent valoriser la donnée de travailler indépendamment des informaticiens – ou de leur épargner une formation aux solutions d’ETL. Les outils de data preparation permettent de structurer et de combiner à sa guise des jeux de données. L’ensemble des transformations effectuées sur les données par l’utilisateur est enregistré sous la forme d’un script. Ce script permet par la suite d’automatiser les modifications qui ont été apportées au jeu de données (en particulier l’ordonnancement, le nettoyage et l’enrichissement). Lorsque vos jeux de données sont mis à jour, il vous suffit ainsi d’utiliser le script de data preparation généré par votre outil pour obtenir un nouveau jeu de données qui répondra à vos exigences en termes de variété et de qualité des données. Vous bénéficiez d’une grande liberté dans les opérations que vous effectuez sur vos datasets. Vous ne perdrez pas vos marques si vous êtes habitués à employer des tableurs pour manipuler vos données. Votre outil vous apportera dans bien des cas une assistance qui augmentera le confort de votre travail. En plus de faciliter la manipulation des données, la data preparation renforce leur traitement par l’apport d’une approche collaborative du travail de la data, régie par la gouvernance. Ainsi, grâce à la data preparation, la transformation des données est accessible à un plus grand nombre de personnes. L’avantage qui en découle est l’augmentation de l’autonomie des acteurs de l’entreprise pour préparer euxmêmes les données dont ils ont besoin : l’UX (User eXperience) et le self service comme piliers de la transformation des données. La faculté d’enrichissement des données permet de décupler le champ des possibles de vos analyses. Le raffinage de la data s’effectue par une succession de transformations simples et les utilisateurs peuvent revenir sur certaines étapes de leur travail pour les modifier. Cette approche itérative rapproche le travail de l’expérimentation : L’utilisateur expérimente sans crainte de l’échec et peut ainsi développer sa curiosité … et sa créativité. Enfin, IT, business users, et analystes se rapprocheront. En effet, la data preparation apporte une nouvelle dimension au data management. Il s’agit de la vision -ou plutôt de la visualisation- des données. Elle pose les bases d’un langage permettant aux acteurs de l’entreprise d’avoir un référentiel commun pour dialoguer autour de la donnée. Les échanges constants au sein de vos équipes élèveront la rapidité et l’agilité de vos processus BI. Une fois le travail de data preparation effectué, vous pourrez commencer à représenter votre travail grâce à des tableaux de bord construits par des logiciels de data visualisation. Ces représentations, produit final de votre travail, vous assisteront dans vos prises de décisions stratégiques.

LA DATA PREPARATION

Démocratisation de la manipulation de données

La Data preparation permet, au moyen d’une simple application, de manipuler et raffiner des jeux de données. Elle se décompose en plusieurs étapes

L’importation est une étape de collecte initiale qui vous permettra d’extraire le jeu de données brut avec lequel vous souhaitez travailler. Ce premier format d’extraction variera selon l’outil que vous choisirez : Certains outils vous permettront par exemple de travailler avec vos fichiers locaux, d’autres accepteront aussi d’importer des tables, vues, requêtes provenant de bases de données, et/ou d’applications dans le cloud. Si la tolérance des formats d’importation varie selon les solutions de data préparation, il en va de même pour leur « souplesse d’importation » : Certaines vous permettront d’importer plusieurs fichiers avec lesquels vous pourrez travailler en simultané, tandis que d’autres se limiteront à l’import d’un unique fichier.

La découverte du jeu de données est la phase exploratoire de vos données. Vous pouvez, grâce à l’interface graphique de l’outil de data preparation, obtenir une vision synthétiques de vos données, mais également le détail et le type de de chaque donnée. L’affichage ressemble -très souvent- à celui d’un tableur, avec une répartition des données en lignes et en colonnes. Il est ainsi possible de voir les colonnes de données, leur contenu, ainsi que le type des données présentes au sein de chaque colonne (Département, chaîne de caractère, date, nombre entier, etc…). Certaines solutions affichent des représentations statistiques des données contenues dans les différentes colonnes de votre jeu de données. D’autres disposent en plus de barres et/ou d’indicateurs de qualité qui témoignent de la qualité de vos données. Suite à sa découverte, vous pourrez commencer à manipuler votre jeu de données. Il sera déterminant, lors des étapes suivantes, de garder à l’esprit que le but final du travail que vous effectuez est d’exploiter votre nouveau jeu de données par des méthodes de data visualisation. Le plus vous serez rigoureux, le plus vos visualisations et vos prises de décisions seront efficaces.

Organisation C’est une étape clé du processus de data preparation. « Les colonnes de la base de données importée sont-elles disposées dans un ordre logique ? », « Les en-têtes ont-ils des titres adaptés ? »… Vous allez ici devoir réfléchir à un ensemble de questions liées à l’organisation du jeu de données. Vous effectuerez ensuite les modifications adaptées, de manière à maximiser la lisibilité et la cohérence de votre fichier. Cette étape est également importante de par le fait qu’elle vous permettra, en combinaison avec l’enrichissement (5ème étape de la data preparation) de faire passer la représentation des données d’un modèle relationnel à un modèle dimensionnel : La finalité d’un datawarehouse est désormais accessible à une personne non experte en informatique : d’où la puissance de la data preparation. De la qualité de votre structuration dépendra ensuite la faculté de l’exploitation de votre fichier. Sa bonne structuration vous permettra de gagner un temps précieux lors de la prochaine phase – celle du nettoyage. Il sera alors plus simple et rapide d’identifier les données erronées à corriger ou à supprimer.

Nettoyage Un fichier mal nettoyé peut avoir des conséquences désastreuses. En effet, si vous n’effectuez pas ce travail, il se peut que vous obteniez des valeurs aberrantes (par exemple des flux de revenus négatifs) dues à des erreurs de manipulation, et qui pollueront vos visualisations : tout le travail effectué aura alors été vain. Lors de la phase de nettoyage, vous devez vérifier si le contenu de vos cellules est en adéquation avec les en-têtes de vos colonnes. Vous devez aussi être sûr que les types de données spécifiés sont les bons dans tout votre fichier. Chaque cellule doit avoir un contenu plausible. Si ce n’est pas le cas, il faudra la corriger ou la supprimer. Vous devrez faire appel à vos connaissances métiers et votre expertise pour effectuer les meilleurs choix. C’est à l’issue de cette phase de nettoyage que vous commencerez à exploiter le plein potentiel de vos données. Les outils de data preparation vous assisteront dans votre nettoyage de données grâce à des indicateurs – par exemple avec la barre de qualité ou par l’intermédiaire de messages d’alerte dont vous devrez tenir compte. Le travail collaboratif pourra, pour les outils qui le permettent, vous être utile pour prendre des décisions de nettoyage encore meilleures. A l’issue d’un rigoureux nettoyage des données, il est certain que votre préparation ne contiendra que des données qui seront les plus utiles et précises. Les étapes de la construction de vos tableaux de bord seront ainsi radicalement accélérées : La qualité de vos tableaux de bords augmentera avec la structuration des données issues de votre data préparation.

Enrichissement Il ne s’agit pas d’une étape obligatoire car elle dépend de vos besoins métier. Il est parfaitement possible d’effectuer le travail de data preparation sur un unique jeu de donnée. Pour des projets visant à mettre à jour un unique fichier, vous n’aurez pas besoin d’enrichissement. En revanche, lorsqu’apparaîtra pour vous le besoin de travailler avec plusieurs jeux de données, contenant chacun plusieurs paramètres (spatiaux, temporels, géographiques, monétaires, etc…), lorsque vous travaillerez sur des projets d’échelle Big Data, l’étape d’enrichissement en sera l’une des plus importantes. « Serait-il plus intéressant de créer une nouvelle colonne contenant la somme de eux autres ? », « Serait-il possible et utile de combiner mon fichier avec un autre en vue de la construction de tableaux de bord ? ». Cette phase va vous permettre de modifier vos propres données ou d’ajouter d’autres jeux données à votre fichier. Vous pourrez combiner différentes sources de données (données spatiales, temporelles, financières, météorologiques, etc …) pour obtenir un nouveau jeu de données plus large et de meilleure qualité. L’intérêt ? Croiser des données issues de différents contextes augmentera la compréhension de votre écosystème et vous aidera à en anticiper les évolutions : une véritable valeur ajoutée pour vos analyses. Remarque : Pour enrichir vos données, il sera parfois nécessaire d’effectuer à nouveau un travail de data préparation sur des jeux de données que vous voudrez ajouter à celui initialement traité

Validation Nous sommes ici dans l’avant dernière étape de la préparation de vos données. Vous devez maintenant vous assurer du fait que chacune de vos colonnes contient des données adéquates, avec une structure attendue – ou logique. La phase de validation est visuelle, collaborative et intuitive. Après avoir organisé, nettoyé et enrichi votre fichier, vous allez maintenant pouvoir exploiter vos jeux de données en réalisant des tableaux de bord grâce à des outils de data visualisation (Il est donc bon de savoir quels sont les formats d’exportations proposés par la solution que vous choisirez, afin d’accommoder vos outils de préparation et de visualisations). Une fois vos tableaux de bord prêts, il vous faudra les confronter à d’autres experts dans le but d’avoir leur avis. Vous travaillerez en équipe dans l’analyse de vos visualisations, afin d’en déterminer la qualité. Si des erreurs surviennent, vous devrez
revenir sur certaines étapes de votre script pour les corriger. Une fois que vous aurez obtenu des résultats à la hauteur de vos attentes, vous pourrez clôturer la phase en validant votre travail. L’issue du processus de validation est déterminante pour vos prises de décisions : vous devrez donc travailler de manière itérative pour effectuer les meilleurs choix.

Publication La publication sera l’étape dans laquelle vous exporterez les résultats de votre préparation qui deviendront visible par un plus grand nombre de personnes grâce à vos tableaux de bord. Ces derniers auront dans bien des cas une grande valeur de par leurs dimensions stratégiques. Vous devrez donc vous demander à quelles personnes vous diffuserez cette information et comment vous le ferez. « Mon outil de data préparation me permet-il de publier facilement mes données résultantes vers les outils de data visualisation et de data analyse comme je l’entends ? », « Ai-je besoin d’un format de données web ou vais-je pousser ces données vers Tableau server ? », « Existe-t-il d’autres outils compatibles plus efficaces ? ». La réponse à ces questions dépendra des solutions que vous choisirez. Certains outils de data préparation vous offriront des fonctionnalités de publications, tandis que d’autres ne le feront pas : vous devrez dans ce cas avoir recours à d’autres moyens pour faciliter leur partage vers votre système d’information décisionnel.

Il se peut que vous vous demandiez où réside la valeur ajoutée de la data préparation. Après tout, les étapes que l’on vient d’évoquer n’ont rien d’innovantes et pourraient être réalisées à l’aide d’un tableur classique. Là où les choses changent, c’est que chacune des modifications que vous apportez à votre jeu de données est mémorisée par l’outil de data préparation sous la forme d’une recette (script), depuis l’importation du fichier jusqu’à sa publication en passant par toutes les étapes précédemment évoquées (Une suppression de ligne ou de colonne, une opération, la modification d’une cellule, le renommage d’un en-tête, l’enrichissement de son jeu de données, … toutes ces modifications seront successivement enregistrées – dans l’ordre dans lequel vous les aurez effectuées – par votre outil de data preparation). Vous aurez donc mis en données votre méthode d’optimisation et de nettoyage spécifique à votre fichier. Si ce fichier est mis à jour, vous n’aurez donc plus à réitérer les étapes de data preparation : il vous suffira d’appliquer votre script aux nouvelles versions de votre jeu de données pour automatiquement mettre à jour vos données. Vous pouvez également partager votre script et faciliter la diffusion de votre savoir-faire au sein de votre propre entreprise. En couplant cela avec une organisation projet et une gouvernance, vous aurez votre plateforme de gestion de données qui vous permettra de mieux conduire vos activités !

BENCHMARK DES SOLUTIONS DE DATA PREPARATION

Les familles d’outils de Data Préparation

La data préparation est toute nouvelle dans l’environnement du système d’information, c’est pourquoi seuls quelques acteurs se distinguent pour le moment sur ce marché. On rencontre actuellement deux familles de solutions : L’une offre une expérience plus visuelle de la manipulation des données, tandis que l’autre se veut plus proche de la technique

NOS TESTS

Nous avons choisi de tester plusieurs solutions dans le but de vous guider dans la sélection de votre dispositif de data préparation. Pour nous, l’intérêt de la data préparation repose en grande partie sur son côté visuel. Permettre à l’utilisateur de visualiser en temps réel ses data et l’ensemble des transformations qu’il leur applique contribue à simplifier et  démocratiser la manipulation des données. Les données deviennent presque tangibles. Nous percevons cet aspect comme une réelle valeur ajoutée donnant plus de sens au traitement des données. C’est pourquoi nous avons pris le parti de focaliser nos tests sur les solutions à interfaces de tableurs. Il existe de nombreuses solutions sur le marché. Chacune d’entre elles a ses propres spécificités. Cependant des similitudes existent aussi entre ces outils: c’est pourquoi nous nous avons choisi de vous donner une vision globale de ce à quoi peut ressembler la data préparation en vous présentant six outils.

1° Dataiku est une startup française spécialisée dans l’édition de solutions Big Data et d’analyse prédictive. Pour Dataïku, le traitement de la donnée optimal est celui qui transite par un unique flux. La diversité des outils (un outil de data preparation, un autre de data science, un autre encore destiné à la data visualisation, un serveur permettant d’exporter ses tableaux de bords, etc…) mis à la disposition des travailleurs de la donnée est une contrainte qui cause des erreurs, pose des problème de compatibilité, et engendre finalement des pertes de temps et d’argent. C’est pourquoi leur outil, le Data Science Studio (DSS), regroupe au sein d’une même plateforme l’ensemble des fonctionnalités nécessaires à la data science – Data preparation, machine learning, data mining, data visualisation, data workflow, collecte et analyse de données en temps réel.

DSS Il s’agit d’un logiciel propriétaire basé sur des technologies open source. Il en existe une version gratuite. DSS a été pensé pour le travail en équipe : La gouvernance, la traçabilité des données et le travail collaboratif y sont donc des propriétés natives.. La version gratuite, quant à elle, est limitée en termes de fonctionnalités d’entreprise (les fonctions de collaboration et les connecteurs Big Data y sont absents). DSS a la particularité de se situer à mi-chemin entre les outils de data preparation à interface d’ETL et ceux à interface de tableur : Dans le cadre de la data preparation, il offre à l’utilisateur une expérience d’utilisation visuelle grâce à une interface de type “tableur”. Puis la préparation effectuée par l’utilisateur se transforme en job. Ce job peut ensuite être réutilisé dans les fonctionnalités d’ETL de DSS pour générer des flux du fichier préparé. L’interface est alors une interface de type ETL

DATAIKU Nombre de lignes non limité en import
Au niveau des limitations des tailles d’import des jeux de données, la solution payante est en local sur le serveur et ne connaît donc pas de limite d’import. La version gratuite n’ayant pas de connecteurs big data et entreprise, elle se limite à du SQL mais n’a pas de limitation du nombre de lignes pour l’import. DSS accepte et identifie une grande variété de données : pas moins de 25 types de données – structurées ou non structurées – sont reconnus par cet outil. Petite particularité, sur DSS, la reconnaissance des données se fait sur deux niveaux : un niveau axé “technique et un autre plus axé “métier

Des représentations statistiques fines
Le logiciel affiche des barres de qualité ayant un code de couleur logique (le vert correspond aux données valides, le rouge aux données erronées et le gris aux données manquantes). De plus, DSS va encore plus loin dans la qualité des données en affichant également des indicateurs de qualité. Ces indicateurs sont visibles sous la forme de cellules surlignées lorsqu’elles sont erronées : l’utilisateur de DSS peut ainsi avoir un visuel direct des cellules qui posent problème dans son jeu de données.

Les représentations statistiques de DSS sont d’une grande finesse. Ces dernières affichent en effet beaucoup de données et permettent, en plus d’en afficher la répartition, et de connaître au cas par cas la proportion occupée par chaque donnée relativement à sa colonne. Il est cependant dommage que ces représentations ne soient pas directement visibles : il est nécessaire de cliquer sur un bouton pour que le logiciel les affiche. Malgré toutes ces qualités, les données, représentations statistiques, barres et indicateurs de qualités de DSS ne sont pas en interaction. Il s’agit d’un choix de Dataiku de dissocier les environnements de visualisation et de modification des datasets,. Ce point pourra néanmoins contraindre certains utilisateurs à nettoyer leurs données en plus d’étapes – diminuant ainsi la vitesse des phases de nettoyage- tandis que d’autres, plus expérimentés, trouveront rapidement leurs marques Les fonctionnalités de preview et de profiling intéractif sont également intégrées au logiciel : DSS vous permettra donc d’éviter de faire des erreurs de manipulation et vous assistera pas à pas dans vos phases de nettoyage en vous proposant des transformations contextualisées par les éléments de vos sélections. Enfin, du côté de l’UX, DSS n’accepte pas la multi-sélection de colonnes, l’utilisation de la touche [SUPPR] ou encore le clic droit : Son utilisation pourra donc au premier abord sembler rigide.

Des analyses avancées pour des recommandations ciblées
Challenge
Créer des displays d’offres personnalisées est un véritable challenge pour VP. Compte tenu de l’image de marque de l’entreprise en tant que vendeur de voyage hauts-de-gamme, il était critique de pouvoir proposer des options qui correspondent aux besoins de ses membres. En terme d’analyses de données, cela signifiait
élargir le champ des signaux recueillis et analysés. VP avait besoin d’une solution qui pouvait recueillir et donner du sens à de gros volumes de données, développer une segmentation efficace des clients et implémenter une nouvelle approche, non-basée sur des règles, pour analyser les données entrantes et les données
historiques. D’un point de vue marketing, le but final était d’augmenter la
satisfaction client en lui offrant des sélections personnalisées tout en augmentant, dans le même temps, la valeur totale de la transaction par client. Renforcer la valeur transactionnelle et améliorer la satisfaction client

Solution Le machine learning pour diriger l’intérêt des clients vers des offres spécifiques VP a fait un premier pas vers la compréhension de ses clients en implémentant Dataiku Data Science Studio (DSS). D’abord, un mécanisme de collecte de données sur le comportement des clients en ligne, tels que leur parcour et les mises en favoris, a été établit. A partir des données collectées, il a ensuite fallu créer un score dérivé du machine-learning pour chaque client – principalement, une valeur qui reflétait la probabilité des membres à acheter une offre de voyage spécifique. Le fait d’utiliser DSS a permis aux équipes de la compagnie de travailler collaborativement sur des types de données spécifiques avant de les fusionner. Son interface en
glisser-déposer a simplifié le diagnostic des données tout en facilitant les itérations. Finalement, DSS a aidé les équipes IT de VP à développer une approche de
machine learning pour adresser ses données clients. Le couplage des données de comportement en ligne et des sélections d’offre sur-mesure ont permis à VP de proposer automatiquement des opportunités d’achat avec la probabilité la plus haute d’acceptation de la part du client.

Résultats Une hausse significative du revenu par membre Armé de DSS et d’une méthodologie d’analyse grace au machine learning, VP peut désormais optimiiser ses campagnes marketing et commerciales sur la base d’une segmentation précise de ses clients. La procédure complète a résulté en plusieurs avantages compétitifs tels que : – une augmentation de 6% de la valeur de la transaction totale par membre unique, – l’internalisation complète des équipes dédiées à la data au sein de l’entreprise.

2° DATAWATCH

Datawatch est une entreprise américaine spécialisée dans l’informatique
décisionnelle, l’analytique et la data visualisation. Sa solution de data preparation se nomme le
« Monarch » et se décline en deux outils : Le Monarch classique et Data Prep Studio. Nous nous intéresserons ici à la seconde solution qui s’apparente plus à la data préparation telle que décrite dans ce livre blanc. En effet, le Monarch classique présente la particularité d’être capable de travailler sur des données non structurées sur des fichiers PDF ou des fichiers textes. Il est doté d’une grande intelligence qui permet à son utilisateur d’extraire des données de manière très précise. Cependant, il nécessite une prise en main plus longue et n’est pas aussi abordable que le Datawatch Monarch.

Data Prep Studio(DPS) est disponible en deux versions : Une gratuite et une payante. La première limite l’importation des fichiers à cent mille lignes ainsi que le nombre de bases de données compatibles avec le logiciel, tandis que ces deux paramètres sont illimités avec la seconde version. Le DPS n’accepte – et ne reconnait donc – que trois types de données : Les valeurs numériques, les dates et les données textuelles. L’outil ne dispose pas de barres de qualité. Il nécessitera alors de l’utilisateur qu’il soit très attentif aux résultats de ses transformations et à l’allure de ses données. Les fonctionnalités permettant d’explorer, structurer et nettoyer son dataset ne sont pas directement accessibles (pour s’en servir, il faut passer par un menu après avoir cliqué sur l’entête d’une colonne). De plus, les représentations statistiques sont spécifiques à une colonne (une
représentation par colonne visible à la fois). Cependant, il est possible de voir les représentations statistiques de l’ensemble des colonnes de votre jeu de données depuis un menu du nom de « Preview data », accessible depuis le répertoire de
travail de votre jeu de données. Celles-ci sont d’ailleurs plus fines depuis ce menu. Il est dommage que les représentations ne soient pas interactives avec les données, car les phases d’exploration, de nettoyage et d’organisation perdent confort et en fluidité

Une prise en main qui peut paraître complexe
Le Data Prep Studio peut à première vue sembler assez complexe à approcher : Son utilisateur est moins assisté lors de ses préparations et l’outil nécessitera un temps d’adaptation sensiblement plus long que celui d’autres solutions. Cependant, il n’en reste pas moins un logiciel très puissant en termes de structuration et de nettoyage des données. Data Prep Studio est un logiciel rapide (pas ou très peu de temps de chargement lors de son utilisation). Il permet de créer des champs calculés en s’appuyant sur des formules de type excel ou sur des expressions régulières. Il permet également de réaliser des pivots

Preview pas comme les autres
Sa fonctionnalité de preview le distingue des autres outils présentés dans ce livre. En effet, le preview de DPS ne s’affiche pas directement sur le jeu de données, mais dans le menu qui permet à l’utilisateur d’effectuer sa transformation. La potentielle transformation du jeu de données s’applique alors lorsqu’on valide la transformation. En plus du script de data préparation, DPS permet de générer un script des transformations appliquées sur une colonne déterminée. Ce dernier peut être sauvegardé et réutilisé par la suite sur d’autres colonnes du jeu de
données initial ou d’autres jeux de données : L’utilisateur gagnera ainsi beaucoup de temps sur les transformations qu’il effectue fréquemment sur ses différents jeux de données

Et un atout d’envergure !
Cette solution dispose d’un autre atout d’envergure : elle permet de charger plusieurs jeux de données simultanément. Chacun d’eux est ensuite placé dans un onglet différent. Il est alors possible d’effectuer des data preparations en parallèle, chacune ayant son propre script. On peut également sélectionner plusieurs lignes et colonnes pour créer de nouvelles tables qui apparaîtront dans d’autres onglets de la fenêtre. Chacune de ces nouvelles tables est duplicable depuis les onglets par un simple clic droit. L’avantage est double. D’une part, vous pouvez effectuer de nombreuses data preparation sur des échantillons tests. D’autre part, l’enrichissement de vos jeux de données gagne en efficacité, étant donné que l’ensemble des tables dont vous avez besoin est directement accessible depuis la même fenêtre. Datawatch vous permet de combiner vos jeux de données à partir d’un simple glisser-déposer.

Enrichissement poussé et Fuzzy Matching
L’outil permet d’ailleurs un enrichissement poussé des jeux de données. En effet, lorsque vous décidez de réaliser des jointures, DPS vous propose des « perfection matching » (un pourcentage de compatibilité) entre les clés des différentes sources de données et celles votre jeu de données initial. DPS va encore plus loin dans cette phase de la data preparation grâce à une fonctionnalité appelée Fuzzy Matching. Cette dernière permet à l’utilisateur de faire appel à un algorithme pour réaliser des jointures qui seraient impossibles en temps normal. Le Fuzzy Matching sera utile dans les cas les champs de deux jeux de données présentent un taux de compatibilité insuffisant. Dans ce cas, DPS a des difficultés – voire ne peut pas- réaliser de jointures. L’utilisateur peut alors utiliser son algorithme pour augmenter le pourcentage de compatibilité de ses clés. Le Fuzzy Matching peut même être réalisé sur des lignes d’enregistrements particulières d’une colonne donnée

Smart Append
Autre avantage de l’outil de Datawatch : La fonctionnalité « Smart append ». Celle-ci permet à l’utilisateur de concaténer des datasets. Cette fonctionnalité sera par exemple utile lorsque des colonnes contiennent différents types de données. Il faut dans ce cas utiliser différents modèles afin de n’extraire que données que l’on souhaite apporter au dataset initial. Ainsi, même si les données ne sont pas les mêmes (aucune clé), il est possible d’enrichir son jeu de données avec d’autres datasets à la condition que l’on sache que les données en questions correspondent à des enregistrements communs. Le Fuzzy matching et le Smart append nécessitent cependant que l’utilisateur soit expert de sa donnée et de son contenu s’il ne veut pas gravement altérer sa préparation.

Automatisation et exportation
Enfin, une fois la data préparation terminée, il est possible d’exporter les résultats et d’automatiser le processus de data preparation : si la source de donnée change régulièrement, comme par exemple, l’url d’une page internet, on peut demander au logiciel de faire tourner son script de manière périodique (tous les jours, toutes les semaines, tous les mois, etc…). Ces résultats sont exportables sous de nombreux formats. On ne peut en revanche pas vers pousser vers des bases de données. Il s’agit d’un choix de l’éditeur qui préfère que celles-ci transitent par l’IT qui pourra en assurer la gouvernance. Les résultats pourront être poussés dans des bases de données uniquement s’ils sont ingérés par un autre outil de l’entreprise : le Monarch Server. Le Monarch est un outil de type ETL qui permet de collecter et d’automatiser toutes les données, sorties issues du Monarch et tous les process du système d’information de l’entreprise Une fois les données traitées par le Monarch server, elles sont visibles sur un dernier outil : le Panopticon (ex « Datawatch designer »). Cette solution de visualisation se distingue de Tableau (qui est d’ailleurs un partenaire de l’entreprise) dans la mesure où elle se focalise sur des visualisations de séries temporelles ou historiques, tout en conservant une traçabilité des données une gouvernance sur deux niveaux grâce aux couches du Monarch et du Monarch server.

Monarch, l’outil de Self-Service Data Preparation
Monarch est la solution dédiée et spécialisée dans l’acquisition de données (Data Acquisition), la vérification de la qualité des données (Data Quality), la préparation de données (Data Preparation) et l’enrichissement des données (Data Blending, Data Wrangling) en mode Self-Service. Monarch délivre des exports de données propres, transformées et préparées, prêtes à l’emploi sous format csv, xls, Tableau, Qlick, IBM Watson Analytics, IBM Cognos, Angoss et vous permet aussi de stocker ces données en base de données relationnelle via Datawatch Automator. Monarch vous permet d’acquérir les données à partir de sources multi structurées : sources relationnelles, fichiers Excel csv ou Access et semi-structurées (Json, OData, Xml, texte et PDF). En particulier, un des points forts de Monarch est sa capacité à capter des données PDF et texte très facilement. Son interface très intuitive et son extraordinaire facilité d’utilisation forment son deuxième point fort.

Qui sont les utilisateurs de Monarch ?
Monarch est destiné à la fois aux utilisateurs Métiers et à l’IT. En effet, l’interface simplifiée de Monarch Data Prep Studio permet aux utilisateurs Métiers d’acquérir leurs données à partir de sources multi structurées. Une fois acquises, les utilisateurs Métiers préparent et transforment les données à leur convenance. Puis les transformations réalisées sont conservées dans un fichier qui constitue le modèle des changements exécutés sur les sources de données d’origine. Ce fichier modèle est ensuite utilisé pour automatiser ces changements, via Datawatch Automator, sur des gros volumes de fichiers et les fichiers futurs à venir. Ainsi Monarch, associé à son serveur d’automatisation, est à la fois destiné à des traitements massifs de données et à des traitements ponctuels de type métier.

Quels sont les problèmes résolus par Monarch ?
En 2015, Gartner annoncent que seuls 12% des données en entreprise sont facilement
accessibles. Le reste des données de l’entreprise est souvent inexploité car difficile d’accès voire inexploitable. On les appelle les Dark Data : les données sont présentes mais inexploitées. Monarch vous aide à accéder à ces données par la préparation, et vous permet aussi
d’ordonner vos données provenant de sources non-structurées et semi-structurées (PDF, Texte, html, Odata, log). Les acquisitions de données, la préparation et les transformations de données sont auditables : Chaque changement est conservé dans le fichier modèle, lisible et modifiable par une personne, accessible et exécutable par la machine à tout moment et sans difficulté. Un utilisateur se sert de son travail avec Monarch comme moyen de communication. En effet les modèles sont partageables, visibles et modifiables par tous, comme tout fichier éditable. Les utilisateurs de Monarch apportent la qualité nécessaire à leurs données, gagnent en autonomie par rapport aux traitements sur les données, apportent de la valeur ajoutée à leur métier et à leur entreprise tout en respectant la gouvernance des données par l’IT

3° Microsoft
Microsoft est une société que l’on ne présente plus. Ses solutions logicielles sont massivement utilisées dans le monde entier. Avec l’émergence de la data préparation se développent de nombreuses solutions ayant une interface de tableur. Une personne se retrouvant pour la première fois face à un outil de data preparation devrait probablement penser quelque chose comme “mais c’est de l’Excel” . De ce fait, il nous semblait intéressant de parler du tableur de Microsoft. Microsoft a en réalité déployé trois pôles de préparation de données : Micosoft Excel, Power BI et Azure Machine Learning.

Excel et Power BI sont des outils de data preparation avec interface de tableur. Ils seront adaptés aux départements marketing ayant besoin d’accéder rapidement à des données préparées pour réaliser des tableaux de bord. Power BI est un logiciel disponible dans une version Desktop gratuite et une version payante. Il s’agit d’un outil utilisable sans Excel qui a été pensé pour réaliser de la BI. Il présente l’avantage de permettre à différents utilisateurs de travailler en groupes de travail pour collaborer sur les mêmes jeux de données. Le fruit de ce travail collaboratif est partageable sur le web sous la forme de rapports contenant des tableaux de bord (N.B : Ces derniers sont disponibles en lecture seule pour sécuriser leur contenu, mais il est possible de les enregistrer pour
ensuite les modifier soi-même). Excel et Power BI permettent chacune de faire de la data preparation en utilisant successivement deux modules : – Power Query permet de restructurer des jeux de données. Il mémorise les actions effectuées par l’utilisateur sous la forme d’un script qui peut être transformé en requête SQL : l’équivalent d’un script de data preparation. Même si son objectif initial était de permettre à un utilisateur de récupérer ses données pour les transformer puis automatiser leur rafraîchissement lorsque ceux-ci sont mis à jour, Power Query n’a pas été de prime abord pensé pour réaliser de la data préparation de manière aussi visuelle que les autres outils que nous vous présentons dans ce document. C’est pour cette raison que son interface semble moins abordable et moins conviviale. – Power Pivot succède à Power Query dans son utilisation. Il présente votre jeu de données avec une orientation en colonnes dans le but de faire de la BI. Cette fonctionnalité permet d’effectuer des calculs sur les colonnes de votre jeu de données. Le travail (par exemple, l’utilisation de formules pour combiner des données) n’y est possible qu’au niveau des colonnes : ainsi, il n’est pas possible de modifier le contenu d’une cellule bien spécifique.
Pour aller plus loin dans le processus de la BI, Microsoft a également développé Power View, une fonctionnalité qui permet de représenter vos jeux de données par data visualisation. L’ensemble des données représentées par Power View est interactif. La différence fondamentale entre Excel et Power BI -au niveau de la data preparation- réside dans le fait que la fonctionnalité Power View devient de plus en plus discrète sur Excel et est amenée à disparaître du logiciel pour devenir spécifique à Power BI

La Data preparation avec Excel
Excel est très populaire dans les entreprises. C’est un des logiciels les plus utilisés sur le marché de la BI. La “data préparation” en tant que “méthode permettant de préparer des jeux de données pour en réaliser des tableaux de bords”n’est en réalité pas récente. Nous utilisons les tableurs depuis plus de vingt cinq ans mais leur utilisation pose
problème sur le long terme: perte de la fiabilité des données dues à l’abus des copier/ coller, risques d’erreurs dus aux saisies manuelles, erreurs humaines, absence de gouvernance et de traçabilité des données, … autant de paramètres qui font la force de la data préparation.

La phase exploratoire mise au second plan
La data preparation est possible sous Excel grâce à sa fonctionnalité d’ »éditeur de requête ». Pour y accéder, il faut ouvrir microsoft Excel avant de sélectionner « Nouvelle Requête » dans l’onglet « Données”. Cette fonctionnalité permet, tout comme les autres outils de data preparation avec interface de tableur, de mémoriser dans un script les actions effectuées par l’utilisateur. Dans ce mode, Excel sécurise le jeu de données en restreignant les actions réalisables par l’usager (il n’est par exemple pas possible de modifier une cellule avec un simple double clic ou d’effectuer une suppression en appuyant sur la touche [SUPPR]).
En revanche, contrairement à beaucoup de ses solutions concurrentes, Excel n’axe pas son utilisation sur l’expérience visuelle de l’utilisateur : Barres et indicateurs de qualité, représentations statistiques, preview et profiling utilisateur. Cette “Mise de côté” de la phase exploratoire induit une absence d’intéractions entre les données de l’utilisateur : la phase de nettoyage perd donc également en rapidité et en qualité. Cette extension d’Excel permet néanmoins d’effectuer des data preparation en parallèle : les enrichissements des jeux de données s’effectuent donc assez simplement.

La place de Microsoft dans la nouvelle BI 
Excel est tant utilisé que toutes les solutions de data preparation que nous avons vues ou testées sont compatibles avec les formats de ce logiciel. Il existe sur le marché une très forte demande pour optimiser la qualité et la fiabilité des données issues d’Excel. Les fournisseurs d’outils de data preparation s’en sont rendu compte et ont su trouver la bonne offre. Et quelle offre lorsqu’on sait que certains outils de data preparation sont capables d’augmenter de 10 000% le volume de données traitables par une banque en seulement quelques mois ou de permettre 12 millions de dollars -américains- d’économie à une entreprise en l’espace d’une seule semaine. Des milliards de dollars sont aujourd’hui en jeu. L’influence de Microsoft sur le marché de la BI est bien trop forte pour que Microsoft n’ait pas elle aussi d’intérêt à se lancer dans la nouvelle BI. Et si Microsoft faisait évoluer son logiciel pour mettre en place des indicateurs permettant à ses utilisateurs de visualiser leurs données, leur qualité et leur véracité, tout en les protégeant par un système de gouvernance ? L’éditeur pourrait ainsi canaliser une grande partie des parts de marché qui lui échappent actuellement pour devenir un acteur de référence dans l’écosystème de la data preparation. Pour cette raison, nous avons décidé de voir en Excel (non vous ne rêvez pas : nous avons bien dit EXCEL !) une potentielle et sérieuse solution de data preparation.

L’offre complète du leader du marché
L’offre Microsoft est composée de la base de données relationnelle dans le cloud ou à demeure avec une déclinaison en multinœuds dans les deux cas Toujours dans le domaine de la data, elle comporte également toutes les briques techniques utiles pour implémenter dans l’entreprise des scénarios correspondant à ce que l’assistant Cortana permet de faire au niveau grand public
C’est probablement la richesse de cette offre et le succès auprès des clients qui fait que Microsoft est positionnée comme un leader ou un visionnaire dans quatre Magic Quadrants du Gartner.

4°Informatica
Informatica est une société américaine spécialiste de l’intégration de données depuis plus de 20 ans. Informatica a su percevoir le potentiel de la data preparation pour le développement de la BI. Elle a en effet très récemment sorti son propre outil de data preparation : « Informatica REV ». Parmi les nombreux services proposées par Informatica, Informatica REV (I REV) s’implante dans la partie “Data Quality” dans le but de rapprocher les experts métiers et l’IT par une approche collaborative du traitement des data, régie par une gouvernance des données.
Il est nécessaire de se loguer sur le site internet d’Informatica pour pouvoir utiliser l’IREV. Vous pourrez ensuite accéder à leur solution en SAAS (Software As Services) qui fonctionne en ligne. Informatica REV travaille dans le cloud et aucune installation ne sera donc nécessaire sur votre poste de travail. L’avantage de ce choix est que vous n’aurez pas à vous soucier de la compatibilité entre l’IREV et votre système d’exploitation

Des pertes au niveau de la découverte
Lorsque vous ouvrez votre jeu de données, le logiciel vous donne un aperçu général des différents types de données contenus dans votre dataset  L’interface est découpée en deux grandes parties : une partie haute et une partie basse. La partie haute permet de voir l’ensemble des cellules du jeu de données, tandis que la partie basse prend la forme d’un panneau donnant des renseignements sur les données et suggérant des fonctions (ce que l’on appelle le profiling utilisateur ). Comme vous pouvez le voir, elle ne présente pas directement de barres de qualité. En réalité, ces dernières sont masquées et confondues avec les représentations statistiques qui, en plus d’indiquer les données et leur répartition, indique également leur qualité. Ces représentations ne sont en revanche visibles pour une colonne qu’en cliquant sur l’une de ses cellules :On n’a donc pas un aperçu général de l’allure de nos données mais un aperçu local. Cet aspect diminue la force de la dimension de découverte de la data préparation

Représentations statistiques contextualisées
I REV se démarque d’autres solutions de data preparation par un affichage des
représentations statistiques contextualisé par le type de données représentées. Par exemple, comme l’illustre l’image ci-contre, une source de données
géographiques sera représentée par une carte, avec un code de couleur adapté à la proportion de chaque donnée, plutôt que par un histogramme
L’outil d’Informatica dispose malgré tout d’indicateurs de qualité signalant la présence de cellules erronées. Mais l’utilisation d’I REV demeure tout de même moins visuelle que celle d’autres solutions de data préparation : il est bien moins rapide de se rendre compte de la qualité de votre jeu de données . En effet, si vous désirez obtenir des jeux de données propres, vous devrez vérifier manuellement -clics après clics- que chaque colonne a bien été préparée. Cependant, les indicateurs de qualité sont interactifs avec les représentations statistiques et les données. Le type de données contenu dans les colonnes n’est pas directement visible. Il est indiqué au niveau du panneau de l’I REV mais il est tout de même reconnu.

Une meilleure User Experience
Enfin, I REV dispose d’une fonctionnalité preview pour certaines modifications. Cette dernière est renforcée par un profiling utilisateur qui vous assistera dans les transformations que vous souhaiterez apporter à votre dataset. Autre grande force : Informatica REV intègre également la fonctionnalité de data préparation en parallèle en permettant d’importer d’autres jeux de données pour faire des préparations en simultané sur plusieurs tables avant d’effectuer des jointures. Concernant l’UX, la suppression de lignes et de colonnes est très simple si l’on ne souhaite pas passer par des fonctions: un simple « [clic gauche]/[supprimer] » sur les en-têtes des lignes/colonnes, avec en plus la possibilité de sélectionner manuellement plusieurs lignes/colonnes avec des « [CTRL + clic] » et « [SHIFT + clic] ». Cette utilisation intuitive du logiciel font d’I REV la solution la plus UX que nous ayons testé

5° Talend
Talend est une entreprise française éditrice de logiciels qui s’est spécialisé dans la gestion et l’intégration des données. Elle a récemment développé sa solution de data
préparation : « Talend Data Préparations ». Nos tests se sont concentrés sur la version desktop qui est actuellement la seule disponible sur le marché, une version entreprise étant prévue pour le deuxième trimestre 2016. Cette version desktop est open source .
Si ce logiciel en est encore à ses débuts, il a été conçu de manière à parfaitement s’intégrer dans l’écosystème de Talend qui a déjà un background consistant dans l’édition de logiciels : plus particulièrement, dans notre cas, dans l’ETL . De ce fait, même si Talend Data Préparation (TDP) devrait – en tant que solution de data préparation – garder une orientation métier, la dimension IT sera probablement très présente lors de son utilisation. La version entreprise du logiciel pourra notamment être connectée à des sorties de données issues des jobs de Talend Data Intégration (l’ETL de Talend). Réciproquement, les scripts de data préparation pourront être convertis en composants de recettes utilisables dans les jobs de l’ETL

Des petits plus qui améliorent l’expérience
Pour cette version, le travail s’effectue en local, sur votre propre machine : Il vous sera donc possible de travailler en mode hors connexion. Le logiciel consomme environ 2Go de RAM, c’est pourquoi nous vous recommanderons de travailler sur une machine ayant une bonne quantité de mémoire vive pour plus de confort pendant l’utilisation de la solution desktop. Talend Data Préparation ne comprend pour le moment pas de gouvernance des données ou de travail collaboratif, contrairement à la version entreprise à venir.
L’outil de Talend reconnaît une importante quantité de données . Ce critère est un plus dans la mesure ou les barres de qualité sont précises, avec un code de couleur intuitif et logique (Le vert correspond à des cellules de bonne qualité, le blanc à des cellules vides, et l’orange à des cellules défaillantes). En plus d’afficher des barres de qualité au niveau des entêtes, Talend Data Préparation place des indicateurs de qualité oranges au niveau des cellules qui présentent des dysfonctionnements : ce petit plus permet d’identifier encore plus rapidement les imperfections de votre jeu de données. Combiné aux barres de qualité, il place TDP en tête des outils de data préparations – que nous avons testés – au niveau de l’identification de la qualité des données aux échelles macroscopiques et microscopiques.

Représentations statistiques contextualisées
En cliquant sur une colonne, on peut en obtenir la représentation statistique , ainsi que des fonctions proposées par le logiciel, contextualisées par le type de données contenues dans la colonne sélectionnée. Il n’est cependant possible d’observer qu’une seule représentation à la fois (une représentation pour la colonne sélectionnée) : Cet aspect de TDP atténue l’expérience visuelle de la data preparation et pourra contrarier les utilisateurs qui aiment avoir en un seul regard un accès à l’allure de l’ensemble de leur jeu de données. Malgré ce désavantage, les barres de qualité et les diagrammes sont interactifs avec les données, ce qui rend l’exploration et le nettoyage simples et agréables.

Le nettoyage massif des données est possible grâce à l’usage de filtres : Soit en utilisant les options de filtrage de TDP, soit sélectionnant des intervalles d’échantillonnage au niveau des représentations statistiques, soit encore en cliquant sur les compartiments des barres de qualité puis en utilisant une des fonctions proposées par le logiciel

User Expérience intuitive
Les développeurs de cet outil se sont appuyés sur des ergonomes afin qu’il soit le plus accessible possible. Ce travail se ressent dans la mesure où, malgré un profiling utilisateur pouvant gagner en puissance, les phases de nettoyage sont rapides grâce une combinaison de fonctions bien agencées et de filtrages de données efficaces. TDP nécessitera peut-être alors un apprentissage plus poussé de ses fonctionnalités de la part de ses utilisateurs. Cet outil possède une fonction preview qui permettra d’optimiser les actions du data préparateur.
Au niveau de l’UX, on notera que la suppression des lignes et des colonnes est très intuitive pour un utilisateur non familier avec la data preparation : Un simple [CLIC DROIT / SUPPR] au niveau des en-têtes suffit. En revanche, il n’est pas possible de sélectionner plusieurs colonnes simultanément, ni par clics maintenus, ni par [CTRL + CLICS], ni encore par [SHIFT + CLICS], fonctionnalités qui sont présentes sur certaines autres solutions

Du do-it-yourself au libre-service organisé et maitrisé
Dans un monde où tout est « mis-en-données », comme le notent fort
justement les auteurs de ce document dans leur introduction, l’information est l’affaire de tous. Elle accélère l’émergence de nouveaux rôles, comme les data scientists, les business analysts ou les data stewards qui permettent de tirer plus de valeur de l’information, ou de mieux organiser ses usages.
Elle transforme aussi les activités opérationnelles de tout un
chacun. Prenons l’exemple du marketing : il n’a pas si longtemps, c’était un
parent pauvre du système d’information de l’entreprise. Désormais,
chaque click est analysé, chaque lead est scoré, chaque deal est
« attribué » à l’action initiale qui l’a déclenché. Pas étonnant que, chez Talend, le
service marketing soit le plus fervent utilisateur de Talend Data Preparation.
Puisque tout le monde a besoin d’information, et qu’il est
particulièrement pénible, peu efficace et répétitif de l’exploiter pour ses activités
quotidiennes, il est tentant d’en faire un simple enjeu de productivité personnelle.

C’est ainsi que l’on voit apparaitre sur le marché une multitude d’outils visant un profil d’utilisateur particulier : le data scientist autour des environnements Big Data et Hadoop, le business analyst autour des outils de business intelligence et de data discovery, etc.
Mais l’enjeu derrière cette nouvelle discipline qu’est la préparation des données en self-service va bien au-delà. Il s’agit d’organiser le partage de l’information, une activité qui jusque-là n’est accessible qu’à un petit cercle de spécialistes. Le principal enjeu des outils de data préparation en libre-service n’est pas tant de rendre ce petit cercle plus efficace que de permettre d’élargir le cercle des « information workers » jusqu’à rendre ce terme obsolète.
Le petit cercle de spécialistes a tout à y gagner lui aussi, mais le gain qu’il peut en tirer va bien au-delà de la productivité personnelle : il devient un agent du changement, en permettant de partager de nouvelles sources de données pertinentes ou des règles de gestion pour transformer des données brutes en informations exploitables.
Exploiter l’information, c’est un « sport » d’équipe. Non seulement les outils de data préparation doivent transformer ce « sport » d’élite en une activité
quotidienne pour tous, mais ils doivent aussi en accompagner l’encadrement, notamment au travers de fonctions liées au contrôle, à la gouvernance et à la gestion collaborative.

6° Trifacta
Trifacta, entreprise pionnière de la data preparation, est née de la synergie de doctorants issus de deux grandes universités californiennes : Berkeley et Stanford. Trifacta a pour but de démocratiser et accélérer l’accès aux données pour les utilisateurs métiers. De ce fait, l’entreprise oriente majoritairement sa stratégie de développement vers les métiers plutôt que vers l’IT. Pour remplir son objectif et permettre au plus grand nombre de participer au traitement des données, l’entreprise a donc choisi de créer un logiciel reposant sur une expérience d’utilisation intuitive, visuelle et expérimentale : C’est ainsi qu’ont été développées les solutions « Trifacta Wrangler » et « Trifacta Wrangler Enterprise »

Trifacta Wrangler (TW) est une solution de data preparation gratuite. Il s’agit d’une application hybride cloud/desktop : Les calculs du logiciel sont effectués par la machine de l’utilisateur et une connexion internet est nécessaire pour faire sa data preparation. En revanche les données ne transitent jamais sur les serveurs de Trifacta. Cette version limite également la taille des sources de données importées à 100 MB. Trifacta Wrangler Enterprise (TWE), quant à lui permet : La gestion de la gouvernance des données, le travail collaboratif en mettant les personnes métier en relation de manière à assurer la diffusion des connaissances mais également, la manipulation de grands volumes de données (illimités)… en plus des fonctions de data preparation et avec des temps de calculs réduits – une performance supplémentaire en termes de vitesse comparé à la version desktop. Les calculs y sont, quant à eux, effectués sur des serveurs Hadoop grâce au moteur de Trifacta.

Des qualités intéressantes en phase de découverte
En ce qui concerne leurs points communs, TW et TWE offrent la possibilité de travailler sur un échantillon de données afin que votre job applique par la suite vos transformations à l’ensemble de votre dataset au moment de l’exécution. Vous gagnerez ainsi en temps de “préparation”. Ces deux outils offrent de plus des représentations statistiques extrêmement fines. Celles-ci s’adaptent aux variation des données présentes dans vos colonnes : plus il y a de fluctuations dans ces données, plus la granularité des histogrammes est fine. TW et TWE acceptent et reconnaissent une grande variété de données (16 types de données sont actuellement reconnus, et il est aussi possible de définir ses propres types de données. De plus, un utilisateur peut créer ses propres types – sous la forme de listes de valeurs ou de patterns – que Trifacta inférera par la suite automatiquement en fonction du contenu de la colonne). Au niveau des barres de qualité, le bleu, le rouge et le gris témoignent respectivement de la présence de données valides, erronées, ou manquantes. Barres de qualités et représentations statistiques sont en interaction avec les données, une caractéristique particulièrement intéressante pour explorer et nettoyer votre jeu de données. De plus, l’utilisateur peut obtenir plus de détails sur les représentations statistiques grâce à un menu situé au niveau des en-têtes : Un tableau de bord spécifique l’informera alors de toutes les spécificités des données contenues dans une colonne observée (outliers, valeurs particulières, déviation standard, etc…)

Profiling utilisateur avancé
Les solutions de Trifacta sont pour le moment celles qui sont les plus avancées du marché en termes de profiling utilisateur . Elles apportent en effet une confortable assistance en suggérant des fonctions pertinentes lors de la sélection de données ; ceci contribue à rendre ces outils simples d’accès. Ce profiling utilisateur est alimenté par des algorithmes de machine learning : les Wranglers de Trifacta apprennent constamment de vos erreurs et de vos réalisations pour vous soumettre les meilleures suggestions de transformations.

Les deux outils supportent la data préparation en parallèle : Pour la version desktop, il faudra lancer l’application autant de fois que l’utilisateur a besoin de jeux de données. La data preparation en parallèle est quant à elle plus simple sur la version enterprise : il suffit d’ouvrir un nouvel onglet dans le browser. Les deux outils disposent d’une fonction Preview qui réduit le risque d’erreurs de manipulations et apprend à l’utilisateur à comprendre la logique du logiciel et les transformations qu’il peut utiliser pour chaque type de donnée dans chaque type de colonne.

Simplification et user expérience
Trifacta est allée jusqu’au bout de la simplification de la transformation des données en améliorant l’expérience utilisateur. Il est par exemple possible de sélectionner plusieurs colonnes en combinant les clics avec les touches [CTRL] ou [SHIFT]. L’UX gagne également en importance grâce à la simplicité qu’a Trifacta pour réaliser des fonctions généralement reconnues comme très complexes à mettre en oeuvre, comme les pivots lignes-colonnes et colonnes-lignes, les aggregats à plat, les jointures, les unions ou encore les sessionalisations.

Simplifier la manipulation des données pour se focaliser sur l’amélioration des résultats
Les utilisateurs de Trifacta sont essentiellement des personnes dans des directions métier qui doivent manipuler par nécessité des données diverses afin d’atteindre leurs objectifs (des données internes et très souvent des données externes dont ils n’ont pas la maitrise). Ces personnes, souvent portant un titre d’analyste (logistique, planning, actuaire, chercheur, financier, auditeur, etc.), souffrent d’une overdose d’Excel pour manipuler leur données. Préparer les données leur prend trop de temps, temps qu’il serait préférable de passer à analyser et à accomplir des tâches plus capitales pour les opérations de l’entreprise. De plus, cette dépendance à Excel ou d’autres procédures manuelles, les maintient sous une pression liée aux risques d’erreurs qui en découlent.

Ce qui rend Trifacta immédiatement attractif aux utilisateurs métiers est la simplicité et l’efficacité de son interface graphique, et sa capacité à accomplir des tâches précédemment compliquées de manière extrêmement aisée et certaine.

Trifacta amène simplicité, vitesse, clarté et confiance dans le travail de la manipulation de données et permet aux utilisateurs de se libérer du stress lié aux risques d’erreurs et leurs implications.

Il est fréquent d’avoir des gains de productivité de plus de 70% à 90% pour présenter un résultat. Mais surtout de découvrir des défauts jusqu’alors insoupçonnés dans les données et les procédures de traitements. Découvertes qui permettrons d’amener une meilleure efficacité d’analyse et ouvriront à des gains financiers importants ou des sources d’économies non négligeables. Des chiffres que nos clients mesurent en millions de dollars.

Trifacta va guider les utilisateurs de bout en bout pour atteindre leurs objectifs en confiance en transformant un travail fastidieux en un travail finalement efficace.

Quelque soit le type de données, Trifacta va automatiquement inférer le format, présenter la donnée sous une forme de grille familière, pointer les erreurs possibles, identifier les cas particuliers, suggérer les transformations pour transformer et améliorer la qualité des données, fournir un retour visuel immédiat des manipulations pour validation, automatiser l’ensemble des tâches de manipulation pour un résultat reproductible, consistant et de qualité.

Mais ces améliorations ne s’arrêtent pas là ! Avec le temps, Trifacta apprend de l’utilisateur, de l’ensemble de la communauté afin de lui faciliter la vie. Tel Google qui apprend des recherches précédentes de l’ensemble des utilisateurs pour auto-compléter une saisie de recherche ou mieux prioriser les résultats ; Trifacta améliore au fur et à mesure de sont utilisation les suggestions de transformations ou les applique automatiquement pour accélérer le processus.

Vous pouvez vous aussi, dès aujourd’hui bénéficier de cette merveilleuse expérience et vous libérer d’un travail épuisant en téléchargeant Trifacta en version gratuite