La préparation de données est aujourd'hui encore la tâche qui consomme le plus de temps pour les data analystes / data scientists.
La préparation de données, socle indispensable à l'étude de la donnée client.
Si cette tâche fastidieuse est peu appréciée des équipes, elle se révèle être la plus créatrice de valeur encore aujourd'hui. Il s'agit, quelque part, de créer les fondations du bâtiment. Cela permettra ensuite de faire du design et du fonctionnel, solidement et de manière durable.
Selon une enquête réalisée, récemment, par Anaconda (1), les data scientists consacrent encore près de la moitié de leur temps au nettoyage et à la préparation des données.
Comment se répartit ce temps de préparation ?
- 19% du temps serait accordé uniquement au chargement des données.
- 26% du temps à la préparation et à la mise au bon format des données
L'émergence d'outils
L'émergence des outils de préparation de données continue d'accélérer.
La préparation de données pourrait même devenir une catégorie d'outils à part entière dans le Chief Martech Landscape, à l'avenir.
Parmi les solutions existantes, on s'aperçoit qu'à l'heure actuelle, il existe de la préparation de données au sein des outils de Dataviz / BI, des outils data science ou encore même des outils de type CDP (de manière plus "light" et moins industrialisée).
Enfin, quelques outils se sont spécialisés / positionnées uniquement dans la préparation de données.
Exemples de solutions :
- Dataviz / BI : Serenytics, Alteryx, etc.
- Data science : Dataiku, Datategy.
- CDP : Scal-e, Marketing 1 by 1, Insycle, etc.
- Prép. de données : Talend, Trifacta, OpenRefine (solution open-source et gratuite de Google)
Pour terminer, si la préparation de données est un sujet technologique, dont un sujet "outil", c'est aussi avant tout un sujet de compétences humaines (le retour d'expérience est très important et permet de gagner du temps et de jauger rapidement la qualité de données) et de méthodologie (l'audit de données est la première étape pour évaluer la qualité de données avant de réaliser les traitements. Et enfin, accepter de le faire de manière itérative jusqu'à un niveau de qualité suffisant).
(1) Enquête réalisée auprès de 2 360 personnes dans plus de 100 pays dont la moitié travaille aux Etats-Unis.