Top
préparation des données : le nettoyage des données

Réduire le temps nécessaire à la préparation des données

Aujourd’hui, de nombreux outils de reporting existent. Les managers se les approprient de plus en plus, ce qui leur permet de disposer d’indicateurs faciles à comprendre. Cela est essentiel lorsque l’on souhaite prendre des décisions en s’appuyant sur des faits. Pour autant, lorsqu’elles sont exportées, les données n sont jamais exploitables en l’état. C’est en tout cas très rare qu’elles le soient. Dès lors, une phase de préparation des données est nécessaires… elle représente jusqu’à 80% du temps passé dans les entreprises !

préparation des données : le nettoyage des données

 

 

Nous allons voir dans cet article comment réduire ce temps de préparation pour se concentrer sur le plus important : l’analyse des données.

 

 

La préparation des données est chronophage et risquée

Lorsque les données sont exportée depuis les différentes sources métier, elles sont à l’état brut. D’une manière générale, elles ne sont pas exploitables en l’état. Pour se faire, le service informatique doit procéder à un traitement de ces données pour que vous puissiez être en mesure de les exploiter.

 

Cependant, cette dépendance peut parfois ralentir l’exécution dans l’exploitation des données. D’autant plus que les évolutions se font généralement de manière itérative. On tâtonne au début, parfois un bon moment, avant de trouver la composition exacte des indicateurs dont on a besoin.

 

À moins que vous ayez un as de l’informatique toujours à portée de main (ou plusieurs mois devant vous) cette option n’est alors pas vraiment envisageable.

 

Alors, le plus probable est que vous vous tourniez vers un tableur : Microsoft Excel ou Google Sheet. C’est une solution pratique et rapide. De nombreux leaders y ont encore recours. Ils exportent les données depuis les outils, les copie/colle dans un tableur, procède à un traitement de ces données plus ou moins long et fastidieux… puis ont la satisfaction de pouvoir disposer d’indicateurs, à jour.

 

C’est une solution que j’encourage pour la rapidité d’exécution. Néanmoins, il faut reconnaître que le processus est risqué et souvent chronophage. La préparation des données sur des feuilles de calcul peut demander beaucoup de travail. D’autre part, cela peut être risqué si les données en sorties ne sont pas parfaitement clean.

 

Avec le temps, lorsqu’on répète les mêmes opérations encore et encore, le coeur n’y est plus. Dès lors, la préparation des données sur un tableur, ça fini par ressembler à ça …

 

préparation des données : cacher sous le tapis

 

 

Automatiser les préparations répétitives

En effet, dans la plupart des cas, la préparation des données est assez répétitive en réalité.

 

Par exemple, si vous récupérer les données d’un logiciel de facturation dans plusieurs pays, il vous faudra convertir les montants en fonction des taux de change. Ou encore, si vous exporter des données depuis un logiciel US, il faudra standardiser les dates. Outre-Atlantique, les mois viennent avant les jours 🤷‍♂️

 

Le faire à chaque fois, à la main, est une perte de temps considérable. D’ailleurs, une étude réalisée par TDWI en 2016 montrait que la plupart des entreprises passaient jusqu’à 80% de leur temps dans la préparation des données !

 

C’est la raison pour laquelle j’ai ma petite méthode : un tableur (Google Sheet de préférence) en 3 onglets. Prenons l’exemple de la préparation des données pour l’export d’une situation bancaire.

 

 

💉 1 – Onglet source

Cet onglet est celui sur lequel les données sont injectées, brutes de décoffrage. Lorsque l’on exporte des données depuis un outil métier, elles ont toujours le même format. Dans cet onglet donc, c’est toujours le même format qui doit être utilisé évidemment.

 

Par exemple, l’export d’une situation à date pour un compte bancaire a toujours la même structure. Il diffère d’une banque à l’autre, certes. Mais lorsqu’il s’agit de la même banque, pour le même compte, la structure est identique. Les opérations sont donc toujours les mêmes.

 

Pour être encore plus concret dans l’exemple, voici un cas très précis. Dans l’export d’un fichier banque de Singapour il fallait remplacer le séparateur des décimales (un point “.”) par une virgule (“,”). En d’autres termes, pour une transaction de 1000,00$ il fallait remplacer 1000.00 par 1000,00. Bon. C’est facile de le faire à la main. Mais quand il y a des centaines de lignes, il peut être fastidieux de le faire à la main, même en utilisant un bon vieux chercher > remplacer. Et le risque d’erreur est important.

 

 

⚙️ 2 – Onglet de traitement des données

C’est sur cet onglet que je fais toutes les formules qui permettent de convertir les données sources en données prêtes à l’emploi. Disons que c’est ici que se passe l’intégralité de la préparation des données.

 

Pour rester sur le même exemple de l’export de Singapour, j’avais donc dans le premier onglet les données brutes de l’export. Dans mon onglet traitement, j’avais automatisé le remplacement des points par des virgules. J’en profitais pour convertir les devises en US Dollars, avec la fonction dont je vous parle dans cet article : Travailler avec des taux de change dans GoogleSheet.

 

 

🗄️ 3 – Onglet au format base de données

C’est dans cet onglet que se retrouvent toutes les données préparées. Une fois la préparation des données réalisée dans le deuxième onglet, elles apparaissent ici au format base de données.

 

Dans cet onglet, les données sont présentées de manière structurée, propre…. exploitables ! C’est sur cet onglet que je m’appuie pour réaliser tous les reporting.

 

Si nous restons sur l’exemple de l’export bancaire, j’avais utilisé ce procédé pour disposer d’un tableau de bord de la trésorerie de toutes les filiales. Puisque chaque export bancaire était différent, il existait un fichier par pays.

 

 

Ce type d’approche automatisée a permis de faire gagner du temps à toute l’équipe. En effet, elle n’était plus obligée de gérer la préparation des données à la main. De cette manière, nous avions réduit le risque d’erreur dans les données disponibles. Et par la même occasion, nous pouvions nous concentrer sur l’analyse des données et des KPIs qui comptaient vraiment.

 

Si vous souhaitez obtenir plus en détail sur l’optimisation de la préparation des données, dites le moi en commentaire. Je serai ravi de répondre à vos questions.

 

Bonjour, moi c'est Romain.

Je suis entrepreneur, (ex)CFO d'une multinationale et étudiant en Executive MBA à l'IAE Paris-Sorbonne.

J'aime réfléchir et développer des solutions pour faciliter la prise de décision en m'appuyant sur le reporting. Rejoignez-moi sur LinkedIn ou sur Twitter.

☎️ Réserver 15 minutes dans mon agenda, pour échanger en visio le temps d'un café  ☕

Newsletter

En tant que professionnels 4.0, les données sont vos matières premières. Abonnez-vous à From The Insight, la newsletter mensuelle des best-practices de la prise de décision pour transformer vos données en insight.


Un email par mois. Pas de spam. Politique de confidentialité.

Partagez cet article à vos collègues

C'est ce qui m'aide le plus à faire connaître ce blog !

 

<a href=”https://www.freepik.com/free-photos-vectors/circle”>Circle photo created by freepik – www.freepik.com</a>

Publier un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.