Parce que voilà, aujourd’hui les données sont partout et émanent de tellement de sources différentes que le risque d’erreur en est inévitablement exacerbé. Face à tant de données, tant de sources, tant d’incertitudes, comment savoir si les données sur lesquelles vous vous basez sont fiables ?

 

Avant de répondre à cette question, je précise que nous nous concentrerons sur les données sur lesquelles vous pouvez avoir une influence directe. En d’autres termes, les données issues de votre organisation. Nous laisserons donc de côté les banques de données externes.

 

 

 

 

Assurez vous de la fiabilité de vos sources de collecte de données

Fiabilité des données AVANT la collecte : le cas des erreurs de saisie

Que vous lanciez une campagne marketing pour collecter des adresses emails, ou simplement lorsque vos équipes procèdent un un reporting, sachez que les confusions les plus bénignes peuvent être la source d’un manque de consistance endémique.

 

Si vous travaillez dans une multinationale par exemple, prenons la saisie d’une date. Au hasard, le 10 mai 2020. Un collaborateur français va renseigner « 10/05/2020″ (JJ/MM/AAAA, je format de date européen) quand un collaborateur outre atlantique va indiquer « 05/10/2020″ (MM/JJ/AAAA le format américain).

 

Et voilà comment un 10 mai se transforme en 5 octobre ! 🤷‍♂️

 

 

Si votre base de données est conséquente, vous pourriez passer des heures à chercher d’où vient l’écart entre ce que devraient indiquer vos reporting de vente et la différence évidente qui se prélasse sous vos yeux.

 

Vous voyez comme de petits détails peuvent très vite devenir un cauchemar. D’abord pour vos indicateurs qui perdent toute leur pertinence. Puis pour vous, qui perdrez de précieuses heures à tenter de démêler le vrai du faux. Vous avez sûrement mieux à faire.

 

Le meilleur conseil que je peux vous donner pour disposer de données fiables, c’est de sécuriser les champs de saisie le plus possible. Pour la date ? Un format date imposé. Pour le client ? Une liste déroulante. Pour un email ? Le format adéquat avec l’arobase et l’extension. Et ainsi de suite.

 

 

Fiabilité des données PENDANT la collecte : le cas des API

Les API sont des portes dans vos applications qui permettent d’exporter les données dont vous avez besoin, depuis vos outils logiciels directement dans l’interface analytique que vous utilisez.

 

C’est par exemple vos données de facturation ou de planification de la production que vous pourriez synchroniser dans une base de données commune.

 

Je vous recommande chaudement d’utiliser les APIs de vos applications le plus possible. Cela vous permet de disposer d’un grand volume de données, de les croiser, de faire tous les traitements dont vous pourriez avoir besoin ; tout en évitant un travail de reporting fastidieux pour vos équipes.

 

Oui, mais… (Il y a toujours un « mais »)

 

… Si la version de l’API change – ce qui arrive souvent pour des raisons de sécurité notamment – vous courrez le risque que le données ne soient plus synchronisées. Donc les infos ne remontent plus, votre reporting n’est plus à jour, et vous êtes là… « wtf ? »

 

 

Pour vous prémunir de cela, pensez à maintenir vos développements à jour, adaptés aux évolutions des APIs que vous utilisez. Je vous suggère par exemple d’avoir une alerte par email dès que la synchronisation ne s’est pas réalisée convenablement. Cela vous permettra de réagir vite en cas de problème et d’assurer la fiabilité de vos données.

 

 

Fiabilité des données APRÈS la collecte : le cas du « data cleaning« 

Voilà, vous avez déployé votre campagnes de collecte de données. De nombreuses personnes ont répondu à votre questionnaire, tous vos collaborateurs jouent le jeu du reporting et vos API ronronnent. Alors tout roule ?

 

Pas si sûr. Le data cleaning, ou data cleansing, ou data scrubbing, est le fait de dealer avec des données qui manquent de consistance. Des données qui manquent de consistance, ce sont des données mal orthographiées, manquantes ou erronées.

 

En effet, dans le volume de données que vous collectez, certaines pourraient venir à manquer. Par exemple, dans une campagne de qualification de vos clients, peut être que l’âge ne sera pas systématiquement renseigné. Dans ce cas, il conviendra de définir l’attitude à adopter avant de procéder à l’analyse des données.

 

Deux solutions s’offrent à vous : soit vous choisissez d’équilibrer votre jeu de données, soit vous choisissez de vous appuyer sur une répartition aléatoire. Je reviendrai sur ces deux notions dans un article très prochainement. Si le sujet vous intéresse, vous pouvez vous inscrire à ma newsletter pour être informé•e dès que ce contenu est en ligne.

 

 

 

Formez vos équipes sur les enjeux de la fiabilité des données

Prendre la casquette de « responsable de la fiabilité des données » peut être passionnant. Tous les CDO (Chief Digital/Data Officer) vous le diront. En revanche, plus vous allez avancer, plus l’organisation va grandir, plus le volume de données à consolider va augmenter… Plus vous allez péter un câble 🤯

 

Au moins, vous êtes au courant. Après, vous faites comme vous voulez…

 

 

… mais si vous voulez garder vos nerfs intacts, restez encore un peu avec moi 😇

 

Pour vous épargner ça tout en vous assurant de la fiabilité de vos donnés, voici quelques pistes que je vous suggère de suivre :

 

 

Impliquer et responsabiliser vos équipes

La fiabilité des données est l’affaire de tous les collaborateurs. Parfois (souvent), ces derniers n’ont pas conscience de l’importance que peut avoir la fiabilité des données, et encore moins des répercussions que peuvent avoir leur inadvertance sur l’ensemble de la chaîne de la fiabilité des données. Surtout en interne.

 

Parce que quand on parle de fiabilité des données, forcément on parle de processus. Et si vous équipes ne sont pas formées aux processus en vigueur, et surtout de leur implication dans la chaîne de production de la valeur de l’entreprise, vous vous exposez à des erreurs d’inattention.

 

L’équation est très simple. Je prends peu de risque si je dis que le reporting est un travail fastidieux quand il n’est pas simplifié à l’extrême. Bon. Donc l’équation est la suivante : travail fastidieux + collaborateurs mal informés = travail bâclé. CQFD.

 

 

Faites des audits qualité fréquents

A priori, c’est le genre d’activité qui fatigue avant même d’avoir commencé. Du moins, à en juger les regards qui se posent sur moi quand je prononce ces termes à mes clients, c’est l’impression que j’en ai.

 

Cependant, permettez moi de vous poser une question. Qu’est ce qui est le plus fastidieux selon vous ?

• Option 1 : Répondre à quelques questions pendant 10 minutes tous les lundis

• Option 2 : Passer une semaine entière de stress par trimestre à rechercher des informations qui se sont perdues au fil des mois

 

Si vous n’êtes pas trop masochiste, nous devrions nous accorder sur la première option. Puisque 10 minutes d’échange par semaine permettent de s’épargner une souffrance en fin de trimestre… alors l’audit interne n’est finalement pas si terrible ! D’autant plus que des solutions d’audit continu fantastiques existent pour vous aider.

 

L’audit interne est indispensable pour vous assurer de la fiabilité de vos données critiques, du classement des documents, etc. Il permet d’éviter les oublis et de corriger les erreurs dès qu’elles se produisent. Disons que c’est un genre de « TODO » dopé à la testostérone qui vous permettra de déplacer des montagnes. D’un côté il vous permet de garder un oeil sur ce qui doit être actualisé. De l’autre il rassure vos collaborateurs en leur donnant une feuille de route claire.

 

En plus, nous vous offrons un outil au format Excel pour gérer vos audits internes !

 

 

Vérifiez par vous même, régulièrement

S’il y a bien une chose que je retiens de mes années d’expérience en traitement de données, c’est que nul n’est épargné par la (fameuse) loi de Murphy. Vous pouvez avoir tout mis en place pour assurer la fiabilité des données sur l’intégralité de la chaîne de production de chaque donnée… le risque zéro n’existe pas pour autant.

 

C’est pourquoi je vous conseille de faire des vérifications, au hasard, de temps en temps. Faites un tour dans les bases de données pour voir un peu à quoi elles ressemblent. Prenez un indicateur, n’importe lequel, et démembrez le jusqu’à vérifier la véracité de la donnée la plus granulaire qui le constitue.

 

Souvent, vous le ferez pour rien. Certes. En tout cas, c’est tout le mal que je vous souhaite. Mais le jour où vous trouverez une erreur, vous penserez à la faire corriger et à sécuriser la source de cette erreur pour qu’elle ne se reproduise plus dans le futur.

 

Voilà, selon moi, comment assurer la fiabilité de vos données de bout en bout. Bien sûr, il y a d’autres astuces qui viennent avec l’expérience, et vous avez sûrement les vôtres. Je serais ravi qu’on les partage ! Laissez-nous un message 😉

Photo de Moose Photos provenant de Pexels

Si vous avez trouvé une faute d’orthographe, veuillez nous en informer en sélectionnant le texte en question et en appuyant sur Ctrl + Entrée .

La newsletter qui transforme

Sortez la tête de l'eau, une fois par mois depuis votre boîte mail.

Vous pouvez vous désabonner à tout moment. Pour en savoir plus sur notre politique de protection des données, cliquez-ici.