
Parfois, nos clients souhaiteraient expérimenter ce que pourrait donner des technologies de deep learning mais ne souhaitent pas transmettre des données confidentielles ou présentant un capital industriel. C’est pourquoi nous vous proposons un obfuscateur.
Qu’est ce qu’un obfuscateur?
Un obfuscateur est un encodeur de données destinées, tout en les rendant exploitables pour les data sciences, d’en cacher l’essentiel afin de limiter les possibilités de fuites ou de vol de données ainsi que les possibilités de retro-ingenierie
Que fait l’obfuscateur R&D médiation?
L’obfuscateur prend vos données sous la forme d’un tableau excel (format xlsx) puis exécute les opérations suivantes:
- Les variables numériques sont centrées et réduites entre -1 et +1 : sans connaitre les bornes il n’est plus possible de calculer leurs valeurs réelles
- Le variables symboliques sont codées 0 ou 1 sur chacun de leurs niveaux: sans connaitre ce que représente les niveaux il n’est pas possible de remonter à ce qu’ils représentent
- Les noms de variables sont ensuite remplacés par des X1,X2…
- Un dictionnaire est généré
Quelle est la sortie du processus?
En fin de processus, deux fichiers sont téléchargeables: d’une part un nouveau fichier excel que vous pouvez nous transmettre, d’autre part un dictionnaire que vous devez garder secret.
Comment procéder ?
Deux solutions sont possibles
Encodage local
Vous pouvez nous contacter afin d’installer l’obfuscateur sur votre propre système ou intranet. Il se présente sous la forme d’un container docker prêt à l’emploi, mais le plus souvent il peut être intéressant de l’adapter au contexte particulier de vos données.
Encodage dans le cloud
Une instance de l’obsuscateur est disponible dans le cloud. La connexion est cryptée et vos données ne sont présentes que dans la mémoire du serveur et pendant quelques secondes seulement. Aucune donnée n’est stockée.
Voici les étapes à suivre:
- Préparez un fichier xlsx contenant vos données avec les noms des variables dans la première ligne
- Importer les données dans l’obfuscateur ci-dessous
- Récupérer les deux fichiers : le fichier public et le fichier de clef à garder secret
Vous pouvez tester sur ce fichier, et voici un exemple de sortie.

Vous pouvez alors télécharger le dictionnaire et le tableau obscurci. Vous pouvez essayer ci-dessous (l’affichage peut prendre un peu de temps) ou à l’adresse https://obfs.ai4u.pw
Quelques remarques
Cette solution présente des avantages mais aussi des inconvénients. Même si le rétro-ingéniering est difficile, nous ne pouvons garantir qu’il soit impossible. Par contre, c’est toujours d’une quantité de temps passer à craquer un obscurcissement qu’il faut prendre en compte. Ce temps sera forcément long et donc nécessitera un investissement important.
Parmi les inconvénients, nous analyserons les données en aveugle et ce sera à vous de reconstruire les résultats. Souvent, il est souhaitable d’augmenter les données en ajoutant des variables ou en faisant du transfer learning, ce qui ne sera pas ici possible. Mais cette approche peut permettre de lever un doute ou d’expérimenter sans risque.