Deep learning sur données confidentielles

geralt / Pixabay

Parfois, nos clients souhaiteraient expérimenter ce que pourrait donner des technologies de deep learning mais ne souhaitent pas transmettre des données confidentielles ou présentant un capital industriel. C’est pourquoi nous vous proposons un obfuscateur.

Qu’est ce qu’un obfuscateur?

Un obfuscateur est un encodeur de données destinées, tout en les rendant exploitables pour les data sciences, d’en cacher l’essentiel afin de limiter les possibilités de fuites ou de vol de données ainsi que les possibilités de retro-ingenierie

Que fait l’obfuscateur R&D médiation?

L’obfuscateur prend vos données sous la forme d’un tableau excel (format xlsx) puis exécute les opérations suivantes:

  • Les variables numériques sont centrées et réduites entre -1 et +1 : sans connaitre les bornes il n’est plus possible de calculer leurs valeurs réelles
  • Le variables symboliques sont codées 0 ou 1 sur chacun de leurs niveaux: sans connaitre ce que représente les niveaux il n’est pas possible de remonter à ce qu’ils représentent
  • Les noms de variables sont ensuite remplacés par des X1,X2…
  • Un dictionnaire est généré

Quelle est la sortie du processus?

En fin de processus, deux fichiers sont téléchargeables: d’une part un nouveau fichier excel que vous pouvez nous transmettre, d’autre part un dictionnaire que vous devez garder secret.

Comment procéder ?

Deux solutions sont possibles

Encodage local

Vous pouvez nous contacter afin d’installer l’obfuscateur sur votre propre système ou intranet. Il se présente sous la forme d’un container docker prêt à l’emploi, mais le plus souvent il peut être intéressant de l’adapter au contexte particulier de vos données.

Encodage dans le cloud

Une instance de l’obsuscateur est disponible dans le cloud. La connexion est cryptée et vos données ne sont présentes que dans la mémoire du serveur et pendant quelques secondes seulement. Aucune donnée n’est stockée.

Voici les étapes à suivre:

  1. Préparez un fichier xlsx contenant vos données avec les noms des variables dans la première ligne
  2. Importer les données dans l’obfuscateur ci-dessous
  3. Récupérer les deux fichiers : le fichier public et le fichier de clef à garder secret

Vous pouvez tester sur ce fichier, et voici un exemple de sortie.

Vous pouvez alors télécharger le dictionnaire et le tableau obscurci. Vous pouvez essayer ci-dessous (l’affichage peut prendre un peu de temps) ou à l’adresse https://obfs.ai4u.pw

Quelques remarques

Cette solution présente des avantages mais aussi des inconvénients. Même si le rétro-ingéniering est difficile, nous ne pouvons garantir qu’il soit impossible. Par contre, c’est toujours d’une quantité de temps passer à craquer un obscurcissement qu’il faut prendre en compte. Ce temps sera forcément long et donc nécessitera un investissement important.

Parmi les inconvénients, nous analyserons les données en aveugle et ce sera à vous de reconstruire les résultats. Souvent, il est souhaitable d’augmenter les données en ajoutant des variables ou en faisant du transfer learning, ce qui ne sera pas ici possible. Mais cette approche peut permettre de lever un doute ou d’expérimenter sans risque.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.