Bonnes pratiques IA / Deep learning

889520 / Pixabay

Ce guide, initialement à vocation interne, détaille le processus de développement des projets intelligences artificielles ou de deep learning à R&D Médiation. Il fait partie de notre référentiel métier.

Introduction

R&D Médiation collabore à des projets de deep learning dans un contexte deeptech (industries, innovation à fort contenu technologique…) le plus souvent avec des bases d’apprentissage bien plus réduites – car les expérimentations coûtent chers – que dans le monde du bigdata et des réseaux sociaux. Ce document reprend notre process.

1-Etat des ressources

Il est souhaitable et efficace de commencer un projet par une approche intelligence artificielle en ayant engagé les points suivants:

  1. Établissement d’une roadmap IA : Un projet doit prendre en compte les technologies disponibles et leur niveau de maturité en fonction de la stratégie de l’entreprise (différentiation, cost leadership…) et de l’action demandée au modèles produits (prédire, détecter..) au travers d’une roadmap qui sera l’outil décisionnel pour l’équipe projet
  2. Bibliographie : Les technologies IA sont pour la plupart récentes, même si le principe existe depuis longtemps. Une bibliographie traditionnelle (scholar, ArXiv…) doit être complétée par une analyse des ressources open (Github…)
  3. Datamining : Un catalogue évalué (crédibilité, quantité, disponibilité, ancienneté…) doit être établi pour les données dont le projet aura besoin. Établir les manques et les besoins en données non disponibles.

2-Analyse du projet en termes d’exigences et d’incertitude

Une analyse des exigences du projet permet de s’assurer que celles des différents stakeholders (client, partenaires, fournisseurs, autorités …) sont remplies. Ces exigences peuvent être techniques, mais aussi éthiques ou sociales. R&D Mediation utilise innovML pour cela, car il permet aussi de relier les incertitudes ) ou verrous technologiques reliés aux exigences.

Tracer les incertitudes permet également d’alimenter le plan d’action pour les traiter. Les incertitudes technologiques sont à monitorer dans le cadre des dossiers de crédit impôt recherche. Elles sont également source de créativité et de dépôts de brevet. Les incertitudes liées à l’environnement social et éthique peuvent être accompagnées par notre coach certifié en transformation managériale. La non-prise en compte des nécessaires transformations managériales engendrée par le projet, qui peut être un choix du client, génère en soi une incertitude qui entre dans le diagramme innovML.

3-Processus qualité simplifié

Le projet suit un processus qualité simplifié. Son objectif est de vérifier que toutes les ressources sont disponibles et que les rôles sont compris. Dans la pratique, le JDL (jalon de lancement) est également l’occasion d’organiser une session de créativité, qui peut elle aussi utiliser des outils d’intelligence artificielle.

 

4-Processus de développement

Chaque projet est différent, mais les projets IA consistent souvent à identifier des causes (features) complexes et des effets (targets) complexes. Par exemple les images à des contenus d’images, des textes à des profils de personnalités, des molécules à des marchés… Dans notre contexte de ‘smalldata’ plusieurs points doivent être pris en compte:

  1. Les données étant rares, le nombre de features doit être aussi limité que possible. Celles-ci doivent dont être pertinentes. C’est là un problème très classique de démarche expérimentale. Les gens du bigdata ont tendance à prendre toutes les features, quitte à en avoir des millions sans grands effets sur les causes à mesurer. Dans notre domaine, nous devons nous inspirer de la démarche de plan d’expériences (DOE) et sélectionner progressivement des features qui ont de la pertinence.
  2. Vérifier que l’intelligence artificielle est bien nécessaire  au projet. Par exemple en testant d’abord des approches classiques puis plus complexes: régression multilinéaire > régression logistique > randomforest…
  3. Procéder par itération, du plus simple au plus complexe
  4. Tracer les expérimentations, les hypothèses, et les retours d’expérience
  5. Appliquer la règle secrète de la chimie organique : ne jamais jeter une étape intermédiaire avec d’avoir fini le projet et validé qu’on en a plus besoin
  6. Si les données sont en faible nombre (moins de 100 fois le nombre de paramètres) tenter une réduction de dimensionnalité (autoencoder, heteroencoder, ACP..)
  7. Les sélections des méthodes et paramètres d’entraînement des réseaux de neurones sont très peu déterministes: il faut essayer
  8. Si aucune solution n’apparaît, il est possible qu’une partie des données soit fausse. Tenter une démarche de recherche d’anomalie pour les éliminer.
  9. En cas de surapprentissage (pas assez de données et trop de paramètres) utiliser la génération d’erreur (dropout)
  10. Construire un rapport lisible et documenté (avec des références bibliographiques)

5-Erreurs à éviter

L’algorithme est finalement assez secondaire, devant la quantité puis la qualité des données. Les efforts doivent majoritairement se porter sur l’élaboration des datasets pour deux raisons:

  • Un bon dataset est éternel, il pourra être revisité si une nouvelle technique ou un nouvel algorithme apparaissent
  • Un autre scientifique peut faire mieux que nous sur le même dataset, parfois parce qu’il a une expérience sur un sujet qui va l’y aider, parfois parce qu’un œil neuf est ce qu’il faut pour réussir

Il ne faut pas négliger les aspects stratégiques, éthiques et sociaux sous peine de travailler pour un résultat que ne sera jamais mis en œuvre, car trop en dissonance avec les aspirations ou les craintes des stakeholders: Ne pas concevoir sans savoir pourquoi, sans but, sans conscience.

 

 

Télécharger cet article au format PDF ou ePub

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.