Une IA pour piloter un réacteur à la limite de l’explosion

Un réacteur en chimie est un container dans lequel des produits chimiques réagissent entre eux. De nombreuses réactions sont exothermiques, libérant de la chaleur. Il est possible de refroidir un réacteur pour éviter que la réaction ne s’emballe. Malheureusement, si le refroidissement est trop fort, la réaction s’arrête, s’il ne l’est pas assez, le réacteur explose. Nous avons ici entrainé un réseau de neurone à piloter un réacteur en le maintenant à la limite de l’explosion tout en économisant l’énergie dépensée pour le refroidir.

Remarque: dans cet article, les éléments plus techniques sont reportés en note de bas de page pour ne pas surcharger le texte

L’emballement thermique

Lorsque l’on met en oeuvre un mélange de réactifs produisant une réaction exothermique, celle-ci chauffe uniformément le milieu. Si la conductivité thermique (ou d’autres moyens d’évacuer la température) est trop faible, alors la chaleur ne peut pas s’échapper et la température du centre du réacteur augmente. Plus elle augmente, plus la réaction s’accélère conduisant à son explosion.

Le phénomène peut être reproduit par l’équation de la diffusion de la chaleur (de Fourier) et l’équation d’Arrhenius (pour l’avancement de la réaction) [1] [2].

Explosion au centre du réacteur – Température en fonction de la profondeur – Explosion thermique en 4 secondes

 

Animation : explosion thermique

En l’absence de refroidissement, l’explosion se produit au bout de quelques secondes,  et conduit à la destruction du réacteur. Si on applique un refroidissement dès le début de la réaction, celle-ci s’arrête et le réacteur cesse de produire. Le problème est donc de piloter très rapidement un système de refroidissement de manière à maintenir le réacteur stable tout en permettant la réaction, en ne dépensant pas trop d’énergie dans le refroidissement. Un opérateur humain qui aurait à le faire devrait être capable de lire les mesures de température très rapidement et de réagir très vite. Nous avons donc entrainé un réseau de neurones profonds à piloter en temps réel le système de refroidissement.

Réseau de neurones profonds

Constituant de base des intelligences artificielles, les réseaux de neurones sont des empilements de couches d’abstraction qui peuvent être entrainés à réagir à un ou plusieurs stimuli. Nous avons entrainé celui-ci à partir des mesures effectuées par 3 capteurs de température (sur chaque paroi et au centre). Le réseau de neurones devait piloter le système de refroidissement en fonction de ces observations. Dans notre cas, le réseau de neurones avait 9 couches et l’algorithme est selon [3].

Pilotage du réacteur par le réseau de neurones

Dans ce premier prototype, le réseau de neurones a pu stabiliser le réacteur en 15 secondes.

Stabilisation du réacteur en 15 secondes

 

Animation: stabilisation du réacteur

Le réacteur est stabilisé avec un différentiel de température constant entre le coeur et la paroi de 142 degrés.

En cas de modification des conditions extérieures, le réseau de neurones peut compenser mais nous n’avons pas encore étudié les limites de cette capacité de réaction.

Perspectives et questions éthiques

Ce premier prototype d’étude permet d’analyser comment les IA peuvent piloter des procédés industriels. Bien que très prometteuses, ce type de technologies pousse à la réflexion:

  • Plus rapide qu’un opérateur humain et insensible à la fatigue, l’IA semble un candidat idéal pour le pilotage des installations industrielles.
  • Le réseau de neurones représente environ 50 Ko ce qui rend son implantation sur des puces neurales très facile et pour un coût très bas.
  • La part de programmation qu’elle représente est dérisoire comparée à l’enjeu que représente son entrainement. Une mauvaise prise en compte le la réalité physique pourrait conduire à des réseaux de neurones mal entrainés et potentiellement dangereux. L’IA est définitivement un sujet trop sérieux pour être laissé aux informaticiens;
  • Le principe d’abstraction des réseaux de neurones fait qu’il n’est pas possible d’expliquer logiquement pourquoi ils prennent une décision plutôt qu’une autre. En effet, nous ne choisissons pas ici de règles ni de processus comme dans les systèmes d’asservissement ou de guidage/pilotage classique. Le système a ici appris de l’expérience et réagit sans connaître autre chose que les mesures de températures que nous lui donnons. Dans ses conditions, les domaines de validité et les limites sont particulièrement sensibles.
Références
[1] dT/dt = α . ∇2T + HZ e-Ea/RT
[2] Dans notre cas, nous avons utilisé un modèle 1D de différences finies tel que décrit dans la publication:
L. Brunet, J. Caillard, and F. Mercier, “Mesure de température pariétale en temps réel,” Journal International de Technologie, de l’Innovation, de la Physique, de l’Energie et de l’Environnement, vol. 1, no. 1, 2015.
[3] T. P. Lillicrap et al., “Continuous control with deep reinforcement learning” CoRR, vol. abs/1509.02971, 2015.
Télécharger cet article au format PDF ou ePub

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.