La chimie a priori

Prédire les réactions de synthèse chimique est un enjeu industriel important. Plusieurs tentatives ont été faites en utilisant le deep learning. Un des inconvénients des réseaux de neurones est qu’il est impossible d’établir les règles qui aboutissent à une prise de décision. Dans cet article, nous avons analysé 1,6 millions de réactions chimiques pour essayer d’en découvrir.

Design de synthèse chimique

Plusieurs tentatives intéressantes de prévision des synthèse ont été menées en utilisant Seq2seq pour prévoir les séquences de synthèses. Ces approches, facile à mettre en œuvre, posent toutefois des limitations dans la mesure où il faut expurger la base d’apprentissage des réactions conduisant à plus d’un produit et, par ailleurs, les temps de calcul sont long. Les réactions prédites sont assez peu crédibles dans de nombreux cas. Cette approche se base sur l’idée que les réactions seraient une sorte de langage dont la grammaire serait à découvrir. Seq2seq est d’ailleurs la principale technologie pour le développement de chatbots et pour la traduction.

A priori

Nous avons tenté une approche par une recherche explicite des règles, basée sur un dérivé de l’algorithme APRIORI.

Apriori est un algorithme de machine learning non supervisé découvert en 1994 par Rakesh Agrawal et Ramakrishnan Shikant d’IBM. Il a depuis été raffiné, notamment par l’algorithme Max-Miner. Dans cet essai « coup de sonde », nous avons testé deux algorithmes.

A priori a pour but de déterminer avec une certaine valeur de confiance si certain groupes d’articles impliquent probablement la présente d’un ou plusieurs autres, ce qui est assez proche de la démarche d’imagination de synthèse que peut avoir un chimiste organicien.

Figure 1

Dans un premier temps nous avons extrait les règles avec différents niveaux de sélectivité (support) [Fig1].

Nous obtenons des catégories de réactions comprenant des réactifs fréquemment utilisés ensembles et constituant une catégorie.

Par exemple:

['hydroxylammonium chloride', 
'sodium hydrogen carbonate', 
'dimethyl sulfoxide']
 

Cet ensemble de règles permet de catégoriser les réactions et de les connecter au contexte industriel.

Conclusion

Cette technologie, rapide et efficace, permet d’établir des catégories de mélanges réactifs transformables et règles. Des applications variées sont envisageables, notamment pour le préprocessing des bases d’apprentissages de deep learning. Si certaines catégories sont assez évidentes, comme par exemple les réactions acide/base, d’autres sont plus étonnantes et mérite d’établir si elles sont signifiantes ou seulement des artefacts de calcul.

Télécharger cet article au format PDF ou ePub

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.