Une IA pour prédire les applications et les marchés des substances

AlchemAI est un réseau de neurones artificiel développé par R&D Médiation et qui permet de prédire quels sont les applications et les marchés possibles d’une nouvelle molécule, ou bien découvrir de nouvelles applications pour des molécules existantes. Opérationnel en août 2017, il permet d’analyser des molécules et d’en déduire des applications possibles dans 98 marchés.

De la structure à l’activité

Les chimistes et les biochimistes, mais aussi les cuisiniers, ont produits plus de 8 millions de molécules dont la grande majorité n’a été fabriquée qu’en petites quantités, et n’a subi qu’un petit nombre de tests pour en caractériser les propriétés. Environ 50000 molécules sont produites en masse actuellement.

Relier la structure d’une molécule à ses propriétés est une activité importante de la Recherche, notamment médicale. Souvent, l’application est déduite par analogie ou bien par l’observation d’usages traditionnels.

L’émergence des codes de calcul de mécanique quantique, soit semi-empirique (MOPAC) [1] ou ab initio (GAUSSIAN) [2] a permis de relier certaines propriétés (catalytique, antiseptiques, explosives, médicales…) à la conformation des molécules ainsi qu’à la nature des atomes qui la compose. Ces calculs sont longs et complexes. Pour certaines propriétés thermodynamiques, les groupes de Benson permettent d’obtenir de bonnes approximations [3], dans la limite des incréments disponibles.

Une approche par le Deep Learning

Exemple de réseau de neurone

AlchemAI a été développée dans une approche différente. Un réseau de neurones multicouche a été entrainé à reconnaître la structure des molécules et à les relier à des applications et donc à des marchés. S’appuyant sur le moteur Tensorflow [4] , il a été tout d’abord entrainé sur 98 marchés pour lesquels plus de 50 molécules sont actuellement commercialisées. Le modèle, qui converge à plus de 98,04% sur cette base d’entrainement, présente une bonne capacité de prévision des marchés et applications primaires et secondaires.

Recherche

Représentation innovML du processus de recherche

Le processus de recherche comportait de nombreuses incertitudes (listées partiellement dans le diagramme innovML à l’adresse https://link.er.gs/YydfA1. En effet les données qui servent à l’entraînement du réseau de neurones profonds correspondent à des marchés et des usages avérés, mais forcément non exhaustifs des substances. Une évaluation de la pertinence du réseau devra mettre en évidence des applications non triviales, prédites par celui-ci et pouvant être expérimentées.

Principe de l’apprentissage du réseau AlchemAI

Applications de AlchemAI

AlchemAI est actuellement un outil de R&D pour l’étude des relations structure/activité. Le framework d’apprentissage permettra sous peu la prédiction d’autres propriétés (toxicité, compatibilité,et, à terme, coût de production). Le réseau de neurones peut également permettre à des équipes marketing de proposer des applications alternatives de leurs produits. Par exemple:

  • Découvrir un marché secondaire pour une substance actuellement en production (par exemple découvrir qu’un plastifiant peut aussi être une fragrance ou bien un intermédiaire)
  • Découvrir l’application potentielle d’une nouvelle molécule sortie des laboratoires de recherche
  • Faire du design de molécules pour une application spécifique
  • Revisiter d’anciennes molécules n’ayant plus d’applications commercialement viables
  • En intelligence économique, découvrir les marchés des concurrents, des clients ou des fournisseurs

Travaux en cours

La version d’août 2017 (AlchemAI set 3) est en cours d’évaluation sur plusieurs projets. Elle va faire l’objet dans les six prochains mois:

  • d’une extension de la base d’entraînement à 300 applications et marchés
  • d’une analyse systématique des brevets pour détecter des opportunités marchés qui pourront faire l’objet d’analyse plus détaillée
  • de l’optimisation de la performance.  Set3 trouve des applications commercialement viables pour les deux tiers des substances, mais doit encore être amélioré, notamment en prenant en comptes d’autres caractéristiques spatiales des molécules, pouvant être important pour une application donnée

Références

[1] J. J. P. Stewart, “MOPAC: A semiempirical molecular orbital program,” Journal of Computer-Aided Molecular Design, vol. 4, no. 1, pp. 1–103, Mar. 1990.
[2] P. J. Stephens, F. J. Devlin, C. F. Chabalowski, and M. J. Frisch, “Ab Initio Calculation of Vibrational Absorption and Circular Dichroism Spectra Using Density Functional Force Fields,” The Journal of Physical Chemistry, vol. 98, no. 45, pp. 11623–11627, Nov. 1994.
[3] S. Benson and J. Buss, « Additivity Rules for the Estimation of Molecular Properties. Thermodynamic Properties », The Journal of Chemical Physics, vol. 29, no. 3, pp. 546-572, 1958.
[4] M. Abadi et al., “TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems,” arXiv:1603.04467 [cs], Mar. 2016.

1 Consulter avec Chrome, safari ou opera

Citer ce document par son DOI 10.17601/RD_MEDIATION2017:2

English version at https://www.rd-mediation.fr/wp/2017/08/14/announcement-an-artificial-intelligence-to-predict-chemicals-markets/

Télécharger cet article au format PDF ou ePub

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *