Pourquoi mes données n’ont aucun sens?

Après des heures et des jours d’acquisition patiente de données, le verdict tombe: il n’y a aucune correspondance entre ces données et les phénomènes que l’on veut observer. Pas de corrélation, pas de cause, pas d’effet, pas de sens. Que se passe-t-il? Dans ce papier, sans utiliser de statistiques – puisque selon Mark Twain il y a trois sortes de mensonges: les mensonges, les gros mensonges et les statistiques – mais en faisant plutôt appel au sens commun. Nous allons lutter contre l’absence de sens avec du bon sens.

Dans son excellent article pour la revue parodique « Improbable Research » intitulé « Electron band structure in germanium, my ass!« , Lucas Kovar de l’université du Wisconsin présente ses résultats:

Qui laissent clairement apparaître une corrélation discutable entre la résistivité et la température. L’auteur conclut d’ailleurs son papier par « Going into physics was the biggest mistake of my life. I should’ve declared CS. I still wouldn’t have any women, but at least I’d be rolling in cash. »

À part les mathématiciens qui croient en la magie des équations, la plupart des scientifiques, et en premier lieu ceux qui sont confrontés à la matière, au vivant ou aux sociétés humaines, savent que peu de phénomènes suivent les équations à moins de les observer dans des conditions tellement rigides qu’elles n’existent pas dans la nature tout en ajoutant autant de coefficients que possible afin de coller un peu aux observations. Les théoriciens croient que la nature est compliquée, alors qu’elle est complexe.

Les récentes avancées en Intelligence Artificielle ont permis de trouver des relations inédites et nouvelles entre des effets et des causes. Deep Learning, Xgboost ont ouvert de nouvelles possibilités de mise en relation de choses qui, a priori, n’ont pas de rapport. Ces technologies ont permis de répondre à des questions telle que « qu’est-ce qu’un chat? » « qui va mourrir sur le Titanic? » « Qu’est ce que sent une substance? »

Il n’en reste pas moins que, souvent, il n’est pas possible « pour le moment » de mettre en relation quelque chose avec autre chose. Nous allons voir cela. Pourquoi ces données ne veulent rien dire?

Argument AD ABSURDUM

Les données n’ont structurellement rien à voir avec le sujet. Par exemple la forme de l’écriture n’a rien à voir avec la personnalité (ce qui est archidémontré depuis 30 ans). Si cela a fait le business d’armée d’escrocs graphologues, cela ne sert à rien d’essayer d’entrainer un réseau de neurones avec.

Argument cum hoc ergo propter hoc

La corrélation prouve la causalité. C’est évidemment faux et si une IA est entrainée à trouver une corrélation elle sera pourtant incapable de prédire quelque chose sur un nouveau cas. Par exemple, un ensemble de données montrant une nette corrélation entre le levée du jour et l’arrivée de grain dans la gamelle des dindes ne permettra pas ensuite de prédire ce qui va leur arriver le jour de Noël.

Argument du tampon

Imaginons que nous observions un phénomène à la surface de l’ocean. Des vitesses de vagues par exemple. Cela est bien sûr corrélé à la forme des fonds marins, au vent et à plein d’autre choses. Mais la seule mesure de la vitesse de la vague ne contient pas assez d’information pour prédire la forme du fond. C’est un peu comme écouter un discours avec deux oreillers sur les oreilles. On se dit que ça parle, mais de là à savoir ce dont on nous parle…

Argument de la régression diabolique

Il s’agit là de penser que les causes sont séparées des effets et que les effets ne rétro-agissent pas sur les causes. Et de penser en plus que tout cela se passe en continu, sans accroc. C’est le malheur de la régression linéaire et le diable des plans d’expériences ratés. La nature n’est pas linéaire, sinon on aurait pas de chimie, elle n’est pas continue, sinon les glaçons ne fondraient pas dans les verres, et elle se moque totalement de l’indépendance des causes et des effets. Vouloir à tout prix faire entrer la nature sous une droite est voué à l’échec. Plus on mange, plus on grossit mais plus on grossit plus on mange. Par contre il y aura un moment où cela s’arrêtera.

Argument du radin chanceux

L’argument du radin chanceux est celui qui conduit à espérer que les résultats obtenus dans une certaines configuration deux ou trois fois de suite justifient de faire l’économie de reproduire un peu plus les essais. Par exemple le radin chanceux qui tire à pile ou face trois fois de suite et obtient face conclura que la pièce est truquée.

Argument du laborantin nul

Cela se produit quand un ensemble de données ne présente aucun sens avec Jacky et tout d’un coup commence à en avoir un quand Christine fait les mesures (les prénoms ont été changés).

Télécharger cet article au format PDF ou ePub

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.