Decoder son génome

artistraman / Pixabay

Nous quittons pour cet article, en partie, le domaine de l’intelligence artificielle pour nous intéresser à la génomique. Comment décoder le génome et chercher des choses intéressantes qui se cachent à l’intérieur? Nous vous présentons ici une brève explication.

 

Quelques choses à savoir

  • Tous les êtres vivants sont construits à partir d’une suite d’instructions écrites avec quatre lettres (ATGC) sur de longues molécules d’ADN
  • Les humains ont 23 paires de chromosomes qui contiennent ce programme, 23 chromosomes proviennent de la mère, 23 du père
  • Seul le chromosome Y vient du père (XY pour les hommes, XX pour les femmes)
  • Les mitochondries sont de petites usines énergétiques incluses dans la cellule et qui sont probablement d’anciennes bactéries absorbées et asservies. À ce titre, elles ont leur propre ADN, seulement transmis par la mère (les spermatozoïdes sont trop petits pour en emporter)
  • L’ADN du chromosome Y, transmis uniquement par le père, et du chromosome M, transmis uniquement par la mère, permet de remonter les origines familiales sur plusieurs milliers d’années
  • Comprimé en 2 bits, le génome humain représente 778 Mb
  • Le génome humain diffère peu entre les individus. Dans mon génome, seules 3822021 doublets de lettres sont différents de l’humain de référence, soit 0,15%. Ces différences entre individus concernent seulement 12% de l’ensemble du génome. En moyenne, deux individus pris au hasard diffèrent de 0,5%.

Humain de référence

Annonce de 1997 dans Buffalo,NY

En mars 1997, trente volontaires de la région de Buffalo,NY sont recrutés pour que leurs génomes établissent en commun un « humain de référence » baptisé HG19.

L’opération est onéreuse, car la technique (la PCR) est nouvelle. Bien qu’il existe des fichiers de référence plus récents (HG38), beaucoup de laboratoires (23andme, DanteLabs) utilisent encore HG19 comme référence.

Coût de décodage d’un génome

Le fichier HG19.fa contient une séquence de lettre ATGC suivant la ligne de chaque chromosome. Le coût du décodage d’un génome est passé de 100 M$ en 2000 à 300$ en 2019, subissant une réduction de coût vertigineuse, permettant à des communes de l’utiliser pour verbaliser les propriétaires de chiens qui crottent sur les trottoirs.

La procédure de décodage consiste donc à rechercher des différences entre le génome HG19 et celui de l’individu. Ces différences sont appelées « variants » et peuvent être des remplacements d’une lettre par une autre, des disparitions de lettres…

Après analyse de salive, les résultats arrivent soit sous la forme d’un fichier raw (23andme), soit sous la forme d’un fichier VCF (Dantelabs)

Free-Photos / Pixabay

Le fichier de 23andme est simple à lire selon les colonnes:

  1. RSID: un numéro qui indique un marqueur découvert précédemment et relié à une caractéristique. Par exemple le rs601338 indique une résistance au norovirus (gastro enthérite) quand le père et la mère ont tous les deux transmis la lettre A
  2. Le numéro du chromosome (1 à 22 ou X,Y,M)
  3. La position
  4. La valeur portée par l’individu : AA

Pour manipuler les fichiers, vous pouvez installer SAMTOOLS (sur MACOS avec la commande brew install samtools)

Si vous avez installé le génome hg19.fa, vous pouvez connaître la base de référence:

> samtools faidx ../../genoml/hg19.fa chr19:49206674-49206674

chr19:49206674-49206674
G
Le génome de référence est donc G

Remarque: Le fichier de taille réduite peut également être consulté par la commande twoBitToFa hg19.2bit:chr19:49206674-49206675 stdout  (L’utilitaire existe pour Mac ou linux)

Le fichier Dantelab est sous forme VCF:

chr19 49206674 . G A 225 . DP=55;VDB=0.777032;SGB=-0.693147;MQSB=0.840081;MQ0F=0;AC=2;AN=2;DP4=0,0,23,22;MQ=57  GT:PL  1/1:255,135,0
La première lettre représente la référence (G), la seconde indique le variant (A). Le commentaire AC=2 indique que l’individu porte deux A. Si le variant avait été C et que AC=1 alors on aurait eu GC. Si le variant avait été noté C,T (AC=1) alors la paire aurait été CT. Le chiffre de 225 indique la qualité. Plus il est haut, plus le résultat est certain.

Les fichiers de Dantelab ne sont pas annotés (les références ne sont pas indiquées dans le champ ID). Cela peut être fait au moyen d’un fichier VCF de référence (common.vcf) par la commande:

bcftools annotate -c CHROM,FROM,TO,ID common.vcf.gz my.snp.vcf.gz | bgzip > my_annotated.vcf.gz

Remarque: Tous les fichiers doivent être indexés avec la commande tabix fichier.vcf.gz

La ligne précédente devient:

chr19 49206674 rs601338 G A 225 . DP=55;VDB=0.777032;SGB=-0.693147;MQSB=0.840081;MQ0F=0;AC=2;AN=2;DP4=0,0,23,22;MQ=57  GT:PL  1/1:255,135,0
Si vous ne souhaitez pas faire ce travail, Promethease génère des rapports détaillés à coût réduit.

Haplogroupe

L’haplogroupe est constitué par des marqueurs qui détermine l’origine ethnique paternelle (sur le chomosome Y) ou maternel (sur l’ADN mitochondrial).

Par exemple, la commande

samtools faidx hg19.fa chrY:15333149-15333149

donne C comme base de référence. La mutation T de cette position, indique un haplogroupe de la lignée masculine U152. Ce groupe correspond aux celtes de La Tène, à la frontière franco-suisso-allemande. Par ailleurs, une récente étude semble scandaleusement montrer que les descendants de Richard III portent cet Haplogroupe, alors que son squelette récemment découvert porte un haplogroupe différent.

 

 

 

23andme vs DanteLabs

Environ 1% des résultats de 23andme (fait il y a 5 ans) et de DanteLabs diffèrent. Essentiellement, le processus soit n’identifie pas de variant là ou 23andme en avait trouvé en raison de la qualité QUAL ou bien la valeur trouvée est différente.

Et la santé?

Au-delà des aspects scientifiques, généalogiques, ou amusants, par exemple dans mon cas la résistance à la gastro-entérite très pratique au demeurant, certains marqueurs sont aisément corrélables à des aspects moins joyeux: cancers, maladies dégénératives (Parkinson, Alzheimer…) . Les tests génétiques ne constituent pas un diagnostic, mais un indice, d’autant que la perception du risque est propre à chacun. Ainsi un marqueur engendrant un risque accru de cancer du poumon, sera très acceptable pour une personne qui par ailleurs ne fume pas. Finalement assez peu de gènes sont corrélés à 100% à des pathologies. Si on analyse les magnitudes, qui sont des indicateurs subjectifs – de 0 à 10 – de l’impact sur la santé d’un marqueur donné, en dessous de 4 l’impact est considéré comme très faible. Seuls quelques marqueurs (tel celui de l’apoε4 pour Alzheimer sont cotés très haut)

Vais-je mourir cette année?

Les sociétés de génomiques fournissent volontiers des indications anxiogènes reliant tel ou tel marqueur SNP à une augmentation du risque de cancer ou de crise cardiaque. Outre que, comme nous l’avons vu, seule une partie des causes de maladies sont génétiques, la probabilité de mourir une année donnée suit la loi de Gompertz.

p(age)=exp(-0.003 exp((age-25)/10))

soit les deux fonctions

go=lambda a:np.exp(-0.003*np.exp((a-25)/10))
dgo=lambda a:(go(a)-go(a+1))/go(a+0.5)
 

Ainsi, la probabilité de mourir une année donnée double tous les 8 ans (plus exactement elle est multipliée par 2.22). Cette loi est assez universelle et indépendante des progrès médicaux. De récents travaux semblent montrer que cette loi ne varie plus après 105 ans. Au delà, la probabilité de mourir est constante. Ce qui a l’air d’une bonne nouvelle peut être tempéré par le fait que la probabilité de mourir est alors de plus de 96%.

La mauvaise nouvelle c’est que cette loi est une exponentielle d’exponentielle qui s’expliquerait par une compétition entre les dégradations du génome et la performance des enzymes qui le répare. La probabilité de mourir l’année de ses 40 ans est de 0.1%. À 50 ans elle est de 0.4%. Elle passe à 1% à 60 ans et à 7.7% l’année des 80 ans.

En réalité en 2011 en France, les gens sont morts de 2,4 causes en moyenne. Même si un SNP multiplie par 3 le risque de maladie cardiovasculaire, lui même imputable à moins de 50% à la génétique, alors que vous avez moins de 1% de risque des décès Gompertz, on voit très facilement que l’impact de l’analyse génétique sur la prévision de l’avenir médical est bien moins important que la psychologie de l’attitude face à la prise de risque, les habitudes sexuelles et les fast foods.

 

Et l’éthique?

Bien qu’on nous ait annoncé des drames familiaux par la découverte de parents fautifs, finalement la disponibilité des tests n’a pas engendré tant d’histoires. Le couplage de ces masses de données avec l’intelligence artificielle pose un problème de plus grande ampleur. En effet, la probabilité est grande qu’à court terme la date de votre mort puisse être prédite avec une bonne précision, ne vous laissant que les accidents et le suicide pour exercer votre libre arbitre. Et encore, la dépression peut se remarquer quelque part sur le chromosome 8.

Les questionnaires des banques et des assurances, les contrôles médicaux, déjà fort inquisiteurs pourraient être rendus inutiles si la loi autorisait les assurances à demander les fichiers VCF des clients.

Si peu de données

Quelques remarques sur le génome et son décodage

  • Comme dans le cas de l’IA où on ne peut qu’être surpris que le réseau de neurones inceptionV3 soit à peu près de la taille du cerveau d’un abeille sans pour autant produire de miel, nous ne pouvons qu’être surpris qu’un programme de 778Mo puisse faire un humain;
  • Une explication pourrait être que les programmes informatiques sont des mécaniques, alors que les programmes biologiques sont des chaos intelligemment organisés
  • Aux perspectives de catégorisation des individus, par classe de risque, d’intelligence, d’opinion s’ajoute maintenant la capacité à modifier les gènes par Crispr-Cas9
  • Le couplage de l’IA avec la génomique permettra sans doute à terme d’adapter très précisément les traitements, mais aussi d’orienter les choix

Comme en intelligence artificielle, gagner une culture minimale en génomique devient un enjeu personnel et politique.

 

Pour aller plus loin

Exemple d’alignement chr19:49206674

La technique utilisée pour décoder un génome, la PCR, consiste à fragmenter et dupliquer des fragments d’ADN pour en voir suffisamment pour les analyser. Une fois cette identification faite, il faut réaligner les fragments en détectant comment ils se recouvrent. Cela aboutit à un fichier BAM qui regroupe ces alignements et qui fait de l’ordre de 100 Go.

La commande

samtools view my.bam ‘chr19:49206674-49206674’ | awk ‘{print $1″\t »$10}’

permet de visualiser le contenu du fichier BAM.

Pour retrouver les variants, il faut le comparer à l’humain de référence:

bcftools mpileup -Ou -r chr19 -f hg19.fa my.bam | bcftools call -mv -Oz -o myvcf.gz

permet d’obtenir le fichier vcf (en environ 1h30 sur un mac) pour le chromosome 19.

Remarque: l’outil vcf-to-23 permet de convertir les fichiers VCF dans le même format que 23andme pour faciliter la comparaison. VcfTools (installable sur MACOS via brew install vcftools) dispose également de cette possibilité de conversion via la commande

zcat file.vcf.gz | vcf-to-tab > out.tab

Télécharger cet article au format PDF ou ePub
Cette entrée a été publiée dans santé et étiqueté . Sauvegarder le permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.