Abonnez-vous à Universalis pour 1 euro

GÉNOMIQUE : ANNOTATION DES GÉNOMES

Reconstruire une séquence d’ADN génomique complète

Un génome n’est jamais séquencé en une seule fois : les séquenceurs ne produisent que des fragments de courte taille par rapport à celle du génome. Ceux de première génération permettent de décrypter la séquence d’un fragment d’ADN, en une réaction, sur une longueur de 1 000 nucléotides au mieux ; les séquenceurs NGS permettent de séquencer en parallèle plusieurs millions de fragments différents longs de 35 à 700 paires de bases (pb) selon les technologies ; de nouveaux séquenceurs, dits de troisième génération, réalisent un séquençage en temps réel permettant l’obtention de séquences longues de plusieurs kilobases, mais ils souffrent d’un taux d’erreur important. Ainsi, pour avoir un génome entier, il faut dans un premier temps être capable de détecter les erreurs, d’ordonner et rabouter des fragments quelle que soit la méthode de séquençage utilisée.

Étapes de l’analyse bio-informatique des séquences d’ADN - crédits : Encyclopædia Universalis France

Étapes de l’analyse bio-informatique des séquences d’ADN

Plusieurs millions de courtes séquences d’ADN sont donc obtenues à la fin du séquençage du génome d’un organisme. On les nomme « lectures » ou plutôt, comme en anglais,reads ; ils sont de longueur variable selon la technologie utilisée. Dans le cadre d’un séquençage de novo (pour une espèce dont le génome n’a encore jamais été déterminé), il faut ordonner ces lectures afin de reconstituer la séquence complète de l’ADN de chaque chromosome. Dans le cadre d’un reséquençage (pour une espèce dont le génome d’un individu, ou génome de référence, a déjà été déterminé), où les objectifs sont dirigés vers la connaissance des différences génétiques entre individus (polymorphismes), l’ordonnancement des lectures s’appuie sur la séquence déjà connue qui sert de référence. L’analyse bio-informatique qui permet d’aboutir à un génome complet se construit en plusieurs étapes. Dans tous les cas, on s’assure de la qualité des reads et de leur nettoyage puis on les assemble de novo si l’on ne dispose pas de génome de référence, ou on les aligne (mapping, en anglais) sur un génome de référence lorsqu’il existe.

Analyse de la qualité des reads

L’ensemble des reads est stocké, pour chaque individu, sous un format informatique particulier dans un fichier appelé FASTQ (« FASTA Quality »). Le séquenceur attribue, pendant l’analyse du signal généré par la lecture d’un nucléotide lors du séquençage de l’ADN, un score de qualité lié à la probabilité d’erreur d’identification de ce nucléotide, allant de 0 à 40. Un score de 10, 20 ou 30 correspond à une probabilité d’erreur, de 1/10, 1/100 ou 1/1 000 respectivement, dans l’identification d’un nucléotide donné à une position donnée. Ces scores sont encodés par un caractère unique, décrypté par le programme d’analyse qualité. Parfois, le séquenceur échoue à identifier un nucléotide, et il n’est pas rare de voir le symbole N (qui signifie « n’importe quel nucléotide ») dans la séquence d’un read, ce qui est associé à un mauvais score de qualité : on parle alors de bases ambiguës.

Le programme de référence pour l’analyse qualité des reads est donc l’outil FASTQC, développé par le Babraham Institute (Cambridge, Angleterre). Il permet de calculer et de visualiser graphiquement un ensemble de paramètres pour évaluer la qualité de l’ensemble des reads obtenus pour un individu.FASTQC propose notamment un graphique permettant de visualiser la distribution de qualité de chaque base pour chaque position dans le read. Cela est particulièrement utile au bio-informaticien qui pourra définir par la suite la taille de la région à retirer de l’analyse lors de l’étape suivante, en général des portions de séquence dont la qualité médiane est inférieure à 20. D’autres graphiques permettent de détecter l’existence de problèmes lors du séquençage comme le nombre de reads[...]

La suite de cet article est accessible aux abonnés

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

Classification

Médias

Étapes de l’analyse bio-informatique des séquences d’ADN - crédits : Encyclopædia Universalis France

Étapes de l’analyse bio-informatique des séquences d’ADN

Principe de l’approche dite Greedy pour l’assemblage <em>de novo</em> de fragments d’ADN - crédits : Encyclopædia Universalis France

Principe de l’approche dite Greedy pour l’assemblage de novo de fragments d’ADN

Principe de l’approche OLC (Overlap Layout Consensus) pour l’assemblage <em>de novo</em> des produits de séquençage - crédits : Encyclopædia Universalis France

Principe de l’approche OLC (Overlap Layout Consensus) pour l’assemblage de novo des produits de séquençage

Autres références

  • SÉQUENÇAGE DU GÉNOME HUMAIN, en bref

    • Écrit par et
    • 286 mots

    Le 12 février 2001, les revues scientifiques Nature et Science publient la séquence quasi complète des trois milliards de bases du génome humain. Cette double publication conclut par un ex aequo la compétition entre un consortium international de laboratoires publics, qui a commencé ses...

  • BIOTECHNOLOGIES

    • Écrit par
    • 5 368 mots
    • 4 médias
    Des gènes responsables de la résistance aux herbicides, aux infections virales, fongiques ou bactériennes, identifiés grâce au progrès de lagénomique, sont utilisés pour transférer aux plantes ces mêmes propriétés de résistance. C'est en 1985 que les premiers essais en champ de plantes transgéniques...
  • BOTANIQUE

    • Écrit par et
    • 5 647 mots
    • 7 médias
    ...scientifique s'est accélérée, engendrant des bouleversements imprévisibles de notre compréhension du monde, y compris celui des plantes. La génomique, par exemple, est en train de révéler une évolution et un fonctionnement bien plus complexe des génomes d'eucaryotes (organismes pourvus d'un...
  • CANCER - Cancer et santé publique

    • Écrit par
    • 14 762 mots
    • 8 médias
    ... représente un autre domaine de recherche. Maintenant qu'ont été identifiés les défauts du génome caractérisant les cellules cancéreuses, il est tentant d'essayer de les corriger et de faire redevenir normales les cellules cancéreuses. Quelques résultats ont été obtenus chez l'homme dans...
  • Afficher les 29 références