GÉNOMIQUE : ANNOTATION DES GÉNOMES
Reconstruire une séquence d’ADN génomique complète
Un génome n’est jamais séquencé en une seule fois : les séquenceurs ne produisent que des fragments de courte taille par rapport à celle du génome. Ceux de première génération permettent de décrypter la séquence d’un fragment d’ADN, en une réaction, sur une longueur de 1 000 nucléotides au mieux ; les séquenceurs NGS permettent de séquencer en parallèle plusieurs millions de fragments différents longs de 35 à 700 paires de bases (pb) selon les technologies ; de nouveaux séquenceurs, dits de troisième génération, réalisent un séquençage en temps réel permettant l’obtention de séquences longues de plusieurs kilobases, mais ils souffrent d’un taux d’erreur important. Ainsi, pour avoir un génome entier, il faut dans un premier temps être capable de détecter les erreurs, d’ordonner et rabouter des fragments quelle que soit la méthode de séquençage utilisée.
Plusieurs millions de courtes séquences d’ADN sont donc obtenues à la fin du séquençage du génome d’un organisme. On les nomme « lectures » ou plutôt, comme en anglais,reads ; ils sont de longueur variable selon la technologie utilisée. Dans le cadre d’un séquençage de novo (pour une espèce dont le génome n’a encore jamais été déterminé), il faut ordonner ces lectures afin de reconstituer la séquence complète de l’ADN de chaque chromosome. Dans le cadre d’un reséquençage (pour une espèce dont le génome d’un individu, ou génome de référence, a déjà été déterminé), où les objectifs sont dirigés vers la connaissance des différences génétiques entre individus (polymorphismes), l’ordonnancement des lectures s’appuie sur la séquence déjà connue qui sert de référence. L’analyse bio-informatique qui permet d’aboutir à un génome complet se construit en plusieurs étapes. Dans tous les cas, on s’assure de la qualité des reads et de leur nettoyage puis on les assemble de novo si l’on ne dispose pas de génome de référence, ou on les aligne (mapping, en anglais) sur un génome de référence lorsqu’il existe.
Analyse de la qualité des reads
L’ensemble des reads est stocké, pour chaque individu, sous un format informatique particulier dans un fichier appelé FASTQ (« FASTA Quality »). Le séquenceur attribue, pendant l’analyse du signal généré par la lecture d’un nucléotide lors du séquençage de l’ADN, un score de qualité lié à la probabilité d’erreur d’identification de ce nucléotide, allant de 0 à 40. Un score de 10, 20 ou 30 correspond à une probabilité d’erreur, de 1/10, 1/100 ou 1/1 000 respectivement, dans l’identification d’un nucléotide donné à une position donnée. Ces scores sont encodés par un caractère unique, décrypté par le programme d’analyse qualité. Parfois, le séquenceur échoue à identifier un nucléotide, et il n’est pas rare de voir le symbole N (qui signifie « n’importe quel nucléotide ») dans la séquence d’un read, ce qui est associé à un mauvais score de qualité : on parle alors de bases ambiguës.
Le programme de référence pour l’analyse qualité des reads est donc l’outil FASTQC, développé par le Babraham Institute (Cambridge, Angleterre). Il permet de calculer et de visualiser graphiquement un ensemble de paramètres pour évaluer la qualité de l’ensemble des reads obtenus pour un individu.FASTQC propose notamment un graphique permettant de visualiser la distribution de qualité de chaque base pour chaque position dans le read. Cela est particulièrement utile au bio-informaticien qui pourra définir par la suite la taille de la région à retirer de l’analyse lors de l’étape suivante, en général des portions de séquence dont la qualité médiane est inférieure à 20. D’autres graphiques permettent de détecter l’existence de problèmes lors du séquençage comme le nombre de reads[...]
La suite de cet article est accessible aux abonnés
- Des contenus variés, complets et fiables
- Accessible sur tous les écrans
- Pas de publicité
Déjà abonné ? Se connecter
Écrit par
- Véronique BLANQUET : professeure de génétique, université de Limoges
- Stéphanie DURAND : maître de conférences, faculté des sciences et techniques de Limoges
Classification
Médias
Autres références
-
SÉQUENÇAGE DU GÉNOME HUMAIN, en bref
- Écrit par Nicolas CHEVASSUS-au-LOUIS et Encyclopædia Universalis
- 286 mots
Le 12 février 2001, les revues scientifiques Nature et Science publient la séquence quasi complète des trois milliards de bases du génome humain. Cette double publication conclut par un ex aequo la compétition entre un consortium international de laboratoires publics, qui a commencé ses...
-
BIOTECHNOLOGIES
- Écrit par Pierre TAMBOURIN
- 5 368 mots
- 4 médias
Des gènes responsables de la résistance aux herbicides, aux infections virales, fongiques ou bactériennes, identifiés grâce au progrès de lagénomique, sont utilisés pour transférer aux plantes ces mêmes propriétés de résistance. C'est en 1985 que les premiers essais en champ de plantes transgéniques... -
BOTANIQUE
- Écrit par Sophie NADOT et Hervé SAUQUET
- 5 647 mots
- 7 médias
...scientifique s'est accélérée, engendrant des bouleversements imprévisibles de notre compréhension du monde, y compris celui des plantes. La génomique, par exemple, est en train de révéler une évolution et un fonctionnement bien plus complexe des génomes d'eucaryotes (organismes pourvus d'un... -
CANCER - Cancer et santé publique
- Écrit par Maurice TUBIANA
- 14 762 mots
- 8 médias
... représente un autre domaine de recherche. Maintenant qu'ont été identifiés les défauts du génome caractérisant les cellules cancéreuses, il est tentant d'essayer de les corriger et de faire redevenir normales les cellules cancéreuses. Quelques résultats ont été obtenus chez l'homme dans... - Afficher les 29 références