Comparer des séquences avec l’outil BLAST

BLAST (pour Basic Local Alignment Search Tools) est un outil accessible en ligne, utilisé en bioinformatique pour rechercher des régions similaires entre deux ou plusieurs séquences nucléotidiques ou protéiques. L’objectif de cet article est de faire le point sur l’utilisation de cet outil.

Dans le cadre de l’enseignement des Sciences de la Vie et de la Terre, le programme offre l’occasion d’utiliser des outils normalement destinés aux professionnels. [ …Ce sont autant de possibilités offertes aux lycéens de manipuler les outils actuels des sciences du vivant et de la Terre, qui leur ouvrent de nouvelles perspectives de formation, comme la bio-informatique ou l’exploitation de données…].

Principe de fonctionnement

BLAST recherche dans une base de données de séquence des segments qui sont localement homologues à une séquence-test fournie par l’utilisateur (query sequence). BLAST utilise une matrice de similarité pour calculer des scores d’alignement. Il fournit un score pour chaque alignement et utilise ce score pour donner une évaluation statistique de la pertinence de cet alignement (probabilité qu’il soit dû au hasard)[Blast sur Wikipedia].

Pour pouvoir effectuer cette tâche, BLAST se base sur une approche heuristique : les séquences de la base de données sont préalablement indexées dans un ’dictionnaire de mots’, qui dresse la liste des séquences de la base de données contenant chaque oligomère (oligopeptide pour les bases de données de protéines, oligonucléotides pour les séquences nucléiques) d’une taille donnée : le principal critère pour qu’il reporte un alignement est qu’il arrive à trouver au moins un ’mot’ de taille 11 (par défaut, mais on peut le changer) présent exactement dans la référence, puis il étend l’alignement autour de ce mot. Quand on lance une recherche, BLAST commence par analyser la séquence requête en dressant la liste des oligomères présents. Il consulte ensuite le dictionnaire pour extraire la liste des séquences de la base de données qui contiennent ces mots, et lance un alignement par paire avec ce sous-ensemble des séquences [1]

Exemple d’application

L’exemple qui suit se réfère au programme de première (Enseignement de spécialité).

Niveau ou cycle concerné : Première Enseignement de spécialité

Points abordés des programmes disciplinaires : L’histoire humaine lue dans son génome → Explorer quelques stratégies et outils informatiques de comparaisons de séquences entre génomes individuels.

Compétence(s), capacité(s) déclinées dans la situation d’apprentissage : Utiliser des logiciels d’acquisition, de simulation et de traitement de données.

Mise en situation

Des chercheurs ont séquencé en 2010 l’ADN nucléaire extrait de la phalange de Denisova. Ils se sont demandé si les denisoviens avaient contribué au génome des européens et des asiatiques du nord. En 2014, des travaux menés sur des Tibétains montrent un métissage entre des dénisoviens et les ancêtres des tibétains d’aujourd’hui. Cela pourrait expliquer l’adaptation des Tibétains à l’altitude, et serait un indice supplémentaire sur la contribution des autres Homos aux caractéristiques biologiques des Homos sapiens actuels.

On dispose d’une portion de la séquence de l’ADN nucléaire dénisovien :

TTGGACATCAGAATGTACCTAGAACACTGACCACTGGAACACTG CCTTCATCTCAAACATTTTTGTCACTCCTTTGGAATGGCCCTCACA GCCAAGACCATTCTTTTCAATACCTTCAATTGTGGCAAAGTCTTAT CTTTTGAGGGCACATTTTATCCTATCAAACAACCACAATCCATCCA CAGCTAAGTCTGGTGACTAACGGGGTGGGTAAACTGGATAATATT GTTTGGGGTTTGAAATGAGGTGTGTCCTTTGAAGAGTTGTGACTG ATTTTCTTATGTGGCTCTGAAGTTAATTCTAAAAGACTTCCCAAAA GACAGAGCGATGGCCACCTACCAGCATAAAGTTATAGGCTTCTCC CAAGGTGGCTTCTTTGAAGGGTAGCCACCTTCTGTGTGGCATCTA TTTCACATGTCTCATTATTTTCATCTCCCTCTTCCTGTTAGCCATAG CATCTGGTACAGTGGTGATCACACC

Fichier au format texte :

portionDenisova

On se propose d’utiliser l’outil « Blast » pour rechercher si cette séquence se retrouve chez l’Homme actuel.

Se rendre à l’adresse suivante : https://blast.ncbi.nlm.nih.gov/Blast.cgi puis cliquer sur « Nucléotide Blast ».

On copie/colle la séquence recherchée dans le champs en haut de la page, on choisit la base de données (database) à exploiter (ici cocher Genomic + transcript databases et « Human genomic+transcript » avec la collection de nucléotides), puis on sélectionne « Somewhat similar sequences (blastn) » , et on clique enfin sur le bouton « BLAST ».

Il faut patienter quelques secondes avant d’avoir le résultat :

Une fenêtre surgit avec les séquences répertoriées dans les bases de données présentant des alignements significatifs avec la séquence testée.

En cliquant sur l’onglet «  Graphic Summary », on obtient la fenêtre suivante :

En retournant sur l’onglet « Descriptions », on va sélectionner la séquence présentant le plus de similitudes avec notre séquence dénisovienne.

Quel est l’intérêt de l’E-value ?

La e-valeur (en anglais : e-value ou expect pour expected value) représente le nombre de résultats qu’on s’attendrait à obtenir au hasard, en fonction des paramètres utilisés pour un programme. Pour plus d’explications, voir ici.

Notre requête s’aligne parfaitement avec les deux premières séquences de la liste. On peut afficher une vue plus détaillée, fournissant pour chaque séquence résultat, l’alignement avec notre séquence requête en cliquant sur la séquence proposée :

On apprend ainsi que notre séquence de 480 nucléotides est une portion d’un gène plus long (96302 nucléotides), le gène EPAS1, situé sur le chromosome 2. Notre séquence-requête s’aligne avec le gène EPAS1 entre les nucléotides 48696 et 49175.

Documents à télécharger

Dans la même rubrique…

Mots-clés

Articles liés