Chapitre 11. Trouver un motif protéique : Récupérer des données et utiliser des expressions régulières
Nous avons passé pas mal de temps à chercher des motifs de séquence.Comme décrit dans le défi Rosalind MPRT, les séquences partagées ou conservées dans les protéines impliquent des fonctions partagées. Dans cet exercice, je dois identifier les séquences de protéines qui contiennent le motif de N-glycosylation. L'entrée du programme est une liste d'identifiants de protéines qui sera utilisée pour télécharger les séquences à partir du site Web UniProt. Après avoir montré comment télécharger les données manuellement et par programme, je montrerai comment trouver le motif à l'aide d'une expression rationnelle et en écrivant une solution manuelle.
Tu apprendras :
-
Comment récupérer des données sur Internet de manière programmatique ?
-
Comment écrire une expression régulière pour trouver le motif de N-glycosylation ?
-
Comment trouver manuellement le motif de N-glycosylation ?
Pour commencer
Tout le code et les tests de ce programme se trouvent dans le répertoire 11_mprt.Pour commencer, copie la première solution dans le programme mprt.py:
$ cd 11_mprt $ cp solution1_regex.py mprt.py
Inspecte l'utilisation :
$ ./mprt.py -h usage: mprt.py [-h] [-d DIR] FILE Find locations of N-glycosylation motif positional arguments: FILE Input text file of UniProt ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access