Capítulo 11. Encontrar un motivo proteico: Obtención de datos y uso de expresiones regulares

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Ya hemos pasado bastante tiempo buscando motivos de secuencias.Como se describe en el reto MPRT de Rosalind, las secuencias compartidas o conservadas en las proteínas implican funciones compartidas. En este ejercicio, necesito identificar secuencias de proteínas que contengan el motivo de N-glicosilación. La entrada del programa es una lista de ID de proteínas que se utilizará para descargar las secuencias del sitio web UniProt. Tras demostrar cómo descargar los datos manual y programáticamente, mostraré cómo encontrar el motivo utilizando una expresión regular y escribiendo una solución manual.

Aprenderás:

  • Cómo obtener datos de Internet mediante programación

  • Cómo escribir una expresión regular para encontrar el motivo de N-glicosilación

  • Cómo encontrar manualmente el motivo de N-glicosilación

Cómo empezar

Todo el código y las pruebas de este programa se encuentran en el directorio 11_mprt.Para empezar, copia la primera solución en el programa mprt.py:

$ cd 11_mprt
$ cp solution1_regex.py mprt.py

Inspecciona el uso:

$ ./mprt.py -h
usage: mprt.py [-h] [-d DIR] FILE

Find locations of N-glycosylation motif

positional arguments:
  FILE                  Input text file of UniProt IDs 1 optional ...

Get Dominar Python para Bioinformática now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.