Kapitel 11. Ein Protein-Motiv finden: Daten abrufen und reguläre Ausdrücke verwenden

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wir haben jetzt viel Zeit damit verbracht, nach Sequenzmotiven zu suchen.Wie in der Rosalind MPRT Challenge beschrieben, deuten gemeinsame oder konservierte Sequenzen in Proteinen auf gemeinsame Funktionen hin. In dieser Übung muss ich Proteinsequenzen identifizieren, die das N-Glykosylierungsmotiv enthalten. Die Eingabe für das Programm ist eine Liste von Protein-IDs, mit der die Sequenzen von der UniProt-Website heruntergeladen werden. Nachdem ich demonstriert habe, wie man die Daten manuell und programmgesteuert herunterlädt, zeige ich, wie man das Motiv mithilfe eines regulären Ausdrucks und durch Schreiben einer manuellen Lösung findet.

Du wirst lernen:

  • Wie man programmatisch Daten aus dem Internet abruft

  • Wie man einen regulären Ausdruck schreibt, um das N-Glykosylierungsmotiv zu finden

  • Wie man das N-Glykosylierungsmotiv manuell findet

Erste Schritte

Der gesamte Code und die Tests für dieses Programm befinden sich im Verzeichnis 11_mprt.Um zu beginnen, kopiere die erste Lösung in das Programm mprt.py:

$ cd 11_mprt
$ cp solution1_regex.py mprt.py

Überprüfe die Verwendung:

$ ./mprt.py -h
usage: mprt.py [-h] [-d DIR] FILE

Find locations of N-glycosylation motif

positional arguments:
  FILE                  Input text file of UniProt IDs  optional arguments: -h, --help show ...

Get Python für die Bioinformatik beherrschen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.