Kapitel 11. Ein Protein-Motiv finden: Daten abrufen und reguläre Ausdrücke verwenden
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Wir haben jetzt viel Zeit damit verbracht, nach Sequenzmotiven zu suchen.Wie in der Rosalind MPRT Challenge beschrieben, deuten gemeinsame oder konservierte Sequenzen in Proteinen auf gemeinsame Funktionen hin. In dieser Übung muss ich Proteinsequenzen identifizieren, die das N-Glykosylierungsmotiv enthalten. Die Eingabe für das Programm ist eine Liste von Protein-IDs, mit der die Sequenzen von der UniProt-Website heruntergeladen werden. Nachdem ich demonstriert habe, wie man die Daten manuell und programmgesteuert herunterlädt, zeige ich, wie man das Motiv mithilfe eines regulären Ausdrucks und durch Schreiben einer manuellen Lösung findet.
Du wirst lernen:
-
Wie man programmatisch Daten aus dem Internet abruft
-
Wie man einen regulären Ausdruck schreibt, um das N-Glykosylierungsmotiv zu finden
-
Wie man das N-Glykosylierungsmotiv manuell findet
Erste Schritte
Der gesamte Code und die Tests für dieses Programm befinden sich im Verzeichnis 11_mprt.Um zu beginnen, kopiere die erste Lösung in das Programm mprt.py
:
$ cd 11_mprt $ cp solution1_regex.py mprt.py
Überprüfe die Verwendung:
$ ./mprt.py -h usage: mprt.py [-h] [-d DIR] FILE Find locations of N-glycosylation motif positional arguments: FILE Input text file of UniProt IDs optional arguments: -h, --help show ...
Get Python für die Bioinformatik beherrschen now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.