book

Python für die Bioinformatik beherrschen

Name: Python für die Bioinformatik beherrschen
Author: Ken Youens-Clark
ISBN: 9798341605442

by Ken Youens-Clark

October 2024

Intermediate to advanced

456 pages

11h 48m

German

O'Reilly Media, Inc.

Read now

Unlock full access

Vorwort
Wer sollte das lesen?Programmierstil: Warum ich OOP und Ausnahmen vermeideStrukturTestgetriebene EntwicklungVerwenden der Kommandozeile und Installieren von PythonDen Code und die Tests bekommenModule installierenInstallation des Programms new.pyWarum habe ich dieses Buch geschrieben?In diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
I. Die Rosalind.info-Herausforderungen
1. Tetranukleotid-Frequenz: Das Zählen der Dinge
Erste SchritteDas Programm mit new.py erstellenArgparse verwendenWerkzeuge zum Auffinden von Fehlern im CodeEinführung von benannten TupelnHinzufügen von Typen zu benannten TupelnDarstellung der Argumente mit einem NamedTupleEingaben von der Kommandozeile oder aus einer Datei lesenDein Programm testenDas Programm ausführen, um die Ausgabe zu testenLösung 1: Iterieren und Zählen der Zeichen in einer ZeichenketteZählen der NukleotideSchreiben und Prüfen einer LösungZusätzliche LösungenLösung 2: Erstellen einer count()-Funktion und Hinzufügen eines Unit-TestsLösung 3: Verwendung von str.count()Lösung 4: Ein Wörterbuch verwenden, um alle Zeichen zu zählenLösung 5: Zählen nur der gewünschten BasenLösung 6: Verwendung von collections.defaultdict()Lösung 7: Verwendung von collections.Counter()Weiter gehenÜberprüfung
2. DNA in mRNA transkribieren: Strings mutieren, Dateien lesen und schreiben
Erste SchritteFestlegen der ProgrammparameterDefinieren eines optionalen ParametersEinen oder mehrere erforderliche Positionsparameter festlegenNargs verwenden, um die Anzahl der Argumente festzulegenargparse.FileType() zur Validierung von Datei-Argumenten verwendenDefinieren der Klasse ArgsGliederung des Programms mit PseudocodeIterieren der EingabedateienErstellen der AusgabedateinamenÖffnen der AusgabedateienSchreiben der AusgabesequenzenDrucken des StatusberichtsVerwendung der TestsuiteLösungenLösung 1: str.replace() verwendenLösung 2: re.sub() verwendenBenchmarkingWeiter gehenÜberprüfung
3. Umgekehrte Komplementierung der DNA: String Manipulation
Erste SchritteIteration über eine umgekehrte ZeichenfolgeEinen Entscheidungsbaum erstellenRefactoringLösungenLösung 1: Verwendung einer for-Schleife und eines EntscheidungsbaumsLösung 2: Nachschlagen im WörterbuchLösung 3: Verwendung eines ListenverständnissesLösung 4: str.translate() verwendenLösung 5: Bio.Seq verwendenÜberprüfung
4. Die Fibonacci-Folge erstellen: Schreiben, Testen und Benchmarking von Algorithmen
Erste SchritteEin zwingender AnsatzLösungenLösung 1: Eine imperative Lösung mit einer Liste als StapelLösung 2: Erstellen einer GeneratorfunktionLösung 3: Rekursion und Memoisierung verwendenBenchmarking der LösungenDas Gute, das Schlechte und das Hässliche testenAusführen der Testsuite für alle LösungenWeiter gehenÜberprüfung
5. Berechnen des GC-Gehalts: Parsing von FASTA und Analyse von Sequenzen
Erste SchritteParsing von FASTA mit Biopython erhaltenIterieren der Sequenzen mit einer for-SchleifeLösungenLösung 1: Eine Liste verwendenLösung 2: Typ-Annotationen und Unit-TestsLösung 3: Beibehaltung einer laufenden Max-VariableLösung 4: Verwendung einer List Comprehension mit einem GuardLösung 5: Verwendung der filter()-FunktionLösung 6: Verwendung der map()-Funktion und Summierung von Booleschen WertenLösung 7: Reguläre Ausdrücke zum Finden von Mustern verwendenLösung 8: Eine komplexere find_gc()-FunktionBenchmarkingWeiter gehenÜberprüfung
6. Finden der Hamming-Distanz: Zählen von Punktmutationen
Erste SchritteIteration der Zeichen von zwei StringsLösungenLösung 1: Iterieren und ZählenLösung 2: Erstellen eines EinheitstestsLösung 3: Verwendung der Funktion zip()Lösung 4: Verwendung der Funktion zip_longest()Lösung 5: Eine Liste verwenden VerstehenLösung 6: Verwendung der filter()-FunktionLösung 7: Verwendung der map()-Funktion mit zip_longest()Lösung 8: Verwendung der Funktionen starmap() und operator.ne()Weiter gehenÜberprüfung
7. Die Übersetzung von mRNA in Protein: Mehr funktionale Programmierung
Erste SchritteK-Mere und CodonsCodons übersetzenLösungenLösung 1: Verwendung einer for-SchleifeLösung 2: Hinzufügen von Unit TestsLösung 3: Eine andere Funktion und ein ListenverständnisLösung 4: Funktionale Programmierung mit den Funktionen map(), partial() und takewhile()Lösung 5: Bio.Seq.translate() verwendenBenchmarkingWeiter gehenÜberprüfung
8. Finde ein Motiv in der DNA: Erforschung der Sequenzähnlichkeit
Erste SchritteFolgen findenLösungenLösung 1: Verwendung der Methode str.find()Lösung 2: Verwendung der Methode str.index()Lösung 3: Ein rein funktionaler AnsatzLösung 4: K-mers verwendenLösung 5: Überlappende Muster mit regulären Ausdrücken findenBenchmarkingWeiter gehenÜberprüfung

9. Überlappungsgraphen: Sequenzzusammenbau mit geteilten K-Meren
Erste SchritteVerwaltung von Laufzeitnachrichten mit STDOUT, STDERR und LoggingÜberschneidungen findenSequenzen nach der Überlappung gruppierenLösungenLösung 1: Überschneidungen mit Mengen findenLösung 2: Mit einem Diagramm alle Pfade findenWeiter gehenÜberprüfung
10. Suche nach der längsten gemeinsamen Folge: K-mers finden, Funktionen schreiben und binäre Suche verwenden
Erste SchritteFinden der kürzesten Sequenz in einer FASTA-DateiExtrahieren von K-Meren aus einer SequenzLösungenLösung 1: Frequenzen der K-Mere zählenLösung 2: Mit binärer Suche die Dinge beschleunigenWeiter gehenÜberprüfung
11. Ein Protein-Motiv finden: Daten abrufen und reguläre Ausdrücke verwenden
Erste SchritteHerunterladen von Sequenzdateien über die KommandozeileHerunterladen von Sequenzdateien mit PythonEinen regulären Ausdruck schreiben, um das Motiv zu findenLösungenLösung 1: Verwendung eines regulären AusdrucksLösung 2: Schreiben einer manuellen LösungWeiter gehenÜberprüfung
12. Rückschlüsse von mRNA auf Protein: Produkte und Reduktionen von Listen
Erste SchritteDas Produkt der Listen erstellenÜberlaufvermeidung mit modularer MultiplikationLösungenLösung 1: Verwendung eines Wörterbuchs für die RNA-Codon-TabelleLösung 2: Dreh den Beat umLösung 3: Kodierung der minimalen InformationenWeiter gehenÜberprüfung
13. Standortbeschränkende Seiten: Code verwenden, testen und weitergeben
Erste SchritteAlle Folgen mit K-mers findenAlle umgekehrten Ergänzungen findenAlles zusammenfügenLösungenLösung 1: Verwendung der Funktionen zip() und enumerate()Lösung 2: Verwendung der Funktion operator.eq()Lösung 3: Schreiben einer revp()-FunktionDas Programm testenWeiter gehenÜberprüfung
14. Offene Leserahmen finden
Erste SchritteÜbersetzen von Proteinen innerhalb jedes RahmensFinden der ORFs in einer ProteinsequenzLösungenLösung 1: Verwendung der Funktion str.index()Lösung 2: Verwendung der Funktion str.partition()Lösung 3: Verwendung eines regulären AusdrucksWeiter gehenÜberprüfung
II. Andere Programme
15. Seqmagique: Berichte erstellen und formatieren
Seqmagick zum Analysieren von Sequenzdateien verwendenDateien mit MD5-Hashes prüfenErste SchritteTexttabellen mit tabulate() formatierenLösungenLösung 1: Formatierung mit tabulate()Lösung 2: Formatierung mit reichenWeiter gehenÜberprüfung
16. FASTX grep: Ein Hilfsprogramm zur Auswahl von Sequenzen erstellen
Mit grep Zeilen in einer Datei findenDie Struktur eines FASTQ-DatensatzesErste SchritteDas Dateiformat erratenLösungWeiter gehenÜberprüfung
17. DNA-Synthesizer: Synthetische Daten mit Markov-Ketten erstellen
Markov-Ketten verstehenErste SchritteZufallsgenerierte Samen verstehenLesen der TrainingsdateienGenerierung der SequenzenStrukturierung des ProgrammsLösungWeiter gehenÜberprüfung
18. FASTX Sampler: Zufälliges Subsampling von Sequenzdateien
Erste SchritteÜberprüfung der ProgrammparameterFestlegen der ParameterNicht-deterministische StichprobenStrukturierung des ProgrammsLösungenLösung 1: Reguläre Dateien lesenLösung 2: Einlesen einer großen Anzahl von komprimierten DateienWeiter gehenÜberprüfung
19. Blastomatic: Parsen von Textdateien mit Trennzeichen
Einführung in BLASTcsvkit und csvchk verwendenErste SchritteDefinieren der ArgumenteParsen von durch Trennzeichen getrennten Textdateien mit dem csv-ModulParsen von durch Trennzeichen getrennten Textdateien mit dem Modul pandasLösungenLösung 1: Manuelles Verbinden der Tabellen mithilfe von WörterbüchernLösung 2: Schreiben der Ausgabedatei mit csv.DictWriter()Lösung 3: Dateien lesen und schreiben mit pandasLösung 4: Dateien mit Pandas zusammenführenWeiter gehenÜberprüfung
A. Befehle dokumentieren und Workflows mit make erstellen
Makefiles sind RezepteEin bestimmtes Ziel verfolgenLaufen ohne ZielMakefiles DAGs erstellenMit make ein C-Programm kompilierenMake für eine Abkürzung verwendenDefinieren von VariablenEinen Workflow schreibenAndere Workflow-ManagerWeitere Lektüre
B. Das Verständnis von $PATH und die Installation von Kommandozeilen-Programmen
Epilog
Index
Über den Autor

Content preview from Python für die Bioinformatik beherrschen

Kapitel 4. Die Fibonacci-Folge erstellen: Schreiben, Testen und Benchmarking von Algorithmen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Das Schreiben einer Implementierung der Fibonacci-Folge ist ein weiterer Schritt auf dem Weg des Helden zum Programmierer.In der Beschreibung von Rosalind Fibonacci heißt es, dass der Ursprung der Folge eine mathematische Simulation der Kaninchenzucht war, die auf einigen wichtigen (und unrealistischen) Annahmen beruht:

Der erste Monat beginnt mit einem Paar neugeborener Kaninchen.
Kaninchen können sich nach einem Monat fortpflanzen.
Jeden Monat paart sich jedes Kaninchen im fortpflanzungsfähigen Alter mit einem anderen Kaninchen im fortpflanzungsfähigen Alter.
Genau einen Monat, nachdem sich zwei Kaninchen gepaart haben, produzieren sie einen Wurf in der gleichen Größe.
Kaninchen sind unsterblich und hören nie auf, sich zu paaren.

Die Sequenz beginnt immer mit den Zahlen 0 und 1. Die nachfolgenden Zahlen können ad infinitum erzeugt werden, indem die beiden unmittelbar vorhergehenden Werte in der Liste addiert werden, wie in Abbildung 4-1 gezeigt.

Wenn du im Internet nach ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341605442

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python für die Bioinformatik beherrschen

by Ken Youens-Clark

Kapitel 4. Die Fibonacci-Folge erstellen: Schreiben, Testen und Benchmarking von Algorithmen

Abbildung 4-1. Die ersten acht Zahlen der Fibonacci-Folge - nach der anfänglichen 0 und 1 werden die nachfolgenden Zahlen durch Addition der beiden vorherigen Zahlen gebildet

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.