Kapitel 10. Arbeiten mit Sequenzdaten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Eines der Hauptprobleme der Bioinformatik ist der Umgang mit einer Fülle von (oft schlecht definierten oder mehrdeutigen) Dateiformaten. Einige einfache, von Menschen lesbare Ad-hoc-Formate haben im Laufe der Zeit den Status von De-facto-Standards erlangt.
Peter Cock et al. (2010)
Gute Programmierer/innen wissen, was sie schreiben müssen. Großartige Programmierer wissen, was sie neu schreiben (und wiederverwenden) müssen.
Die Kathedrale und der BasarEric S. Raymond
Nukleotid- (und Protein-) Sequenzen werden in zwei Klartextformaten gespeichert, die in der Bioinformatik weit verbreitet sind: FASTA und FASTQ - abgekürzt fast-ah (oder fast-A) bzw. fast-Q. In diesem Abschnitt gehen wir auf die beiden Formate und ihre Einschränkungen ein und stellen einige Tools für die Arbeit mit Daten in diesen Formaten vor. Dies ist ein kurzes Kapitel, das aber eine wichtige Lektion enthält: Hüte dich vor den üblichen Fallstricken, wenn du mit Ad-hoc-Formaten in der Bioinformatik arbeitest. Einfache Fehler bei kleinen Details wie Dateiformaten können unverhältnismäßig viel Zeit und Energie kosten, um sie zu entdecken und zu beheben.
Das FASTA Format
Das FASTA-Format stammt aus der FASTA Alignment Suite, die von William R. Pearson und David J. Lipman entwickelt wurde. Pearson und David J. Lipman. Das FASTA-Format wird verwendet, ...
Get Bioinformatik Datenkenntnisse now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.