Kapitel 17. DNA-Synthesizer: Synthetische Daten mit Markov-Ketten erstellen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Eine Markov-Kette ist ein Modell, das eine Abfolge von Möglichkeiten in einem bestimmten Datensatz darstellt. Es handelt sich um einen Algorithmus des maschinellen Lernens (ML), weil er Muster aus den Eingabedaten entdeckt oder erlernt. In dieser Übung zeige ich, wie man Markov-Ketten, die auf einen Satz von DNA-Sequenzen trainiert wurden, verwendet, um neue DNA-Sequenzen zu erzeugen.

In dieser Übung wirst du:

  • Lies eine bestimmte Anzahl von Eingabesequenzdateien, um alle eindeutigen k-mers für ein bestimmtes k zu finden.

  • Erstelle eine Markov-Kette mit diesen k-mers, um eine bestimmte Anzahl neuer Sequenzen zu erzeugen, deren Länge durch ein Minimum und ein Maximum begrenzt ist.

  • Erfahre mehr über Generatoren.

  • Verwende einen zufälligen Seed, um Zufallsauswahlen zu replizieren.

Markov-Ketten verstehen

In Claude Shannons "A Mathematical Theory of Communication" (1948) beschreibt der Autor einen Markoff-Prozess, der Graphen und den endlichen Zustandsdiagrammen, die ich zur Veranschaulichung regulärer Ausdrücke verwendet habe, erstaunlich ähnlich ist. Shannon beschreibt diesen Prozess als "eine endliche Anzahl möglicher Zustände eines Systems" und "eine Menge von Übergangswahrscheinlichkeiten", dass ein Zustand zu einem anderen führt.

Als Beispiel für einen Markov-Prozess ...

Get Python für die Bioinformatik beherrschen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.