Kapitel 13. Out-of-Memory-Ansätze: Tabix und SQLite
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In diesem Kapitel befassen wir uns mit Out-of-Memory-Ansätzen - Rechenstrategien, die auf der Speicherung von und der Arbeit mit Daten außerhalb des Speichers auf der Festplatte basieren. Das Lesen von Daten von der Festplatte ist viel, viel langsamer als die Arbeit mit Daten im Speicher (siehe "Die allmächtige Unix Pipe: Geschwindigkeit und Schönheit in einem"), aber in vielen Fällen ist dies der Ansatz, den wir wählen müssen, wenn In-Memory (z. B. das Laden des gesamten Datensatzes in R) oder Streaming-Ansätze (z. B. die Verwendung von Unix Pipes, wie in Kapitel 7) nicht geeignet sind. Wir werden uns zwei Tools ansehen, mit denen du mit Daten außerhalb des Speichers arbeiten kannst: Tabix und SQLite-Datenbanken.
Schneller Zugriff auf indexierte tabulatorgetrennte Dateien mit BGZF und Tabix
BGZF und Tabix lösen ein wirklich wichtiges Problem in der Genomik: Wir brauchen oft einen schnellen, zufälligen Lesezugriff auf Daten, die mit einem genomischen Ort oder Bereich verknüpft sind. Bei den großen Datenmengen, die wir in der Genomik antreffen, ist der Zugriff auf diese Art von Daten aus mehreren Gründen nicht trivial. Erstens passen die Daten möglicherweise nicht vollständig in den Speicher, so dass ein Ansatz erforderlich ist, bei dem die Daten außerhalb des Speichers (d. h. auf einer langsamen ...
Get Bioinformatik Datenkenntnisse now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.