Kapitel 9. Fallstudie mit mehreren Tools

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel werden wir besprechen, was zu tun ist, wenn du "andere" Tools für deine spezielle Data Science Pipeline verwenden musst. Python verfügt über eine Vielzahl von Werkzeugen, mit denen du eine breite Palette von Datenformaten verarbeiten kannst. RStats verfügt über ein großes Repository an fortgeschrittenen mathematischen Funktionen. Scala ist die Standardsprache von Big Data Processing Engines wie Apache Spark und Apache Flink. Ältere Programme, deren Reproduktion teuer wäre, gibt es in einer Vielzahl von Sprachen.

Ein sehr wichtiger Vorteil von Kubeflow ist, dass die Nutzer nicht mehr wählen müssen, welche Sprache für ihre gesamte Pipeline am besten geeignet ist, sondern stattdessen die beste Sprache für jeden Auftrag verwenden können (solange die Sprache und der Code containerisierbar sind).

Wir werden diese Konzepte anhand eines umfassenden Beispiels für die Entrauschung von CT-Scans demonstrieren. CT-Scans mit niedriger Strahlendosis ermöglichen es den Ärzten, die Scans als Diagnoseinstrument zu nutzen, da sie nur einen Bruchteil der Strahlendosis abgeben - allerdings leiden diese Scans oft unter einer Zunahme des weißen Rauschens. CT-Scans liegen im DICOM-Format vor, und wir werden einen Container mit einer speziellen Bibliothek namens pydicom verwenden, um die Daten in eine numpy Matrix ...

Get Kubeflow für maschinelles Lernen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.