Skip to Main Content
Erweiterte Analytik mit PySpark
book

Erweiterte Analytik mit PySpark

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
September 2024
Intermediate to advanced content levelIntermediate to advanced
236 pages
7h 11m
German
O'Reilly Media, Inc.
Book available
Content preview from Erweiterte Analytik mit PySpark

Kapitel 1. Big Data analysieren

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn die Leute sagen, dass wir im Zeitalter von Big Data leben, meinen sie damit, dass wir über Werkzeuge verfügen, mit denen wir Informationen in einem bisher ungekannten Ausmaß sammeln, speichern und verarbeiten können. Die folgenden Aufgaben hätten vor 10 oder 15 Jahren einfach nicht bewältigt werden können:

  • Erstelle ein Modell zur Erkennung von Kreditkartenbetrug anhand von Tausenden von Merkmalen und Milliarden von Transaktionen

  • Intelligente Empfehlungen für Millionen von Produkten für Millionen von Nutzern

  • Schätze das finanzielle Risiko durch Simulationen von Portfolios, die Millionen von Instrumenten umfassen

  • Genomische Daten von Tausenden von Menschen einfach bearbeiten, um genetische Zusammenhänge mit Krankheiten zu erkennen

  • Bewertung der landwirtschaftlichen Bodennutzung und der Ernteerträge für eine bessere Politikgestaltung durch die regelmäßige Verarbeitung von Millionen von Satellitenbildern

Hinter diesen Fähigkeiten steht ein Ökosystem von Open-Source-Software, die Servercluster zur Verarbeitung riesiger Datenmengen nutzen kann. Die Einführung/Veröffentlichung von Apache Hadoop im Jahr 2006 hat zu einer weit verbreiteten Nutzung des verteilten Rechnens geführt. Das Big-Data-Ökosystem und die Tools haben sich seitdem rasant weiterentwickelt. In den letzten fünf Jahren wurden auch viele Open-Source-Bibliotheken ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Aufbau von Pipelines für maschinelles Lernen

Aufbau von Pipelines für maschinelles Lernen

Hannes Hapke, Catherine Nelson
Roboter mit ROS

Roboter mit ROS

Murat Calis
Blaupausen für Textanalyse mit Python

Blaupausen für Textanalyse mit Python

Jens Albrecht, Sidharth Ramachandran, Christian Winkler

Publisher Resources

ISBN: 9781098190590Supplemental Content