Kapitel 11. Skalierung der Textanalyse mit Multiprocessing und Spark

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Im Zusammenhang mit sprachsensiblen Datenprodukten sind Textkorpora keine statischen Fixpunkte, sondern lebendige Datensätze, die ständig wachsen und sich verändern. Nehmen wir zum Beispiel ein Frage-und-Antwort-System: Für uns ist das nicht nur eine Anwendung, die Antworten liefert, sondern auch eine, die Fragen sammelt. Das bedeutet, dass selbst ein relativ bescheidener Bestand an Fragen schnell zu einem wertvollen Gut heranwachsen kann, mit dem die Anwendung trainiert werden kann, um in Zukunft bessere Antworten zu lernen.

Leider sind Textverarbeitungstechniken sowohl in Bezug auf den Speicherplatz (Speicher und Festplatte) als auch auf die Zeit (Berechnungsbenchmarks) teuer. Je größer die Korpora werden, desto mehr Rechenressourcen werden für die Textanalyse benötigt. Vielleicht hast du sogar schon erlebt, wie lange die Verarbeitung der Korpora dauert, mit denen du gerade experimentierst, während du dieses Buch durcharbeitest! Die wichtigste Lösung zur Bewältigung der Herausforderungen großer und wachsender Datensätze ist der Einsatz mehrerer Rechenressourcen (Prozessoren, Festplatten, Speicher), um die Arbeitslast zu verteilen. Wenn viele Ressourcen gleichzeitig an verschiedenen Teilen der Berechnung arbeiten, sagen wir, dass sie parallel arbeiten.

Parallelität (paralleles ...

Get Angewandte Textanalyse mit Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.