Anhang D. Streaming mit Streamz und Dask
Dieses Buch konzentriert sich auf die Verwendung von Dask zur Erstellung von Batch-Anwendungen, bei denen Daten vom Benutzer gesammelt oder bereitgestellt und dann für Berechnungen verwendet werden. Eine weitere wichtige Gruppe von Anwendungsfällen sind die Situationen, in denen du Daten verarbeiten musst, sobald sie verfügbar sind.1 Die Verarbeitung von Daten, sobald sie verfügbar sind, nennt man Streaming.
Streaming Data Pipelines und Analysen werden immer beliebter, da die Menschen höhere Erwartungen an ihre datengestützten Produkte haben. Überleg mal, wie du dich fühlen würdest, wenn eine Banktransaktion wochenlang dauern würde; es würde dir archaisch langsam vorkommen. Oder wenn du jemanden in den sozialen Medien blockierst, erwartest du, dass diese Sperre sofort wirksam wird. Dask eignet sich zwar hervorragend für interaktive Analysen, aber wir sind der Meinung, dass es (derzeit) nicht für interaktive Antworten auf Nutzeranfragen geeignet ist.2
Streaming-Aufträge unterscheiden sich in einigen wichtigen Punkten von Batch-Aufträgen. Sie benötigen in der Regel eine schnellere Verarbeitungszeit, und die Aufträge selbst haben oft keinen definierten Endpunkt (außer wenn das Unternehmen oder der Dienst heruntergefahren wird). Eine Situation, in der kleine Batch-Aufträge möglicherweise nicht ausreichen, ist die dynamische Werbung (zehn bis hundert Millisekunden). Bei vielen anderen Datenproblemen ist die Grenze fließend, z. B. bei Empfehlungen, ...