Capítulo 19. Fuentes de streaming Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Como aprendiste anteriormente en el Capítulo 2, una fuente de streaming es un proveedor de datos que entrega datos continuamente. En Spark Streaming, las fuentes son adaptadores que se ejecutan en el contexto del trabajo de Spark Streaming y que implementan la interacción con la fuente de streaming externa y proporcionan los datos a Spark Streaming utilizando la abstracción DStream. Desde la perspectiva de la programación, consumir una fuente de datos de streaming significa crear un DStream utilizando la implementación adecuada para la fuente correspondiente.

En "La abstracción DStream", vimos un ejemplo de cómo consumir datos de un socket de red. Volvamos a ese ejemplo en el Ejemplo 19-1.

Ejemplo 19-1. Crear un flujo de texto a partir de una conexión socket
// creates a DStream using a client socket connected to the given host and port
val textDStream: DStream[String] = ssc.socketTextStream("localhost", 9876)

En el Ejemplo 19-1, podemos ver que la creación de una fuente de streaming la proporciona una implementación dedicada. En este caso, la proporciona la instancia ssc, el contexto de streaming, y da como resultado un DStream[String] que contiene los datos de texto entregados por el socket tipado con el contenido del DStream. Aunque la implementación para cada fuente es diferente, este patrón es el mismo para todas ellas: ...

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.