9장. 클래식 데이터 디자인 패턴
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
이 장에서는 대부분의 빅 데이터 솔루션에 사용되는 가장 기본적이고 고전적인 데이터 디자인 패턴에 대해 설명합니다. 이러한 디자인 패턴은 단순한 디자인 패턴이지만 많은 일반적인 데이터 문제를 해결하는 데 유용하며, 이 책의 예제에서 많은 디자인 패턴을 사용했습니다. 이 장에서는 다음 디자인 패턴의 PySpark 구현을 소개합니다:
-
입력-맵-출력
-
입력-필터-출력
-
입력-맵-축소-출력
-
입력-다중-맵-축소-출력
-
입력-맵-결합기-축소-출력
-
입력-맵 파티션-축소-출력
-
입력-반전-인덱스-패턴-출력
하지만 시작하기 전에 "디자인 패턴"이 무엇을 의미하는지에 대해 먼저 말씀드리고 싶습니다. 컴퓨터 과학과 소프트웨어 공학에서 디자인 패턴은 일반적으로 발생하는 문제가 주어졌을 때 그 문제에 대한 재사용 가능한 해결책입니다. 디자인 패턴은 문제를 해결하는 방법에 대한 템플릿 또는 모범 사례이지 코드로 바로 변환할 수 있는 완성된 디자인이 아닙니다. 이 장에서 소개하는 패턴은 다양한 데이터 분석 작업을 처리할 수 있는 능력을 갖추게 해줍니다.
참고
이 장에서 설명하는 데이터 설계 패턴은 기본 패턴입니다. 요구 사항에 따라 자신만의 패턴을 만들 수 있습니다. 추가 예제는"MapReduce: 대규모 클러스터에서의 간소화된 데이터 처리"를 참조하세요(Jeffrey Dean과 Sanjay Ghemawat 작성).
입력-맵-출력
입력-맵-출력은 데이터 분석을 위한 가장 간단한 디자인 패턴으로, 그림 9-1에서 볼 수 있듯이 파일 세트에서 입력을 읽은 다음 각 레코드에 일련의 함수를 적용하고 마지막으로 원하는 출력을 생성합니다. 매퍼가 입력에서 생성할 수 있는 것에는 제한이 ...