의하고 테스트한 후에야 데이터 분석 논리를 이동 중인 데이터에 적용할 수 있는 스트리밍 프로세스로 변환할
수 있다.
●
둘째, 현실적인 관점에서 아파치 스파크가 배치 및 스트리밍 분석에 균일한
API
를 사용하여 배치 탐색에서 스
트리밍 애플리케이션으로 전환하는 여러 측면을 단순화하는 방법을 이해할 수 있다.
이번 탐험은 스파크의 배치 및 스트리밍
API
를 비교하고 대조할 수 있게 해줄 것이며, 한 단계
에서 다른 단계로 이동하는 데 필요한 절차를 보여줄 것이다.
NOTE
_
온라인 리소스
이 예에서는
public
1
995
NASA
Apache
웹 로그의 아파치 웹 서버 로그를 사용한다.
실습을 위해 원래 로그 파일은 날짜별 파일로 분할했으며 각 로그 행은
JSON
으로 형식화했다. 압축된
NASA
-
웹 로그 파일은
https
://
github
.
com
/
stream
-
processing
-
with
-
spark
에서 다운로드할 수
있다.
이 데이터셋을 다운로드하여 컴퓨터의 폴더에 넣도록 하자.
7.2
배치 분석
아카이브 로그 파일로 작업 중이므로 모든 데이터에 한 번에 액세스할 수 있다. 스트리밍 애플리
케이션을 구축하기 전에 간단한 배치 분석을 통해 기존 배치 분석 작업이 어떻게 보이는지 살펴
보겠다.
NOTE
_
온라인 리소스
이번 예제에서는 이 책의
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.