November 2023
Beginner to intermediate
344 pages
3h 47m
Korean

루스템 페이츠카노프(Rustem Feyzkhanov)
이전에는 속도가 데이터 처리 파이프라인의 관건이었습니다. 이제 우리는 퍼블릭public 클라우드 기술의 세상에 살고 있습니다. 모든 기업은 몇 초만에 추가 리소스를 제공할 수 있습니다. 이러한 사실은 데이터 처리 파이프라인이 구성되어야 하는 방식에 대한 관점을 바꿨습니다.
실제로 1분간 열 대의 서버를 사용하는 비용과 10분간 한 대의 서버를 사용하는 비용은 동일합니다. 그렇기 때문에 집중적으로 최적화할 대상이 실행 시간에서 확장성 및 병렬화로 바뀌었습니다. 완벽한 데이터 처리 파이프라인을 상상해 봅시다. 1,000개의 작업이 들어오고, 1,000개의 노드에서 병렬적으로 처리된 후 결과가 수집됩니다. 이는 데이터 규모와는 관계없이, 처리 속도는 작업의 개수가 아니라 하나의 작업의 속도와 같다는 것을 의미합니다.
오늘날에는 점점 더 대중화되고 있는 서버리스serverless 컴퓨팅 등의 퍼블릭 클라우드 기술로 이러한 파이프라인을 만들 수 있습니다. 클라우드 기술은 수천 개의 처리 노드를 병렬로 실행시킬 방법을 제공합니다. AWS 람다, 마이크로소프트 애저 펑션, 구글 클라우드 펑션과 같은 서버리스 구현을 사용하면 적은 노력으로도 확장 가능한 ...