머리말
10년 전 Apache Spark 프로젝트를 시작했을 때 저의 주요 목표 중 하나는 다양한 사용자가 병렬 알고리즘을 더 쉽게 구현할 수 있도록 하는 것이었습니다. 대규모 데이터에 작용하는 새로운 알고리즘은 컴퓨팅의 모든 영역에 큰 영향을 미치고 있으며, 저는 개발자들이 분산 시스템을 처음부터 구축하지 않고도 이러한 알고리즘을 구현하고 그 성능을 추론할 수 있도록 돕고 싶었습니다.
따라서 저는 데이터 알고리즘에 관한 Mahmoud Parsian 박사의 새 책이 Spark와 함께 출간되어 매우 기쁩니다. 파시안 박사는 일루미나의 빅데이터 팀 리더로서 생물정보학을 위한 새로운 알고리즘을 개발하는 등 대규모 데이터 병렬 알고리즘에 대한 광범위한 연구와 실무 경험을 보유하고 있습니다. 이 책에서 그는 Python API인 PySpark를 통해 Spark를 소개하고, Spark의 분산 컴퓨팅 기본 요소를 사용하여 다양하고 유용한 알고리즘을 효율적으로 구현하는 방법을 보여줍니다. 또한 기본 Spark 엔진의 작동 방식과 데이터 파티셔닝 제어와 같은 기술을 통해 알고리즘을 최적화하는 방법도 설명합니다. 이 책은 기존 알고리즘을 확장 가능한 방식으로 구현하고자 하는 독자와 Spark를 사용해 새로운 맞춤형 알고리즘을 개발하는 독자 모두에게 훌륭한 자료가 될 것입니다.
또한 파시안 박사가 논의하는 모든 알고리즘에 대해 가능한 한 실제 문제를 사용하여 작업 코드 예제를 포함했다는 점도 매우 기쁩니다. 이러한 예제는 유사한 계산을 구현하려는 독자들에게 훌륭한 출발점이 될 것입니다. 이러한 알고리즘을 직접 사용하든 Spark를 사용하여 자신만의 맞춤형 알고리즘을 구축하든, 이 책을 오픈 소스 엔진과 그 내부 작동 방식, 컴퓨팅 전반에 걸쳐 광범위한 영향을 미치고 있는 최신 병렬 알고리즘에 대한 입문서로 활용하시길 바랍니다.