8장. 분산형 데이터 팀 구축
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
기업은 온프레미스에서 Cloud 기반 아키텍처로 전환하기 위해 건전한 전략 이 필요합니다. 대부분의 기업에서는 특히 데이터 과학, 데이터 엔지니어링, 머신 러닝 엔지니어링과 관련된 역할이 더욱 전문화되고 성숙해졌습니다. 이러한 모든 전문 분야는 Cloud 에코시스템 내에서 데이터를 다루는 데 핵심적인 역할을 합니다.
또한 데이터 전문가에 대한 수요는 지난 몇 년 동안 급격히 증가했습니다. 이는 데이터 인프라스트럭처 교육을 받은 신규 전문가의 꾸준한 감소와 맞물려 이러한 역할에 대한 수요를 충족할 만큼의 전문가가 부족한 인재 격차가 발생하고 있습니다. 이러한 격차로 인해 데이터 인프라스트럭처 분야( 7장에서 다룸)에서 주요 작업을 자동화하여 인재 부족에 따른 부담을 덜어줄 수 있는 소프트웨어에 대한 지속적인 수요가 발생하고 있습니다.
기술은 기존의 격차를 일부 해소할 수 있지만 전부는 아닙니다. 따라서 기업은 기존 기술을 활용하여 생산성을 높일 수 있는 대안을 찾아야 합니다. 이러한 기술은 수요가 많기 때문에 추가 채용이나 직원 증원은 선택 사항이 아닌 경우가 많습니다. 분산형 데이터 팀을 구축하면 스트리밍 데이터 메시 접근 방식을 지원하는 데 필요한 기술을 제공하기 위해 조직 내 리소스를 이동시켜 이러한 격차를 메우는 데 도움이 됩니다.
이 장에서는 데이터에 대한 기존의 접근 방식과 몇 가지 함정을 검토하고, 이를 데이터에 리소스를 맞추는 새로운 접근 방식과 대조해 보겠습니다. 이 새로운 접근 방식은 비즈니스와 기술 전문 지식을 비즈니스 목표에 부합하는 고품질 데이터 제품 개발을 지원하는 구조로 결합합니다.
전통적인 데이터 웨어하우스 구조
데이터 엔지니어링 역할 은 전통적으로 데이터베이스 측면의 SQL, 빅데이터 에코시스템의 MapReduce를 알고 있으며 일반적으로 운영 영역에서 데이터 웨어하우스로 데이터를 일괄적으로 이동하는 방법을 이해하는 사람이 수행했습니다. 최근 몇 년 동안 머신 러닝과 데이터 과학이 널리 보급됨에 따라 데이터 엔지니어의 역할이 더욱 부담스러워졌습니다. 그리고 이러한 역할은 더욱 모놀리식화되어 DevOps, MLOps, 데이터 과학 및 ML 엔지니어링과 같은 영역에 더욱 집중되고 있습니다. 따라서 "데이터 엔지니어"라는 표준 용어는 이제 매우 과부하가 걸렸고 새로운 역할을 만들어야 합니다. 분산형 팀 구축을 살펴보면서 이러한 새로운 역할을 소개하고 팀에 미치는 전반적인 영향에 대해 논의해 보겠습니다.
그림 8-1은 데이터 웨어하우징 환경의 일반적인 조직 구조를 보여줍니다. 최고 경영진 아래에 두 개의 팀이 있습니다:
-
일상적인 운영을 지원하는 운영 팀
-
데이터 플레인에서 데이터 웨어하우스를 관리하는 팀
그림 8-1. 데이터 웨어하우스 조직 구조 예시
일반적인 데이터 웨어하우스 프로젝트의 목표는 운영 소스에서 데이터 플레인으로 데이터를 ...