November 2023
Beginner to intermediate
344 pages
3h 47m
Korean

조나단 시드만(Jonathan Seidman)
빅데이터 업계에서 제가 처음 경험한 실무는 아파치 하둡 클러스터를 트래픽이 많은 온라인 여행 사이트인 오르비츠 월드와이드Orbitz Worldwide에 배포하는 작업을 돕는 것이었습니다. 아파치 하이브를 클러스터에 배포하고, 이 인프라 위에서 개발자가 애플리케이션 및 분석을 개발할 수 있도록 접근 권한을 제공하는 일을 가장 먼저 수행했습니다.
수집한 모든 데이터에서 큰 가치를 얻을 수 있었다는 점에서 훌륭한 성과였습니다. 그렇지만 얼마 뒤 수많은 하이브 테이블이 근본적으로 동일한 엔터티를 나타낸다는 사실을 인지했습니다. 2000년대 초반인 암흑기에도 스토리지 가격은 상당히 저렴했기 때문에 리소스 관점으로 보면 그다지 큰 문제는 아니었습니다. 하지만 사용자의 시간은 귀중했고, 그 시간은 새로운 하이브 테이블을 만들거나 필요한 데이터를 찾으려고 기존 테이블을 뒤지기보다는 데이터에서 통찰을 얻는 데 사용해야 했습니다.
오르비츠에서 얻은 교훈은, 데이터 관리 계획을 나중으로 미루지 말아야 한다는 점입니다. 그 대신 데이터 관리 전략을 초기에 계획해서 시작하는 것이 좋습니다. 모든 신규 데이터 전략이나 프로젝트와 병행해서 계획하는 것이 이상적입니다.
메타데이터 관리까지 ...