November 2023
Beginner to intermediate
344 pages
3h 47m
Korean

스콧 하인즈(Scott Haines)
시니어 수석 소프트웨어 엔지니어/소프트웨어 아키텍트
누구든 경력을 쌓는 중 한 번쯤은 잘못된 가정하에 일해본 적이 있을 것이며, 대부분의 회사의 데이터 레이크에 저장되는 많은 데이터와 레거시 데이터만큼 이러한 잘못된 가정이 분명하게 드러나는 곳은 없습니다.
데이터 레이크 개념은 전통적인 데이터 웨어하우스에서 발전했습니다. 데이터 웨어하우스는 원래 조직 내에서 데이터 사일로 및 파편화 문제를 완화하려는 수단으로 구상되었습니다. 데이터 웨어하우스는 보통 기존의 SQL 인터페이스나 기타 비즈니스 인텔리전스 도구를 사용해서 모든 데이터에 접근할 수 있는 중앙 저장소를 제공하는 방식으로 문제를 해결했습니다. 데이터 레이크는 이 개념을 한 단계 더 발전시켜 원시 형식의 모든 데이터(비정형이든 정형이든)를 가공되지 않은 형식으로 거의 무한정으로 저장할 수 있는 수평 확장이 가능한 대용량 데이터 저장소(HDFS나 S3 등)에 던져넣을 수 있습니다.
기본 데이터 형식이 변경되어 오래된 데이터를 사용할 수 없게 되면 여러 해에 걸쳐 좋은 의도로 시작한 일이 회사에서 가장 가치 있는 자산을 삼켜버리는 블랙홀로 변질되곤 합니다. 이 문제는 다음의 3가지 핵심 문제에서 비롯되는 것으로 ...