November 2023
Beginner to intermediate
344 pages
3h 47m
Korean

아이나트 오어(Einat Orr)
최신 데이터 레이크 아키텍처는 레이크로 사용하는 오브젝트 스토리지에 기반하며, 데이터를 레이크에 넣는 데 스트리밍 및 복제 기술을 활용하고, 레이크에서 직접 데이터를 가져가서 소비하거나 레이크를 보존용 스토리지로 사용하는 풍성한 애플리케이션 생태계를 제공합니다. 이 아키텍처는 비용 효율적이며 데이터를 수집하고 소비할 때 단위 시간당 처리량을 늘릴 수 있습니다.
그런데도 데이터 작업이 여전히 어려운 이유는 무엇일까요? 여기에는 몇 가지 이유가 있습니다.
• 격리를 고려하지 않았습니다. 격리를 보장하려면 권한을 사용하거나 데이터를 복사해야 합니다. 권한을 사용하면 데이터를 유용하게 사용할 수 있는 모든 사람의 접근을 허용하게 되어 데이터의 가치를 극대화하는 능력이 감소합니다. 복사 또한 레이크에서 무엇이 어디에 있는지 추적할 수 없기 때문에 관리하기 어렵습니다.
• 원자성이 없습니다. 안전하게 수행될 트랜잭션에 의존할 수 없다는 말입니다. 이를테면 데이터 기록을 마치기 전에 누구도 그 컬렉션을 읽지 못하도록 하는 내재된 수단이 없습니다.
• 컬렉션 간 일관성을 보장할 수 없습니다. 심지어 어떤 경우에는 단일 컬렉션 내에서도 일관성을 보장할 수 없습니다. ...