November 2023
Beginner to intermediate
344 pages
3h 47m
Korean

드루바 보타쿠르(Dhruba Borthakur)
모든 데이터 시스템은 데이터의 크기, 데이터의 최신성, 데이터에 대한 쿼리의 처리 지연 시간이라는 3가지 고유한 특성을 가집니다. 아마 여러분은 이 중 첫 번째인 데이터의 크기에는 익숙하겠지만, 나머지 2가지는 때때로 뒷전으로 둘 것입니다.
데이터 엔지니어로서 저는 1가지 사용 사례를 위해 빅데이터 시스템을 배포한 적이 많습니다. 그런데 신규 사용자가 동일한 데이터 시스템을 사용하면서 “쿼리 지연 시간이 수용 가능한 한계인 500밀리초보다 느려요.” 또는 “쿼리 결과에서 최근 10초 동안 생성된 데이터 레코드를 찾을 수 없어요.”라고 불평할 때가 있습니다.
그래서 저는 데이터 시스템 엔지니어링을 처음 시작할 때 다음 3가지를 확인합니다.
데이터 지연 시간
데이터 지연 시간은 넓은 범위에 걸쳐 다양하게 나타날 수 있습니다. 연간 예산 책정 시스템은 지난달 및 그 이전의 데이터를 이용할 수 있다면 충분합니다. 마찬가지로 일일 보고 시스템은 최근 24시간 내의 데이터를 이용할 수 있다면 충분합니다. 온라인 소프트웨어 게임 리더보드Leaderboard 애플리케이션은 가장 최근 1초 및 그 이전에 생성된 데이터를 분석할 수 있으면 충분할 것입니다.
실행하는 쿼리의 ...