
104
머신러닝 시스템 설계
가와 사람 간의 홉(연결 횟수)을 알 수 없기 때문이죠. 예를 들어, ‘
Zhenzhong
Xu
’와 ‘
USA
’
사이에는 홉이
3
개인 반면 ‘
Chloe
He
’와 ‘
USA
’ 사이에는 홉이
2
개입니다. 문서 데이터베이스
에서도 마찬가지로 이러한 유형의 쿼리를 수행하기 쉽지 않습니다.
데이터 모델에 따라 수행하기 쉬운 쿼리가 있고 어려운 쿼리가 있습니다. 따라서 애플리케이션
에 적합한 데이터 모델을 선택하는 것이 바람직하죠.
3.3.3 3.3.3
정형 데이터 정형 데이터
vsvs
. 비정형 데이터. 비정형 데이터
정형 데이터는 미리 정의된 데이터 모델, 즉 데이터 스키마를 따릅니다. 예를 들면 이런 식입
니다. 데이터 모델은 각 데이터 항목이 두 개의 값으로 구성되도록 지정하고, 첫 번째 값인
‘
name
’은 최대
50
자의 문자열이고 두 번째 값인 ‘
age
’는
0
과
200
사이
8
비트 정수입니다. 미
리 정의된 구조를 사용하면 데이터를 분석하기가 더 쉽습니다. 데이터베이스에 있는 사람들의
평균 연령을 알고 싶다면 모든 연령 값을 추출하고 평균을 내기만 하면 되죠.
정형 데이터의 단점은 데이터를 미리 정의된 스키마에 맞춰줘야 한다는 점입니다. 스키마가 변
경되면 모든 데이터를 소급해 업데이트해야 하며, 따라서 종종 프로세스에 기이한 버그가 발생
합니다. ...