45
2
장
데이터 준비
데이터만 저장할 수 있어, 정형 데이터가 테이블에 저장될 때는 데이터의 각 필드가 지정된 데
이터 타입과 일치하는지 확인하는 과정을 거칩니다. 이렇게 정형화된 데이터는
SQL
로 쿼리하
기가 용이합니다.
비정형 데이터는 정형 데이터와 반대로 미리 지정된 구조, 데이터 모델, 데이터 타입이 없습니
다. 데이터베이스 데이터를 제외한 ‘이외의 모든 데이터’라고 볼 수 있습니다. 문서, 이메일, 웹
페이지 등이 비정형 데이터에 해당합니다. 사진, 이미지, 비디오, 오디오 파일 또한 비정형 데
이터에 해당합니다. 이런 데이터들은 기존의 데이터 타입에 딱 들어맞지 않으므로 관계형 데
이터베이스에서 효율적으로 저장하기 어려우며
SQL
로 쿼리를 수행하기에도 적합하지 않습니
다. 따라서 주로 관계형 데이터베이스가 아닌 다른 타입의 데이터베이스에 저장됩니다. 관계형
데이터베이스가 아니므로 데이터 타입 유효성 체크 과정 없이 데이터를 빠르게 로드할 수 있지
만, 대신 데이터 품질이 보장되지 않는다는 단점이 있습니다. 하지만
1
장에서 언급했듯 기술은
계속해서 진화하며 비정형 데이터를 위한
SQL
쿼리 도구들도 개발되고 있습니다.
반정형 데이터는 정형 데이터와 비정형 데이터의 중간 개념입니다. 비정형 데이터 중에서도 우
리가 사용할 수 있을 만큼 나름의 구조를 갖춘 데이터도 많은데, 이런 데이터를 반정형 데이터
라고 부르기도 합니다. 예를 들어, 이메일은 발신자 주소, 수신자 주소, 제목, 본문, 전송 시간
과 같이 정해진 데이터 구조가 있어 ...