
235
5
장
텍스트 분석
지난 장에서는 시계열 분석과 코호트 분석을 활용해 날짜와 숫자를 다루는 다양한 방법을 알아
봤습니다. 실제로 분석을 수행하다 보면 데이터셋이 날짜나 숫자와 관련된 값이 아닐 때도 많
습니다. 날짜와 숫자보다는 정성적
qualitative
속성 및 자유 텍스트와 같이 흥미로운 정보를 포함
하는 문자열 필드를 더 자주 접하기도 합니다. 데이터베이스는 총계, 합계, 평균 등의 숫자 계
산뿐 아니라 텍스트 데이터를 다루는 데도 강력합니다.
이 장에서는
SQL
과 다른 프로그래밍 언어를 사용하기에 적합한 텍스트 분석 유형을 각각 간단
히 알아본 뒤
UFO
목격 보고 데이터셋을 활용해 텍스트 특징, 프로파일링, 데이터 파싱, 여러
가지 텍스트 변환, 새로운 텍스트 생성, 정규 표현식
regular
expression
을 활용해 대규모 텍스트에서
원하는 패턴을 찾는 방법 등을 알아봅니다.
5.1
SQL
을 활용한 텍스트 분석
전 세계에서 매일같이 생산되는 엄청난 양의 데이터 중 상당수는 단어, 문장, 문단, 문서 등의
텍스트로 구성돼 있습니다. 텍스트 데이터는 다양한 출처를 통해 만들어집니다. 고객 문의, 설
문, 소셜 미디어 게시글, 뉴스 피드처럼 사람이 직접 작성하기도 하고, 로그 파일처럼 컴퓨터
애플리케이션에서 생성되기도 합니다. 데이터베이스에서 텍스트는 ...