237
5
장
텍스트 분석
5.1.2
SQL
이 적합한 경우
텍스트 분석에
SQL
이 적합한 경우는 아주 많은데, 특히 데이터가 데이터베이스에 저장돼 있을
때
SQL
을 활용하면 좋습니다. 최신 데이터베이스는 지금까지 다룬 기능뿐 아니라 텍스트 분
석을 위한 다양한 기능도 제공합니다. 다른 언어나 도구로 분석하려고 데이터를 별도의 파일로
옮기려면 시간이 걸리므로, 최대한 데이터베이스 안에서
SQL
을 활용해 분석하는 편이 좋습니다.
데이터가 데이터베이스에 저장된 상태가 아니라면, 특히 데이터셋의 크기가 매우 큰 경우에는
데이터베이스에 옮기는 편이 좋습니다. 수많은 레코드를 처리하기에는 데이터베이스가 스프레
드시트보다 훨씬 낫습니다.
SQL
은 데이터를 복사 및 붙여넣기로 처리하지 않으므로 원본 데
이터가 실수로 변동될 일이 없어 오류가 발생할 확률이 스프레드시트보다 적습니다. 데이터는
SQL
에서
UPDATE
명령어를 사용해 변경할 수는 있지만 실수로 변경될 일은 거의 없습니다.
SQL
은 수치화와 관련된 분석에도 유용합니다. 예를 들어, 고객 문의에 핵심 문구가 얼마나 많
이 포함돼 있는지 파악하거나 긴 텍스트를 읽고 카테고리를 지정하는 데 활용하면 좋습니다.
또한 텍스트 필드를 구조화하고 정제하는 데도 유용합니다. 이때 ‘정제’란 불필요한 문자나 공
백을 제거하고, 대소문자를 맞추고, 맞춤법을 교정하는 일을 말합니다. ‘구조화’는 다른 필드에
서 적절한 요소를 추출하고 새로운 열에 저장하거나, 다른 곳에서 가져온 데이터를 저장하기
위해 새로운 필드를 ...