
Data Science
xiv
‘세계적인’이라고 표현하면 별로 좋아하지 않을 것 같은, 세계적인 데이터 과학
자이자 파워 트위터리안 조엘 그루스의《밑바닥부터 시작하는 데이터 과학
2
판》의 추천사를 쓰는 내가 자랑스럽다. 게다가 이 책의 번역자들은 하나같이 우
리나라 인공지능 영역의 젊은 거인들이 아닌가? 뭔가 퍼거슨 전 맨유 감독이 지
휘하고 박지성과 손흥민이 뛰는 경기에 귀빈으로 초대받은 기분이다. 내가 이렇
게 대단한 사람인가...
감상은 뒤로하고 지금 우리의 필드를 돌아보자. 빅데이터, 인공지능, 머신러
닝, 데이터 과학... 이제 더는 일반인에게도 생소하지 않은 이 단어들은 우리 생
활 속에 자리 잡고 있다. 많은 학생과 개발자 들이 데이터 과학자가 되기 위해
공부하고 이를 통해 새로운 기회를 찾고 있다. 텐서플로, 케라스, 사이킷런 등
다양한 도구를 사용하여 캐글이나 국내외 데이터 분석 사이트에서 자신의 실력
을 뽐낼 수도 있다. 요즘엔 초등학생도 “딥러닝을 한다. 데이터 과학을 한다”고
할 정도로 대중화되고 있다.
하지만 좀 더 자세히 들여다보자. 우리는 도대체 얼마나 알고 있는가? 얼마나
설명할 수 있을까? 예를 들어 텍스트 간의 유사성을 비교할 때 왜 유클리드 거리
(
Euclidean
distance
)를 쓰지 않고, 코사인 거리를 쓰는 걸까? 왜 ...