서 말한 디버깅 시점에 도움이 된다. 또한 사람이 읽을 수 있는 형태로 데이터를 보다 보면 (심
지어 모든 게 아주 잘 돌아갈 때도) “아하!”하는 깨달음의 순간을 자주 경험할 수 있다. 이상한
토큰화다! 입력이 항상
latin1
으로 인코딩되어 들어온다고 약속했었는데! 이 언어 관련 문서가
왜 거기 있지? 텍스트 파일을 처리하는 파이프라인으로 이미지 파일이 흘러 들어가 버렸네! 이
런 정보가 자동화된 타입 검사나 고정된 단위 테스트가 제공하는 정보보다 더 나은 통찰을 제
공해서, 각 구성 요소의 경계를 벗어나는 문제의 힌트를 제공하는 때가 종종 있다. 실제 세계의
데이터는 지저분하다. 꼭 예외나 오류를 일으키지 않더라도, 빨리 지저분한 부분을 잡아내라.
항상 지나치다 싶을 정도로 정보를 많이 제공하는 쪽을 택하라.
유행에 조심히 대응하라
고객이
X
에 대해 자주 들었다며 꼭
X
가 있어야 한다고 말해도, 실제로 고객에게
X
가 필요하다
는 의미는 아니다. 이는 기술적인 문제라기보다는 마케팅 측면의 문제일 수 있다. 따라서 두 측
면을 주의 깊게 잘 구분해서 적절히 대응해야 한다.
X
는 유행에 따라 변하기 마련이다. 최근의
X
는 빅데이터라 할 수 있다.
사업적인 얘기는 이만하면 충분하다. 이제, 파이썬으로 어떻게
word2vec
을
C
보다 더 빠르게
만들었는지 이야기할 것이다.
12.6.2
최적화에서 배운 교훈들
word2vec
(
https
://
code
.
google
.
com
/
p
/
word2vec
/
)은 딥러닝 알고리즘으로,
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.