CHAPTER 8

자연어 읽고 쓰기

지금까지 다룬 데이터는 일반적으로 숫자 형태이거나, 수를 셀 수 있는 값의 형태였습니다. 우리는 대개 데이터를 분석하지 않고 단순히 저장하기만 했습니다. 이 장에서 우리는 영어의 어려운 부분들에 도전해볼 겁니다.1

1 이 장에서 설명하는 테크닉은 대부분 다른 언어에도 적용할 수 있지만, 지금으로서는 자연어 처리를 영어에만 집중해도 됩니다. 파이썬의 자연어 처리 도구 같은 것들은 영어에만 집중합니다. 2014년 기준으로 인터넷의 65퍼센트는 여전히 영어이고, 2위인 독일어는 고작 6퍼센트를 차지할 뿐입니다(http://bit.ly/2fUDmHf). 하지만 앞일은 아무도 모릅니다. 영어가 인터넷에서 가장 널리 쓰이긴 하지만, 언젠가 바뀔 것은 거의 확실합니다. 이 책도 몇 해 뒤에는 그에 따라 업데이트해야 할 수도 있겠죠.

구글 이미지 검색에 ‘귀여운 고양이cute kitten’라고 입력했을 때, 구글은 당신이 뭘 찾는지 어떻게 알 수 있을까요? 귀여운 고양이 이미지 주변에 있는 텍스트 덕분입니다. 유튜브의 검색 막대에 ‘죽은 앵무새dead parrot’이라고 입력했을 때 몬티 파이튼의 스케치를 찾아야 한다고 판단하는 건 어째서일까요? 각 비디오를 올릴 때 함께 올리는 제목과 설명 텍스트 덕분입니다. ...

Get 파이썬으로 웹 크롤러 만들기: 초간단 나만의 웹 크롤러로 원하는 데이터 가져오는 방법 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.