CHAPTER 11

이미지 처리와 텍스트 인식

구글의 자율주행 자동차부터 위조지폐를 인식하는 자판기까지, 컴퓨터에 눈을 다는 방대한 작업은 우리에게 지대한 영향을 미치는 분야입니다. 이 장에서는 이 분야의 아주 좁은 부분인 텍스트 인식에 집중합니다. 그중에서도, 온라인에서 가져온 텍스트 기반 이미지를 다양한 파이썬 라이브러리로 인식하고 사용하는 방법을 다룹니다.

텍스트 대신 이미지를 쓰는 건 봇이 텍스트를 찾아서 읽는 것을 막고 싶을 때 흔히 쓰는 방법입니다. 연락처에서 이메일 주소 일부 또는 전체가 이미지로 처리된 것을 자주 봤을 겁니다. 정교하게 처리한다면 사람조차 그것을 읽긴 해도 이미지인지 알아채기 어렵고, 봇으로 그런 이미지를 읽기란 매우 어려워서 스팸을 뿌려대는 사람들로부터 이메일 주소를 보호하기엔 충분합니다.

자동 가입 방지 문자CAPTCHA 역시 사용자는 보안 이미지를 읽을 수 있지만 대부분의 봇은 읽지 못한다는 사실을 이용합니다. 일부 CAPTCHA는 다른 것에 비해 더 어려우며, 이런 것들은 이 책 후반에서 다시 다룰 겁니다.

하지만 웹 스크레이퍼가 이미지를 텍스트로 인식해야 하는 분야는 CAPTCHA만이 아닙니다. 최근에는 문서를 그냥 스캔해서 인터넷에 올리는 경우가 많습니다. 등잔 밑이 어둡다는 격이 되겠지만, 이런 ...

Get 파이썬으로 웹 크롤러 만들기: 초간단 나만의 웹 크롤러로 원하는 데이터 가져오는 방법 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.