13章画像処理とテキスト認識
Googleの自動運転車から偽造紙幣を識別する自動販売機まで、マシンビジョンは遠大な目標と意義を含んだ巨大な領域です。本章では、この分野の非常に小さな側面に焦点を当てます。テキスト認識、特に、オンラインで見るテキスト画像に対してさまざまなPythonライブラリを用いてどのように認識して使うかを示します。
テキストの代わりに画像を使うのは、テキストがボットによって見つけられて読まれたくないときに普通に使われる技法です。これは、メールアドレスが部分的にあるいは完全に画像で表示されるようなコンタクトフォームでよく見られます。どれだけ巧妙にされるかによりますが、人間は気付きもしないのに、ボットは読み取りに困難をきたし、ほとんどのスパマーにはメールアドレスが入手できないほどに技術が成熟しています。
CAPTCHAは、ユーザがセキュリティ画像を読み取れるがほとんどのボットは読めないという事実を利用しています。CAPTCHAによっては、他よりも難しいものがあり、本書の後のほうで扱います。
しかし、Webでスクレイパーが画像からテキストへの翻訳補助を必要とするのはCAPTCHAだけではありません。今日という時代でも、多くの文書がハードコピーから単純にスキャンされただけでWebに上げられており、インターネットという観点では、「ぱっと見ただけでは見えない(hiding in plain sight)」だけとはいっても、それらの文書はアクセス不能のままです。画像テキスト変換機能なしでは、これらの文書をアクセス可能にするためには人間が手でタイプするしかありませんが、誰もそんな時間はありません。
画像をテキストに翻訳することは、光学文字認識(OCR)と呼ばれます。OCRを行ういくつかの主要なライブラリがあり、他の多くのライブラリがそれらをサポートしたり、その上で作られたりしています。このライブラリは、時にはかなり込み入っていますから、本章での練習問題に取り掛かる前に次の節を読むことを勧めます。 ...
Get PythonによるWebスクレイピング 第2版 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.