June 2025
Intermediate to advanced
356 pages
5h 13m
Japanese
彫刻家のミケランジェロは、ダビデ像のような傑作をどのようにして彫刻できたのかと聞かれたとき、「それは簡単だ。ダビデの姿に見えない部分の石を削り出してしまえばいい。」と答えたという有名な逸話があります。
Webスクレイピングは、大理石の彫刻ではありませんが、複雑なWebページから必要な情報を抽出する際には同様のアプローチを取ることになります。この章では、目的の情報を得る際に必要のないものを取り除くためのさまざまな技法を探ります。複雑なHTMLページは、最初はハードルが高いですが、どんどん削っていきましょう。
「4章 スクレイパーの開発」では、BeautifulSoupのインストールと実行、およびオブジェクトを1つずつ選択する方法について簡単に説明しました。この節では、属性によるタグの検索、タグのリストに対する操作、解析済みツリーの扱いについて説明します。
現在のほとんどのWebサイトでは、スタイルシートが使われています。スタイルシートは、WebブラウザがHTMLをカラフルで美しいデザインにレンダリングするためのものです。Webスクレイパーは、このスタイルシートが提供する部分を無視できるようにも思えますが、実際にはそうとも言えません。それは、CSSでHTML要素を異なるスタイルにするためには、その要素を区別する必要があるからです。
CSSは、Web開発者がHTML要素にタグを追加するためのインセンティブを提供します。例えば、次のようなタグがあります。
<span class="green"></span>
その他には、次のようなタグもあります。
<span class="red"></span>
Read now
Unlock full access