20章Webスクレイピングプロキシ
Webスクレイパーを実行するためにお金を支払うということは、かつてはクラウドサーバーのインスタンス代を支払い、他のソフトウェアと同じようにそのサーバーの上でスクレイパーを実行することでした。しかし現在ではAPIリクエストを通じて対象のWebサイトの取得を指示すれば、リモートプログラムが詳細やセキュリティ上の問題を処理し、データを返してくれます(もちろん有料です)。本書の初版が出版された2015年以降、このようなWebスクレイピングプロキシの機能を提供する会社が現れ、隆盛を極めています。
本書ではこれまで自宅のコンピューターやラップトップでPythonプログラムをコマンドラインで実行してきましたが、本章ではリモートのIPアドレスにリクエストを経由させるルーティング、ソフトウェアのリモートの環境でのホスティング、一連の作業をWebスクレイピングプロキシにオフロードする方法を説明します。
読者の中には、今はまだこの内容の必要性を感じられない人もいるでしょう。しかしPythonスクレイパーの実行をラップトップからではなくリモートの環境から行うようにすることで、驚くほど生活が楽になります。「もし何かを愛したなら、それを自由にしてあげなさい」という諺があります。愛するプログラムをローカル環境から解き放ち、快適な生活を手に入れましょう。
20.1 なぜリモートサーバーを使うか
Webアプリケーションを作り広く使ってもらおうとするなら、当然リモートサーバーを使用することになります。しかしプログラマー自身の目的のために作成したツールは、ローカルで動作したままとなっていることが多いです。ローカル以外の場所でプログラムを動作させる動機がない場合、何をきっかけに環境を移行したいと思うようになるでしょうか。プログラムの実行環境をローカル以外の場所に移行させる理由は大きく分けて2つに分類できます。1つ目は代替となるIPアドレスが必要な場合(自分のIPアドレスがブロックされていたり、ブロックされることを避けたいとき)、2つ目はより強力で柔軟な環境が求められる場合です。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access