
3.2 データの収集 63
ラリがあれば、誰でもできる。
同じウェブサイトを再びスパイダリングやクローリングするまでの時間は、礼儀という側面から制限され
るこ
とを理解しなければならない。1 秒に複数回もサイトにアクセスするのは礼を欠く行為だと考えられて
おり、実際、プロバイダは、自分のサイトを短い周期でしつこく訪問する人からのアクセスをブロックする
ことをベストプラクティスとしている。
主なウェブサイトには、サービス利用規約(Terms of Service:ToS)と呼ばれるドキュメントが必ず用意
されており、サイトのデータを使って行えることを制限している。一般に、短い周期でサイトに反復アクセ
スしたり、スクレイピングしたデータを再配布したりしない限り、ほとんどのサイトはユーザが行うことを
禁止していない。もっとも、これは観察した限り、そうであるだけで、法的な議論ではないことに注意して
ほしい。特に、Aaron Schwartz の事件については読んでおくようにしよう。彼はインターネットの有名人
だったが、学術誌記事のスパイダリング/スクレイピングで利用規約に違反したために莫大な罰金を課され、
自死に追い込まれた。業務でウェブスクレイピングプロジェクトに関わるつもりなら、誰かの知的財産で極
端なことをしてしまう前に、上司に利用規約を熟知しておいてもらうことを忘れてはならない。
3.2.3 ロギング
データソースとなり得るものがあるなら、所有者らしく扱おう。ウェブサービス、通信デバイス、実験機
器に対して内部の関係者としてアクセスできるなら、あなたには下流での分析のためにあらゆるアクティビ ...