Skip to Content
PythonによるWebスクレイピング 第3版
book

PythonによるWebスクレイピング 第3版

by Ryan Mitchell, 嶋田 健志, 新井 翔太
June 2025
Intermediate to advanced
356 pages
5h 13m
Japanese
O'Reilly Japan, Inc.
Content preview from PythonによるWebスクレイピング 第3版

17章スクレイピングの落とし穴の回避

サイトをスクレイピングして出力を確認した際に、ブラウザでは見えるデータが含まれていないときほど、苛立たしいことはありません。また、何の問題もないはずのフォームを送信したのに、Webサーバーから拒否される場合や、理由もわからないままIPアドレスがブロックされてしまうこともあります。

これらは修正が難しいバグの一例です。あるサイトでは問題なく動作していたスクリプトが、ほぼ同じ構成の別サイトでまったく動かなくなるなど、想定外の事態が起こり得る上、意図的にエラーメッセージやスタックトレースが出ないように設定されている場合があるからです。ボットであると判断され、拒絶されてしまい、理由はまったくわからないままということもあります。

本書ではこれまで、フォームの送信や複雑なデータの抽出とクリーニング、JavaScriptの実行など、Webサイトで高度な処理を行うための多くの方法を紹介してきました。本章では、さまざまな分野にまたがるテクニックをまとめて取り上げます。これらのテクニックに共通しているのは、サイトの自動スクレイピングを阻止するために用意されている仕組みを乗り越えるためのものであるという点です。

現時点でこれらの情報がどれほど役に立つかは別にしても、この章にはざっと目を通すことを強くお勧めします。いつ、どのような場面で、厄介なバグを解消したり問題を未然に防ぐのに役立つかわからないからです。

17.1 倫理についての注意

本書の冒頭で、Webスクレイピングが置かれている法的なグレーゾーンや、スクレイピングに伴う倫理・法的観点について解説しました。正直なところ、本章は倫理的な側面から、執筆するのが最も難しかった章です。筆者のWebサイトは、読者の皆さんのサイト同様に、ボットやスパマー、スクレイパーといった望ましくないアクセスに悩まされてきました。では、なぜ「より優れたボットを作る方法」を伝えようとするのでしょうか。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

初めてのSQL 第3版

初めてのSQL 第3版

Alan Beaulieu, 株式会社クイープ
scikit-learn、Keras、TensorFlowによる実践機械学習 第3版

scikit-learn、Keras、TensorFlowによる実践機械学習 第3版

Aurélien Géron, 下田 倫大, 牧 允皓, 長尾 高弘

Publisher Resources

ISBN: 9784814401222Publisher Website