book

PythonによるWebスクレイピング第3版

Name: PythonによるWebスクレイピング 第3版
ISBN: 9784814401222

by Ryan Mitchell, 嶋田健志, 新井翔太

June 2025

Intermediate to advanced

356 pages

5h 13m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

表紙
大扉
原書大扉
クレジット
はじめに
I部　スクレイパーの作成
1章　インターネットの仕組み
1.1　ネットワーク1.1.1　物理層1.1.2　データリンク層1.1.3　ネットワーク層1.1.4　トランスポート層1.1.5　セッション層1.1.6　プレゼンテーション層1.1.7　アプリケーション層1.2　HTML1.3　CSS1.4　JavaScript1.5　開発者ツールでWebサイトを見る
2章　Webスクレイピングの適法性と倫理
2.1　商標、著作権、特許2.1.1　著作権法2.2　動産不法侵入ボットを減速する2.3　コンピューター詐欺と濫用に関する法律2.4　robots.txtとサービス規約2.5　3つのWebスクレイパー2.5.1　eBay対Bidder's Edgeと動産不法侵入2.5.2　米国政府対Auernheimerと「コンピューター詐欺と濫用に関する法律」2.5.3　Field対Google：著作権とrobots.txt
3章　Webスクレイピングアプリケーション
3.1　プロジェクトの分類3.2　Eコマース3.2.1　マーケティング3.3　学術研究3.4　プロダクトを作る3.5　旅行3.6　営業3.7　SERPスクレイピング
4章　スクレイパーの開発
4.1　Jupyterを使う4.2　接続する4.3　BeautifulSoup4.3.1　BeautifulSoupをインストールする仮想環境を使う4.3.2　BeautifulSoupを実行する4.3.3　信頼性のある接続と例外処理

5章　高度なHTMLのパース
5.1　BeautifulSoupの使い方5.1.1　BeautifulSoupのfind()とfind_all()キーワード引数とclass5.1.2　他のBeautifulSoupオブジェクト5.1.3　ツリーナビゲーション5.2　正規表現5.3　正規表現とBeautifulSoup5.4　属性へのアクセス5.5　ラムダ式5.6　必ずしもハンマーが必要なわけではない
6章　Webクローラーの開発
6.1　単一ドメインを走査するウィキペディアのサーバーに与える負荷はどうか擬似乱数とランダムシード6.2　サイト全体のクローリングダークウェブとディープウェブ6.2.1　サイト全体のデータ収集リダイレクトの処理6.3　インターネットをクローリングする
7章　Webクローリングのモデル
7.1　プランニングとオブジェクトの定義7.2　さまざまなWebサイトのレイアウトを扱う7.3　クローラーを構造化する7.3.1　検索を用いたサイトのクローリング7.3.2　リンクをたどってサイトをクローリングする7.3.3　異なる種類のページもクローリングする7.4　Webクローラーのモデルについての考察
8章　Scrapy
8.1　Scrapyのインストール8.1.1　新たなスパイダーの初期化8.2　シンプルなスクレイパーを書く8.3　規則を使ったスパイダー8.4　アイテムの作成8.5　アイテムの出力8.6　アイテムパイプライン8.7　Scrapyによるロギング8.8　さらに学ぶために
9章　データの格納
9.1　メディアファイル9.2　CSVにデータを保存する9.3　MySQL9.3.1　MySQLのインストール9.3.2　基本的なコマンド9.3.3　PythonからMySQLに接続する9.3.4　データベースのテクニック9.3.5　6次のウィキペディアのようにMySQLで関連をたどる9.4　メール
II部　高度なスクレイピング
10章　データの読み込み
10.1　エンコーディング10.2　テキスト10.2.1　テキストエンコーディングとグローバルインターネット10.3　CSV10.3.1　CSVファイルを読む10.4　PDF10.5　Microsoft Wordとdocx
11章　汚いデータの取り扱い
抽出、変換、ロード11.1　テキストのクリーニング11.2　正規化されたテキストの取り扱い11.3　pandasによるデータのクリーニング11.3.1　クリーニング11.3.2　インデックス、ソート、フィルタリング11.3.3　pandasをさらに詳しく知る
12章　自然言語の読み込みと書き込み
12.1　データを要約する12.2　マルコフモデル12.2.1　6次のウィキペディア：結論12.3　Natural Language Toolkit（NLTK）12.3.1　インストールと設定12.3.2　NLTKによる統計分析12.3.3　NLTKによる字句解析Penn Treebankのタグ機械学習と機械訓練12.4　さらに学ぶために
13章　フォームとログインを介したクローリング
13.1　Requestsライブラリ13.2　簡単なフォームを送信する13.3　ラジオボタン、チェックボックス、その他の入力13.4　ファイルと画像を送信する13.5　ログインとCookieを扱う13.5.1　HTTP Basic認証13.6　その他のフォームの問題
14章　JavaScriptのスクレイピング
14.1　JavaScriptの簡単な紹介14.1.1　一般的なJavaScriptライブラリ14.2　Ajaxと動的なHTML14.3　Seleniumを用いてPythonでJavaScriptを実行する14.3.1　Seleniumのインストール方法と実行方法14.3.2　Seleniumセレクタ14.3.3　読み込みを待つ14.3.4　XPath14.4　他のWebDriver14.5　リダイレクトの処理14.6　JavaScriptのまとめ
15章　APIを介したクローリング
15.1　APIの簡単な紹介15.1.1　HTTPメソッドとAPI15.1.2　APIレスポンス15.2　JSONをパースする15.3　ドキュメントがないAPI15.3.1　ドキュメントのないAPIを調べる15.3.2　ドキュメントのないAPIのドキュメントを作る15.4　APIと他のデータソースを組み合わせる15.5　APIについてさらに学ぶために
16章　画像処理とテキスト認識
16.1　ライブラリ概要16.1.1　Pillow16.1.2　Tesseract16.1.3　NumPy16.2　適切にフォーマットされたテキストの処理16.2.1　画像を自動修正する16.2.2　Webサイトの画像からテキストをスクレイピングする16.3　CAPTCHAの読み取りとTesseractの学習16.3.1　Tesseractを学習させる16.4　CAPTCHAの読み取りと送信
17章　スクレイピングの落とし穴の回避
17.1　倫理についての注意17.2　人間らしく見せる17.2.1　ヘッダーを調整するヘッダーは世界の見え方を変える17.2.2　JavaScriptでCookieを扱う17.2.3　TLSフィンガープリント17.2.4　タイミングがすべて17.3　フォームでよく見られるセキュリティ機能17.3.1　隠しフィールドの値17.3.2　ハニーポットを避ける17.4　人間らしく見せるためのチェックリスト
18章　スクレイパーによるWebサイトのテスト
18.1　テスト入門18.1.1　ユニットテストとは何か18.2　PythonのunittestJupyter Notebooksでunittestを実行する18.2.1　ウィキペディアをテストする18.3　Seleniumでテストする18.3.1　サイトとやり取りする
19章　並列クローリング
19.1　プロセスとスレッド19.2　マルチスレッドクローリング19.2.1　競合状態とキュー19.2.2　threadingモジュール19.3　マルチプロセス19.3.1　マルチプロセスクローリング19.3.2　プロセス間通信19.4　マルチプロセスクローリング：その2
20章　Webスクレイピングプロキシ
20.1　なぜリモートサーバーを使うか20.1.1　IPアドレスのブロックを避ける20.1.2　移植性と拡張性20.2　Tor20.2.1　PySocks20.3　リモートホスティング20.3.1　Webサイトホスティングアカウントから実行する20.3.2　クラウドから実行する20.3.3　さらに進むために20.4　Webスクレイピングプロキシ20.4.1　ScrapingBee20.4.2　ScraperAPI20.4.3　Oxylabs20.4.4　Zyte20.5　さらに学ぶために
著者・訳者紹介
奥付

Content preview from PythonによるWebスクレイピング第3版

17章スクレイピングの落とし穴の回避

サイトをスクレイピングして出力を確認した際に、ブラウザでは見えるデータが含まれていないときほど、苛立たしいことはありません。また、何の問題もないはずのフォームを送信したのに、Webサーバーから拒否される場合や、理由もわからないままIPアドレスがブロックされてしまうこともあります。

これらは修正が難しいバグの一例です。あるサイトでは問題なく動作していたスクリプトが、ほぼ同じ構成の別サイトでまったく動かなくなるなど、想定外の事態が起こり得る上、意図的にエラーメッセージやスタックトレースが出ないように設定されている場合があるからです。ボットであると判断され、拒絶されてしまい、理由はまったくわからないままということもあります。

本書ではこれまで、フォームの送信や複雑なデータの抽出とクリーニング、JavaScriptの実行など、Webサイトで高度な処理を行うための多くの方法を紹介してきました。本章では、さまざまな分野にまたがるテクニックをまとめて取り上げます。これらのテクニックに共通しているのは、サイトの自動スクレイピングを阻止するために用意されている仕組みを乗り越えるためのものであるという点です。

現時点でこれらの情報がどれほど役に立つかは別にしても、この章にはざっと目を通すことを強くお勧めします。いつ、どのような場面で、厄介なバグを解消したり問題を未然に防ぐのに役立つかわからないからです。

17.1　倫理についての注意

本書の冒頭で、Webスクレイピングが置かれている法的なグレーゾーンや、スクレイピングに伴う倫理・法的観点について解説しました。正直なところ、本章は倫理的な側面から、執筆するのが最も難しかった章です。筆者のWebサイトは、読者の皆さんのサイト同様に、ボットやスパマー、スクレイパーといった望ましくないアクセスに悩まされてきました。では、なぜ「より優れたボットを作る方法」を伝えようとするのでしょうか。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784814401222Publisher Website

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

PythonによるWebスクレイピング第3版

by Ryan Mitchell, 嶋田健志, 新井翔太

17章スクレイピングの落とし穴の回避

17.1　倫理についての注意

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.