August 2023
Intermediate to advanced
612 pages
9h 33m
Japanese
この本も最終章となりました。最後に、現実世界のデータセットを扱った分析をしてみたいと思います。これまでに紹介したテクニックを使って、各データセットの生データから意味のある情報を取り出していきます。ここで紹介する手法は、あらゆるデータセットに適用可能です。この章では、世の中にたくさん存在するデータセットの中から、これまでに学んだ各種ツールを実践するのにちょうど良い例をいくつか取り上げています。
データセットはこの本のGitHubリポジトリ(https://github.com/wesm/pydata-book)に準備しましたので活用してください。GitHubにアクセスできない場合は、Giteeのリポジトリミラー(https://gitee.com/wesmckinn/pydata-book)から取得することも可能です。
2011年、URL短縮サービスのBitly(https://bitly.com)がアメリカ合衆国政府のウェブサイトUSA.gov(https://www.usa.gov)と提携し、.govや.milをトップレベルドメインに持つURLへの短縮リンクを作成したユーザに関する情報を、匿名化したデータとして提供するようになりました。2011年の時点では、URL作成状況の即時配信に加え、毎時のスナップショットがテキストファイルとしてダウンロード可能になっていました。この本の執筆時点の2022年では残念ながらこのデータ提供サービスは既に停止されていますが、分析の例として使用できるようにデータの一部を保存してあります。
毎時のスナップショットのデータでは、各ファイルのそれぞれの行がJSON( ...