13章データ分析の実例

 この本も最終章となりました。最後に、現実世界のデータセットを扱った分析をしてみたいと思います。これまでに紹介したテクニックを使って、各データセットの生データから意味のある情報を取り出していきます。ここで紹介する手法は、あらゆるデータセットに適用可能です。この章では、世の中にたくさん存在するデータセットの中から、これまでに学んだ各種ツールを実践するのにちょうど良い例をいくつか取り上げています。

 データセットはこの本のGitHubリポジトリ(https://github.com/wesm/pydata-book)に準備しましたので活用してください。GitHubにアクセスできない場合は、Giteeのリポジトリミラー(https://gitee.com/wesmckinn/pydata-book)から取得することも可能です。

13.1 短縮URL Bitlyにおける1.usa.govからの変換データ

 2011年、URL短縮サービスのBitly(https://bitly.com)がアメリカ合衆国政府のウェブサイトUSA.gov(https://www.usa.gov)と提携し、.govや.milをトップレベルドメインに持つURLへの短縮リンクを作成したユーザに関する情報を、匿名化したデータとして提供するようになりました。2011年の時点では、URL作成状況の即時配信に加え、毎時のスナップショットがテキストファイルとしてダウンロード可能になっていました。この本の執筆時点の2022年では残念ながらこのデータ提供サービスは既に停止されていますが、分析の例として使用できるようにデータの一部を保存してあります。

 毎時のスナップショットのデータでは、各ファイルのそれぞれの行がJSON( ...

Get Pythonによるデータ分析入門 第3版 ―pandas、NumPy、Jupyterを使ったデータ処理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.