15章政府機関が公表する時系列

時系列解析は、多くの理由により政府機関向けの用途に重要で深い関わりがあります。第1に、各国政府はその大小にかかわらず、世界で最も重要な時系列データのいくつかを管理しています。例えば、米国雇用統計、海水温データ(すなわち地球温暖化データ)、地域犯罪統計などが含まれます。第2に、政府機関は、その定義上、人々が依存する最も不可欠なサービスを提供しているので、これらのサービスが支出過剰や人員不足に陥らないために、需要の予測が十分正確である必要があります。それゆえ時系列は、その保管、クリーニング、探索、予測のすべての面において、政府機関向けの用途に関わりがあるのです。

「2章 時系列データの見つけ方と前処理」で「発掘した」時系列の説明で言及したように、政府機関データは、非常に高い割合で、何らかの再構築を施せば時系列データによく類似します。一般に、政府機関データセットのほとんどは、1片の時間スライスではなく、現在進行形のデータ収集の結果なのです。しかし、政府機関データセットは、以下のような多くの理由から、扱いが困難な場合があります。

  • 一貫性に欠ける記録管理(組織の制約や政治勢力の推移による)
  • 不透明だったり混乱を招くようなデータの取り扱いの慣習
  • 情報量が比較的少ないのに巨大なデータセット

とは言え、政府機関データセットを調べるのは、知的興味と多くの実用的な目的の両面から、とても興味深いことです。本章では、ニューヨーク市が運営する電話番号が311†1のホットラインに寄せられた2010年から現在にかけてのニューヨーク市内で寄せられた苦情(https://perma.cc/BXF6-BZ4X)のすべてからなる、政府機関データセットを探索します。このデータセットは継続的に更新されているので、現在ダウンロードできるものは本書に記載されたデータとおそらく違っており、本章の執筆時点よりもさらに情報が増えているでしょう。とは言え、結果はそう変わらないはずです。本章では、以下のテーマを取り上げます。 ...

Get 実践 時系列解析 ―統計と機械学習による予測 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.