8章データのクリーニング
データを扱う際の普遍的な問題は、データの完全性を理解することです。データエンジニアリングは、データをクリーニングし、処理し、可視化する能力に依存しています。Jupyter NotebookやGoogle ColabなどのNotebookベースのコードエディタによるデータの統合や基本的な機能については理解できたと思いますので、次はデータをクリーニングする方法を学びましょう。データには、「雑然データ」と呼ばれる問題があり、不完全(欠損)であったり、不整合な形式であったり、あるいは不正確であったりします。データクリーニングとは、このような問題に対処し、分析に必要なデータを準備するプロセスです。
本章では、一般に公開されているデータセットをいくつか調査し、Colab Notebookに読み込めるいくつかのパッケージを用いて乱雑なデータを発見し、クリーニングします。ここでは、ニューヨーク市のオープンデータポータル(https://opendata.cityofnewyork.us/)が提供するデータセットであるNYPD_Complaint_Data_Historic(2023年6月17日に更新)を使用します。ここでは、フィルタにより2020年のデータを抽出し、さらに表示および操作しやすくなるようにしました。利用するデータ項目に基づきフィルタリング†1し、CSVファイルとしてエクスポート(https://oreil.ly/7J4Kj)します。本章では、データの管理、削除、更新、統合を行い、いくつかの便利なPythonパッケージで処理する方法を紹介します。
[†1] 訳注:画面右側のFilterを選択、カラムにCMPLNT_FR_DT、値に01/01/2000-12/31/2020の間(is ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access