Skip to Content
Pythonによる地理空間データ分析 ―例題で学ぶロケーションインテリジェンス
book

Pythonによる地理空間データ分析 ―例題で学ぶロケーションインテリジェンス

by Bonny P. McClain, 廣川 類
September 2023
Intermediate to advanced
272 pages
4h 26m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonによる地理空間データ分析 ―例題で学ぶロケーションインテリジェンス

8章データのクリーニング

データを扱う際の普遍的な問題は、データの完全性を理解することです。データエンジニアリングは、データをクリーニングし、処理し、可視化する能力に依存しています。Jupyter NotebookやGoogle ColabなどのNotebookベースのコードエディタによるデータの統合や基本的な機能については理解できたと思いますので、次はデータをクリーニングする方法を学びましょう。データには、「雑然データ」と呼ばれる問題があり、不完全(欠損)であったり、不整合な形式であったり、あるいは不正確であったりします。データクリーニングとは、このような問題に対処し、分析に必要なデータを準備するプロセスです。

本章では、一般に公開されているデータセットをいくつか調査し、Colab Notebookに読み込めるいくつかのパッケージを用いて乱雑なデータを発見し、クリーニングします。ここでは、ニューヨーク市のオープンデータポータル(https://opendata.cityofnewyork.us/)が提供するデータセットであるNYPD_Complaint_Data_Historic(2023年6月17日に更新)を使用します。ここでは、フィルタにより2020年のデータを抽出し、さらに表示および操作しやすくなるようにしました。利用するデータ項目に基づきフィルタリング†1し、CSVファイルとしてエクスポート(https://oreil.ly/7J4Kj)します。本章では、データの管理、削除、更新、統合を行い、いくつかの便利なPythonパッケージで処理する方法を紹介します。

[†1] 訳注:画面右側のFilterを選択、カラムにCMPLNT_FR_DT、値に01/01/2000-12/31/2020の間(is ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

システム運用アンチパターン ―エンジニアがDevOpsで解決する組織・自動化・コミュニケーション

システム運用アンチパターン ―エンジニアがDevOpsで解決する組織・自動化・コミュニケーション

Jeffery D. Smith, 田中 裕一
scikit-learn、Keras、TensorFlowによる実践機械学習 第2版

scikit-learn、Keras、TensorFlowによる実践機械学習 第2版

Aurélien Géron, 下田 倫大, 長尾 高弘

Publisher Resources

ISBN: 9784814400324Publisher Website