第4章. 厄介なデータを一掃する
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
多くの場合、データセットは乱雑で、すぐに視覚化するのは難しい。データセットには、欠落値、異なる形式の日付、数値のみの列にテキスト、同じ列に複数の項目、同じ名前のさまざまな綴り、その他予期せぬものがある。図4-1を参考にしてほしい。データの分析や視覚化よりも、データの整理に多くの時間を費やしていることに気づいても驚かないでほしい。
図4-1. 多くの場合、生データは乱雑に見える。
この章では、、どのツールを使えば効率的にデータをクリーンアップできるかを判断するための、さまざまなツールについて学ぶ。まず、Google Sheetsを使った基本的なクリーンアップ・メソッドである"Google Sheetsを使ったスマート・クリーンアップ"、 "空白の検索と置換"、" 行と列の入れ替え"、" データを別々の列に分割"、" データを1つの列にまとめる "から始める。例ではGoogle Sheetsを取り上げるが、これらの原則の多くは(場合によっては同じ数式も)Microsoft Excel、LibreOffice Calc、MacのNumbers、その他の表計算パッケージにも適用できる。Tabulaは、世界中のデータジャーナリストや研究者が、支出データ、健康レポート、その他PDFに含まれるあらゆる種類のデータセットを分析するために使用している無料ツールである(「TabulaでPDFから表を抽出する」を参照)。最後に、OpenRefineを「Clean Data with OpenRefine」で紹介する。OpenRefineは、同じ名前の綴りが何十通りもあるような、最も厄介なスプレッドシートをクリーンアップするパワフルで多機能なツールである。
Googleシートでスマートに片付けよう
Google Sheetsでデータを扱う最も新しい理由のひとつは、 スマート・クリーンアップ機能を使うことである。このツールはサイドバーメニューを開き、潜在的な問題を見つけ、その提案を受け入れるかどうかを決める。
Smart Cleanupがどのような問題を捕捉し、どのような問題を見逃すかについては、世界で最も人口の多い10カ国のサンプル・データ(私たちが意図的に追加した問題を含む)を使って学ぶことができる:
-
スマート・クリーンアップのサンプル・データ・ファイルをGoogleシートで開き、アカウントでサインインして、ファイル>「コピーを作成」と進み、Googleドライブで編集できるバージョンを作成する。
-
Data > "Cleanup suggestions "と進み、サイドバーに表示される項目を見る。
スマート・クリーンアップ機能は、重複エントリ(12行目)とセルA4とA5の空白スペースを検出した。緑色の削除ボタンと "Trim all "ボタンをクリックして、Google Sheetsがこれらをクリーンアップすることを確認する。 ...