第5章. RとPythonによる探索的データ分析
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
探索的 データ分析は、ビジネスアナリティクスサイクルの後続のすべてのステップに影響を与える重要な準備ステップであり、よく理解され適切に処理されたデータの強固な基盤の上にモデルが構築されることを保証する。EDAは、データの特性を理解し、エラーや矛盾を特定し、特徴間の関係を明らかにし、仮定を検証し、どのモデルが最良のパフォーマンスを発揮するかについて、情報に基づいた意思決定を行うために使用される。この章では、EDAに関わる主要な各ステップについて説明する。
ジョン・テューキー(John Tukey) 、先駆的な統計学者であり、データを理解するために視覚的メソッドを用いることの重要性を強調し、EDAの発展において重要な役割を果たした。Tukeyは、正式な統計モデルを適用する前に、根本的なパターンを明らかにし、異常を発見し、仮定をテストする方法としてEDAを提唱した。彼のアプローチは、分析者が可視化と要約統計を通じてデータと対話し、その構造と関係性について洞察と直観を得ることを奨励している。Tukeyの研究は現代のデータ分析の基礎を築き、データ理解の初期段階におけるEDAの価値を強調した。EDAプロセスの最初のステップは、分析プロジェクトで使用されるデータの質を調査することである。
データの質
データ 品質とはデータセットの条件付きである。さまざまなデータ点の価値はデータ内容の質に依存するため、EDAでは特に重要である。
データ品質の特徴
データ品質の評価は、多くの理由からEDAの重要な側面である。第一に、結果の精度に影響する。低品質のデータは、たとえ洗練されたモデルやアルゴリズムであっても、不正確な結果や誤解を招く結果を招く可能性がある。次に、質の低いデータのクリーニングと管理には時間とコストがかかるため、リソースを最大限に活用することが重要である。最も重要なことは、機械学習モデルの性能は学習データの質に大きく依存するということだ。不正確なデータや一貫性のないデータは、モデルのパフォーマンス低下につながる。
質の高いデータには通常、正確性、完全性、一貫性、信頼性、関連性といった特徴がある。重複エントリ、関連性のない情報、不正確さ、欠落値がない。適時性、つまりデータが最新であり、それゆえにまだ有用であることも重要な変数である。
以下のリストでは、それぞれの特徴を定義している:
- 完全性
- この、データセットに欠損値があるかどうかをチェックする。欠損データは、不正確なマシン学習モデルにつながる可能性がある。
- 一貫性
- 一貫性 データセット全体のデータの均一性を指す。データの形式のばらつきや冗長性エントリなどのデータの不整合は、結果を歪める可能性がある。
- 精度
- 正確さ(Accuracy) チェックでは、データがモデルとして想定される現実世界の構成要素を正しく表していることを確認する。これらのチェックには、データのエラーを特定し、修正することが含まれる。
- 関連性
- このでは、データが問題文に対処するのに適切で十分なものかどうか、あるいは無関係なデータ列を削除する必要があるかどうかを評価する。
- 独自性
- 、一意性のチェックには、データセットに重複レコードがないことを確認することが含まれる。重複レコードは、機械学習アルゴリズムのパフォーマンスに影響を与える可能性があるからだ。
- 妥当性 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access