第10章. アナリティクスで最新のデータ型を扱う
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
今日のデータ主導の状況では、企業は列や行のデータといった従来の構造化データ以外にも、さまざまなデータ構造に遭遇する。最新のデータ・タイプには、ソーシャルメディア・データ、JSONのような半構造化形式、ビデオ・データ、Webスクレイピングで得られたデータ、Webサイトから直接さまざまな形式で得られたデータなどがある。これらの多様なデータソースを効果的に扱うことは、包括的な洞察を得て、情報に基づいた意思決定を行うために極めて重要である。
本章では、ビジネスアナリティクスにおける様々な最新データタイプの管理の重要性を探る。これらのデータタイプの概要を説明するだけでなく、全体的な分析アプローチにこれらのデータタイプの統合が不可欠である理由についても説明する。さらに、PythonとR、およびデータ処理に使用される機能についても再考する。この2つのツールは、複雑なデータセットを抽出、処理、分析するために不可欠であり、データの可能性を最大限に引き出すことができる。
本章で紹介するテクニックをマスターすることで、多様なデータソースを扱う能力を高め、ビジネス分析の深度と精度を向上させることができる。ソーシャルメディアのトレンド、非構造化データ形式、マルチメディア・コンテンツなど、PythonとRはこれらのデータタイプを効率的に扱う堅牢性を備えている。最初のデータ・タイプはソーシャルメディア・データだ。
半構造化データ(JSON)
JavaScript Object Notation (JSON) 軽量なデータ交換形式であり、人間が読み書きをしやすく、マシンが解析・生成しやすい。JSONの定義の1つは、そのシンプルさと柔軟性であり、言語に依存せず、サーバとWebアプリケーション間のデータ伝送に最適である。JSONのテキストベースの形式は、人間が読むことができ、マシンが簡単に解析できることを保証し、ウェブサービスやAPIに広く採用されている。構造上、JSONデータはキーと値のペアで構成されている。キーは文字列で、値は文字列、数値、配列、オブジェクト、true、false、nullのいずれかである。JSONは2つの構造で成り立っている:
-
オブジェクト、レコード、構造体、辞書、ハッシュテーブル、キー付きリスト、連想配列として実現される、名前と値のペアのコレクション。
-
配列、ベクトル、リスト、シーケンスとして実現される値の順序付きリスト。
以下はJSONデータの例である:
{
"name": "John Doe",
"age": 30,
"email": "john.doe@example.com",
"address": {
"street": "123 Main St",
"city": "Anytown",
"zipcode": "12345"
},
"phoneNumbers": [
{"type": "home", "number": "555-555-5555"},
{"type": "work", "number": "555-555-1234"}
]
}
JSONデータでは、オブジェクトは波括弧{ } で囲まれ、配列は角括弧[ ] で囲まれる。各データはキーと値のペアとして表現され、キーと値はコロンで区切られる,: 。異なるkey-valueペアや配列内の要素を区別するために、カンマがセパレーターとして使われる。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access