入門 ソーシャルデータ 第2版 ―ソーシャルウェブのデータマイニング

Book description

本書では、Twitter、Facebook、LinkedIn、Google+、GitHubなどのソーシャルウェブサイトを取り上げて、データマイニングを行うために必要な技術知識や手法を解説しています。本書の前半では基礎概念を学び、後半ではソーシャルウェブサイトをマイニングするためのツールやテクニックを広く紹介しています。データサイエンティストやアナリスト、あるいは新しいビジョンを描き出す思想家として新たな段階に踏み出したいエンジニアにおすすめします。

Table of contents

  1. はじめに (1/4)
  2. はじめに (2/4)
  3. はじめに (3/4)
  4. はじめに (4/4)
  5. 1部 ガイド付きのソーシャルサイトツアー
    1. プレリュード
    2. 1章 Twitterをマイニングする: トレンドの話題の調査、人々が話題にしていることの発見など
      1. 1.1 概要
      2. 1.2 Twitterはなぜ人気があるのか
      3. 1.3 TwitterのAPIについて (1/4)
      4. 1.3 TwitterのAPIについて (2/4)
      5. 1.3 TwitterのAPIについて (3/4)
      6. 1.3 TwitterのAPIについて (4/4)
        1. 1.3.1 Twitterの基本用語
        2. 1.3.2 Twitter APIへ接続する
        3. 1.3.3 何が話題になっているのかを探る
        4. 1.3.4 ツイートの検索
      7. 1.4 140字を分析する (1/3)
      8. 1.4 140字を分析する (2/3)
      9. 1.4 140字を分析する (3/3)
        1. 1.4.1 ツイートエンティティを抽出する
        2. 1.4.2 頻度分析を使ってツイートとツイートエンティティを分析する
        3. 1.4.3 ツイートの語彙的多様性を訇算する
        4. 1.4.4 リツイートのパターンを解析する
        5. 1.4.5 頻度データをヒストグラムでビジュアライズする
      10. 1.5 この章を締めくくるに当たって
      11. 1.6 練習問題
      12. 1.7 オンラインリソース
    3. 2章 Facebookをマイニングする: ファンページの分析、友達の解析など
      1. 2.1 概要
      2. 2.2 FacebookのソーシャルグラフAPIについて
        1. 2.2.1 ソーシャルグラフAPI
        2. 2.2.2 オープングラフプロトコル
      3. 2.3 ソーシャルグラフのつながりを分析する (1/6)
      4. 2.3 ソーシャルグラフのつながりを分析する (2/6)
      5. 2.3 ソーシャルグラフのつながりを分析する (3/6)
      6. 2.3 ソーシャルグラフのつながりを分析する (4/6)
      7. 2.3 ソーシャルグラフのつながりを分析する (5/6)
      8. 2.3 ソーシャルグラフのつながりを分析する (6/6)
        1. 2.3.1 Facebookページを分析する
        2. 2.3.2 友達を解析する
      9. 2.4 この章を締めくくるに当たって
      10. 2.5 練習問題
      11. 2.6 オンラインリソース
    4. 3章 LinkedInをマイニングする: 職種情報の正規化、同僚のクラスタリングなど
      1. 3.1 概要
      2. 3.2 LinkedInのAPIについて
        1. 3.2.1 LinkedIn APIリクエストを発行する
        2. 3.2.2 LinkedInの知人の情報をCSV形式でダウンロードする
      3. 3.3 クラスタリング集中講座 (1/7)
      4. 3.3 クラスタリング集中講座 (2/7)
      5. 3.3 クラスタリング集中講座 (3/7)
      6. 3.3 クラスタリング集中講座 (4/7)
      7. 3.3 クラスタリング集中講座 (5/7)
      8. 3.3 クラスタリング集中講座 (6/7)
      9. 3.3 クラスタリング集中講座 (7/7)
        1. 3.3.1 クラスタリングはユーザーエクスペリエンスを向上させる
        2. 3.3.2 分析できるようにデータを正規化する
        3. 3.3.3 類似度を訇測する
        4. 3.3.4 クラスタリングアルゴリズム
      10. 3.4 この章を締めくくるに当たって
      11. 3.5 練習問題
      12. 3.6 オンラインリソース
    5. 4章 Google+をマイニングする: 文書の類似度の訇算、コロケーションの抽出など
      1. 4.1 概要
      2. 4.2 Google+のAPIについて
        1. 4.2.1 Google+ APIリクエストを発行する
      3. 4.3 TF-IDF入門 (1/2)
      4. 4.3 TF-IDF入門 (2/2)
        1. 4.3.1 単語の頻度
        2. 4.3.2 文書頻度の逆数
        3. 4.3.3 TF-IDF
      5. 4.4 TF-IDFで自然言語データを検索する (1/5)
      6. 4.4 TF-IDFで自然言語データを検索する (2/5)
      7. 4.4 TF-IDFで自然言語データを検索する (3/5)
      8. 4.4 TF-IDFで自然言語データを検索する (4/5)
      9. 4.4 TF-IDFで自然言語データを検索する (5/5)
        1. 4.4.1 NLTK入門
        2. 4.4.2 自然言語にTF-IDFを適用する
        3. 4.4.3 類似する文書を探す
        4. 4.4.4 自然言語のバイグラムを分析する
        5. 4.4.5 自然言語データ分析についての考察
      10. 4.5 この章を締めくくるに当たって
      11. 4.6 練習問題
      12. 4.7 オンラインリソース
    6. 5章 ウェブページをマイニングする: NLPによる自然言語理解のための処理、ブログポストの要約作〰㜐など
      1. 5.1 概要
      2. 5.2 ウェブのスクレイピング、パーシング、クローリング
        1. 5.2.1 幅優先探索によるウェブクローリング
      3. 5.3 構文を解読してセマンティクス'意味)を見つける (1/5)
      4. 5.3 構文を解読してセマンティクス'意味)を見つける (2/5)
      5. 5.3 構文を解読してセマンティクス'意味)を見つける (3/5)
      6. 5.3 構文を解読してセマンティクス'意味)を見つける (4/5)
      7. 5.3 構文を解読してセマンティクス'意味)を見つける (5/5)
        1. 5.3.1 自然言語処理ステップバイステップ
        2. 5.3.2 自然言語データの文を検出する
        3. 5.3.3 文書の要約
      8. 5.4 エンティティ中心の分析: データのより深い理解 (1/2)
      9. 5.4 エンティティ中心の分析: データのより深い理解 (2/2)
        1. 5.4.1 自然言語データの要点を取り出す
      10. 5.5 自然言語データ処理分析の品質
      11. 5.6 この章を締めくくるに当たって
      12. 5.7 練習問題
      13. 5.8 オンラインリソース
    7. 6章 メールボックスをマイニングする: 誰が誰に何について話しているかの分析、頻度分析など
      1. 6.1 概要
      2. 6.2 メールコーパスを手に入れて処理する (1/4)
      3. 6.2 メールコーパスを手に入れて処理する (2/4)
      4. 6.2 メールコーパスを手に入れて処理する (3/4)
      5. 6.2 メールコーパスを手に入れて処理する (4/4)
        1. 6.2.1 Unixメールボックス入門
        2. 6.2.2 Enronデータを取得する
        3. 6.2.3 メールコーパスをUnix mboxに変換する
        4. 6.2.4 Unix mboxをJSONに変換する
        5. 6.2.5 JSONに変換したメールコーパスをMongoDBにインポートする
        6. 6.2.6 PythonでプログラムからMongoDBにアクセスする
      6. 6.3 Enronコーパスを分析する (1/4)
      7. 6.3 Enronコーパスを分析する (2/4)
      8. 6.3 Enronコーパスを分析する (3/4)
      9. 6.3 Enronコーパスを分析する (4/4)
        1. 6.3.1 日時の範囲によるクエリ
        2. 6.3.2 送信者/受信者のパターンを分析する
        3. 6.3.3 高度なクエリ
        4. 6.3.4 キーワードでメールを検索する
      10. 6.4 時系列的なトレンドを見つけてビジュアライズする
      11. 6.5 自分のメールデータの分析 (1/2)
      12. 6.5 自分のメールデータの分析 (2/2)
        1. 6.5.1 OAuthでGmailにアクセスする
        2. 6.5.2 IMAPでメールメッセージを取得、解析する
        3. 6.5.3 「Graph Your Inbox」ChromeエクステンションでGmailのパターンをビジュアライズする
      13. 6.6 この章を締めくくるに当たって
      14. 6.7 練習問題
      15. 6.8 オンラインリソース
    8. 7章 GitHubをマイニングする: ソフトウェアコラボレーションの習慣の調査、インタレストグラフの構築など
      1. 7.1 概要
      2. 7.2 GitHubのAPIについて
        1. 7.2.1 GitHub APIへの接続を開設する
        2. 7.2.2 GitHub APIリクエストを発行する
      3. 7.3 プロパティグラフでデータをモデリングする
      4. 7.4 GitHubインタレストグラフを分析する (1/6)
      5. 7.4 GitHubインタレストグラフを分析する (2/6)
      6. 7.4 GitHubインタレストグラフを分析する (3/6)
      7. 7.4 GitHubインタレストグラフを分析する (4/6)
      8. 7.4 GitHubインタレストグラフを分析する (5/6)
      9. 7.4 GitHubインタレストグラフを分析する (6/6)
        1. 7.4.1 インタレストグラフに種を与える
        2. 7.4.2 グラフ中心性指標を訇算する
        3. 7.4.3 ユーザーに対する「フォロー」のエッジでインタレストグラフを拡張する
        4. 7.4.4 ノードをより効率的なクエリの軸として使う
        5. 7.4.5 インタレストグラフをビジュアライズする
      10. 7.5 この章を締めくくるに当たって
      11. 7.6 練習問題
      12. 7.7 オンラインリソース
    9. 8章 セマンティックウェブをマイニングする: マイクロフォーマットの抽出、RDFによる推論など
      1. 8.1 概要
      2. 8.2 マイクロフォーマット
        1. 8.2.1 GeoCoordinates: ほぼすべての情報をつなぐ共通の糸
        2. 8.2.2 レシピデータを使ってオンライン出会い系サイトの成功率を上げる
        3. 8.2.3 LinkedInの2億人分のオンライン履歴書にアクセスする
      3. 8.3 セマンティックマークアップからセマンティックウェブへ: 短い間奏曲
      4. 8.4 セマンティックウェブ
        1. 8.4.1 人は事実だけでは生きていけない
        2. 8.4.2 オープンワールドについての推論
      5. 8.5 この章を締めくくるに当たって
      6. 8.6 練習問題
      7. 8.7 オンラインリソース
  6. 2部 Twitterクックブック
    1. 9章 Twitterレシピ集
      1. 9.1 開発目的でTwitter APIにアクセスする
        1. 9.1.1 問題
        2. 9.1.2 解答
        3. 9.1.3 解説
      2. 9.2 本番稼働用のアプリケーションのためにOAuthダンスを実行してTwitter APIにアクセスする
        1. 9.2.1 問題
        2. 9.2.2 解答
        3. 9.2.3 解説
      3. 9.3 何が話題になっているのかを調べる
        1. 9.3.1 問題
        2. 9.3.2 解答
        3. 9.3.3 解説
      4. 9.4 ツイートを検索する
        1. 9.4.1 問題
        2. 9.4.2 解答
        3. 9.4.3 解説
      5. 9.5 便利な関数呼び出しを組み立てる
        1. 9.5.1 問題
        2. 9.5.2 解答
        3. 9.5.3 解説
      6. 9.6 JSONデータをテキストファイルに保存する
        1. 9.6.1 問題
        2. 9.6.2 解答
        3. 9.6.3 解説
      7. 9.7 MongoDBにJSONデータを保存する
        1. 9.7.1 問題
        2. 9.7.2 解答
        3. 9.7.3 解説
      8. 9.8 ストリーミングAPIでTwitter Firehoseをサンプリングする
        1. 9.8.1 問題
        2. 9.8.2 解答
        3. 9.8.3 解説
      9. 9.9 時系列データを集める
        1. 9.9.1 問題
        2. 9.9.2 解答
        3. 9.9.3 解説
      10. 9.10 ツイートエンティティを抽出する
        1. 9.10.1 問題
        2. 9.10.2 解答
        3. 9.10.3 解説
      11. 9.11 一群のツイートのなかでもっとも人気の高いツイートを見つける
        1. 9.11.1 問題
        2. 9.11.2 解答
        3. 9.11.3 解説
      12. 9.12 一群のツイートのなかでもっとも人気の高いエンティティを見つける
        1. 9.12.1 問題
        2. 9.12.2 解答
        3. 9.12.3 解説
      13. 9.13 頻度分析を表にまとめる
        1. 9.13.1 問題
        2. 9.13.2 解答
        3. 9.13.3 解説
      14. 9.14 ツイートをリツイートしたユーザーを見つける
        1. 9.14.1 問題
        2. 9.14.2 解答
        3. 9.14.3 解説
      15. 9.15 リツイートの引用元を抽出する
        1. 9.15.1 問題
        2. 9.15.2 解答
        3. 9.15.3 解説
      16. 9.16 頑健なTwitterリクエストを発行する
        1. 9.16.1 問題
        2. 9.16.2 解答
        3. 9.16.3 解説
      17. 9.17 ユーザープロフィール情報を取得する
        1. 9.17.1 問題
        2. 9.17.2 解答
        3. 9.17.3 解説
      18. 9.18 テキストからツイートエンティティを抽出する
        1. 9.18.1 問題
        2. 9.18.2 解答
        3. 9.18.3 解説
      19. 9.19 あるユーザーのすべての友人またはフォロワーを取得する
        1. 9.19.1 問題
        2. 9.19.2 解答
        3. 9.19.3 解説
      20. 9.20 ユーザーの友達やフォロワーを分析する
        1. 9.20.1 問題
        2. 9.20.2 解答
        3. 9.20.3 解説
      21. 9.21 ユーザーのツイートを集める
        1. 9.21.1 問題
        2. 9.21.2 解答
        3. 9.21.3 解説
      22. 9.22 友達のグラフをクローリングする
        1. 9.22.1 問題
        2. 9.22.2 解答
        3. 9.22.3 解説
      23. 9.23 ツイートの内容を分析する
        1. 9.23.1 問題
        2. 9.23.2 解答
        3. 9.23.3 解説
      24. 9.24 リンク先の情報を要約する
        1. 9.24.1 問題
        2. 9.24.2 解答
        3. 9.24.3 解説
      25. 9.25 ユーザーのお気に入りのツイートを分析する
        1. 9.25.1 問題
        2. 9.25.2 解答
        3. 9.25.3 解説
      26. 9.26 この章を締めくくるに当たって
      27. 9.27 練習問題
      28. 9.28 オンラインリソース
  7. 3部 付録
    1. 付録A 本書の仮想マシンについて
      1. A.1 IPython Notebookのインストールとセットアップ手順
        1. A.1.1 スクリーンキャストによる解説
        2. A.1.2 インストールの概要
        3. A.1.3 すると次にはどうなるのか
        4. A.1.4 Vagrantチートシート
        5. A.1.5 トラブルシューティング
        6. A.1.6 GitとGitHub
        7. A.1.7 Git for Windowsのためのスクリーンショット
        8. A.1.8 ありがとう!
        9. A.1.9 コピーライトとライセンス
    2. 付録B OAuth入門
      1. B.1 概要
        1. B.1.1 OAuth 1.0A
        2. B.1.2 OAuth 2.0
    3. 付録C PythonとIPython Notebookのヒントとテクニック
  8. 索引 (1/3)
  9. 索引 (2/3)
  10. 索引 (3/3)

Product information

  • Title: 入門 ソーシャルデータ 第2版 ―ソーシャルウェブのデータマイニング
  • Author(s): Matthew A. Russell, 佐藤 敏紀, 瀬戸口 光宏, 原川 浩一, 長尾 高弘
  • Release date: June 2014
  • Publisher(s): O'Reilly Japan, Inc.
  • ISBN: 9784873116792

You might also like

book

Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理

by Wes McKinney, 瀬戸山 雅人, 小林 儀匡, 滝口 開資

NumPy、SciPy、pandas、Matplotlib、Jupyterをはじめ、高機能で使いやすい数学・科学計算用ライブラリが充実しているPythonは、科学計算、統計解析、機械学習のみならず、金融や経済分野でも広く利用されています。本書はPythonの代表的なデータ分析ツール、pandasの開発者Wes McKinneyによる、データ分析を行うための基本を網羅しています。すべてのサンプルコードはダウンロード可能で、Jupyter Notebookで対話的に試し、実際に手を動かしながら知識を確実なものにすることが可能です。Python 3に対応した待望の改訂版です。

book

ハイパフォーマンス ブラウザネットワーキング ―ネットワークアプリケーションのためのパフォーマンス最適化

by Ilya Grigorik, 和田 祐一郎/株式会社プログラミングシステム社

現代のアプリケーションエンジニアは、UIやデータ処理、開発言語、プラットフォームの仕様や癖だけでなく、サーバやネットワークについても、上から下まで、表から裏まで広く知ることを求められます。本書は「ブラウザ」に関連し、インターネットで使用されるさまざまなネットワーク技術をまとめたものです。HTTP/2.0やWebRTCなどの最新技術、WebSocketやXMLHttpRequestなどのブラウザAPI、そしてそれらの土台となるTCPやUDPやトランスポート層についてまでを幅広くカバーします。また改善前後の性能・速さを可能な限り具体化し、それぞれの場面においてのパフォーマンス改善幅を示します。

book

行動を変えるデザイン ―心理学と行動経済学をプロダクトデザインに活用する

by Stephen Wendel, 武山 政直, 相島 雅樹, 反中 望, 松村 草也

深津貴之氏推薦!「行動経済学、データ分析、サービス設計のエッセンスが高度に統合された行動変容デザインの良書です」 本書は、行動経済学と心理学をもとに、人々の行動、日常習慣を変える“行動変容”を促すプロダクトをデザインするための書籍です。主にヘルスケア(健康管理)、金融(資産管理)など、これまでITプロダクト(サービス、アプリなど)がなかなか使われてこなかった分野を対象に、ユーザーがやりたいと思っていたものの実行できなかった行動の実現を助けるプロダクトを作り出すための、実践的な視点や知識を提供します。

book

入門 監視 ―モダンなモニタリングのためのデザインパターン

by Mike Julian, 松浦 隼人

本書は、システムのどの部分をどのように監視すべきか、また監視をどのように改善していくべきかについて解説する書籍です。前半で監視のベストプラクティス、デザインパターン/アンチパターンを示して、監視の基本原則を詳しく説明し、後半でフロントエンド、アプリケーション、サーバ、ネットワーク、セキュリティの各テーマで強力な監視の基盤を設計して実装するための方法を示します。監視対象が変化し、システムアーキテクチャが進化する中で、従来から変わらない監視の基本を示しながら、時代に合った監視の実践を解説する本書は、監視についての理解を深めたいエンジニア必携の一冊です。