Rではじめるデータサイエンス

Book description

ggplot2、dplyrといったRを代表するパッケージやRStudioの開発で知られる「Rの神様」ハドリー・ウィッカムと、『RStudioではじめるRプログラミング入門』の著者ギャレット・グロールマンドによる、Rプログラミングを通してデータサイエンスの理解と知識を深めるための一冊。Rの機能と威力を知り尽くし、また、統計とデータサイエンス教育のプロフェッショナルでもある著者たちによるわかりやすくクリアな説明は、既存のデータサイエンス入門書とは一線を画します。データサイエンティストを目指すなら必読の一冊です。

Table of contents

  1. 目次
  2. 日本の読者のみなさんへ (1/5)
  3. 日本の読者のみなさんへ (2/5)
  4. 日本の読者のみなさんへ (3/5)
  5. 日本の読者のみなさんへ (4/5)
  6. 日本の読者のみなさんへ (5/5)
  7. まえがき (1/5)
  8. まえがき (2/5)
  9. まえがき (3/5)
  10. まえがき (4/5)
  11. まえがき (5/5)
  12. 第Ⅰ部 探索
  13. 1章 ggplot2によるデータ可視化
    1. 1.1 はじめに
      1. 1.1.1 準備するもの
    2. 1.2 第1ステップ
      1. 1.2.1 mpgデータフレーム
      2. 1.2.2 ggplotを作る
      3. 1.2.3 グラフ作成テンプレート
    3. 1.3 エステティックマッピング
    4. 1.4 よくある不具合
    5. 1.5 ファセット
    6. 1.6 幾何オブジェクト (1/2)
    7. 1.6 幾何オブジェクト (2/2)
    8. 1.7 統計変換
    9. 1.8 位置調整
    10. 1.9 座標系
    11. 1.10 階層グラフィックス文法
  14. 2章 ワークフロー:基本
    1. 2.1 コーディングの基本
    2. 2.2 名前の中には何がある?
    3. 2.3 関数呼び出し
  15. 3章 dplyrによるデータ変換
    1. 3.1 はじめに
      1. 3.1.1 準備するもの
      2. 3.1.2 nycflights13
      3. 3.1.3 dplyrの基本
    2. 3.2 filter()で行にフィルタにかける
      1. 3.2.1 比較
      2. 3.2.2 論理演算子
      3. 3.2.3 欠損値
    3. 3.3 arrange()で行を配置する
    4. 3.4 select()で列を選ぶ
    5. 3.5 mutate()で新しい変数を追加する
      1. 3.5.1 有用な作成関数
    6. 3.6 summarize()によるグループごとの要約
      1. 3.6.1 パイプで複数演算を結合する
      2. 3.6.2 欠損値
      3. 3.6.3 カウント
      4. 3.6.4 便利な要約関数
      5. 3.6.5 複数の変数によるグループ化
      6. 3.6.6 グループ解除
    7. 3.7 グループごとの変更(とフィルタ)
  16. 4章 ワークフロー:スクリプト
    1. 4.1 コードを実行する
    2. 4.2 RStudioの診断
  17. 5章 探索的データ分析
    1. 5.1 はじめに
      1. 5.1.1 準備するもの
    2. 5.2 質問
    3. 5.3 変動
      1. 5.3.1 分布の可視化
      2. 5.3.2 典型値
      3. 5.3.3 異常値
    4. 5.4 欠損値
    5. 5.5 共変動
      1. 5.5.1 カテゴリ変数と連続変数
      2. 5.5.2 2つのカテゴリ変数
      3. 5.5.3 2つの連続変数
    6. 5.6 パターンとモデル
    7. 5.7 ggplot2呼び出し
    8. 5.8 さらに学ぶために
  18. 6章 ワークフロー:プロジェクト
    1. 6.1 リアルとは
    2. 6.2 どこで分析するか
    3. 6.3 パスとディレクトリ
    4. 6.4 RStudioプロジェクト
    5. 6.5 まとめ
  19. 第Ⅱ部 データラングリング
  20. 7章 tibbleのtibble
    1. 7.1 はじめに
      1. 7.1.1 準備するもの
    2. 7.2 tibbleを作る
    3. 7.3 tibbleとdata.frame
      1. 7.3.1 画面表示
      2. 7.3.2 要素抽出
    4. 7.4 古いコードとの関わり
  21. 8章 readrによるデータインポート
    1. 8.1 はじめに
      1. 8.1.1 準備するもの
    2. 8.2 作業を始めるにあたって
      1. 8.2.1 基本Rとの比較
    3. 8.3 ベクトルをパースする
      1. 8.3.1 数値
      2. 8.3.2 文字列
      3. 8.3.3 ファクタ
      4. 8.3.4 日付、日付時刻、時刻
    4. 8.4 ファイルをパースする
      1. 8.4.1 戦略
      2. 8.4.2 問題点
      3. 8.4.3 他の戦略
    5. 8.5 ファイルへの書き出し
    6. 8.6 他の種類のデータ
  22. 9章 tidyrによるデータ整理
    1. 9.1 はじめに
      1. 9.1.1 準備するもの
    2. 9.2 整理データ
    3. 9.3 広げたり集めたり
      1. 9.3.1 集める
      2. 9.3.2 広げる
    4. 9.4 分割と結合
      1. 9.4.1 分割
      2. 9.4.2 結合
    5. 9.5 欠損値
    6. 9.6 ケーススタディ
    7. 9.7 非整理データ
  23. 10章 dplyrによる関係データ
    1. 10.1 はじめに
      1. 10.1.1 準備するもの
    2. 10.2 nycflights13
    3. 10.3 キー
    4. 10.4 更新ジョイン
      1. 10.4.1 ジョインを理解する
      2. 10.4.2 内部ジョイン
      3. 10.4.3 外部ジョイン
      4. 10.4.4 重複キー
      5. 10.4.5 キーの列を定義する
      6. 10.4.6 他の実装
    5. 10.5 フィルタジョイン
    6. 10.6 ジョインの問題
    7. 10.7 集合演算
  24. 11章 stringrによる文字列
    1. 11.1 はじめに
      1. 11.1.1 準備するもの
    2. 11.2 文字列の基本
      1. 11.2.1 文字列の長さ
      2. 11.2.2 文字列の連結
      3. 11.2.3 文字列の一部抽出
      4. 11.2.4 ロケール
    3. 11.3 正規表現でパターンマッチ
      1. 11.3.1 基本マッチ
      2. 11.3.2 アンカー
      3. 11.3.3 文字のクラスと候補
      4. 11.3.4 繰り返し
      5. 11.3.5 グループ化と後方参照
    4. 11.4 ツール
      1. 11.4.1 マッチの可否
      2. 11.4.2 マッチの抽出
      3. 11.4.3 グループのマッチ
      4. 11.4.4 マッチの置換
      5. 11.4.5 分割
      6. 11.4.6 マッチを探し出す
    5. 11.5 他の種類のパターン
    6. 11.6 正規表現の別の用途
    7. 11.7 stringi
  25. 12章 forcatsでファクタ
    1. 12.1 はじめに
      1. 12.1.1 用意するもの
    2. 12.2 ファクタを作る
    3. 12.3 総合的社会調査
    4. 12.4 ファクタ順序の変更
    5. 12.5 ファクタ水準の変更
  26. 13章 lubridateによる日付と時刻
    1. 13.1 はじめに
      1. 13.1.1 用意するもの
    2. 13.2 日付/時刻の作成
      1. 13.2.1 文字列から作成
      2. 13.2.2 個別要素から作成
      3. 13.2.3 他の型から作成
    3. 13.3 日付時刻の要素
      1. 13.3.1 要素を取得する
      2. 13.3.2 丸める
      3. 13.3.3 要素を設定する
    4. 13.4 タイムスパン
      1. 13.4.1 duration(期間)
      2. 13.4.2 period(時期)
      3. 13.4.3 interval(間隔)
      4. 13.4.4 まとめ
    5. 13.5 タイムゾーン
  27. 第Ⅲ部 プログラム
  28. 14章 magrittrでパイプ
    1. 14.1 はじめに
      1. 14.1.1 用意するもの
    2. 14.2 パイプの代用
      1. 14.2.1 中間ステップ
      2. 14.2.2 元のオブジェクトを書き換える
      3. 14.2.3 関数作成
      4. 14.2.4 パイプを使う
    3. 14.3 パイプを使ってはいけないとき
    4. 14.4 magrittrの他のツール
  29. 15章 関数
    1. 15.1 はじめに
      1. 15.1.1 用意するもの
    2. 15.2 関数を書くべきとき
    3. 15.3 関数は人間とコンピュータのためのもの
    4. 15.4 条件実行
      1. 15.4.1 条件
      2. 15.4.2 複合条件
      3. 15.4.3 コードのスタイル
    5. 15.5 関数の引数
      1. 15.5.1 名前の選択
      2. 15.5.2 値をチェックする
      3. 15.5.3 3ドット(...)
      4. 15.5.4 遅延評価
    6. 15.6 戻り値
      1. 15.6.1 明示的リターン文
      2. 15.6.2 パイプにできる関数を書く
    7. 15.7 環境
  30. 16章 ベクトル
    1. 16.1 はじめに
      1. 16.1.1 用意するもの
    2. 16.2 ベクトルの基本
    3. 16.3 アトミックベクトルで重要な型
      1. 16.3.1 論理ベクトル
      2. 16.3.2 数値ベクトル
      3. 16.3.3 文字ベクトル
      4. 16.3.4 欠損値
    4. 16.4 アトミックベクトルを使う
      1. 16.4.1 型強制
      2. 16.4.2 テスト関数
      3. 16.4.3 スカラーとリサイクル規則
      4. 16.4.4 ベクトルの名前付け
      5. 16.4.5 要素抽出
    5. 16.5 再帰ベクトル(リスト)
      1. 16.5.1 リストの可視化
      2. 16.5.2 要素抽出
      3. 16.5.3 調味料のリスト
    6. 16.6 属性
    7. 16.7 拡張ベクトル
      1. 16.7.1 ファクタ
      2. 16.7.2 日付と日付時刻
      3. 16.7.3 tibble
  31. 17章 purrrでイテレーション
    1. 17.1 はじめに
      1. 17.1.1 用意するもの
    2. 17.2 forループ
    3. 17.3 forループのバリエーション
      1. 17.3.1 既存オブジェクトの変更
      2. 17.3.2 ループパターン
      3. 17.3.3 出力長不明
      4. 17.3.4 シーケンス長不明
    4. 17.4 forループと関数型
    5. 17.5 マップ関数
      1. 17.5.1 ショートカット
      2. 17.5.2 基本R
    6. 17.6 失敗の処理
    7. 17.7 複数引数へのマップ
      1. 17.7.1 さまざまな関数を呼び出す
    8. 17.8 ウォーク
    9. 17.9 forループの他のパターン
      1. 17.9.1 述語関数
      2. 17.9.2 reduceとaccumulate
  32. 第Ⅳ部 モデル
  33. 18章 modelrを使ったモデルの基本
    1. 18.1 はじめに
      1. 18.1.1 用意するもの
    2. 18.2 単純なモデル
    3. 18.3 モデルの可視化
      1. 18.3.1 予測
      2. 18.3.2 残差
    4. 18.4 フォーミュラとモデルファミリー
      1. 18.4.1 カテゴリ変数
      2. 18.4.2 交互作用(連続とカテゴリ)
      3. 18.4.3 交互作用(2連続変数)
      4. 18.4.4 変換
    5. 18.5 欠損値
    6. 18.6 他のモデルファミリー
  34. 19章 モデル構築
    1. 19.1 はじめに
      1. 19.1.1 用意するもの
    2. 19.2 なぜ低品質ダイヤモンドの方が高価なのか
      1. 19.2.1 価格とカラット
      2. 19.2.2 さらに複雑なモデル
    3. 19.3 何が1日の便数に影響するか
      1. 19.3.1 曜日
      2. 19.3.2 シーズンの土曜日効果
      3. 19.3.3 計算した変数
      4. 19.3.4 年間の日:別のアプローチ
    4. 19.4 モデルについてさらに学ぶには
  35. 20章 purrrとbroomによる 多数のモデル
    1. 20.1 はじめに
      1. 20.1.1 用意するもの
    2. 20.2 gapminder
      1. 20.2.1 入れ子データ
      2. 20.2.2 リスト列
      3. 20.2.3 入れ子解消
      4. 20.2.4 モデル品質
    3. 20.3 リスト列
    4. 20.4 リスト列を作る
      1. 20.4.1 入れ子を使ってリスト列を作る
      2. 20.4.2 ベクトル化関数からリスト列を作る
      3. 20.4.3 多値要約からリスト列を作る
      4. 20.4.4 名前付きリストからリスト列を作る
    5. 20.5 リスト列を単純化
      1. 20.5.1 リストをベクトルに変換
      2. 20.5.2 入れ子解消
    6. 20.6 broomで整理データを作る
  36. 第Ⅴ部 コミュニケーション
  37. 21章 Rマークダウン
    1. 21.1 はじめに
      1. 21.1.1 用意するもの
    2. 21.2 Rマークダウン
    3. 21.3 マークダウンによるテキストフォーマット
    4. 21.4 コードチャンク
      1. 21.4.1 チャンク名
      2. 21.4.2 チャンクオプション
      3. 21.4.3 表
      4. 21.4.4 キャッシュ
      5. 21.4.5 グローバルオプション
      6. 21.4.6 インラインコード
    5. 21.5 トラブルシューティング
    6. 21.6 YAMLヘッダ
      1. 21.6.1 パラメータ
      2. 21.6.2 参考文献と引用
    7. 21.7 さらに学ぶために
  38. 22章 ggplot2でコミュニケーションの ためのグラフ作成
    1. 22.1 はじめに
      1. 22.1.1 用意するもの
    2. 22.2 ラベル
    3. 22.3 アノテーション (1/2)
    4. 22.3 アノテーション (2/2)
    5. 22.4 スケール
      1. 22.4.1 座標軸目盛と凡例のキー
      2. 22.4.2 凡例の配置
      3. 22.4.3 スケールの入れ替え (1/2)
      4. 22.4.3 スケールの入れ替え (2/2)
    6. 22.5 ズーミング
    7. 22.6 テーマ
    8. 22.7 プロットを保存する
      1. 22.7.1 図のサイズ
      2. 22.7.2 他の重要なオプション
    9. 22.8 さらに学ぶために
  39. 23章 Rマークダウンフォーマット
    1. 23.1 はじめに
    2. 23.2 出力オプション
    3. 23.3 文書
    4. 23.4 ノートブック
    5. 23.5 プレゼンテーション
    6. 23.6 ダッシュボード
    7. 23.7 インタラクティブな要素
      1. 23.7.1 htmlwidgets
      2. 23.7.2 Shiny
    8. 23.8 ウェブサイト
    9. 23.9 他のフォーマット
    10. 23.10 さらに学ぶために
  40. 24章 Rマークダウンワークフロー
  41. 訳者あとがき
  42. 索引 (1/3)
  43. 索引 (2/3)
  44. 索引 (3/3)

Product information

  • Title: Rではじめるデータサイエンス
  • Author(s): Hadley Wickham, Garrett Grolemund, 黒川 利明, 大橋 真也
  • Release date: October 2017
  • Publisher(s): O'Reilly Japan, Inc.
  • ISBN: 9784873118147