book

コマンドラインではじめるデータサイエンス ―分析プロセスを自在に進めるテクニック

Name: コマンドラインではじめるデータサイエンス ―分析プロセスを自在に進めるテクニック
ISBN: 9784873117416

by Jeroen Janssens, 太田満久, 下田倫大, 増田泰彦, 長尾高弘

September 2015

Intermediate to advanced

272 pages

4h 55m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

監訳者まえがき
はじめに (1/4)
はじめに (2/4)
はじめに (3/4)
はじめに (4/4)
1章イントロダクション
1.1 概要
1.2 データサイエンスはOSEMN1.2.1 データの獲得
1.2.2 データのクレンジング
1.2.3 データの精査
1.2.4 データのモデリング1.2.5 データの解釈
1.3 幕間の章

1.4 コマンドラインとは何か
1.5 なぜコマンドラインでデータサイエンスなのか
1.5.1 コマンドラインはアジャイル
1.5.2 コマンドラインは補完的
1.5.3 コマンドラインはスケーラブル
1.5.4 コマンドラインは拡張性が高い1.5.5 コマンドラインは普遍的
1.6 現実のユースケース
1.7 参考文献
2章さあ始めましょう
2.1 概要2.2 Data Science Toolboxのセットアップ
2.2.1 ステップ1: VirtualBoxのダウンロード、インストール
2.2.2 ステップ2: Vagrantのダウンロード、インストール2.2.3 ステップ3: Data Science Toolboxのダウンロード、起動
2.2.4 ステップ4: ログイン（LinuxとMac OS X）
2.2.5 ステップ4: ログイン（Microsoft Windows）
2.2.6 ステップ5: シャットダウンと環境の作り直し
2.3 基本概念とツール2.3.1 環境
2.3.2 コマンドラインツールの実行
2.3.3 コマンドラインツールの5つのタイプ
2.3.4 コマンドラインツールの結合
2.3.5 入出力のリダイレクト
2.3.6 ファイルの操作
2.3.7 ヘルプ
2.4 参考文献
3章データの獲得
3.1 概要
3.2 ローカルファイルからData Science Toolboxへのコピー
3.2.1 ローカルバージョンのData Science Toolbox
3.2.2 リモートバージョンのData Science Toolbox
3.3 ファイルの解凍
3.4 Microsoft Excelスプレッドシートの変換
3.5 リレーショナルデータベースへのクエリー
3.6 インターネットからのダウンロード
3.7 ウェブAPI呼び出し
3.8 参考文献
4章再利用可能なコマンドラインツールの作り方
4.1 概要
4.2 1行プログラムのシェルスクリプトへの書き換え
4.2.1 ステップ1: コピーアンドペースト
4.2.2 ステップ2: 実行許可の追加
4.2.3 ステップ3: shebangの定義
4.2.4 ステップ4: 固定されている入力の除去
4.2.5 ステップ5: パラメータ化
4.2.6 ステップ6: PATHの拡張
4.3 PythonとRによるコマンドラインツールの作り方
4.3.1 シェルスクリプトの移植
4.3.2 標準入力からのストリーミングデータの処理
4.4 参考文献
5章データのクレンジング
5.1 概要
5.2 プレーンテキストに対する一般的なクレンジング
5.2.1 行のフィルタリング
5.2.2 値の抽出
5.2.3 値の置換、削除
5.3 CSVの操作
5.3.1 本体、ヘッダー、列
5.3.2 CSVに対するSQLクエリー
5.4 HTML/XMLとJSONの操作 (1/2)
5.4 HTML/XMLとJSONの操作 (2/2)
5.5 CSVでよく行われるクレンジング処理
5.5.1 列の抽出と順序変更
5.5.2 行のフィルタリング
5.5.3 列のマージ
5.5.4 複数のCSVファイルの結合
5.6 参考文献
6章データワークフローの管理
6.1 概要
6.2 Drakeとは何か
6.3 Drakeのインストール方法
6.4 Project Gutenbergでもっとも人気の高い電子ブックの取得
6.5 ワークフローの始まりはいつもシングルステップ
6.6 依存関係
6.7 特定のターゲットの再ビルド
6.8 この章を振り返って
6.9 参考文献
7章データの精査
7.1 概要
7.2 データとその特徴の調査
7.2.1 まずはヘッダを持つか7.2.2 全量調査
7.2.3 列名とデータ型
7.2.4 一意な識別子、連続変数、因子
7.3 記述統計の計算
7.3.1 csvstatの使い方
7.3.2 RioによってコマンドラインからRを実行する方法
7.4 可視化イメージの作成
7.4.1 GnuplotとfeedGnuplot
7.4.2 ggplot2入門
7.4.3 ヒストグラム
7.4.4 棒グラフ
7.4.5 密度プロット
7.4.6 箱ひげ図
7.4.7 散布図
7.4.8 折れ線グラフ
7.4.9 まとめ
7.5 参考文献
8章並列パイプライン
8.1 概要
8.2 逐次処理8.2.1 数値を対象とする反復処理
8.2.2 行を対象とする反復処理
8.2.3 ファイルを対象とするループ
8.3 並列処理
8.3.1 GNU parallel入門
8.3.2 入力の指定
8.3.2 並行ジョブの数の制御
8.3.3 ロギングと出力
8.3.4 並列ツールの作成
8.4 分散処理
8.4.1 実行中のAWS EC2インスタンスのリストの取得
8.4.2 リモートマシンでのコマンドの実行
8.4.3 リモートマシン間でのローカルデータの分散
8.4.4 リモートマシンでのファイル処理
8.5 この章を振り返って
8.6 参考文献
9章データのモデリング
9.1 概要
9.2 ワインもう一杯！
9.3 Tapkeeによる次元圧縮
9.3.1 Tapkee入門
9.3.2 Tapkeeのインストール
9.3.3 線形写像と非線形写像
9.4 Wekaによるクラスタリング
9.4.1 なぜWekaを使うのか
9.4.2 Wekaをコマンドラインで使いやすく
9.4.3 CSVとARFFの間の変換
9.4.4 3つのクラスタリングアルゴリズムの比較
9.5 SciKit-Learn Laboratoryによる回帰分析
9.5.1 データの準備
9.5.2 実験の実行
9.5.3 結果の解析
9.6 BigMLを使った分類
9.6.1 バランスの取れた訓練、テストデータセットの作成
9.6.2 API呼び出し
9.6.3 結果のチェック
9.6.4 今後の方向
9.7 参考文献
10章総まとめ
10.1 復習しよう
10.2 3つのアドバイス
10.2.1 我慢強くあれ
10.2.2 創造的であれ
10.2.3 実践的であれ
10.3 ここからどうするか
10.3.1 シェルプログラミング10.3.2 Python、R、SQL
10.3.3 データの解釈
10.4 連絡先
付録A コマンドラインツール一覧 (1/5)
付録A コマンドラインツール一覧 (2/5)
付録A コマンドラインツール一覧 (3/5)
付録A コマンドラインツール一覧 (4/5)
付録A コマンドラインツール一覧 (5/5)
付録B 日本語処理
B.1 文字コードと関係して起こりがちな問題
B.2 文字コードを変換する
B.3 文字コードを推測する
B.4 Nkfをインストールする
B.4.1 Nkfで文字コードを推定するB.5 パーセントエンコーディングされた文字列を復元する
B.6 文字列を正規化する
B.7 まとめ
付録C ケーススタディ
C.1 ReceReco（レシレコ）について
C.2 データの獲得
C.3 データクレンジング（1）－異常値の除去
C.4 データクレンジング（2）－基礎集計と外れ値の除去
C.5 まとめ
付録D 参考文献
索引 (1/2)
索引 (2/2)

Content preview from コマンドラインではじめるデータサイエンス ―分析プロセスを自在に進めるテクニック

236

付録 C　ケーススタディ

な作業に思われるかもしれません。しかし、実際はこのデータクレンジングが非常に

大変なことが多いです。例えば、欠損値、または誤って作成された重複レコードへの

対応の他に、ここでは触れませんでしたが、商品名の表記ゆれへの対応などに気をつ

けなければなりません。また、データの種類によって対応すべきことが異なるため、

一概にこれをやれば良い、ということができません。データをしっかりと理解するこ

とが、異常であったり不要なデータを発見することに繋がります。

C.4

データンン



前節のデータクレンジング（

）を終えて、明らかにおかしなレコードのチェック（除

去）が完了し、分析を行う段階に近づいてきました。さらにステップを進めていきま

しょう。次に行うのは、基礎集計と基礎集計に基づいた外れ値の除去です。このステッ

プで、データクレンジング（

）では発見できなかった異常値を取り除き、分析用デー

タ整備をしていきます。今回ここでは例として「パン」を対象としてお話を進めてい

きます。本書では「精査（

Explororing

）」として紹介されていたステップの一部に該

当します。

まずは「パン」のデータを抽出し、集計してみます。

# item_name

毎のレコード数のカウント、及び売上の合計を算出する

$ csvsql --query "SELECT item_name, count(item_name) AS cnt, sum(price) AS sales FROM ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Pythonからはじめるアルゴリズムトレード ―自動売買の基礎と機械学習の本格導入に向けたPythonプログラミング

Publisher Resources

ISBN: 9784873117416Other

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

コマンドラインではじめるデータサイエンス ―分析プロセスを自在に進めるテクニック

by Jeroen Janssens, 太田満久, 下田倫大, 増田泰彦, 長尾高弘

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

Pythonからはじめるアルゴリズムトレード ―自動売買の基礎と機械学習の本格導入に向けたPythonプログラミング

プログラミング文体練習 ―Pythonで学ぶ40のプログラミングスタイル

デザインスプリント ―プロダクトを成功に導く短期集中実践ガイド

ハイパフォーマンスブラウザネットワーキング ―ネットワークアプリケーションのためのパフォーマンス最適化

Publisher Resources