
7.2
データの変形
225
7.2.6
外れ値の検出と除去
外れ値の除去や変換は、ほとんどが配列に対する操作で対応できる問題です。ここでは、いくつか
の正規分布をするデータの入ったデータフレームを使って考えてみましょう。
In [92]: data = pd.DataFrame(np.random.randn(1000, 4))
In [93]: data.describe()
Out[93]:
0 1 2 3
count 1000.000000 1000.000000 1000.000000 1000.000000
mean 0.049091 0.026112 -0.002544 -0.051827
std 0.996947 1.007458 0.
995232 0.998311
min -3.645860 -3.184377 -3.745356 -3.428254
25% -0.599807 -0.612162 -0.687373 -0.747478
50% 0.047101 -0.013609 -0.022158 -0.088274
75% 0.756646 0.695298 0.699046 0.623331
max 2.653656 3.525865 2.735527 3.366626
まず、
4
つの列のうち
1
つで外れ値を見つけたいとします。外れ値としては絶対値が
3
より大きなも
のを考えましょう。
In [94]: col = data[2]
In [95]: col[np.abs(
col) > 3]
Out[95]: ...