
186
6
章 データの読み込み、書き出しとファイル形式
a b c d message
0 1 2 3 4 hello
1 5 6 7 8 world
2 9 10 11 12 foo
欠損値の取り扱いは、ファイルを読み込む上で重要な部分であり、しばしばファイルごとに少しずつ
異なる部分でもあります。欠損値は通常、値が存在しない(空文字列)か、あるいは、何らかの標識と
なる値で印を付けられています。デフォルトでは、
pandas
は
NA
や
NULL
などの一般によく使われる標識
を使います。
In [25]: !cat examples/ex5.csv
something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo
In [26]: result = pd.read_csv('examples/ex5.csv')
In
[27]: result
Out[27]:
something a b c d message
0 one 1 2 3.0 4 NaN
1 two 5 6 NaN 8 world
2 three 9 10 11.0 12 foo
In [28]: pd.isnull(result)
Out[28]:
something a b c d message
0 False False False False False True
1 False False False True False False
2 False False ...