
5
5
1.4 DataFrame
テキストファイル(
ASCII
)を
gzip
圧縮したファイルです。ファイルの各行が
1
つ
のレコード(
record
)で、
1
つの妊娠についてのデータを表します。
ファイルフォーマットは、
Stata
辞書ファイル形式の
2002FemPreg.dct
に文書化さ
れています。
Stata
は商品として販売されている統計ソフトのシステムです。この文
脈での「辞書(
dictionary
)」とは、変数名、型、インデックスのリストです。インデッ
クスは、行のどこに変数(の値)があるかを示します。
例えば、
2002FemPreg.dct
には次のような行があります。
infile dictionary {
_column(1) str12 caseid %12s "RESPONDENT ID NUMBER"
_column(13) byte pregordr %2f "PREGNANCY ORDER (NUMBER)"
}
この辞書は次の
2
変数を記述しています。
caseid
は、回答者
ID
を表す
12
文字の
文字列です。
pregordr
は、この回答者の何回目の妊娠かを示す
1
バイト整数です。
ダウンロードしたコードには、
thinkstats2.py
モジュールが含まれています。こ
の
Python
モジュールには、本書で使う多数のクラスや関数に加えて、
Stata
辞書や
NSFG
データファイルを読む関数も含まれています。
nsfg.py
でこのモジュールがど
う使われているかを次に示します。
def ReadFemPreg(dct_file='2002FemPreg.dct', ...