May 2024
Intermediate to advanced
276 pages
3h 51m
Japanese
本章では、データファイルからの情報抽出とレポート生成について述べる。扱うのは表形式のデータばかりだが、手法自体はもっと複雑な形式にも応用できる。本章の主眼は、協調動作し、密接な関係を持つプログラム群の実装にある。一度処理するだけでは目的に辿り着けないが、複数回処理することで解決が容易になるデータ処理の例を多数取り上げる。
本章は単一データファイルからのレポート生成から始める。レポートの最終的な見せ方も重要だが、データファイルのスキャンにも注意が必要だ。その後、相互に関係する複数ファイルに記述されたデータを扱う方法へ進む。ここでは、一連のデータファイルをリレーショナルデータベースと捉え、汎用的なアプローチを採る。利点は他にもあるが、数値ではなく名前を用いフィールドを参照できる利点が挙げられる。
Awk はデータファイルから情報を抽出し、書式を用い、レポートにまとめるのが得意だ。レポートに限らず、なんらかのアクティビティをまとめた「ダッシュボード」も生成できる。ここではこの生成を、準備 (prepare)、ソート (sort)、書式を用いた整形 (format) の 3 段階に分けて考える。
「準備」ではデータを選択する。目的の情報を得るためなんらかの計算処理をすることもあるだろう。「ソート」は、出力する情報を特定の順序で並べる場合に必要な作業だ。ここでは「準備」作業の出力をシステムの sort コマンドに渡すこととする。最後の「整形」作業は Awk プログラムをもう 1 つ用い、ソートしたデータを目的の書式で出力する。
使用するデータは以下に示す countries というファイルだ。
Russia 16376 145 Europe ...