
6.3 グラフの種類 163
図 6 -13 箱ひげ図は、分布の範囲と四分位数(つまり、中央値と分散)を簡潔に示す
データポイント自体を示すように努力してみよう。
• 色
や線種を使って線もしくはクラスを区別する:複数のクラスの f(x) 関数を重ね合わせて描いたグ
ラフが多い。例えば、男女別で学歴の関数として収入を描くような場合だ。
このような場合、個々のクラスを表す線もしくは点の色を変えるとよい。点線、破線、実線、太線と
いった線種を利用することもできるが、色よりも見分けにくく、モノクロ媒体に出力する場合以外は
色の方がよい。1 枚のグラフでそのような方法で見分けられるのは線が 2 本から 4 本くらいまでで、
それ以上になると、ごちゃごちゃした塊に見えてしまう。多くの要素を持つグループを可視化するに
は、グループを意味のあるクラスタに分割し、それぞれ本数が少なく、すっきりした折れ線グラフに
まとめていくとよい。
6.3.3 散布図
大規模なデータセットを効果的に見せるのは本当に難しいことだ。点が多すぎるとあっという間にグラフ
で表現できる限界を越えて、真っ黒な塊の画像になってしまう。しかし、散布図なら、適切に描けば数千も
の 2 変量点をクリアでわかりやすく見せることができる。
散布図は、与えられたデータセットのすべての (x, y) の値を示す。散布図は、4.1 節で身長体重空間の点
として個々人を表現してボディマス指数を可視化した際に既に使っている。個々の点の色は、正常、軽度肥
満、肥満の分類を反映したものだった。散布図のベストプラクティスをまとめておこう。 ...