情報科学屋さんを目指す人のメモ

方法・手順・解説を書き残すブログ。私と同じことを繰り返さずに済むように。

【データ分析】箱ひげ図の意味と詳しい作図手順

Excel (41) Excel 2016 (16) Microsoft Office (34)

データ分布の特徴を手軽に分析・比較できる有名なグラフに「箱ひげ図」があります。

あまり知られていないかもしれないのですが、Excel 2016から、「ヒストグラム」「パレート図」「箱ひげ図」が、標準で使えるグラフになっています

この中でも特に「箱ひげ図」は、前提知識無しでは見方が難しいグラフです。

そこで今回は、Excelも採用している箱ひげ図の定義に基づく「箱ひげ図の作図手順」を紹介します。

箱ひげ図の「書き方」を知ると、「見方」も分かってきます。「読み取り方のポイント」や、「箱ひげ図の変種」についても紹介します。

箱ひげ図の意味

今回紹介する箱ひげ図の、箱やヒゲの意味をまとめると以下の通りとなります。しかし、これを見ただけではよく分からないかと思います

特に、「外れ値の定義」は、知らないと分かりません。

「ヒゲより外側の点でしょ」と思うかもしれませんが、実は外れ値のほうが先に決まります。ヒゲの長さを計算するためには、先に外れ値を計算する必要があります。

このあたりは、作図の手順を理解すると、意味合いが掴めてくるはずです

箱ひげ図の書き方(概略)

そこで今回は、箱ひげ図の書き方を紹介します。

箱ひげ図の書き方は、次のような目次にまとめられます。

  • (1)中央値を出し、箱の中に書く線とする
  • (2)中央値より小さい値のデータだけに限定して中央値(=第1四分位点)を出し、箱の下端とする
  • (3)中央値より大きい値のデータだけに限定して中央値(=第3四分位点)を出し、箱の上端とする
  • (4)IQR=箱の縦幅(第1四分位点から第3四分位点までの距離)を計算する
  • (5)箱の上下端からIQRの1.5倍の幅を取る
  • (6)その範囲よりさらに遠くにあるデータを「外れ値」とし、点を打つ
  • (7)外れ値を除いたデータの最小値(local minimum)を、下のヒゲの先端とする
  • (8)外れ値を除いたデータの最大値(local maximum)を、上のヒゲの先端とする
  • (9)全データの平均値にバツを打つ

以下、詳細に説明します。

箱ひげ図の書き方(詳細)

今回は、次のデータセット{1, 4, 11, 12, 13, 14, 15, 16, 17, 18, 25}を使って、その箱ひげ図の書き方を紹介します。

前提知識として、「中央値(メジアン)」の意味は知っておいてください。

※中央値とは、「データを小さい順に並べたときに、ちょうど順位がど真ん中になる値」です。データが奇数個あるときはそれが1つに定まります。逆にデータが偶数個あるときは1つに決まらないので、中央の直前と直後2つの(算術)平均値を中央値とします。

「箱」の書き方(手順1~3)

まず最初に、(1)中央値を見つけますそして、次に、(2)中央値より値が大きいデータ{15, 16, 17, 18, 25}について、また中央値を計算します。これが「第3四分位点(=17)」です。

そして、逆に(3)中央値より値が小さいデータ{1, 4, 11, 12, 13}についても、中央値を計算します。こちらが「第1四分位点(=11)」です。

この3つの値がそれぞれ、箱の中央線、上端、下端、となり、以下のような箱が作図できます。

「外れ値」と「ヒゲ」の書き方(手順4~8)

次に、「外れ値」と「ヒゲ」を書きます。

まず、(4)IRQと呼ばれる「箱の高さ」を計算します(IRQ=17-11=6)。そして、(5)箱の上下に、箱の高さの1.5倍の幅をとり、(6)それより外側の値を「外れ値」として点を打ちます

そして、(7)外れ値を除いた残りのデータの最大値を上のヒゲの上端に、(8)最小値側を、下のヒゲの下端にして、ヒゲの完成です。

「平均値」を記入して完成!(手順9)

最後に、(9)全データを対象に計算した「平均値」の「バツ」を記入して、箱ひげ図の完成です。

「箱」の読み取り方のコツ

箱ひげ図の「箱」は、中央値を利用して作図するため、以下の図の(A)や(B)ように、全データの25%ずつが各範囲に含まれていることを表してくれています

また箱ひげ図では(C)の解釈がとても重要で、箱の範囲に、全データの50%が入っていることを表します。

Excel 2016なら簡単に書ける

Excel 2013以前は、「工夫して箱ひげ図のように見せるテクニック」が有名でしたが、Excel 2016からは、簡単に箱ひげ図が書けます。

詳しいExcel 2016での箱ひげ図の作り方は「【統計グラフ】Excelで簡単に箱ひげ図を作る方法(Excel 2016~)」で説明しています。参考にしてください。

Excelの「箱ひげ図」の設定について

実はExcelの箱ひげ図には、データ数が奇数個のとき、「排他的な中央値(Exclusive median)」と「包含的な中央値(Inclusive median)」の2つの作図モードがあります。

先ほど紹介したのは「排他的な中央値」を設定している場合の作図手順で、Excelの初期設定です。

The median is excluded, by default, in the Box and Whisker chart in Excel 2016. 引用元

両者の違いは、第1と第3の四分位点を計算するとき、中央値を入れるかどうかの違いです。

これにより、箱の縦幅が変わるので、影響が大きい設定となっています。

「箱ひげ図」のバリエーションについて

箱ひげ図には、他のバリエーションも多数存在します。

代表的なものに、「外れ値」の計算と除外をせずにヒゲを作図する(つまり、単純にヒゲが最大値・最小値となる)方式があります。

また、ヒゲの先端を95パーセンタイル値と5パーセンタイル値として、それより外側を外れ値とする方法などがあります。

まとめ

今回は、箱ひげ図の作成方法についてまとめて紹介しました。

作図方法がわかると、グラフが表す意味について、深く理解できます。

Excel 2016から標準で使えるようになったこともあり、手書きする必要はありません。データの分布を把握したいとき、利用してみてください。

箱ひげ図はExcelで作れない/難しいからgnuplotを使っていた、なんていう人も、Excelを試してみると良いかもしれません。

参考

コメント(0)

新しいコメントを投稿