Excelでデータのばらつきを直感的に把握したいと思いませんか?
特に、複数のグループや期間におけるデータの分布状況を比較したい場合、箱ひげ図(Box Plot)が非常に有効です。
このグラフを使うことで、データの中心傾向、ばらつきの程度、外れ値などを一目で理解できるようになります。
この記事では、Excelで箱ひげ図を作成する手順と、その見方について詳しく解説します。
【要点】Excelで箱ひげ図を作成し、データの分布を可視化する
- 箱ひげ図の作成: グラフ機能から箱ひげ図を選択し、データを正確に指定することで作成できます。
- 箱ひげ図の見方: 中央値、四分位範囲、ひげの長さ、外れ値の意味を理解することで、データのばらつきを評価できます。
- カスタマイズと応用: データラベルの追加や色の変更、複数の箱ひげ図の比較により、より詳細な分析が可能です。
ADVERTISEMENT
目次
箱ひげ図でわかることと作成の前提条件
箱ひげ図は、データの分布を視覚的に表現するグラフの一種です。主に以下の情報を把握するのに役立ちます。
・中央値: データの中央の値を示します。
・四分位範囲(IQR): データの上位25%と下位25%を除いた、中央50%のデータの広がりを示します。この範囲が狭いほど、データは中央値付近に集中しています。
・ひげ(Whisker): 四分位範囲の外側にあるデータの広がりを示します。一般的に、ひげの長さは四分位範囲の1.5倍の範囲内にあるデータの最大値・最小値まで伸びます。
・外れ値(Outlier): ひげの範囲から外れたデータ点を示します。異常値や特異な値を検出するのに役立ちます。
箱ひげ図を作成するには、分析したいデータが整理されている必要があります。通常、各グループやカテゴリごとの数値データが縦または横に並んでいる形式が適しています。
Excel 2016以降のバージョンで利用可能な機能です。それ以前のバージョンでは、アドインを使用するか、手動で計算・作成する必要があります。
Excelで箱ひげ図を作成する手順
ここでは、Excelで箱ひげ図を作成する具体的な手順を解説します。ここでは、複数のクラスのテストの点数を例に、クラスごとの点数のばらつきを比較する箱ひげ図を作成します。
- データの準備
分析したいデータをExcelシートに整理します。通常、1列または1行に各カテゴリ(例: クラスA、クラスB)のデータが並び、別の列または行にそのカテゴリ名がある形式が望ましいです。例えば、A列にクラス名、B列以降に各クラスのテストの点数が入力されている状態です。 - データ範囲の選択
箱ひげ図を作成したいデータ範囲全体を選択します。カテゴリ名や数値データを含めて選択してください。 - グラフの挿入
「挿入」タブをクリックします。「グラフ」グループにある「集合縦棒」や「集合横棒」の隣にある、小さなグラフアイコン(「グラフの挿入」)をクリックします。 - 箱ひげ図の選択
表示されるダイアログボックスの「すべてのグラフ」タブを選択します。左側のリストから「箱ひげ図」を選択します。 - グラフの確認と確定
右側のプレビューで箱ひげ図のイメージを確認します。問題なければ「OK」ボタンをクリックします。 - グラフの調整(必要に応じて)
グラフがシート上に表示されます。必要に応じて、グラフタイトル、軸ラベル、凡例などを調整してください。グラフを選択した状態で表示される「グラフのデザイン」タブや「書式」タブを使います。
箱ひげ図の要素と解釈方法
作成された箱ひげ図は、データの分布特性を理解するための重要な要素で構成されています。それぞれの要素が何を示しているのかを正確に把握することが、効果的なデータ分析の鍵となります。
箱ひげ図は、データの quartiles(四分位数)に基づいて描画されます。具体的には、箱の部分はデータの第1四分位数(Q1)から第3四分位数(Q3)までの範囲を示し、この範囲を四分位範囲(IQR)と呼びます。箱の中央にある線は中央値(メディアン、Q2)を示します。
ひげは、箱の外側にあるデータの広がりを示します。通常、ひげの終端は、Q1 – 1.5 * IQR および Q3 + 1.5 * IQR の範囲内にある最小値および最大値に達します。この「1.5 * IQR」という基準は、外れ値とそうでないデータを区別するための一般的なルールです。
ひげの範囲から外れるデータ点は、外れ値としてプロットされます。これらの外れ値は、データの異常値や、通常とは異なる現象を示唆している可能性があります。
複数の箱ひげ図を並べて表示することで、異なるグループ間のデータの分布を容易に比較できます。例えば、ひげの長さが短いグループはデータのばらつきが小さく、長いグループはばらつきが大きいと解釈できます。中央値の位置が異なれば、データの中心傾向も異なると言えます。
ADVERTISEMENT
箱ひげ図のカスタマイズと表示オプション
Excelで作成した箱ひげ図は、さらに見やすく、分析しやすくするために様々なカスタマイズが可能です。グラフのデザインタブや書式タブ、あるいはグラフ要素をダブルクリックすることで、詳細な設定を変更できます。
データラベルの表示: 各箱ひげ図の最小値、最大値、中央値、Q1、Q3などの数値を表示させることができます。グラフ要素を追加メニューから「データラベル」を選択し、表示したい項目を選びます。これにより、具体的な数値を把握しながら分布を理解できます。
ひげの表示オプション: ひげがどこまで伸びるかの基準(例: 最小値・最大値、あるいは1.5 * IQR)を変更したり、ひげのスタイル(線の太さや色)を変更したりできます。グラフ要素の書式設定から、これらのオプションを調整します。
外れ値の表示: 外れ値の表示・非表示を切り替えたり、外れ値のマーカーの形状や色を変更したりできます。これもグラフ要素の書式設定から行います。
色やデザインの変更: 箱ひげ図の箱の色、ひげの色、外れ値のマーカーの色などを変更して、視覚的な分かりやすさを向上させることができます。グラフのデザインタブから、あらかじめ用意されたスタイルを選択したり、個別に色を設定したりします。
軸の調整: 縦軸や横軸の範囲、目盛りの間隔などを調整することで、データの特性をより強調したり、比較しやすくしたりできます。軸をダブルクリックして表示される書式設定ウィンドウで調整します。
箱ひげ図作成時の注意点とよくある誤解
箱ひげ図は強力なツールですが、その解釈には注意が必要です。誤った理解は、データ分析を誤った方向へ導く可能性があります。
データ数の影響: 箱ひげ図は、データの分布の概要を示すものであり、個々のデータ点の詳細な位置や頻度までは示しません。特にデータ数が少ない場合、箱ひげ図の形状が実際の分布を正確に反映しないことがあります。データ数が少ない場合は、ヒストグラムなどの他のグラフと併用することが推奨されます。
ひげの定義のばらつき: Excelの箱ひげ図では、ひげの終端を「四分位範囲の1.5倍の範囲内にある最小値・最大値」とすることが一般的ですが、統計ソフトウェアによっては異なる定義(例: 単純に最小値・最大値)を用いる場合があります。Excelのデフォルト設定を理解し、必要であればその定義を確認することが重要です。
外れ値の扱い: 外れ値は必ずしも「誤ったデータ」とは限りません。異常なイベントや、分析対象の特性を理解する上で重要な情報源となる場合があります。外れ値を検出したら、その原因を調査し、分析の文脈でどのように扱うべきかを慎重に判断する必要があります。単に削除するのではなく、その意味を理解することが大切です。
分布の形状: 箱ひげ図は、データのばらつきを視覚化しますが、分布の形状(例: 正規分布、歪んだ分布)を詳細に表現するものではありません。例えば、箱ひげ図で中央値が箱の中央にあり、ひげの長さも均等に見えても、実際の分布は二峰性(二つのピークを持つ)である可能性も否定できません。分布の形状を詳しく見たい場合は、ヒストグラムやカーネル密度推定図などの使用を検討してください。
カテゴリ数の制限: あまりにも多くのカテゴリの箱ひげ図を一度に表示しようとすると、グラフが煩雑になり、比較が困難になることがあります。表示するカテゴリ数を絞るか、複数のグラフに分割するなどの工夫が必要です。
箱ひげ図と他のグラフの比較
箱ひげ図は、データの分布を理解するための有効なツールですが、他のグラフと比較することで、それぞれの特性と使い分けがより明確になります。
ヒストグラム: ヒストグラムは、データの度数分布を棒グラフで表します。データの形状(山がどこにあるか、左右対称か歪んでいるかなど)を詳細に把握するのに適しています。箱ひげ図はデータの集約値(中央値、四分位数)を示すのに対し、ヒストグラムは個々の値の頻度を示します。
棒グラフ: 棒グラフは、カテゴリごとの合計値や平均値などを比較するのに適しています。箱ひげ図のようにデータのばらつきや分布の広がりを示すものではありません。単純な比較には棒グラフが便利ですが、データのばらつきを知りたい場合は箱ひげ図が適しています。
散布図: 散布図は、2つの数値変数の関係性を視覚化します。箱ひげ図は1つの数値変数における分布のばらつきを示すのに対し、散布図は変数間の相関関係などを調べたい場合に用います。
バイオリン図: バイオリン図は、箱ひげ図とカーネル密度推定図を組み合わせたようなグラフです。箱ひげ図が示す中央値や四分位数に加え、データの分布の形状(密度)も視覚的に表現できます。箱ひげ図よりも詳細な分布の形状を知りたい場合に有効ですが、Excelで標準機能として提供されていません。
これらのグラフは、それぞれ異なる情報を提供します。分析したいデータの種類や目的に応じて、最適なグラフを選択することが重要です。複数のグラフを組み合わせて分析することで、データに対する理解を深めることができます。
| グラフの種類 | 主な用途 | 箱ひげ図との違い |
|---|---|---|
| ヒストグラム | データの度数分布、形状の把握 | 個々の値の頻度と分布形状を詳細に示す。箱ひげ図は集約値を示す。 |
| 棒グラフ | カテゴリごとの合計値や平均値の比較 | ばらつきや分布の広がりを示さない。単純な数量比較に適する。 |
| 散布図 | 2つの数値変数間の関係性(相関)の把握 | 単一変数の分布ではなく、変数間の関連性を見る。 |
| バイオリン図 | データの分布形状と集約値の同時把握 | 箱ひげ図より詳細な分布密度を表示する。Excel標準機能ではない。 |
箱ひげ図は、データのばらつきや外れ値を把握するのに非常に役立ちます。Excelの標準機能で簡単に作成できるため、データ分析の初期段階でデータの全体像を掴むために活用すると良いでしょう。
今回学んだ箱ひげ図の作成方法と解釈のポイントを理解することで、より深いデータ分析が可能になります。
今後は、作成した箱ひげ図を元に、さらに詳細な統計分析に進んだり、他のグラフと組み合わせて多角的な視点からデータを分析したりすることをお勧めします。
ADVERTISEMENT
超解決 Excel・Word研究班
企業のDX支援や業務効率化を専門とする技術者チーム。20年以上のExcel・Word運用改善実績に基づき、不具合の根本原因と最短の解決策を監修しています。ExcelとWordを使った「やりたいこと」「困っていること」「より便利な使い方」をクライアントの視点で丁寧に提供します。
Office・仕事術の人気記事ランキング
- 【Outlook】宛先が「オートコンプリート」に出ない・間違っている時の修正手順|履歴の削除と再構築
- 【Outlook】メールの受信が数分遅れる!リアルタイムで届かない時の同期設定と送受信グループ設定
- 【Word】差し込み印刷で数字の桁を整える!金額にカンマ(桁区切り)を入れる設定
- 【Excel】矢印キーで「セルが動かず画面がスクロールする」!ScrollLockの解除方法(ノートPC対応)
- 【Outlook】「メール送信を5分遅らせる」設定!誤送信を防ぐ最強のディレイ機能
- 【神技】保存せずに閉じたExcel・Wordファイルを復元する!消えたデータを復活させる4つの救出法
- 【Outlook】予定表の「祝日」が表示されない!最新カレンダーの追加と二重表示の修正手順
- 【Teams】会議の「参加者リスト」を出席後にダウンロードする!誰が参加したか確認する手順
- 【Teams】メッセージを「保存済み」にして後で読む!重要なチャットをブックマークして整理する技
- 【Excel】文字がセルの枠からはみ出す・隠れる!「折り返して表示」と「縮小して全体を表示」の使い分け
