【Googleスプレッドシート】ヒストグラムで分布を可視化!データの偏りを確認する手法

【Googleスプレッドシート】ヒストグラムで分布を可視化!データの偏りを確認する手法
🛡️ 超解決

データの分布を把握したいとき、平均値や中央値だけでは見えない情報があります。特にデータの偏りや散らばり具合を確認するには、ヒストグラムが有効な手段です。しかし、Googleスプレッドシートでヒストグラムを作成する方法がわからない方も多いでしょう。この記事では、スプレッドシートでヒストグラムを作成する手順と、分布を読み解くポイントを解説します。

【要点】ヒストグラムでデータの分布を可視化する方法

  • グラフの挿入からヒストグラムを選択: メニューの「挿入」→「グラフ」からグラフエディタを開き、「グラフの種類」で「ヒストグラム」を選びます。これで最も簡単に分布図を作成できます。
  • ビン(階級)の幅を調整する: グラフエディタの「カスタマイズ」タブで「ヒストグラム」セクションからビンのサイズを変更し、分布の粒度を自在に変えられます。細かい分布を見たい場合は小さく、大まかな傾向を見たい場合は大きく設定します。
  • 度数分布表を関数で作成: =FREQUENCY(データ, 区間配列) を使って度数を計算し、棒グラフで代用することも可能です。この方法ではビンの区間を自由に定義できるため、柔軟な分析が行えます。

ADVERTISEMENT

ヒストグラムとは?分布を見るメリット

ヒストグラムとは、データを一定の区間(ビン)に区切り、各区間に含まれるデータの個数(度数)を棒グラフで表したものです。これにより、データのばらつきや偏り、中心の位置、外れ値の有無を一目で確認できます。例えば、テストの点数をヒストグラムにすると、多くの生徒が60点から70点に集中しているのか、それとも二つの山があるのかがわかります。平均点だけでは見落としがちな情報を、ヒストグラムは可視化してくれるのです。

特にビジネスシーンでは、売上データの分布を調べることで、どの価格帯の商品がよく売れているのか、あるいは在庫の偏りがないかを判断できます。また、品質管理においては、製品の寸法や重量の分布を確認し、規格外れの発生状況を把握するのに役立ちます。このように、ヒストグラムはデータの全体像を直感的に理解するための強力なツールです。

ヒストグラムの作成手順

グラフメニューから作成する方法

  1. データを準備する
    可視化したい数値データを1列に並べます。例えば、A1:A100に100人のテスト点数が入っている状態です。見出し行がある場合は選択範囲に含めても問題ありません。
  2. グラフを挿入する
    データ範囲を選択した状態で、メニューの「挿入」→「グラフ」をクリックします。するとグラフエディタが右側に表示されます。
  3. グラフの種類を変更する
    グラフエディタの「セットアップ」タブで「グラフの種類」をクリックし、一覧から「ヒストグラム」を選択します。棒グラフのアイコンの中にヒストグラムが含まれています。
  4. ビンの設定を調整する
    「カスタマイズ」タブを開き、「ヒストグラム」セクションを展開します。ここで「ビンのサイズ」を数値で指定できます。たとえば点数データなら10点刻みにしたい場合、ビンサイズを10に設定します。「外れ値の表示」をオンにすると、極端な値が別の棒として表示されます。
  5. グラフを仕上げる
    必要に応じてグラフのタイトルや軸ラベルを追加します。横軸には「点数」、縦軸には「人数」などと入力するとわかりやすくなります。これでヒストグラムが完成します。

FREQUENCY関数と棒グラフで作成する方法

グラフ機能を使わずに、関数で度数分布表を作り、それを棒グラフに変換する方法もあります。この方法ではビンの区切りを完全に自由に設定できるため、より細かい制御が必要な場合に適しています。

  1. 区間(ビン)の上限値を決める
    別の列に、各ビンの上限となる値を昇順に並べます。例えば、C2:C11に「10,20,30,…,100」と入力します。この場合、0〜10、10〜20、…という区間になります。
  2. FREQUENCY関数を入力する
    度数を表示したいセル範囲(D2:D12など)を選択し、数式 =FREQUENCY(A2:A101, C2:C11) と入力します。この関数は配列数式のため、EnterではなくCtrl+Shift+Enter(Windowsの場合)またはCmd+Shift+Enter(Macの場合)で確定します。すると各区間の度数が一括表示されます。
  3. 棒グラフで視覚化する
    区間の列(C2:C11)と度数の列(D2:D11)を選択し、「挿入」→「グラフ」から棒グラフを作成します。グラフができたら、棒の間隔を0に設定するとヒストグラムらしい見た目になります。これにより、グラフ機能だけでは表現できない複雑な区切り設定が可能になります。

ヒストグラム作成時の注意点とよくあるミス

ビンの数が適切でないと分布が歪む

ビンが少なすぎるとデータの細かい傾向が失われ、多すぎるとノイズが目立ちます。一般的にはスタージェスの公式(ビン数 = 1 + log2(N))を目安にするとよいでしょう。データ数が100程度なら10個前後が適切です。スプレッドシートのビンサイズ設定で調整しながら、最も分布がわかりやすい値を探してください。

データ範囲に文字列や空白が混在している

ヒストグラムは数値データのみを対象とします。文字列や空白セルが含まれていると、グラフが正しく描画されなかったり、エラーが発生したりします。事前にデータを確認し、不要なセルは削除または数値に変換しておきましょう。特に数式の結果がエラーになっているセルにも注意が必要です。

外れ値の扱いに注意する

極端に大きな値や小さな値があると、ビンの幅が広がり、全体の分布が見えにくくなります。たとえば、ほとんどのデータが0〜100の範囲にあるのに、1つだけ1000という値があると、ビン幅が大きくなって細かい分布がつぶれてしまいます。このような場合は外れ値を除外するか、別のグラフ(箱ひげ図など)と併用することを検討します。

分布の形状を読み解くポイント

ヒストグラムの形状からデータの特徴を読み取ることができます。左右対称の山形は正規分布に近く、平均値と中央値がほぼ一致します。右に裾が長い分布は、少数の大きな値が存在することを示します。二峰性の山がある場合は、異なるグループが混ざっている可能性があります。これらのパターンを意識しながらグラフを観察することで、データの背景をより深く理解できます。

ADVERTISEMENT

ヒストグラムと他のグラフの比較

グラフの種類 主な用途 特徴
ヒストグラム 数値データの分布を確認 連続データの度数を棒で表現し、分布の形状を把握する
棒グラフ カテゴリ別の値の比較 離散的な項目の大小を比較するのに適している
箱ひげ図 データのばらつきと外れ値を確認 四分位数と範囲を視覚化し、外れ値を明示できる
散布図 2変数の関係を確認 点の分布で相関や傾向を見る、連続変数同士に有効
度数分布多角形 複数の分布を重ねて比較 ヒストグラムの各ビンの中央値を結んだ線グラフで、複数のデータセットを重ねやすい

まとめ

この記事では、Googleスプレッドシートでヒストグラムを作成する2つの方法と、分布の読み方を解説しました。グラフメニューを使えば数クリックで作成でき、FREQUENCY関数を使えばビン区切りを自由にカスタマイズできます。作成後は、ビンの数や外れ値の有無を確認し、分布の形状からデータの特徴を読み取りましょう。さらに応用として、条件に応じたヒストグラムをIF関数と組み合わせて作ることも可能です。ぜひ実際のデータで試してみてください。


ADVERTISEMENT

この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。