【Googleスプレッドシート】散布図で相関を可視化!2変数の関係を表示する手順

【Googleスプレッドシート】散布図で相関を可視化!2変数の関係を表示する手順
🛡️ 超解決

データ分析で2つの数値データの関係性を調べたいとき、散布図は非常に便利なツールです。例えば気温とアイスクリームの売上や、勉強時間とテストの点数など、変数間にどのような傾向があるのかを視覚的に把握できます。Googleスプレッドシートでは、数値を選択するだけで簡単に散布図を作成でき、さらに近似直線を追加することで相関の強さを明確にできます。この記事では、散布図を使って2変数の関係を表示する手順を、具体的な操作とともに解説します。

【要点】散布図で2変数の相関を可視化するには、データ選択からグラフメニューまでを正しく設定します

  • データの準備と選択: 対象となる2列の数値データを選択し、ヘッダー行を含めておきます。
  • グラフメニューの「散布図」: メニュー「挿入」→「グラフ」を選び、グラフエディタで「散布図」を選択します。
  • 近似直線の追加: グラフエディタの「カスタマイズ」で「系列」から「近似直線」を追加し、相関の強さを視覚化します。

ADVERTISEMENT

散布図でわかること:相関関係の基本

散布図は、2つの量的変数の関係を点の分布で表現するグラフです。横軸に一方の変数(例:気温)を、縦軸にもう一方の変数(例:アイスクリーム売上)をとり、各データをプロットします。点が右上がりに並んでいれば正の相関、右下がりなら負の相関、点在している場合は無相関と判断します。Googleスプレッドシートでは、数値データを選択するだけで簡単に散布図を作成でき、近似直線(トレンドライン)を追加することで相関の強さをより明確に把握できます。ただし、散布図は相関関係を示すものであり、因果関係を直接証明するものではない点に注意が必要です。相関の強さを数値で確認したい場合は、CORREL関数を使って相関係数を計算すると便利です。

基本の散布図作成手順

  1. データを用意する
    まず、分析したい2つの数値データを縦に並べます。1列目に横軸にするデータ(例:気温)、2列目に縦軸にするデータ(例:売上)を入力します。1行目はヘッダー(列名)にするとグラフにラベルが自動適用されます。
  2. データ範囲を選択する
    ヘッダーを含むデータ範囲全体をドラッグして選択します。例えば、A1:B10のように範囲を指定します。
  3. 「挿入」メニューからグラフを作成する
    トップメニューの「挿入」をクリックし、「グラフ」を選択します。デフォルトでは棒グラフが表示されますが、ここで散布図に変更します。
  4. グラフタイプを「散布図」に変更する
    右側に表示されるグラフエディタの「セットアップ」タブで、「グラフの種類」をクリックし、「散布図」または「散布図(点のみ)」を選びます。ここで、X軸とY軸に正しい列が割り当てられているか確認します。もし自動で正しく割り当てられない場合は、手動でX軸とY軸の列を指定し直すこともできます。

近似直線と軸ラベルのカスタマイズ手順

  1. 近似直線(トレンドライン)を追加する
    グラフエディタの「カスタマイズ」タブを開き、「系列」をクリックします。下にスクロールして「近似直線」にチェックを入れます。線の種類(線形・指数・多項式など)やラベル表示も設定できます。線形近似を選ぶと、最も一般的な相関の強さを視覚化できます。
  2. 近似直線の詳細を設定する
    同じ「系列」セクションで、近似直線の色や太さ、ラベルの表示形式(例:方程式やR^2値)を変更できます。R^2値(決定係数)を表示すると、モデルの当てはまりの良さを数値で確認できます。
  3. 軸ラベルとグラフタイトルを編集する
    グラフエディタの「カスタマイズ」→「グラフと軸のタイトル」を開き、「グラフのタイトル」「横軸のタイトル」「縦軸のタイトル」をそれぞれ選択して、任意のテキストを入力します。変数名や単位を記入すると読みやすくなります。

ADVERTISEMENT

散布図作成でよくある失敗と対処法

データ範囲に文字列が含まれている

散布図は数値データのみをプロットします。もし選択範囲に文字列の列が含まれていると、グラフが正しく表示されません。必ず2列とも数値であることを確認してください。また、空白セルがあるとその行は無視されるため、データが欠けていないかもチェックしましょう。

X軸とY軸の割り当てを間違える

グラフエディタの「セットアップ」で、X軸とY軸に意図した列が設定されているか確認します。特に複数列から選択するときに間違いが起きやすいため、正しい列を選び直してください。また、ヘッダー行がデータとして認識されないように、データ範囲の選択時にヘッダーを含めるかどうかを適切に設定します。

近似直線がデータと合わない場合

データの分布が直線的でない場合、線形近似では適切な表現になりません。その場合は、近似直線の種類を「多項式」や「指数」などに変更するとよいでしょう。また、外れ値があると近似が大きくずれるため、外れ値を除去するかどうか検討します。スプレッドシートのフィルタ機能を使って一時的に除外して比較することもできます。

疑似相関に注意する

散布図で相関が見えても、第三の変数が影響している可能性があります(疑似相関)。例えば、アイスクリーム売上と水難事故の発生件数には正の相関が見られますが、これは気温という共通要因があるためです。相関と因果は異なることを念頭に置いて、判断を慎重に行いましょう。

散布図と他のグラフの違い

グラフの種類 主な用途 散布図との違い
散布図 2変数間の相関関係の可視化 データ点の分布をそのままプロット
折れ線グラフ 時系列データの変化を示す 時間順に線で結ぶ。散布図は順序を無視
棒グラフ カテゴリ別の値の比較 散布図は連続変数同士に使用
バブルチャート 3変数の関係を点の大きさで表現 散布図に加えてサイズ軸を持つ

まとめ:散布図でデータの関係性を読み解こう

この記事では、Googleスプレッドシートで散布図を作成し、2変数の相関関係を可視化する手順を解説しました。データの選択からグラフの種類変更、近似直線の追加まで、簡単な操作で相関を一目で把握できます。散布図はデータ分析の基本ツールであり、売上分析や品質管理など様々な場面で活用できます。さらに相関を数値で確認したい場合は、CORREL関数を使って相関係数を計算するとより正確です。ぜひ実際のデータで試してみてください。


ADVERTISEMENT

この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。