ADVERTISEMENT

【Googleスプレッドシート】列の統計情報で型と分布を瞬時に確認!データ型の検証

【Googleスプレッドシート】列の統計情報で型と分布を瞬時に確認!データ型の検証
🛡️ 超解決

スプレッドシートで大量のデータを扱っていると、各列にどんなデータが入っているのか把握できず困ることがあります。データ型が混在していたり、想定外の値が含まれていると、集計や分析でエラーが発生します。そんなときに役立つのが「列の統計情報」という機能です。この記事では、ワンクリックで列のデータ型や分布を確認する方法を詳しく解説します。

【要点】列の統計情報で効率的にデータ型と分布をチェックする

  • 列の統計情報の表示操作: 列見出しの▼メニューから「列の統計情報」を選択すると、データ型や分布を含む詳細なサマリーが表示されます。
  • データ型の即時確認: 統計情報の上部に「テキスト」「数値」「日付」などデータ型が表示されるので、列全体の型を一目で把握できます。
  • 分布グラフの活用: 数値列ではヒストグラム、テキスト列では値の出現頻度が表示され、異常値や欠損値のチェックに役立ちます。

ADVERTISEMENT

列の統計情報で何がわかるのか

「列の統計情報」は、Googleスプレッドシートが各列のデータを自動的に分析し、データ型、空白セルの数、一意の値の数、そして値の分布をグラフで表示してくれる機能です。この機能を使えば、列全体の傾向を瞬時に把握できるため、データのクリーニングや前処理の効率が大幅に上がります。たとえば、日付列に文字列が混ざっていないかの確認や、数値列の分布が偏っていないかなどのチェックに最適です。また、この機能はフィルタや条件付き書式と組み合わせて使うと、さらに強力なデータ検証ツールになります。

列の統計情報を表示する手順

  1. 確認したい列の見出しをクリックする
    列見出し(A, B, Cなど)をクリックすると、列全体が選択されます。その状態で、見出しの右端にある小さな▼アイコンをクリックします。
  2. メニューから「列の統計情報」を選ぶ
    表示されたドロップダウンメニューの一番下にある「列の統計情報」をクリックします。すると、画面の右側に統計情報のパネルが表示されます。
  3. 統計情報を読み取る
    パネル上部にはデータ型(例:テキスト、数値、日付、ブール値など)が表示されます。その下に、行数、空白のセル数、一意の値の数が表示されます。数値列の場合はヒストグラム、テキスト列の場合は各値の出現回数が棒グラフで表示されます。

数値列の分布を確認する

  1. ヒストグラムで範囲を把握する
    数値列の場合、統計情報パネルにヒストグラムが表示されます。横軸は値の範囲、縦軸は頻度です。これにより、どの値の範囲にデータが集中しているか、外れ値が存在するかを視覚的に確認できます。
  2. 具体的な統計量を見る
    ヒストグラムの下には、最小値、最大値、平均値、中央値、標準偏差などの基本統計量が表示されます。これらの数値から、データのばらつきや傾向をより正確に把握できます。
  3. 空白や文字列の混入を発見する
    数値列なのに空白や文字列が含まれている場合、統計情報のデータ型が「数値(テキスト含む)」のように表示されることがあります。また、空白セルの数が表示されるので、欠損値のチェックにも使えます。

テキスト列の分布を確認する

  1. 値の出現回数を棒グラフで確認する
    テキスト列の場合、各値の出現回数が棒グラフで表示されます。グラフの長さでどの値が多いかを一目で把握できます。
  2. 一意の値の数をチェックする
    「一意の値」の欄に、その列に含まれる異なる値の数が表示されます。たとえば、都道府県列なら47、性別なら2など、期待した数と一致するかを確認します。
  3. 誤ったスペルや表記ゆれを発見する
    グラフに想定外の値が表示されていたら、それが入力ミスや表記ゆれの可能性があります。たとえば、「東京都」と「東京」が別の値としてカウントされている場合などです。

日付列の分布を確認する

  1. データ型が「日付」と表示されるかを確認する
    日付列の場合、統計情報のデータ型は「日付」と表示されます。もし「テキスト」と表示されたら、日付として認識されていないセルが存在する証拠です。
  2. 日付の範囲をヒストグラムで確認する
    数値列と同様に、日付列でもヒストグラムが表示されます。横軸は日付の範囲で、どの期間にデータが集中しているかがわかります。
  3. 空白や不正な日付を発見する
    日付列なのに空白や「2024/13/01」のような存在しない日付が混ざっている場合、統計情報の空白セル数やヒストグラムの異常な分布から気づくことができます。

列の統計情報を使うときの注意点

列にヘッダー行が必要

列の統計情報は、その列の最初の行をヘッダーとして扱います。ヘッダーがない場合、最初のデータがヘッダーとみなされるため、正しい統計が得られません。必ず1行目に列名を入力してから使用してください。

データ型が自動判定される仕組み

スプレッドシートは列内のデータを自動的に解析して型を判定します。ただし、列に複数の型が混在している場合、最も多い型が優先表示されます。たとえば、大半が数値でも一部にテキストがあると「数値(テキスト含む)」と表示されます。この場合は、DATA型の混在を解消する必要があります。

統計情報はリアルタイム更新されない

統計情報パネルは開いた時点のデータに基づいて表示されます。データを編集してもパネルは自動更新されません。最新の状態を確認するには、パネルを閉じて再度開き直す必要があります。

分布グラフが表示されない場合がある

列のデータ数があまりに多い場合や、データ型が複雑な場合、分布グラフが表示されずに「分布を計算できません」というメッセージが出ることがあります。その場合は、列をフィルタリングしてデータ数を減らしてから再度試してみてください。

統計情報は印刷やエクスポートできない

列の統計情報はスプレッドシート内でしか確認できません。結果を他のドキュメントで使いたい場合は、手動でスクリーンショットを撮るか、統計量を関数(COUNT, AVERAGE, MIN, MAXなど)で計算して別のセルに出力する必要があります。

ADVERTISEMENT

まとめ

列の統計情報を使うと、データ型の確認や分布の把握がボタン一つでできるようになります。数値列の平均・中央値・標準偏差、テキスト列の値の出現回数、日付列の範囲など、データの全体像を瞬時に把握できるため、データの品質チェックや前処理の時間を大幅に短縮できます。この機能を日々のデータ作業に取り入れて、より正確な分析を目指しましょう。また、関数や条件付き書式と組み合わせることで、さらなる自動化も可能です。


ADVERTISEMENT

この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。