ADVERTISEMENT

【Googleスプレッドシート】CSVを読み込むと日本語が文字化けする時の文字コード確認

【Googleスプレッドシート】CSVを読み込むと日本語が文字化けする時の文字コード確認
🛡️ 超解決

CSVファイルをGoogleスプレッドシートにインポートした際、日本語が文字化けして困った経験はありませんか。特に会社で使用する業務データでは、顧客名や商品名が正しく表示されないと業務に支障をきたします。この記事では、CSVファイルの文字コードが原因で発生する文字化けの仕組みと、Googleスプレッドシートでの正しいインポート方法を解説します。文字コードの確認手順や、会社の環境に合わせた対処法を具体的に紹介しますので、ぜひ参考にしてください。

【要点】この記事で確認すること

  • 最初に見る場所: CSVファイルの文字コードをテキストエディタやファイルプロパティで確認する方法
  • 切り分けの軸: UTF-8(BOMあり/なし)とShift_JISのどちらで保存されているか
  • 注意点: 会社PCで文字コードを変更する際は、元のデータを必ずバックアップしてから行ってください

ADVERTISEMENT

CSVファイルの文字化けが発生する仕組み

文字化けは、CSVファイルを保存したときの文字コードと、Googleスプレッドシートが読み込み時に想定する文字コードが一致しないために発生します。例えば、Shift_JISで保存されたCSVファイルをUTF-8としてインポートすると、日本語の2バイト文字が正しく解釈されず、â–‡やーなどの記号やアルファベットの羅列に変わってしまいます。

文字コードとは、コンピューターが文字を数値で扱うためのルールです。日本語でよく使われる文字コードには、UTF-8とShift_JISの2種類があります。UTF-8は国際的に広く使われ、多くのシステムで標準となっています。一方、Shift_JISは日本語Windowsのレガシーシステムで長年使われてきたコードで、現在も業務システムの出力ファイルでよく見かけます。

Googleスプレッドシートはインポート時に、ファイルの内容や拡張子から自動的に文字コードを判断しようとしますが、判断を誤ることがあります。特にBOM(Byte Order Mark)と呼ばれる識別子の有無が影響します。BOMありUTF-8はファイル先頭に特別なバイト列があるため、多くのアプリケーションでUTF-8と認識されやすいです。一方、BOMなしUTF-8やShift_JISは自動判定が難しく、文字化けの原因になります。

文字コードの種類と特徴

UTF-8(BOMあり)

UTF-8(BOMあり)は、ファイルの先頭にU+FEFFというBOMが付加されたUTF-8です。Googleスプレッドシートを含む多くのモダンなアプリケーションで正しく認識され、文字化けが起こりにくいです。会社で新しくCSVを作成する場合は、この形式を選ぶとトラブルが少なくなります。

UTF-8(BOMなし)

UTF-8(BOMなし)はBOMが付かない標準的なUTF-8です。Windowsのメモ帳で「UTF-8」として保存するとBOMありになりますが、他のテキストエディタやプログラミング言語の出力ではBOMなしが一般的です。Googleスプレッドシートにインポートする際、自動判定でShift_JISと誤認識されることがあり、文字化けの原因となります。

Shift_JIS(CP932)

Shift_JISは、日本語Windowsのシステムや古い業務アプリケーションで広く使われてきました。会社の基幹システムから出力されるCSVファイルはShift_JISであることが多いです。Googleスプレッドシートのインポート画面でも「Shift_JIS (CP932)」として選択できます。ただし、最近のクラウドサービスではUTF-8が標準のため、文字化けが頻発します。

GoogleスプレッドシートでCSVをインポートする手順

文字化けを防ぎながらCSVを正しくインポートするには、以下の手順を実行してください。特に文字コードの選択を間違えないように注意が必要です。

  1. Googleスプレッドシートを開き、メニューから「ファイル」→「インポート」をクリックします。
  2. 「アップロード」タブを選択し、該当のCSVファイルをドラッグ&ドロップするか、「ファイルを選択」ボタンからファイルを指定します。
  3. インポート場所を選択します。新しいスプレッドシートを作成するか、現在のシートに追加・置換するかを選びます。
  4. 「区切り文字」を確認します。CSVの場合は「カンマ」、タブ区切りの場合は「タブ」を選択してください。
  5. 「文字コード」ドロップダウンから適切なコードを選びます。UTF-8(BOMあり)が最も無難ですが、ファイルの元の文字コードに合わせてください。判断が難しい場合は、後述の確認方法を試してください。
  6. 「インポート」ボタンをクリックします。文字化けが発生した場合は、すぐに元に戻す(Ctrl+Z)か、再度インポートし直して文字コードを変更してください。

ADVERTISEMENT

文字コード別のインポート結果の比較

文字コード 特徴 Googleスプレッドシートでの選択 推奨状況
UTF-8(BOMあり) ファイル先頭にBOMがあり、多くのアプリで自動認識されやすい UTF-8(BOMあり) 新規作成時や社内標準として推奨
UTF-8(BOMなし) 標準的なUTF-8だが、自動判定で誤認識されるリスクあり UTF-8(BOMなし) Webシステムからの書き出しなどで使用。要注意
Shift_JIS (CP932) 日本語Windowsのレガシー環境で広く使われる Shift_JIS (CP932) 古い業務システム連携時に必要

上記の表からわかるように、GoogleスプレッドシートにCSVをインポートする際は、ファイルの実際の文字コードと一致する選択肢を選ぶことが重要です。自動判定に頼らず、事前に確認する習慣をつけましょう。

文字化けを防ぐための事前確認と対策

CSVファイルの文字コードを確認する方法

ファイルを開かずに文字コードを調べるには、以下の方法があります。

  • テキストエディタで開く: サクラエディタやVisual Studio Codeなど、文字コードを表示できるエディタでCSVを開きます。多くのエディタはステータスバーに文字コードを表示します。
  • ファイルプロパティを確認: Windowsのエクスプローラーでファイルを右クリックし、「プロパティ」→「詳細」タブで「文字コード」が表示される場合があります(環境による)。
  • コマンドプロンプトで確認: GNU fileコマンド(LinuxやWSL)を使うか、PowerShellでGet-Content -Encodingを利用する方法もあります。

失敗パターンとその対策

よくある失敗パターンとして、以下のケースが挙げられます。

  • UTF-8(BOMなし)のファイルをShift_JISとしてインポート: 日本語が「ã¡ã‚ƒã„ã„」のような文字化けになります。対策は、インポート時に文字コードをUTF-8(BOMなし)に変更して再インポートすることです。
  • Shift_JISのファイルをUTF-8(BOMあり)としてインポート: 文字化けは発生しにくいですが、一部の記号が正しく表示されないことがあります。正しい文字コードを選択しましょう。
  • 自動判定に任せて失敗: Googleスプレッドシートの自動判定は完璧ではありません。特にBOMなしUTF-8はShift_JISと誤認されやすいので、必ず文字コードを指定してください。

管理者に確認すべきポイント

会社の業務システムやデータベースから出力されるCSVファイルの文字コードは、システム管理者に確認するのが確実です。以下の情報を事前に把握しておくと、トラブルシューティングがスムーズになります。

  • システムの設定: 基幹システムやグループウェアがCSVを出力する際の文字コード設定を確認します。多くの場合、システムの設定画面で指定できます。
  • 社内標準の文字コード: 会社として統一された文字コードが定められているかを聞いてください。統一されていない場合は、UTF-8(BOMあり)を推奨するのが一般的です。
  • 文字コード変換ツールの有無: 管理者が文字コードを一括変換できるツールやスクリプトを持っている場合、変換を依頼することも検討しましょう。
  • Google Workspaceの設定: 組織のGoogle Workspace管理コンソールで、インポート時の文字コードに関するポリシーが設定されている可能性もあります。

よくある質問

Q1. CSVファイルの文字コードを簡単に確認する方法はありますか?

Windowsの標準メモ帳では文字コードを表示できません。サクラエディタやNotepad++などのフリーソフトを使うと、ステータスバーに文字コードが表示されます。また、Chromeブラウザにファイルをドラッグ&ドロップしても確認できる場合があります。

Q2. インポート後に文字化けした場合、修正方法はありますか?

インポート後に文字化けが発生した場合、元のCSVファイルを正しい文字コードでインポートし直すのが最も確実です。簡単な回避策として、Googleスプレッドシートの「ファイル」→「インポート」で再度インポートする際に文字コードを変更して試してください。

Q3. UTF-8とShift_JIS、どちらを選べばいいですか?

基本的にはUTF-8(BOMあり)を選ぶことをおすすめします。国際的にも主流であり、Googleスプレッドシートとの互換性が高いです。ただし、社内の古いシステムがShift_JISしか出力しない場合は、そのシステムに合わせる必要があります。

Q4. BOMとは何ですか?必須ですか?

BOM(Byte Order Mark)はファイルの先頭に付く特殊なバイト列で、文字コードを識別するための目印です。必須ではありませんが、BOMがあるとアプリケーションが文字コードを正しく認識しやすくなります。特にGoogleスプレッドシートではBOMありUTF-8が推奨されています。

Q5. 会社のデータが文字化けする場合、どこに相談すればいいですか?

まずは社内のITヘルプデスクやシステム管理者に相談してください。CSVファイルの出力元システムの文字コード設定や、Googleスプレッドシートのインポート設定を確認してもらうと解決が早まります。

まとめ

GoogleスプレッドシートでCSVファイルをインポートする際の文字化けは、文字コードの不一致が原因です。UTF-8(BOMあり)を基本とし、ファイルの文字コードを事前に確認してからインポートすることで、ほとんどのトラブルを回避できます。会社のシステムがShift_JISで出力する場合は、インポート時に明示的にShift_JISを選択してください。作業の効率化とデータ品質向上のために、文字コードの知識を身につけておくことをおすすめします。


ADVERTISEMENT

この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。

ADVERTISEMENT