CSVファイルをGoogleスプレッドシートにインポートした際、日本語が文字化けして困った経験はありませんか。特に会社で使用する業務データでは、顧客名や商品名が正しく表示されないと業務に支障をきたします。この記事では、CSVファイルの文字コードが原因で発生する文字化けの仕組みと、Googleスプレッドシートでの正しいインポート方法を解説します。文字コードの確認手順や、会社の環境に合わせた対処法を具体的に紹介しますので、ぜひ参考にしてください。
【要点】この記事で確認すること
- 最初に見る場所: CSVファイルの文字コードをテキストエディタやファイルプロパティで確認する方法
- 切り分けの軸: UTF-8(BOMあり/なし)とShift_JISのどちらで保存されているか
- 注意点: 会社PCで文字コードを変更する際は、元のデータを必ずバックアップしてから行ってください
ADVERTISEMENT
目次
CSVファイルの文字化けが発生する仕組み
文字化けは、CSVファイルを保存したときの文字コードと、Googleスプレッドシートが読み込み時に想定する文字コードが一致しないために発生します。例えば、Shift_JISで保存されたCSVファイルをUTF-8としてインポートすると、日本語の2バイト文字が正しく解釈されず、â–‡やーなどの記号やアルファベットの羅列に変わってしまいます。
文字コードとは、コンピューターが文字を数値で扱うためのルールです。日本語でよく使われる文字コードには、UTF-8とShift_JISの2種類があります。UTF-8は国際的に広く使われ、多くのシステムで標準となっています。一方、Shift_JISは日本語Windowsのレガシーシステムで長年使われてきたコードで、現在も業務システムの出力ファイルでよく見かけます。
Googleスプレッドシートはインポート時に、ファイルの内容や拡張子から自動的に文字コードを判断しようとしますが、判断を誤ることがあります。特にBOM(Byte Order Mark)と呼ばれる識別子の有無が影響します。BOMありUTF-8はファイル先頭に特別なバイト列があるため、多くのアプリケーションでUTF-8と認識されやすいです。一方、BOMなしUTF-8やShift_JISは自動判定が難しく、文字化けの原因になります。
文字コードの種類と特徴
UTF-8(BOMあり)
UTF-8(BOMあり)は、ファイルの先頭にU+FEFFというBOMが付加されたUTF-8です。Googleスプレッドシートを含む多くのモダンなアプリケーションで正しく認識され、文字化けが起こりにくいです。会社で新しくCSVを作成する場合は、この形式を選ぶとトラブルが少なくなります。
UTF-8(BOMなし)
UTF-8(BOMなし)はBOMが付かない標準的なUTF-8です。Windowsのメモ帳で「UTF-8」として保存するとBOMありになりますが、他のテキストエディタやプログラミング言語の出力ではBOMなしが一般的です。Googleスプレッドシートにインポートする際、自動判定でShift_JISと誤認識されることがあり、文字化けの原因となります。
Shift_JIS(CP932)
Shift_JISは、日本語Windowsのシステムや古い業務アプリケーションで広く使われてきました。会社の基幹システムから出力されるCSVファイルはShift_JISであることが多いです。Googleスプレッドシートのインポート画面でも「Shift_JIS (CP932)」として選択できます。ただし、最近のクラウドサービスではUTF-8が標準のため、文字化けが頻発します。
GoogleスプレッドシートでCSVをインポートする手順
文字化けを防ぎながらCSVを正しくインポートするには、以下の手順を実行してください。特に文字コードの選択を間違えないように注意が必要です。
- Googleスプレッドシートを開き、メニューから「ファイル」→「インポート」をクリックします。
- 「アップロード」タブを選択し、該当のCSVファイルをドラッグ&ドロップするか、「ファイルを選択」ボタンからファイルを指定します。
- インポート場所を選択します。新しいスプレッドシートを作成するか、現在のシートに追加・置換するかを選びます。
- 「区切り文字」を確認します。CSVの場合は「カンマ」、タブ区切りの場合は「タブ」を選択してください。
- 「文字コード」ドロップダウンから適切なコードを選びます。UTF-8(BOMあり)が最も無難ですが、ファイルの元の文字コードに合わせてください。判断が難しい場合は、後述の確認方法を試してください。
- 「インポート」ボタンをクリックします。文字化けが発生した場合は、すぐに元に戻す(Ctrl+Z)か、再度インポートし直して文字コードを変更してください。
ADVERTISEMENT
文字コード別のインポート結果の比較
| 文字コード | 特徴 | Googleスプレッドシートでの選択 | 推奨状況 |
|---|---|---|---|
| UTF-8(BOMあり) | ファイル先頭にBOMがあり、多くのアプリで自動認識されやすい | UTF-8(BOMあり) | 新規作成時や社内標準として推奨 |
| UTF-8(BOMなし) | 標準的なUTF-8だが、自動判定で誤認識されるリスクあり | UTF-8(BOMなし) | Webシステムからの書き出しなどで使用。要注意 |
| Shift_JIS (CP932) | 日本語Windowsのレガシー環境で広く使われる | Shift_JIS (CP932) | 古い業務システム連携時に必要 |
上記の表からわかるように、GoogleスプレッドシートにCSVをインポートする際は、ファイルの実際の文字コードと一致する選択肢を選ぶことが重要です。自動判定に頼らず、事前に確認する習慣をつけましょう。
文字化けを防ぐための事前確認と対策
CSVファイルの文字コードを確認する方法
ファイルを開かずに文字コードを調べるには、以下の方法があります。
- テキストエディタで開く: サクラエディタやVisual Studio Codeなど、文字コードを表示できるエディタでCSVを開きます。多くのエディタはステータスバーに文字コードを表示します。
- ファイルプロパティを確認: Windowsのエクスプローラーでファイルを右クリックし、「プロパティ」→「詳細」タブで「文字コード」が表示される場合があります(環境による)。
- コマンドプロンプトで確認: GNU fileコマンド(LinuxやWSL)を使うか、PowerShellでGet-Content -Encodingを利用する方法もあります。
失敗パターンとその対策
よくある失敗パターンとして、以下のケースが挙げられます。
- UTF-8(BOMなし)のファイルをShift_JISとしてインポート: 日本語が「ã¡ã‚ƒã„ã„」のような文字化けになります。対策は、インポート時に文字コードをUTF-8(BOMなし)に変更して再インポートすることです。
- Shift_JISのファイルをUTF-8(BOMあり)としてインポート: 文字化けは発生しにくいですが、一部の記号が正しく表示されないことがあります。正しい文字コードを選択しましょう。
- 自動判定に任せて失敗: Googleスプレッドシートの自動判定は完璧ではありません。特にBOMなしUTF-8はShift_JISと誤認されやすいので、必ず文字コードを指定してください。
管理者に確認すべきポイント
会社の業務システムやデータベースから出力されるCSVファイルの文字コードは、システム管理者に確認するのが確実です。以下の情報を事前に把握しておくと、トラブルシューティングがスムーズになります。
- システムの設定: 基幹システムやグループウェアがCSVを出力する際の文字コード設定を確認します。多くの場合、システムの設定画面で指定できます。
- 社内標準の文字コード: 会社として統一された文字コードが定められているかを聞いてください。統一されていない場合は、UTF-8(BOMあり)を推奨するのが一般的です。
- 文字コード変換ツールの有無: 管理者が文字コードを一括変換できるツールやスクリプトを持っている場合、変換を依頼することも検討しましょう。
- Google Workspaceの設定: 組織のGoogle Workspace管理コンソールで、インポート時の文字コードに関するポリシーが設定されている可能性もあります。
よくある質問
Q1. CSVファイルの文字コードを簡単に確認する方法はありますか?
Windowsの標準メモ帳では文字コードを表示できません。サクラエディタやNotepad++などのフリーソフトを使うと、ステータスバーに文字コードが表示されます。また、Chromeブラウザにファイルをドラッグ&ドロップしても確認できる場合があります。
Q2. インポート後に文字化けした場合、修正方法はありますか?
インポート後に文字化けが発生した場合、元のCSVファイルを正しい文字コードでインポートし直すのが最も確実です。簡単な回避策として、Googleスプレッドシートの「ファイル」→「インポート」で再度インポートする際に文字コードを変更して試してください。
Q3. UTF-8とShift_JIS、どちらを選べばいいですか?
基本的にはUTF-8(BOMあり)を選ぶことをおすすめします。国際的にも主流であり、Googleスプレッドシートとの互換性が高いです。ただし、社内の古いシステムがShift_JISしか出力しない場合は、そのシステムに合わせる必要があります。
Q4. BOMとは何ですか?必須ですか?
BOM(Byte Order Mark)はファイルの先頭に付く特殊なバイト列で、文字コードを識別するための目印です。必須ではありませんが、BOMがあるとアプリケーションが文字コードを正しく認識しやすくなります。特にGoogleスプレッドシートではBOMありUTF-8が推奨されています。
Q5. 会社のデータが文字化けする場合、どこに相談すればいいですか?
まずは社内のITヘルプデスクやシステム管理者に相談してください。CSVファイルの出力元システムの文字コード設定や、Googleスプレッドシートのインポート設定を確認してもらうと解決が早まります。
まとめ
GoogleスプレッドシートでCSVファイルをインポートする際の文字化けは、文字コードの不一致が原因です。UTF-8(BOMあり)を基本とし、ファイルの文字コードを事前に確認してからインポートすることで、ほとんどのトラブルを回避できます。会社のシステムがShift_JISで出力する場合は、インポート時に明示的にShift_JISを選択してください。作業の効率化とデータ品質向上のために、文字コードの知識を身につけておくことをおすすめします。
ADVERTISEMENT
超解決 第一編集部
疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。
Office・仕事術の人気記事ランキング
- 【Word】差し込み印刷で数字の桁を整える!金額にカンマ(桁区切り)を入れる設定
- 【Teams】メッセージを「保存済み」にして後で読む!重要なチャットをブックマークして整理する技
- 【Copilot】「サービスに接続できません」エラーの原因切り分けと対処法
- 【PDF】PDFのサムネイルプレビューが表示されない!エクスプローラーの設定とAcrobat環境設定
- 【Excel】文字がセルの枠からはみ出す・隠れる!「折り返して表示」と「縮小して全体を表示」の使い分け
- 【Outlook】添付ファイルが「Winmail.dat」に化ける!受信側が困らない送信設定
- 【PDF】PDFに入力した文字の「フォント・サイズ・色」を変更するプロパティ設定
- 【Word】校閲機能の基本!赤字(変更履歴)とコメントで修正を見える化する
- 【Outlook】宛先が「オートコンプリート」に出ない・間違っている時の修正手順|履歴の削除と再構築
- 【PDF】結合するPDFの「用紙サイズ」がバラバラな時、すべてを「A4サイズ」に強制リサイズしてから結合する
