ADVERTISEMENT

【Googleドキュメント】ScanしたPDFのテキスト化!OCR精度を上げる設定

【Googleドキュメント】ScanしたPDFのテキスト化!OCR精度を上げる設定
🛡️ 超解決

スキャンしたPDFをそのまま保存しても、テキストとして編集できないため不便に感じることが多いです。Googleドキュメントには画像から文字を抜き出すOCR機能が搭載されており、PDFをアップロードするだけでテキスト化できます。ただし、元の画質や設定によって認識精度にばらつきが出るため、事前にいくつかのポイントを押さえておくことが重要です。この記事では、GoogleドキュメントでOCR精度を最大限に引き出すための具体的な設定方法をわかりやすく解説します。

【要点】GoogleドキュメントのOCRで精度を高める3つの設定

  • スキャン解像度を300dpi以上にする: 文字がつぶれずに読み取れるため、認識率が大幅に向上します。
  • Googleドキュメントで開く前に言語を設定する: ファイルメニューの言語設定を文書の言語に合わせると、OCRの辞書が最適化されます。
  • テキスト化後に検索と置換で誤認識を修正する: よくあるパターン(「0」と「O」など)を一括修正することで、手間を減らせます。

ADVERTISEMENT

GoogleドキュメントのOCR機能と精度に影響する要素

Googleドキュメントは、アップロードされたPDFや画像ファイルから光学文字認識(OCR)を行い、編集可能なテキストに変換します。この処理はGoogleのサーバー上で自動的に実行され、ユーザーは特別な操作をしなくてもテキスト化された文書を利用できます。ただし、OCRの精度は元の画像の品質に大きく依存します。具体的には、解像度が低かったり、文字がかすれていたり、背景にノイズがあると、誤認識が増えます。また、言語設定が文書の言語と合っていないと、辞書が適切に機能せず、専門用語や特殊記号が正しく変換されない原因になります。

OCR精度を上げるための手順

スキャン設定を見直す

  1. 解像度を300dpi以上に設定する
    スキャナーやスマートフォンでPDFを作成する際、解像度が低いと文字がぼやけて認識しづらくなります。300dpi以上を推奨します。600dpiにするとさらに精度が上がります。
  2. 白黒またはグレースケールでスキャンする
    カラースキャンはファイルサイズが大きくなり、OCR処理にも負荷がかかります。文字認識に不要な色情報を減らすため、白黒またはグレースケールを選びましょう。
  3. 用紙をまっすぐにセットする
    傾きがあると文字の行が曲がって認識され、誤認識の原因になります。スキャナーでは用紙ガイドをしっかり使い、スマホアプリでは傾き補正機能を活用してください。

GoogleドキュメントでPDFを開く

  1. GoogleドライブにPDFをアップロードする
    ドライブの「新規」→「ファイルのアップロード」からPDFを選択します。または、PDFをドライブのフォルダにドラッグ&ドロップしても構いません。
  2. PDFを右クリックして「アプリで開く」→「Googleドキュメント」を選ぶ
    アップロードが完了したら、PDFファイルを右クリックし、「アプリで開く」から「Googleドキュメント」をクリックします。自動的に変換が始まり、新しいGoogleドキュメントファイルが作成されます。
  3. 変換が完了するまで待つ
    ファイルサイズやページ数によって処理時間は変わりますが、通常は数秒から数十秒で完了します。変換中は画面にプログレスバーが表示されます。

言語設定を変更する

  1. 変換後のドキュメントを開く
    自動生成されたGoogleドキュメントファイルが開きます。このとき、まだ言語設定がデフォルトのままです。
  2. メニューバーから「ファイル」→「言語」を選択する
    「ファイル」メニューを開き、「言語」をクリックします。表示されるリストから、文書の言語(日本語、英語など)を選んでください。これにより、OCRの辞書が適切な言語に切り替わり、特に日本語の漢字や英語の大文字小文字の認識精度が向上します。
  3. 必要に応じてスペルチェックを有効にする
    「ツール」→「スペルチェック」→「スペルチェックを有効にする」をオンにすると、誤認識された単語に赤い下線が引かれ、修正候補が表示されます。

テキスト化後の微調整テクニック

  1. 「検索と置換」でよくある誤認識を修正する
    例えば数字の「0」がアルファベットの「O」に誤認識されるケースが多いです。編集メニューから「検索と置換」を開き、誤パターンを正しい文字に置き換えましょう。
  2. 改行や空白の乱れを手作業で整える
    OCR処理で改行位置がおかしくなることがあります。段落単位で整形し、不要な改行を削除します。また、表組みがある場合は、表として再作成すると見やすくなります。
  3. Googleドキュメントの辞書に単語を追加する
    固有名詞や専門用語が誤認識される場合、単語を右クリックして「辞書に追加」を選ぶことで、以降のスペルチェックで誤判定されなくなります。

よくある失敗例と対処法

解像度が低くて文字がつぶれてしまう

スキャン時に150dpi以下で作成されたPDFでは、文字がつぶれてGoogleドキュメントのOCRがほとんど認識できなくなります。この場合は、再度300dpi以上でスキャンし直すのが最も確実な方法です。どうしても元のPDFを再スキャンできない場合は、画像編集ソフトでシャープネスを上げてからアップロードしてみてください。

言語設定を忘れて日本語が文字化けする

デフォルトの言語設定が英語のまま日本語のPDFを変換すると、漢字やひらがながアルファベットや記号に誤変換されることがあります。変換後すぐに「ファイル」→「言語」で日本語を選択し、再度スペルチェックを実行すると改善します。すでに誤変換された文字は手動で修正する必要があります。

表や図が含まれるPDFでレイアウトが崩れる

GoogleドキュメントのOCRはテキスト認識に特化しているため、表や図は正しく認識されず、文字がランダムに並んでしまうことがあります。このような場合は、テキスト部分だけを抽出したいなら、あらかじめPDFからテキストのみを抽出するツールを使うか、表を画像として扱って別途入力し直すとよいでしょう。

ADVERTISEMENT

主なOCRツールとの比較表

ツール名 認識精度 使いやすさ 制限事項
Googleドキュメント(無料) 標準的で、設定次第で向上する Googleアカウントのみで簡単 複雑なレイアウトに弱い、ファイルサイズ制限あり
Adobe Acrobat Pro(有料) 非常に高い、レイアウト保持も可能 専用ソフトのインストールが必要 有料、日本語対応は良好
Microsoft OneNote(無料) 画像からのOCR精度が高い 手書きメモとの併用で便利 大量PDFの一括変換には不向き

このように、Googleドキュメントは無料で手軽に使える一方、レイアウトが複雑な文書には向いていません。しかし、スキャン設定や言語設定を適切に行えば、十分な精度でテキスト化できます。

まとめ

GoogleドキュメントのOCR機能を使えば、スキャンしたPDFをテキストに変換し、編集や検索が可能になります。精度を上げるには、スキャン時に300dpi以上の解像度を設定し、文書の言語に合わせた言語設定を忘れずに行うことが重要です。また、変換後に「検索と置換」やスペルチェックを活用して誤認識を修正すれば、ほぼ手作業を減らせます。これらの設定を組み合わせて、日常の文書管理に役立ててください。


ADVERTISEMENT

📄
Googleドキュメントトラブル完全解決データベースこの記事以外にも、書式・共有・Apps Script・引用など様々な困りごとへの解決策をまとめています。逆引きに活用してください。
この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。