【PDF】紙をスキャンしたPDFの文字をPCで検索・コピー可能にする「テキスト認識(OCR)」の基本

【PDF】紙をスキャンしたPDFの文字をPCで検索・コピー可能にする「テキスト認識(OCR)」の基本
🛡️ 超解決

紙媒体の文書をスキャンして.pdfファイルにした際、その中の文字をコピーしたり検索したりできず、困った経験はありませんか。

スキャンした.pdfは画像として扱われるため、そのままでは文字情報を持っていません。

しかし「テキスト認識(OCR)」機能を使えば、画像化した文字をテキストデータに変換できます。

この記事では、OCRの基本とAcrobatを使った具体的な操作手順を詳しく解説します。

これにより、スキャンした.pdfも編集可能な文書として活用できるようになります。

【要点】スキャンPDFの文字を検索・コピー可能にするOCR機能の活用

  • テキスト認識(OCR): 画像として認識されているスキャン.pdfの文字を、編集可能なテキストデータに変換します。
  • AcrobatのOCR機能: 高精度なテキスト認識を実行し、検索やコピー、編集を可能にします。
  • 認識精度向上と修正: スキャン品質や言語設定に注意し、認識後のテキストを修正することで、さらに正確な文書を作成できます。

ADVERTISEMENT

OCRとは何か?スキャン.pdfで文字が認識されない理由

スキャンした.pdfファイルは、カメラで撮影した写真と同じように、文字を「画像」として記録しています。

このため、通常のテキスト文書のように文字を選択したり、内容を検索したりすることはできません。

光学文字認識(OCR: Optical Character Recognition)とは、画像データ内の文字の形を分析し、それをコンピューターが認識できるテキストデータに変換する技術のことです。

OCR処理を実行することで、画像だった文字がテキスト情報に変わり、検索やコピー、編集が可能になります。

これにより、紙媒体の文書がデジタルデータとして効率的に活用できるようになります。

スキャン.pdfがテキスト認識できない仕組み

スキャナーで取り込んだ文書は、各ピクセルの色の情報として保存されます。

例えば「A」という文字も、コンピューターにとってはただの黒い点の集合でしかありません。

そのため、ファイルを開いたときに画面に「A」と表示されていても、コンピューターはそれが文字の「A」であるとは認識していません。

OCRはこの点の集合パターンを解析し、あらかじめ登録された文字のパターンと照合することで、画像データをテキストデータに変換します。

この変換が完了すると、初めてそのファイル内の文字を検索したり、コピーして別の場所に貼り付けたりできるようになります。

Acrobatでスキャン.pdfの文字をテキスト認識する手順

Acrobatには、スキャンした.pdfファイルにテキスト認識(OCR)を適用する強力な機能が備わっています。

ここでは、その具体的な操作手順を解説します。

  1. Acrobatで.pdfファイルを開く
    テキスト認識したいスキャン.pdfファイルをAcrobatで開きます。
  2. 「ツール」パネルを表示する
    Acrobatの画面上部にある「ツール」タブをクリックします。
  3. 「スキャンとOCR」機能を選択する
    「ツール」パネルの中から「スキャンとOCR」のアイコンを探してクリックします。
  4. 「テキスト認識」オプションを選択する
    「スキャンとOCR」パネルが開いたら、上部にある「テキスト認識」をクリックし、ドロップダウンメニューから「このファイル内」を選択します。
  5. 認識設定を確認・変更する
    「テキスト認識」のドロップダウンメニューの隣にある「設定」アイコンをクリックします。「テキスト認識 – 一般設定」ダイアログボックスが開きます。
    「認識する言語」で、文書の言語を選択します。複数の言語が混在する場合は、主要な言語を選びます。必要に応じて「出力形式」や「ダウンサンプリング」などの詳細設定も調整できます。設定が完了したら「OK」をクリックします。
  6. テキスト認識を実行する
    設定ダイアログボックスを閉じた後、再度「テキスト認識」をクリックし、「このファイル内」を選択します。Acrobatがファイルのテキスト認識処理を開始します。ファイルサイズやページ数によって処理時間が異なります。
  7. 認識結果を確認する
    処理が完了したら、Acrobatの「テキストを選択」ツール(カーソルがI字型になるアイコン)を使って、文書内の文字を選択できるか確認します。また、検索機能(Ctrl+FまたはCmd+F)で文書内の単語を検索できるか試します。
  8. ファイルを保存する
    テキスト認識された.pdfファイルを上書き保存、または別名で保存します。これにより、次回以降はテキストとして扱えるようになります。

テキスト認識をより正確にするための注意点

OCRの認識精度は、元の文書の状態や設定に大きく左右されます。

ここでは、より正確なテキスト認識を行うための注意点と、認識後に修正する方法を解説します。

認識精度が低い場合の確認ポイント

OCRの認識結果が思わしくない場合、以下の点を確認してください。

  • 元の紙文書の品質: 文字がかすれていたり、傾いていたり、汚れがあったりすると認識精度が低下します。可能な限り鮮明な状態でスキャンし直すことを検討してください。
  • スキャン時の解像度: スキャン時の解像度が低すぎると、文字の輪郭がぼやけて認識が難しくなります。一般的に300dpi以上が推奨されます。
  • AcrobatのOCR設定: 「認識する言語」が文書の言語と一致しているか確認してください。異なる言語が設定されていると、誤認識の原因となります。

複数の言語が混在する文書の場合

一つの文書内に日本語と英語など、複数の言語が混在している場合は、OCRの設定で対応する言語を複数選択できる場合があります。

Acrobatの「テキスト認識 – 一般設定」ダイアログボックスで、「認識する言語」のドロップダウンメニューから複数の言語を選択肢に追加できます。

ただし、主要な言語を優先して認識される傾向があるため、完璧な認識は難しい場合もあります。

認識結果の修正方法

OCR処理後も、一部の文字が誤認識されることがあります。

Acrobatには、その誤りを手動で修正する機能が備わっています。

  1. 「スキャンとOCR」パネルを開く
    Acrobatの「ツール」から「スキャンとOCR」を選択します。
  2. 「テキストを修正」を選択する
    「スキャンとOCR」パネルの上部にある「テキストを修正」をクリックします。
  3. 修正箇所を特定・編集する
    Acrobatが認識したテキストを表示し、誤認識の可能性がある箇所をハイライト表示します。ハイライトされた部分をクリックすると、直接テキストを編集できます。
  4. 修正を適用する
    修正が完了したら、文書内の別の場所をクリックするか、Escキーを押して編集モードを終了します。

この機能を使って、認識精度が低い部分を一つずつ確認し、手動で修正することで、文書の正確性を高められます。

ADVERTISEMENT

Acrobatとその他のツールでのPDFテキスト認識機能の比較

PDFを閲覧するツールは数多くありますが、テキスト認識(OCR)機能の有無はツールによって大きく異なります。

ここでは、Acrobatと、WindowsのEdge、スマートフォンのPDFアプリについて、OCR機能の有無を比較します。

項目 Acrobat Edge スマホPDFアプリ(一般的なビューア)
OCR機能の有無 高精度なOCR機能を搭載 OCR機能なし OCR機能なし(一部有料アプリは搭載)
テキスト検索 OCR処理後、全文検索が可能 画像PDFでは不可、テキストPDFのみ可能 画像PDFでは不可、テキストPDFのみ可能
テキストコピー OCR処理後、テキストとしてコピー可能 画像PDFでは不可、テキストPDFのみ可能 画像PDFでは不可、テキストPDFのみ可能
対応言語 多言語に対応、複数言語の設定も可能 対応なし 対応なし
出力形式 検索可能な画像、編集可能なテキストなど選択肢あり 対応なし 対応なし
費用 有料版(Acrobat Pro/Standard)が必要 無料 無料(OCRは有料機能の場合が多い)

上記の比較表からわかるように、スキャンした.pdfにOCR処理を施し、本格的にテキストを検索・コピー・編集したい場合は、Acrobatの利用が最も適しています。

Edgeや一般的なスマホPDFアプリは、テキスト情報が含まれる.pdfの閲覧や基本的な操作には十分ですが、画像化された文字をテキストに変換する機能は搭載していません。

そのため、スキャン文書の活用には、Acrobatのような専用のOCR機能を持つソフトウェアが必要です。

まとめ

この記事では、スキャンした.pdfファイル内の文字を検索・コピー可能にする「テキスト認識(OCR)」の基本と、Acrobatでの具体的な操作手順を解説しました。

OCR機能を使うことで、これまで画像としてしか扱えなかった文書が、デジタルデータとして活用できるようになります。

Acrobatの「スキャンとOCR」機能を使って文書の利便性を高め、情報検索や文書管理の効率化に役立ててください。

認識精度が低い場合の対処法や、認識結果の修正方法も参考にして、より正確なテキストデータを作成しましょう。

📑
PDFトラブル・操作完全解決データベース 閲覧エラー、編集・結合、パスワード解除など、PDFに関するあらゆる困りごとを網羅しています。

ADVERTISEMENT

この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。