【PDF】スキャンしたPDF(画像)にハイライトが引けない!「テキスト認識(OCR)」を実行する手順

【PDF】スキャンしたPDF(画像)にハイライトが引けない!「テキスト認識(OCR)」を実行する手順
🛡️ 超解決

スキャンした書類をPDFにした際、文字にハイライトを引けずに困った経験はありませんか。これは、スキャンPDFが単なる画像として認識されているため、テキスト情報が存在しないことが原因です。この記事では、画像PDFにテキスト情報を付与する「テキスト認識(OCR)」の仕組みと、Acrobat Proを使った具体的な実行手順を詳しく解説します。この記事を読めば、画像PDFにもスムーズにハイライトを引けるようになります。

【要点】スキャンPDFにハイライトを引くためのテキスト認識手順

  • Acrobat ProでOCRを実行する: 画像PDFにテキスト情報を付与し、ハイライトや検索を可能にします。
  • スキャン品質の確保: テキスト認識の精度を高めるため、スキャン時の解像度や文字の鮮明さを意識することが重要です。
  • ハイライト機能の活用: テキスト認識後のPDFでは、Acrobat ReaderやEdgeなどのビューアで自由にハイライトを引けます。

ADVERTISEMENT

スキャンしたPDFにハイライトが引けない根本原因

スキャンして作成されたPDFは、基本的に画像データとして扱われます。写真や図形と同じく、文字自体がピクセル(点の集まり)として記録されているため、個々の文字がテキスト情報としては認識されていません。ハイライト機能は、PDF内のテキストデータを選択し、その部分に色を付けることで機能します。そのため、テキスト情報がない画像PDFでは、どの部分が文字であるかをソフトウェアが判断できないため、ハイライトを引くことができないのです。

この問題を解決するのが、OCR 光学文字認識 と呼ばれる技術です。OCRは画像内の文字パターンを解析し、それを編集可能なテキストデータに変換します。この処理を行うことで、画像だったPDFにテキスト情報が埋め込まれ、ハイライトやテキストのコピー、検索といった機能が利用できるようになります。

Acrobat Proで画像PDFにテキスト認識を適用する手順

Acrobat ReaderにはOCR機能は搭載されていません。Acrobat Proなどの有料版ソフトウェアを使用することで、スキャンしたPDFにテキスト認識を適用できます。ここでは、Acrobat Proを使った具体的な手順を解説します。

Acrobat ProでPDFを開きOCRツールへアクセスする

  1. PDFファイルを開く
    Acrobat Proを起動し、テキスト認識を行いたいスキャンPDFファイルを開きます。
  2. 「ツール」パネルを開く
    画面左側または上部にある「ツール」タブをクリックします。
  3. 「テキスト認識」ツールを選択する
    ツールの一覧から「テキスト認識」または「スキャンとOCR」を探して選択します。

テキスト認識の設定と実行

  1. 認識対象を指定する
    「このファイル内」または「複数のファイル」から、今回の処理対象を選択します。
  2. 「設定」を開く
    ツールバーに表示される「設定」ボタンをクリックして、テキスト認識の詳細オプションを開きます。
  3. 認識言語を選択する
    「認識言語」ドロップダウンメニューから、PDF内のテキストが記述されている言語を選択します。日本語の文書であれば「日本語」を選びます。
  4. 出力形式を選択する
    「出力」オプションで「検索可能な画像」または「編集可能なテキストと画像」を選びます。ハイライトやコピーを目的とするなら「検索可能な画像」で十分です。テキストを直接編集したい場合は「編集可能なテキストと画像」を選びます。
  5. 解像度を設定する
    スキャン品質が低い場合は、解像度を上げて認識精度を高めることも可能です。通常は「デフォルト」で問題ありません。設定が完了したら「OK」をクリックします。
  6. テキスト認識を実行する
    設定ダイアログを閉じたら、ツールバーの「認識」ボタンをクリックしてテキスト認識処理を開始します。
  7. 処理の完了を待つ
    ファイルのページ数や複雑さによって、処理に時間がかかることがあります。進捗バーが表示されるので、完了まで待ちます。

変更を保存しハイライトを適用する

  1. ファイルを保存する
    テキスト認識が完了したら、必ずファイルを上書き保存または別名で保存します。これにより、PDFにテキスト情報が埋め込まれます。
  2. ハイライトを適用する
    保存したPDFをAcrobat ReaderやEdgeなどで開くと、テキストが選択できるようになっていることを確認できます。注釈ツールからハイライト機能を選び、文字にドラッグして色を付けてみてください。

テキスト認識後のPDF編集に関する注意点

テキスト認識は非常に便利な機能ですが、いくつか注意すべき点があります。認識精度や編集時の挙動について理解しておきましょう。

OCRの認識精度が低い場合

スキャンしたPDFの品質が低いと、OCRの認識精度が低下することがあります。文字がぼやけている、傾いている、背景と文字のコントラストが低いなどの場合です。このようなPDFでは、誤字脱字が多くなったり、レイアウトが崩れたりする可能性があります。

対処法としては、元の紙媒体をより高解像度で鮮明にスキャンし直すことが最善です。また、認識後に手動でテキストを修正することも可能です。Acrobat Proの「PDFを編集」ツールを使えば、認識されたテキストを直接修正できます。

ハイライトがずれる・意図しない部分に引かれる場合

OCRの認識精度が完璧でない場合、ハイライトを引こうとしたときに、文字の途中で切れたり、不要な空白部分まで選択されたりすることがあります。特に、複雑なレイアウトや手書き文字が含まれるPDFで発生しやすい現象です。

この場合、まずはOCR後のテキストデータを「PDFを編集」ツールで確認し、誤認識箇所を修正します。それでも改善しない場合は、ハイライトの代わりに「描画ツール」や「図形ツール」を使って、手動で線を引くなどの代替手段を検討してください。また、PDFのズームレベルを変更して細かく選択するのも有効です。

ファイルサイズが大きくなる場合

OCR処理を行うと、元の画像データに加えてテキスト情報がPDFファイル内に埋め込まれます。これにより、処理前のスキャンPDFよりもファイルサイズが大きくなる傾向があります。特に、ページ数の多い文書や、編集可能なテキストとして出力した場合に顕著です。

ファイルサイズを抑えたい場合は、Acrobat Proの「ファイルサイズを縮小」機能を利用することを検討してください。この機能は、画像の圧縮やフォントの最適化などを行い、PDFのデータ量を削減できます。また、OCRの出力設定で「検索可能な画像」を選ぶことで、ファイルサイズの増加を最小限に抑えることが可能です。

ADVERTISEMENT

各プラットフォームでのPDF編集・テキスト認識機能比較

項目 Acrobat Pro Edgeブラウザ スマホPDFアプリ(例: Adobe Scan)
OCR機能 高機能なテキスト認識機能を搭載 OCR機能は搭載していない 一部のアプリでOCR機能を搭載
ハイライト機能 テキスト認識後に高度なハイライトが可能 テキスト認識済みのPDFでハイライト可能 テキスト認識済みのPDFでハイライト可能
対応ファイル あらゆる種類のPDFに対応 主に閲覧用のPDFに対応 モバイルで作成・編集したPDFに対応
料金 有料のサブスクリプション 無料で利用可能 無料〜有料版まで多様
推奨用途 プロフェッショナルな文書編集と管理 簡易的なPDFの閲覧と注釈 手軽な文書のスキャンと共有

まとめ

この記事では、スキャンした画像PDFにハイライトが引けない原因と、Acrobat Proを使ったテキスト認識(OCR)の具体的な手順を解説しました。OCRを実行することで、画像PDFがテキスト情報を持つ文書へと変わり、ハイライトだけでなく、テキストの検索やコピーも可能になります。認識精度を高めるには、スキャン時の品質が重要です。ぜひ、Acrobat ProのOCR機能を活用して、PDF文書の利便性を向上させてください。

📑
PDFトラブル・操作完全解決データベース 閲覧エラー、編集・結合、パスワード解除など、PDFに関するあらゆる困りごとを網羅しています。

ADVERTISEMENT

この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。