紙媒体の文書をスキャンして.pdfファイルにした際、その中の文字をコピーしたり検索したりできず、困った経験はありませんか。
スキャンした.pdfは画像として扱われるため、そのままでは文字情報を持っていません。
しかし「テキスト認識(OCR)」機能を使えば、画像化した文字をテキストデータに変換できます。
この記事では、OCRの基本とAcrobatを使った具体的な操作手順を詳しく解説します。
これにより、スキャンした.pdfも編集可能な文書として活用できるようになります。
【要点】スキャンPDFの文字を検索・コピー可能にするOCR機能の活用
- テキスト認識(OCR): 画像として認識されているスキャン.pdfの文字を、編集可能なテキストデータに変換します。
- AcrobatのOCR機能: 高精度なテキスト認識を実行し、検索やコピー、編集を可能にします。
- 認識精度向上と修正: スキャン品質や言語設定に注意し、認識後のテキストを修正することで、さらに正確な文書を作成できます。
ADVERTISEMENT
目次
OCRとは何か?スキャン.pdfで文字が認識されない理由
スキャンした.pdfファイルは、カメラで撮影した写真と同じように、文字を「画像」として記録しています。
このため、通常のテキスト文書のように文字を選択したり、内容を検索したりすることはできません。
光学文字認識(OCR: Optical Character Recognition)とは、画像データ内の文字の形を分析し、それをコンピューターが認識できるテキストデータに変換する技術のことです。
OCR処理を実行することで、画像だった文字がテキスト情報に変わり、検索やコピー、編集が可能になります。
これにより、紙媒体の文書がデジタルデータとして効率的に活用できるようになります。
スキャン.pdfがテキスト認識できない仕組み
スキャナーで取り込んだ文書は、各ピクセルの色の情報として保存されます。
例えば「A」という文字も、コンピューターにとってはただの黒い点の集合でしかありません。
そのため、ファイルを開いたときに画面に「A」と表示されていても、コンピューターはそれが文字の「A」であるとは認識していません。
OCRはこの点の集合パターンを解析し、あらかじめ登録された文字のパターンと照合することで、画像データをテキストデータに変換します。
この変換が完了すると、初めてそのファイル内の文字を検索したり、コピーして別の場所に貼り付けたりできるようになります。
Acrobatでスキャン.pdfの文字をテキスト認識する手順
Acrobatには、スキャンした.pdfファイルにテキスト認識(OCR)を適用する強力な機能が備わっています。
ここでは、その具体的な操作手順を解説します。
- Acrobatで.pdfファイルを開く
テキスト認識したいスキャン.pdfファイルをAcrobatで開きます。 - 「ツール」パネルを表示する
Acrobatの画面上部にある「ツール」タブをクリックします。 - 「スキャンとOCR」機能を選択する
「ツール」パネルの中から「スキャンとOCR」のアイコンを探してクリックします。 - 「テキスト認識」オプションを選択する
「スキャンとOCR」パネルが開いたら、上部にある「テキスト認識」をクリックし、ドロップダウンメニューから「このファイル内」を選択します。 - 認識設定を確認・変更する
「テキスト認識」のドロップダウンメニューの隣にある「設定」アイコンをクリックします。「テキスト認識 – 一般設定」ダイアログボックスが開きます。
「認識する言語」で、文書の言語を選択します。複数の言語が混在する場合は、主要な言語を選びます。必要に応じて「出力形式」や「ダウンサンプリング」などの詳細設定も調整できます。設定が完了したら「OK」をクリックします。 - テキスト認識を実行する
設定ダイアログボックスを閉じた後、再度「テキスト認識」をクリックし、「このファイル内」を選択します。Acrobatがファイルのテキスト認識処理を開始します。ファイルサイズやページ数によって処理時間が異なります。 - 認識結果を確認する
処理が完了したら、Acrobatの「テキストを選択」ツール(カーソルがI字型になるアイコン)を使って、文書内の文字を選択できるか確認します。また、検索機能(Ctrl+FまたはCmd+F)で文書内の単語を検索できるか試します。 - ファイルを保存する
テキスト認識された.pdfファイルを上書き保存、または別名で保存します。これにより、次回以降はテキストとして扱えるようになります。
テキスト認識をより正確にするための注意点
OCRの認識精度は、元の文書の状態や設定に大きく左右されます。
ここでは、より正確なテキスト認識を行うための注意点と、認識後に修正する方法を解説します。
認識精度が低い場合の確認ポイント
OCRの認識結果が思わしくない場合、以下の点を確認してください。
- 元の紙文書の品質: 文字がかすれていたり、傾いていたり、汚れがあったりすると認識精度が低下します。可能な限り鮮明な状態でスキャンし直すことを検討してください。
- スキャン時の解像度: スキャン時の解像度が低すぎると、文字の輪郭がぼやけて認識が難しくなります。一般的に300dpi以上が推奨されます。
- AcrobatのOCR設定: 「認識する言語」が文書の言語と一致しているか確認してください。異なる言語が設定されていると、誤認識の原因となります。
複数の言語が混在する文書の場合
一つの文書内に日本語と英語など、複数の言語が混在している場合は、OCRの設定で対応する言語を複数選択できる場合があります。
Acrobatの「テキスト認識 – 一般設定」ダイアログボックスで、「認識する言語」のドロップダウンメニューから複数の言語を選択肢に追加できます。
ただし、主要な言語を優先して認識される傾向があるため、完璧な認識は難しい場合もあります。
認識結果の修正方法
OCR処理後も、一部の文字が誤認識されることがあります。
Acrobatには、その誤りを手動で修正する機能が備わっています。
- 「スキャンとOCR」パネルを開く
Acrobatの「ツール」から「スキャンとOCR」を選択します。 - 「テキストを修正」を選択する
「スキャンとOCR」パネルの上部にある「テキストを修正」をクリックします。 - 修正箇所を特定・編集する
Acrobatが認識したテキストを表示し、誤認識の可能性がある箇所をハイライト表示します。ハイライトされた部分をクリックすると、直接テキストを編集できます。 - 修正を適用する
修正が完了したら、文書内の別の場所をクリックするか、Escキーを押して編集モードを終了します。
この機能を使って、認識精度が低い部分を一つずつ確認し、手動で修正することで、文書の正確性を高められます。
ADVERTISEMENT
Acrobatとその他のツールでのPDFテキスト認識機能の比較
PDFを閲覧するツールは数多くありますが、テキスト認識(OCR)機能の有無はツールによって大きく異なります。
ここでは、Acrobatと、WindowsのEdge、スマートフォンのPDFアプリについて、OCR機能の有無を比較します。
| 項目 | Acrobat | Edge | スマホPDFアプリ(一般的なビューア) |
|---|---|---|---|
| OCR機能の有無 | 高精度なOCR機能を搭載 | OCR機能なし | OCR機能なし(一部有料アプリは搭載) |
| テキスト検索 | OCR処理後、全文検索が可能 | 画像PDFでは不可、テキストPDFのみ可能 | 画像PDFでは不可、テキストPDFのみ可能 |
| テキストコピー | OCR処理後、テキストとしてコピー可能 | 画像PDFでは不可、テキストPDFのみ可能 | 画像PDFでは不可、テキストPDFのみ可能 |
| 対応言語 | 多言語に対応、複数言語の設定も可能 | 対応なし | 対応なし |
| 出力形式 | 検索可能な画像、編集可能なテキストなど選択肢あり | 対応なし | 対応なし |
| 費用 | 有料版(Acrobat Pro/Standard)が必要 | 無料 | 無料(OCRは有料機能の場合が多い) |
上記の比較表からわかるように、スキャンした.pdfにOCR処理を施し、本格的にテキストを検索・コピー・編集したい場合は、Acrobatの利用が最も適しています。
Edgeや一般的なスマホPDFアプリは、テキスト情報が含まれる.pdfの閲覧や基本的な操作には十分ですが、画像化された文字をテキストに変換する機能は搭載していません。
そのため、スキャン文書の活用には、Acrobatのような専用のOCR機能を持つソフトウェアが必要です。
まとめ
この記事では、スキャンした.pdfファイル内の文字を検索・コピー可能にする「テキスト認識(OCR)」の基本と、Acrobatでの具体的な操作手順を解説しました。
OCR機能を使うことで、これまで画像としてしか扱えなかった文書が、デジタルデータとして活用できるようになります。
Acrobatの「スキャンとOCR」機能を使って文書の利便性を高め、情報検索や文書管理の効率化に役立ててください。
認識精度が低い場合の対処法や、認識結果の修正方法も参考にして、より正確なテキストデータを作成しましょう。
ADVERTISEMENT
超解決 第一編集部
疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。
Office・仕事術の人気記事ランキング
- 【Outlook】宛先が「オートコンプリート」に出ない・間違っている時の修正手順|履歴の削除と再構築
- 【Outlook】メールの受信が数分遅れる!リアルタイムで届かない時の同期設定と送受信グループ設定
- 【Outlook】「メール送信を5分遅らせる」設定!誤送信を防ぐ最強のディレイ機能
- 【神技】保存せずに閉じたExcel・Wordファイルを復元する!消えたデータを復活させる4つの救出法
- 【Teams】会議の「参加者リスト」を出席後にダウンロードする!誰が参加したか確認する手順
- 【Outlook】メール本文が「文字化け」して読めない!エンコード設定の変更と修復手順
- 【Outlook】添付ファイルが「Winmail.dat」に化ける!受信側が困らない送信設定
- 【Excel】矢印キーで「セルが動かず画面がスクロールする」!ScrollLockの解除方法(ノートPC対応)
- 【Outlook】予定表の「祝日」が表示されない!最新カレンダーの追加と二重表示の修正手順
- 【Teams】チャットの「改行」をEnterキーで行う設定!間違えて誤送信してしまうのを防ぐ方法
