PDFをOCR処理してテキスト認識を試みているのに、「ページにレンダリング可能なテキストが含まれています」というエラーで作業が進まない経験はありませんか。
このメッセージは、PDF内に既にテキスト情報が含まれている場合に発生し、OCR処理が不要と判断されることが原因です。
この記事では、このエラーを回避し、PDFを確実にOCR処理するための具体的な方法を解説します。
【要点】AcrobatでPDFをOCR処理する際の「ページにレンダリング可能なテキストが含まれています」エラー回避の要点
- 既存テキストの削除: 既に存在するテキスト情報をPDFから除去し、OCR処理を可能にします。
- 画像として保存: PDFを画像形式に変換後、再度PDFとして保存することで、テキスト情報を失くしOCR処理に適した状態にします。
- OCR設定の調整: OCR処理のオプション設定を見直し、強制的にテキスト認識を行うように調整します。
ADVERTISEMENT
目次
OCR処理で「レンダリング可能なテキスト」エラーが発生する理由
PDFは、テキスト、画像、図形などの要素を組み合わせたファイル形式です。
スキャンされたPDFは通常、画像として扱われますが、中にはテキスト情報が埋め込まれている場合があります。
このテキスト情報は、過去の編集や、作成時の設定によってPDF内に残ることがあります。
OCR処理は、画像からテキストを抽出する機能です。
既にテキストが存在するページでは、OCRソフトウェアはそのテキストを「レンダリング可能なテキスト」と認識します。
そして、すでに認識済みのテキストがあるため、OCR処理は不要と判断し、エラーとして処理を中断するのです。
このエラーは、PDFが完全に画像化されていない場合に頻繁に発生します。
特に、部分的にテキストが埋め込まれたPDFや、以前に不完全なOCR処理が施されたPDFで発生しやすい現象です。
AcrobatでOCRエラーを回避しテキスト認識を行う手順
PDFの既存テキストを削除して再OCRする手順
- PDFを開く
Acrobatでエラーが発生する.pdfファイルを開きます。 - ツールパネルを開く
画面右側のツールパネルから「PDFを編集」を選択します。 - テキストを削除
テキスト要素を選択し、Deleteキーで削除します。または、不要なテキストボックスを右クリックし、「削除」を選択します。 - OCR処理を開始
「ツール」メニューから「スキャンとOCR」を選択し、「テキストを認識」をクリックします。
「このファイル内」または「複数のファイル」を選び、OCR処理を開始します。
これにより、既存のテキストが除去された状態で、画像部分から新たなテキスト認識が実行されます。
PDFを画像として保存しOCR処理を再実行する手順
- PDFを開く
Acrobatでエラーが発生する.pdfファイルを開きます。 - 画像形式で保存
「ファイル」メニューから「書き出し」を選択し、「画像」カテゴリの中から「JPEG」または「TIFF」を選びます。
各ページが個別の画像ファイルとして保存されます。 - 画像をPDFに再変換
Acrobatを起動し、「ファイル」メニューから「作成」を選択します。
「ファイルからPDF」を選び、手順2で保存した画像ファイルをすべて選択してPDFに変換します。
この操作により、元のPDFのテキスト情報は失われ、完全に画像ベースのPDFが作成されます。 - OCR処理を開始
新しく作成された画像ベースのPDFを開き、「ツール」メニューから「スキャンとOCR」を選択し、「テキストを認識」をクリックします。
「このファイル内」または「複数のファイル」を選び、OCR処理を開始します。
これでエラーが発生することなく、テキスト認識が進みます。
Acrobat ReaderでPDFを画像化しOCR処理を行う手順
- PDFを開く
Acrobat Readerでエラーが発生する.pdfファイルを開きます。 - スクリーンショットを撮る
Windowsの場合、Snipping ToolやPrint Screenキーを使用して、PDFの各ページを画像としてキャプチャします。
Macの場合、Shift + Command + 4 で範囲選択してスクリーンショットを撮ります。
各ページを個別の画像ファイルとして保存します。 - 画像をPDFに変換
キャプチャした画像ファイルを、Acrobatの「ファイル」メニュー「作成」→「ファイルからPDF」で結合し、一つのPDFファイルを作成します。
または、オンラインのPDF変換サービスを利用して画像ファイルをPDFに変換します。 - OCR処理を行う
作成した画像ベースのPDFをAcrobatで開き、「ツール」メニューの「スキャンとOCR」から「テキストを認識」を実行します。
Acrobat ReaderにはOCR機能がないため、Acrobat Proまたは同等の機能を持つソフトウェアを使用する必要があります。
OCR処理がうまくいかない場合の確認ポイント
複数言語のテキストが混在している場合
原因: OCRソフトウェアは通常、設定された言語に基づいてテキストを認識します。複数の言語が混在していると、認識精度が低下したり、エラーの原因になったりします。
対処法: AcrobatのOCR設定で、認識対象言語を複数選択するか、ページごとに言語設定を調整します。または、言語ごとにOCR処理を分けて行います。
解像度が低いスキャンPDF
原因: スキャンされたPDFの解像度が低いと、文字がぼやけてOCRソフトウェアが正確にテキストを認識できません。
対処法: 可能であれば、元の紙文書をより高い解像度(300dpi以上が推奨)で再スキャンします。画像編集ソフトでPDFの解像度を上げることも検討します。
保護されたPDFファイル
原因: パスワードで保護されたPDFや、編集制限がかけられたPDFは、OCR処理ができない場合があります。
対処法: PDFの作成者に連絡し、保護を解除してもらうか、編集権限を付与してもらう必要があります。Acrobatで保護解除のパスワードを知っている場合は、「ファイル」→「プロパティ」→「セキュリティ」から変更します。
Acrobatのバージョンが古い
原因: 古いバージョンのAcrobatでは、最新のOCRエンジンが搭載されておらず、特定のPDFファイルでエラーが発生することがあります。
対処法: Acrobatを最新バージョンにアップデートします。これにより、OCR機能の改善やバグ修正が適用されることがあります。
ファイルサイズが大きすぎるPDF
原因: 極端にファイルサイズが大きいPDFは、OCR処理に時間がかかりすぎたり、メモリ不足でエラーになったりすることがあります。
対処法: PDFをページごとに分割し、個別にOCR処理を行います。または、PDFの最適化機能を使用して、ファイルサイズを削減してからOCR処理を実行します。
ADVERTISEMENT
AcrobatとオンラインOCRサービスの機能比較
| 項目 | Acrobat Pro | オンラインOCRサービス |
|---|---|---|
| 特徴 | 高度な編集機能と統合されたOCR機能 | 手軽に利用できるWebベースのOCR機能 |
| 対応ファイル形式 | .pdf、画像ファイルなど多岐にわたる | .pdf、画像ファイルが一般的 |
| 精度 | 高性能なOCRエンジンで高精度な認識 | サービスによって精度に差がある |
| セキュリティ | オフライン処理が可能で、情報漏洩のリスクが低い | ファイルをアップロードするため、サービス選定に注意が必要 |
| 費用 | 有料サブスクリプションが必要 | 無料プランと有料プランがある |
| オフライン利用 | 可能 | 不可(インターネット接続が必要) |
この記事では、PDFのOCR処理時に発生する「ページにレンダリング可能なテキストが含まれています」というエラーの回避策を詳しく解説しました。
既存テキストの削除、PDFを画像化して再変換する手順、Acrobat Readerでの代替策、そして関連するトラブルシューティングを通じて、多くのPDFでOCRを成功させられるでしょう。
これらの手順を試して、検索可能なPDF文書を作成し、情報活用を効率化してください。
ADVERTISEMENT
超解決 第一編集部
疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。
Office・仕事術の人気記事ランキング
- 【Outlook】宛先が「オートコンプリート」に出ない・間違っている時の修正手順|履歴の削除と再構築
- 【Outlook】メールの受信が数分遅れる!リアルタイムで届かない時の同期設定と送受信グループ設定
- 【Outlook】「メール送信を5分遅らせる」設定!誤送信を防ぐ最強のディレイ機能
- 【神技】保存せずに閉じたExcel・Wordファイルを復元する!消えたデータを復活させる4つの救出法
- 【Teams】会議の「参加者リスト」を出席後にダウンロードする!誰が参加したか確認する手順
- 【Outlook】メール本文が「文字化け」して読めない!エンコード設定の変更と修復手順
- 【Outlook】添付ファイルが「Winmail.dat」に化ける!受信側が困らない送信設定
- 【Excel】矢印キーで「セルが動かず画面がスクロールする」!ScrollLockの解除方法(ノートPC対応)
- 【Outlook】予定表の「祝日」が表示されない!最新カレンダーの追加と二重表示の修正手順
- 【Teams】チャットの「改行」をEnterキーで行う設定!間違えて誤送信してしまうのを防ぐ方法
