【PDF】OCR処理中に「ページにレンダリング可能なテキストが含まれています」と出て失敗する時の回避

【PDF】OCR処理中に「ページにレンダリング可能なテキストが含まれています」と出て失敗する時の回避
🛡️ 超解決

PDFをOCR処理してテキスト認識を試みているのに、「ページにレンダリング可能なテキストが含まれています」というエラーで作業が進まない経験はありませんか。

このメッセージは、PDF内に既にテキスト情報が含まれている場合に発生し、OCR処理が不要と判断されることが原因です。

この記事では、このエラーを回避し、PDFを確実にOCR処理するための具体的な方法を解説します。

【要点】AcrobatでPDFをOCR処理する際の「ページにレンダリング可能なテキストが含まれています」エラー回避の要点

  • 既存テキストの削除: 既に存在するテキスト情報をPDFから除去し、OCR処理を可能にします。
  • 画像として保存: PDFを画像形式に変換後、再度PDFとして保存することで、テキスト情報を失くしOCR処理に適した状態にします。
  • OCR設定の調整: OCR処理のオプション設定を見直し、強制的にテキスト認識を行うように調整します。

ADVERTISEMENT

OCR処理で「レンダリング可能なテキスト」エラーが発生する理由

PDFは、テキスト、画像、図形などの要素を組み合わせたファイル形式です。

スキャンされたPDFは通常、画像として扱われますが、中にはテキスト情報が埋め込まれている場合があります。

このテキスト情報は、過去の編集や、作成時の設定によってPDF内に残ることがあります。

OCR処理は、画像からテキストを抽出する機能です。

既にテキストが存在するページでは、OCRソフトウェアはそのテキストを「レンダリング可能なテキスト」と認識します。

そして、すでに認識済みのテキストがあるため、OCR処理は不要と判断し、エラーとして処理を中断するのです。

このエラーは、PDFが完全に画像化されていない場合に頻繁に発生します。

特に、部分的にテキストが埋め込まれたPDFや、以前に不完全なOCR処理が施されたPDFで発生しやすい現象です。

AcrobatでOCRエラーを回避しテキスト認識を行う手順

PDFの既存テキストを削除して再OCRする手順

  1. PDFを開く
    Acrobatでエラーが発生する.pdfファイルを開きます。
  2. ツールパネルを開く
    画面右側のツールパネルから「PDFを編集」を選択します。
  3. テキストを削除
    テキスト要素を選択し、Deleteキーで削除します。または、不要なテキストボックスを右クリックし、「削除」を選択します。
  4. OCR処理を開始
    「ツール」メニューから「スキャンとOCR」を選択し、「テキストを認識」をクリックします。
    「このファイル内」または「複数のファイル」を選び、OCR処理を開始します。
    これにより、既存のテキストが除去された状態で、画像部分から新たなテキスト認識が実行されます。

PDFを画像として保存しOCR処理を再実行する手順

  1. PDFを開く
    Acrobatでエラーが発生する.pdfファイルを開きます。
  2. 画像形式で保存
    「ファイル」メニューから「書き出し」を選択し、「画像」カテゴリの中から「JPEG」または「TIFF」を選びます。
    各ページが個別の画像ファイルとして保存されます。
  3. 画像をPDFに再変換
    Acrobatを起動し、「ファイル」メニューから「作成」を選択します。
    「ファイルからPDF」を選び、手順2で保存した画像ファイルをすべて選択してPDFに変換します。
    この操作により、元のPDFのテキスト情報は失われ、完全に画像ベースのPDFが作成されます。
  4. OCR処理を開始
    新しく作成された画像ベースのPDFを開き、「ツール」メニューから「スキャンとOCR」を選択し、「テキストを認識」をクリックします。
    「このファイル内」または「複数のファイル」を選び、OCR処理を開始します。
    これでエラーが発生することなく、テキスト認識が進みます。

Acrobat ReaderでPDFを画像化しOCR処理を行う手順

  1. PDFを開く
    Acrobat Readerでエラーが発生する.pdfファイルを開きます。
  2. スクリーンショットを撮る
    Windowsの場合、Snipping ToolやPrint Screenキーを使用して、PDFの各ページを画像としてキャプチャします。
    Macの場合、Shift + Command + 4 で範囲選択してスクリーンショットを撮ります。
    各ページを個別の画像ファイルとして保存します。
  3. 画像をPDFに変換
    キャプチャした画像ファイルを、Acrobatの「ファイル」メニュー「作成」→「ファイルからPDF」で結合し、一つのPDFファイルを作成します。
    または、オンラインのPDF変換サービスを利用して画像ファイルをPDFに変換します。
  4. OCR処理を行う
    作成した画像ベースのPDFをAcrobatで開き、「ツール」メニューの「スキャンとOCR」から「テキストを認識」を実行します。
    Acrobat ReaderにはOCR機能がないため、Acrobat Proまたは同等の機能を持つソフトウェアを使用する必要があります。

OCR処理がうまくいかない場合の確認ポイント

複数言語のテキストが混在している場合

原因: OCRソフトウェアは通常、設定された言語に基づいてテキストを認識します。複数の言語が混在していると、認識精度が低下したり、エラーの原因になったりします。

対処法: AcrobatのOCR設定で、認識対象言語を複数選択するか、ページごとに言語設定を調整します。または、言語ごとにOCR処理を分けて行います。

解像度が低いスキャンPDF

原因: スキャンされたPDFの解像度が低いと、文字がぼやけてOCRソフトウェアが正確にテキストを認識できません。

対処法: 可能であれば、元の紙文書をより高い解像度(300dpi以上が推奨)で再スキャンします。画像編集ソフトでPDFの解像度を上げることも検討します。

保護されたPDFファイル

原因: パスワードで保護されたPDFや、編集制限がかけられたPDFは、OCR処理ができない場合があります。

対処法: PDFの作成者に連絡し、保護を解除してもらうか、編集権限を付与してもらう必要があります。Acrobatで保護解除のパスワードを知っている場合は、「ファイル」→「プロパティ」→「セキュリティ」から変更します。

Acrobatのバージョンが古い

原因: 古いバージョンのAcrobatでは、最新のOCRエンジンが搭載されておらず、特定のPDFファイルでエラーが発生することがあります。

対処法: Acrobatを最新バージョンにアップデートします。これにより、OCR機能の改善やバグ修正が適用されることがあります。

ファイルサイズが大きすぎるPDF

原因: 極端にファイルサイズが大きいPDFは、OCR処理に時間がかかりすぎたり、メモリ不足でエラーになったりすることがあります。

対処法: PDFをページごとに分割し、個別にOCR処理を行います。または、PDFの最適化機能を使用して、ファイルサイズを削減してからOCR処理を実行します。

ADVERTISEMENT

AcrobatとオンラインOCRサービスの機能比較

項目 Acrobat Pro オンラインOCRサービス
特徴 高度な編集機能と統合されたOCR機能 手軽に利用できるWebベースのOCR機能
対応ファイル形式 .pdf、画像ファイルなど多岐にわたる .pdf、画像ファイルが一般的
精度 高性能なOCRエンジンで高精度な認識 サービスによって精度に差がある
セキュリティ オフライン処理が可能で、情報漏洩のリスクが低い ファイルをアップロードするため、サービス選定に注意が必要
費用 有料サブスクリプションが必要 無料プランと有料プランがある
オフライン利用 可能 不可(インターネット接続が必要)

この記事では、PDFのOCR処理時に発生する「ページにレンダリング可能なテキストが含まれています」というエラーの回避策を詳しく解説しました。

既存テキストの削除、PDFを画像化して再変換する手順、Acrobat Readerでの代替策、そして関連するトラブルシューティングを通じて、多くのPDFでOCRを成功させられるでしょう。

これらの手順を試して、検索可能なPDF文書を作成し、情報活用を効率化してください。

📑
PDFトラブル・操作完全解決データベース 閲覧エラー、編集・結合、パスワード解除など、PDFに関するあらゆる困りごとを網羅しています。

ADVERTISEMENT

この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。