【PDF】Illustratorで「アウトライン化」されたPDFの文字をどうしてもテキストに戻したい時のOCR最終手段

【PDF】Illustratorで「アウトライン化」されたPDFの文字をどうしてもテキストに戻したい時のOCR最終手段
🛡️ 超解決

Illustratorでアウトライン化されたPDFの文字をテキストとして編集できず、困っている方は多いでしょう。アウトライン化された文字は図形データに変換されるため、通常のPDF編集ツールではテキストに戻せません。この記事では、AcrobatのOCR機能を使った最終手段で、アウトライン化された文字をテキストデータに変換し、編集可能にする方法を解説します。

この方法を使えば、見た目だけだった文字情報を実用的なテキストとして再利用できます。文書の再編集や情報抽出に役立つでしょう。OCR機能の活用で、失われたと思われた文字情報を再び手元に取り戻せます。

【要点】アウトライン化されたPDFの文字をOCRでテキスト化する手順

  • AcrobatのOCR機能: アウトライン化された文字を画像として認識し、編集可能なテキストデータに変換します。
  • 文書の最適化: OCR処理前にPDFファイルを最適化し、認識精度と処理速度を向上させます。
  • テキストのコピーと編集: OCRで認識されたテキストをコピーし、他のアプリケーションで自由に編集できるようにします。

ADVERTISEMENT

アウトライン化されたPDFの文字がテキストに戻せない仕組み

Illustratorで文字をアウトライン化すると、その文字はフォント情報を持つテキストデータではなくなります。文字がパスデータ、つまり図形として扱われる状態です。この変換により、フォントがインストールされていない環境でも表示崩れを防げます。

しかし、一度図形化された文字は、通常のテキスト編集機能ではテキストデータに戻せません。文字そのものが画像データとして認識されるため、テキストとして選択・コピー・編集ができないのです。この問題を解決するには、画像内の文字を読み取るOCRという技術が必要です。OCRは、画像として存在する文字を解析し、コンピューターが認識できるテキストデータに変換する技術です。

Acrobatでアウトライン化PDFをOCR処理する手順

アウトライン化されたPDFの文字をAcrobatのOCR機能でテキスト化する手順を説明します。このOCR機能は、Adobe Acrobat Proの機能であり、Acrobat Readerでは利用できません。

  1. .pdfファイルを開く
    Adobe Acrobat Proで、アウトライン化された文字を含む.pdfファイルを開きます。
  2. ツールパネルを表示する
    上部のメニューバーから「ツール」タブをクリックします。
  3. 「PDFを編集」ツールを選択する
    ツールパネルの中から「PDFを編集」アイコンを探してクリックします。これにより、PDFの編集モードに入ります。
  4. OCR機能を実行する
    右側に表示される「PDFを編集」パネルで、「テキストを認識」セクションを探します。「このファイル内」または「複数のファイル」の中から、「このファイル内」を選択します。
  5. 認識設定を確認する
    「設定」ボタンをクリックし、認識する言語や出力形式を確認します。通常は「検索可能な画像」が選択されています。必要に応じて「編集可能なテキストと画像」に変更すると、認識精度が向上する場合があります。
  6. OCR処理を開始する
    「認識」ボタンをクリックして、OCR処理を開始します。ファイルのページ数や内容によって、処理には数分かかる場合があります。
  7. 認識結果を確認する
    OCR処理が完了すると、PDF内の文字がテキストとして認識され、選択できるようになります。認識されたテキストをドラッグして選択し、右クリックメニューから「コピー」を選択します。
  8. テキストを貼り付ける
    コピーしたテキストを、Wordやメモ帳などの別のアプリケーションに貼り付けて利用します。必要に応じて、誤認識箇所を手動で修正してください。

OCR処理でテキスト認識がうまくいかない場合の確認ポイント

OCR処理は万能ではありません。認識精度が低い場合や、特定の文字が正しく認識されない場合があります。以下のポイントを確認してください。

認識精度が低い場合の対処法

元のPDFファイルの品質が低い場合や、文字が傾いている、複雑なフォントが使われていると、OCRの認識精度が低下します。以下の方法を試してください。

  1. PDFの品質を向上させる
    元のIllustratorファイルがある場合は、より高解像度でPDFを書き出します。
  2. コントラストを調整する
    Acrobatの「PDFを編集」ツールには、画像のコントラストや明るさを調整する機能があります。文字と背景の区別がつきにくい場合に試します。
  3. 「文書を最適化」機能を利用する
    Acrobatの「ファイル」メニューから「最適化されたPDFを保存」を選択し、PDFを最適化します。これにより、画像データの品質が向上し、OCRの認識精度が高まる場合があります。

特定の文字だけが認識されない

特殊な記号、装飾の多い文字、または画像の一部と誤認識された文字は、正しくテキスト化されないことがあります。以下の対応方法を検討してください。

  1. 手動で修正する
    認識されたテキストを別のアプリケーションに貼り付けた後、誤認識された部分を手動で入力し直します。
  2. 部分的にOCRを再実行する
    Acrobatの「PDFを編集」ツールの「テキストを認識」で、特定のページや範囲だけを再度認識させることができます。認識がうまくいかなかった箇所に絞って試します。

OCR処理に時間がかかる・フリーズしてしまう

大容量の.pdfファイルや、複雑なレイアウトを持つPDFの場合、OCR処理に時間がかかったり、PCがフリーズしたりすることがあります。以下の対策を講じてください。

  1. ファイルを分割する
    ページ数の多いPDFは、Acrobatの「ページを整理」ツールで複数のファイルに分割してから、個別にOCR処理を行います。
  2. 他のアプリケーションを終了する
    PCのメモリを多く消費する他のアプリケーションを終了し、Acrobatにリソースを集中させます。
  3. PCを再起動する
    一時的なシステムの問題である可能性もあります。PCを再起動してから再度OCR処理を試します。

ADVERTISEMENT

AcrobatとEdgeのPDF機能比較

項目 Acrobat (Adobe Acrobat Pro) Edge (Microsoft Edge)
主な機能 高度なPDF編集、OCR、セキュリティ設定、フォーム作成 PDF閲覧、簡易的な注釈、印刷、Webブラウザ機能
アウトライン化PDFのテキスト認識 OCR機能で画像からテキストを抽出可能 OCR機能なし、テキスト抽出不可
テキスト編集 PDF内のテキストを直接編集可能 テキストの直接編集は不可
ファイルサイズ 大容量ファイルを効率的に処理可能 非常に大きなファイルでは動作が重くなる場合がある
費用 有料(サブスクリプション) 無料(Windows標準搭載)

まとめ

この記事では、Illustratorでアウトライン化されたPDFの文字をAcrobatのOCR機能でテキストに戻す方法を解説しました。図形データとなった文字情報も、OCRによってテキストとして認識され、コピー・編集が可能になります。認識精度が低い場合の対処法や、処理がうまくいかない場合の確認ポイントも理解できたでしょう。

このOCR機能は、スキャンした文書のテキスト化にも応用できます。Acrobatの「PDFを編集」から「テキストを認識」を試してみてください。文書の再利用や情報活用の幅が大きく広がります。

📑
PDFトラブル・操作完全解決データベース 閲覧エラー、編集・結合、パスワード解除など、PDFに関するあらゆる困りごとを網羅しています。

ADVERTISEMENT

この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。