スキャンした.pdfファイルをOCR化したら、ファイルサイズが数倍に膨らんで困っていませんか。
これは、元の画像データに加えて、認識されたテキスト情報が追加されるためです。
ファイルサイズが重いと、メール送信やオンラインでの共有に時間がかかり、ストレージ容量も圧迫します。
この記事では、Acrobat Readerを使ったOCR化と、ファイルサイズを最適化するダウンサンプルの手順を解説します。
検索可能な軽量.pdfファイルを作成できます。
【要点】スキャンPDFのOCR化とファイルサイズ最適化
- OCR処理: スキャンした画像から文字を認識し、検索やテキストコピーを可能にします。
- ファイルサイズの最適化: 不要なデータを削除し、PDFの容量を効率的に減らします。
- 画像のダウンサンプル: PDF内の画像解像度を下げて、ファイルサイズを大幅に削減します。
ADVERTISEMENT
目次
スキャンPDFのOCR化でファイルサイズが増加する仕組み
OCRとは、光学文字認識の略称です。画像として取り込まれた文字を、コンピューターが認識できるテキストデータに変換する技術です。
スキャンした.pdfファイルは、通常は写真と同じ画像データの集合体です。文字を画像として扱っているため、そのままではテキストの検索やコピーはできません。
OCR処理を行うと、元の画像データの上に透明なテキストレイヤーが追加されます。これにより、画像上の文字がテキストデータとして扱われ、検索やコピーが可能になります。
しかし、このテキストレイヤーが追加されるため、元の画像データに加えて新たなデータが加わり、ファイルサイズが大きくなってしまうのです。
ファイルサイズの最適化は、PDFに含まれる不要な情報を削除したり、圧縮率を高めたりする処理です。ダウンサンプルは、PDF内の画像解像度を下げることで、視覚的な品質を保ちつつファイルサイズを大幅に削減する手法です。
Acrobat ReaderでスキャンPDFをOCR化し最適化する手順
Acrobat Readerには、スキャンした.pdfファイルをOCR化し、その後ファイルサイズを最適化する機能が備わっています。以下の手順で実行してください。
- .pdfファイルを開く
Acrobat Readerで、OCR化したいスキャン済みの.pdfファイルを開きます。 - ツールタブを開く
画面上部のメニューバーにある「ツール」タブをクリックします。 - スキャンされた文書を強化を選択
ツール一覧の中から「スキャンされた文書を強化」アイコンを見つけてクリックします。 - 認識テキストの実行
右側に表示される「認識テキスト」メニューから「このファイル内」をクリックします。必要に応じて「設定」をクリックし、認識言語を日本語に設定します。 - OCR処理の開始
「認識」ボタンをクリックすると、OCR処理が開始されます。処理が完了するまで待ちます。 - ファイルサイズを縮小を選択
OCR処理が完了したら、画面上部の「ファイル」メニューをクリックし、「ファイルサイズを縮小」を選択します。 - 互換性設定の選択
「ファイルサイズを縮小」ダイアログボックスが表示されます。「互換性を保持」で最新のAcrobatバージョンを選択するか、必要に応じて古いバージョンとの互換性を確保する設定を選びます。 - 最適化設定を開く
「最適化設定」ボタンをクリックします。これにより、詳細な最適化オプションを設定できます。 - 画像のダウンサンプル設定
「最適化設定」ダイアログボックスの左側にある「画像」カテゴリをクリックします。 - 解像度の調整
「カラー画像」「グレースケール画像」「モノクロ画像」それぞれの項目で、「ダウンサンプル」のプルダウンメニューから「平均画素を対象に」または「サブサンプリング」を選択します。その右にある「〜ppiを超える画像」の値を調整し、適切な解像度を設定します。たとえば、300ppiを150ppiに設定すると、ファイルサイズを大幅に削減できます。 - その他の最適化設定
「フォント」「透明」「オブジェクトの破棄」「ユーザーデータ破棄」「最適化」などのカテゴリも確認し、不要なデータを削除する設定を適用します。たとえば、「ユーザーデータ破棄」で「すべてのコメントを破棄」などを選択できます。 - 設定の保存と実行
すべての設定が完了したら、「OK」をクリックして最適化設定を保存します。その後、「ファイルサイズを縮小」ダイアログボックスの「OK」をクリックします。 - 新しいファイル名で保存
最適化された.pdfファイルを新しいファイル名で保存します。元のファイルが上書きされないように、別の名前を付けることを推奨します。
最適化・ダウンサンプル時の注意点と確認事項
OCR化と最適化を行う際には、いくつかの注意点があります。期待通りの結果が得られない場合の確認事項も解説します。
OCR認識精度が低い場合の対処法
OCRの認識精度は、元のスキャン品質に大きく左右されます。解像度が低い、文字が傾いている、印字が薄いなどの場合、正確なテキスト認識が困難になります。
対処法としては、まずスキャン時に高解像度で鮮明な画像を確保することが重要です。Acrobat Readerの「スキャンされた文書を強化」機能の設定で、認識言語が正しく選択されているかを確認してください。異なる言語が選択されていると、認識精度が著しく低下します。
ダウンサンプルしすぎると画質が劣化してしまう
画像のダウンサンプルはファイルサイズ削減に非常に有効ですが、過度に解像度を下げると、文字や図版がぼやけて判読しにくくなる可能性があります。
最適化設定でダウンサンプルの解像度を設定する際は、最終的な用途を考慮し、適切なバランスを見つけることが大切です。たとえば、画面表示が主なら150ppi程度、印刷を考慮するなら200ppi以上が目安となります。複数の設定で試作し、視覚的な品質とファイルサイズのバランスが良いものを選ぶことを推奨します。
最適化してもファイルサイズが大きく変わらない場合
すでに最適化されている.pdfファイルや、画像以外の要素が多く含まれる.pdfファイルの場合、最適化やダウンサンプルを行ってもファイルサイズの変化が小さいことがあります。
この場合は、元の.pdfファイルに埋め込まれているフォントや、JavaScriptなどの他の要素がファイルサイズに影響している可能性があります。Acrobat Readerの最適化設定には、フォントの埋め込み解除や、オブジェクトの破棄などの詳細なオプションがあります。これらを試すことで、さらにファイルサイズを削減できる場合があります。ただし、フォントの埋め込みを解除すると、表示環境によってはフォントが代替され、レイアウトが崩れる可能性があるため注意が必要です。
Edgeやスマホアプリでは高度な最適化ができない
EdgeやiPhone、Androidの標準PDFアプリには、OCR処理や高度なファイル最適化、ダウンサンプル機能は搭載されていません。
これらのアプリは主にPDFの閲覧や簡単な注釈付けに特化しています。スキャンPDFのOCR化やファイルサイズの最適化を行うには、Acrobat Readerのような専用のPDF編集ソフトウェアを使用する必要があります。高度なPDF操作を必要とする場合は、機能が豊富なデスクトップ版のAcrobat Readerを活用してください。
ADVERTISEMENT
Acrobat ReaderとEdge・スマホアプリのPDF最適化機能比較
主要なPDF閲覧・編集ツールにおけるOCR機能とファイル最適化機能の違いを比較します。
| 項目 | Acrobat Reader | Edge | iPhone・AndroidのPDFアプリ |
|---|---|---|---|
| OCR機能 | 画像からテキストを認識し、検索・コピー可能にする | なし | なし |
| ファイルサイズ最適化 | 不要なデータ削除、画像圧縮、フォント最適化など高度な設定が可能 | なし | なし |
| 画像のダウンサンプル | 画像解像度を細かく設定し、ファイルサイズを削減する | なし | なし |
| 対応OS | Windows、macOS、iOS、Android | Windows、macOS | iOS、Android |
| 高度な設定 | セキュリティ、パスワード保護、電子署名など豊富な機能を持つ | 閲覧、簡単な注釈、印刷のみ | 閲覧、簡単な注釈、共有のみ |
この記事では、スキャンした.pdfファイルをOCR化し、その後ファイルサイズを最適化する手順を詳しく解説しました。
Acrobat ReaderのOCR機能とファイル最適化機能を活用することで、検索性を保ちつつ、ファイルサイズを大幅に削減できます。
共有や保管の際に効率的な軽量.pdfファイルを作成し、デジタル文書の利便性を向上させてください。
用途に応じてダウンサンプルの解像度を調整し、最適な設定を見つけることを推奨します。
ADVERTISEMENT
超解決 第一編集部
疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。
Office・仕事術の人気記事ランキング
- 【Outlook】宛先が「オートコンプリート」に出ない・間違っている時の修正手順|履歴の削除と再構築
- 【Outlook】メールの受信が数分遅れる!リアルタイムで届かない時の同期設定と送受信グループ設定
- 【Outlook】「メール送信を5分遅らせる」設定!誤送信を防ぐ最強のディレイ機能
- 【神技】保存せずに閉じたExcel・Wordファイルを復元する!消えたデータを復活させる4つの救出法
- 【Teams】会議の「参加者リスト」を出席後にダウンロードする!誰が参加したか確認する手順
- 【Outlook】メール本文が「文字化け」して読めない!エンコード設定の変更と修復手順
- 【Outlook】添付ファイルが「Winmail.dat」に化ける!受信側が困らない送信設定
- 【Excel】矢印キーで「セルが動かず画面がスクロールする」!ScrollLockの解除方法(ノートPC対応)
- 【Outlook】予定表の「祝日」が表示されない!最新カレンダーの追加と二重表示の修正手順
- 【Teams】チャットの「改行」をEnterキーで行う設定!間違えて誤送信してしまうのを防ぐ方法
