スキャンしたPDFファイルから文字をコピーしたい、内容を編集したいのにできないと困っていませんか。画像として認識されているPDFは、そのままではテキストの抽出や検索ができません。
このような場合、OCR 文字認識 の技術を使って、画像内の文字をテキストデータに変換する必要があります。この記事では、Googleドライブの無料機能を活用し、スキャン画像PDFからテキストデータを抽出する具体的な方法を解説します。
手元のスキャンPDFを編集可能なテキストに変換し、業務効率を向上させましょう。
【要点】スキャンPDFを編集可能なテキストに変換
- Googleドライブへのアップロード: OCR変換したいPDFファイルをGoogleドライブに保存します。
- Googleドキュメントで開く: アップロードしたPDFをGoogleドキュメントで開き、自動的にテキストを抽出します。
- テキストデータの編集・保存: 抽出されたテキストを修正し、Wordやテキストファイルとして保存できます。
ADVERTISEMENT
目次
スキャン画像PDFとOCR 文字認識の基本
スキャン画像PDFとは、紙の書類をスキャナーで取り込んだり、写真で撮影したりして作成されたPDFファイルです。これらのPDFは、見た目は文字が並んでいても、コンピュータ上では一枚の画像として扱われます。
そのため、テキストを選択してコピーしたり、ファイル内をキーワード検索したりする機能は利用できません。文字データとして認識されていないため、編集ソフトで直接修正することも不可能です。
そこで必要になるのがOCR 文字認識 Optical Character Recognition です。OCRとは、画像データの中にある文字パターンを解析し、それをコンピュータが認識できるテキストデータに変換する技術を指します。この技術を使うことで、画像だったPDFが編集可能なテキストを含むPDFや、Wordなどの文書ファイルに生まれ変わります。
Googleドライブに搭載されているOCR機能は、無料で利用できる高精度なツールの一つです。特別なソフトウェアをインストールすることなく、ウェブブラウザ上で手軽にOCR変換を実行できます。
GoogleドライブでスキャンPDFをOCR変換する手順
GoogleドライブのOCR機能を使って、スキャン画像PDFをテキスト変換する具体的な手順を解説します。この手順で、画像内の文字が編集可能なテキストとして抽出されます。
- PDFファイルをGoogleドライブにアップロードする
ウェブブラウザでGoogleドライブにアクセスし、Googleアカウントでログインします。「新規」ボタンをクリックし、「ファイルをアップロード」を選択します。OCR変換したいスキャン画像PDFファイルを選び、アップロードを実行してください。 - アップロードしたPDFをGoogleドキュメントで開く
アップロードが完了したら、Googleドライブのファイル一覧から対象のPDFファイルを右クリックします。表示されるメニューから「アプリで開く」にカーソルを合わせ、「Googleドキュメント」を選択してください。 - OCR変換の処理を待つ
Googleドキュメントが開き、PDFファイルが読み込まれます。このとき、GoogleドライブのOCR機能が自動的に働き、PDF内の画像からテキストを抽出する処理が開始されます。ファイルのサイズや内容によって、処理には数秒から数分かかる場合があります。 - 抽出されたテキストを確認・編集する
OCR変換が完了すると、PDFの画像とその下に抽出されたテキストが表示されます。元のPDFのレイアウトが完全に再現されるわけではなく、画像部分とテキスト部分が分離して表示される点に注意してください。抽出されたテキストは、Googleドキュメント上で直接編集できます。誤認識がある場合は、手動で修正しましょう。 - テキストデータを保存・ダウンロードする
編集が完了したら、このテキストデータを任意の形式で保存できます。Googleドキュメントのメニューバーから「ファイル」をクリックし、「ダウンロード」を選択してください。Word .docx 、プレーンテキスト .txt 、PDF .pdf など、様々な形式で保存が可能です。
OCR変換時の注意点と精度を高めるポイント
GoogleドライブのOCR機能は非常に便利ですが、いくつかの注意点があります。これらを理解することで、より高精度なテキスト抽出が期待できます。
OCR変換の精度が低い場合
OCRの精度は、元のPDF画像の品質に大きく左右されます。解像度が低い、文字がぼやけている、傾いている、影がかかっているなどの画像は、正確なテキスト抽出が難しい場合があります。
手書き文字や特殊なフォントも誤認識の原因になりやすいです。変換前に、可能であれば元のスキャン画像を高解像度で取り直すか、コントラストを調整して文字を鮮明にしてください。複雑なレイアウトの文書では、テキストが正しく分離されないこともあります。
複数ページのPDFを変換する場合
GoogleドライブのOCR機能は、複数ページのPDFを一括で処理できます。しかし、Googleドキュメントで開いた際には、各ページの画像と、その下に抽出されたテキストが順に表示される形式になります。元のPDFのページ区切りやレイアウトは保持されません。
そのため、抽出されたテキストが連続した一つの文書として生成されます。もしページごとの区切りを意識して編集したい場合は、手動で改ページを入れるか、ページごとにPDFを分割してからOCR変換を試す方法も有効です。
レイアウトが崩れてしまう
GoogleドライブのOCRは、主にテキストの抽出に特化しています。そのため、元のPDFに図や表、複雑な段組が含まれている場合、それらのレイアウトはGoogleドキュメント上で正確に再現されません。
画像や図はそのまま画像として挿入されますが、テキストとの位置関係は崩れることが多いです。レイアウトを重視する場合は、抽出されたテキストを別の文書作成ソフトに貼り付け、手動で再調整する必要があります。完全に元のレイアウトを維持したい場合は、別途レイアウト保持機能を持つOCRソフトの利用を検討してください。
ファイルサイズや変換速度の制限
GoogleドライブのOCR機能には、処理できるファイルサイズやページ数に推奨される上限があります。非常に大きなPDFファイルや、数百ページを超える文書の場合、変換に時間がかかったり、エラーが発生したりする可能性が高まります。
一度に処理するファイルサイズは2MB程度、ページ数は数十ページまでが推奨されます。もしファイルが大きすぎる場合は、PDFを分割してから個別にOCR変換し、後で結合するなどの工夫が必要です。また、無料サービスのため、大量の処理を短時間で行うことには限界があります。
ADVERTISEMENT
無料OCR機能の比較:Googleドライブと他の方法
OCR変換にはGoogleドライブ以外にも様々な方法があります。ここでは、代表的な無料OCR機能の特徴を比較します。
| 項目 | Googleドライブ | オンライン無料OCRサービス | Acrobat Reader(有料版機能) |
|---|---|---|---|
| 無料利用 | 可能 | 可能(一部制限あり) | 不可(有料サブスクリプションが必要) |
| 対応ファイル形式 | PDF、画像ファイル | PDF、画像ファイル | |
| OCR精度 | 高精度 | サービスによる差が大きい | 非常に高精度 |
| レイアウト保持 | テキストのみ抽出(レイアウト崩れやすい) | サービスによる(部分的に保持するものもある) | 元のレイアウトを極力保持 |
| セキュリティ | Googleのセキュリティ基準に準拠 | サービスによる(データの取り扱いに注意が必要) | ローカル環境での処理が可能(クラウド利用も選択可) |
| 多言語対応 | 幅広い言語に対応 | サービスによる | 幅広い言語に対応 |
| ファイルサイズ制限 | 推奨2MB程度 | サービスによる(小さい場合が多い) | ほぼ制限なし |
まとめ
この記事では、Googleドライブの無料OCR機能を使って、スキャン画像PDFからテキストを抽出する手順を詳しく解説しました。画像として認識されていたPDFも、Googleドライブを活用することで、検索や編集が可能なテキストデータに変換できます。
OCRの精度を高めるためのポイントや、レイアウト崩れなどの注意点も理解できたでしょう。抽出したテキストは、Googleドキュメント上で直接編集したり、Word形式でダウンロードしたりできます。
ぜひこの変換術を試して、手元のスキャンPDFを効率的に活用してください。より高度なOCR機能やレイアウト保持が必要な場合は、有料のPDF編集ソフトの導入も検討すると良いでしょう。
ADVERTISEMENT
超解決 第一編集部
疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。
Office・仕事術の人気記事ランキング
- 【Outlook】宛先が「オートコンプリート」に出ない・間違っている時の修正手順|履歴の削除と再構築
- 【Outlook】メールの受信が数分遅れる!リアルタイムで届かない時の同期設定と送受信グループ設定
- 【Outlook】「メール送信を5分遅らせる」設定!誤送信を防ぐ最強のディレイ機能
- 【神技】保存せずに閉じたExcel・Wordファイルを復元する!消えたデータを復活させる4つの救出法
- 【Teams】会議の「参加者リスト」を出席後にダウンロードする!誰が参加したか確認する手順
- 【Outlook】メール本文が「文字化け」して読めない!エンコード設定の変更と修復手順
- 【Outlook】添付ファイルが「Winmail.dat」に化ける!受信側が困らない送信設定
- 【Excel】矢印キーで「セルが動かず画面がスクロールする」!ScrollLockの解除方法(ノートPC対応)
- 【Outlook】予定表の「祝日」が表示されない!最新カレンダーの追加と二重表示の修正手順
- 【Teams】チャットの「改行」をEnterキーで行う設定!間違えて誤送信してしまうのを防ぐ方法
