Google翻訳に.pdfファイルをアップロードした際、「テキストが抽出できません」というエラーメッセージが出て困っていませんか。この問題は、.pdfファイルにテキスト情報が含まれていないことが主な原因です。
この記事では、Google翻訳がテキストを抽出できない技術的な理由を解説します。
さらに、テキスト抽出ができない.pdfファイルを翻訳可能にする具体的な解決策を、ステップバイステップでご紹介します。
【要点】Google翻訳でPDFのテキストが抽出できない場合の対処法
- PDFのテキスト認識(OCR): 画像ベースの.pdfファイルをテキスト検索可能な形式に変換することで、Google翻訳での読み込みを可能にします。
- 手動でのテキストコピー: Acrobat ReaderやEdgeで.pdfを開き、テキストを直接コピーしてGoogle翻訳に貼り付けることで、部分的な翻訳に対応できます。
- オンラインOCRサービス利用: Acrobat Readerを持っていない場合でも、無料のオンラインサービスで.pdfをOCR処理し、テキストを抽出できます。
ADVERTISEMENT
Google翻訳がPDFからテキストを抽出できない仕組み
Google翻訳が.pdfファイルからテキストを抽出できない主な理由は、その.pdfファイルがテキスト情報を持っていないためです。
一見すると文字が並んでいるように見えても、実際には文字が画像として埋め込まれている場合があります。
これは、紙の文書をスキャンして作成された.pdfファイルによく見られます。
画像ベースのPDFとテキストベースのPDF
.pdfファイルには、大きく分けて2つの種類があります。
一つは、パソコンで作成された文書を直接.pdfに変換した「テキストベースの.pdf」です。このタイプの.pdfは、文字情報がデータとして存在するため、テキストの選択やコピーが可能です。
もう一つは、紙の文書をスキャナーで読み込んで作成した「画像ベースの.pdf」です。これは文書全体が画像として扱われるため、画面上では文字に見えても、パソコンにとっては単なる絵であり、テキスト情報として認識されません。
Google翻訳のテキスト抽出機能
Google翻訳は、アップロードされた.pdfファイルからテキスト情報を直接読み取り、それを翻訳する仕組みです。
そのため、画像ベースの.pdfファイルでは、Google翻訳は読み取るべきテキスト情報を見つけられず、「テキストが抽出できません」というエラーを返します。
この問題を解決するには、画像内の文字をテキストデータに変換する光学文字認識 OCR 処理が必要です。
テキスト抽出できないPDFを翻訳可能にする操作手順
画像ベースの.pdfファイルをGoogle翻訳で扱えるようにするには、OCR処理でテキスト情報を付与する必要があります。
ここでは、Acrobat Readerを使った方法と、オンラインサービスを利用する方法を解説します。
Acrobat ReaderでPDFにテキスト認識(OCR)をかける手順
Acrobat Readerの有償版には、OCR機能が搭載されています。この機能を使って、画像ベースの.pdfをテキスト検索可能な状態に変換できます。
- PDFファイルを開く
Acrobat Readerで、テキスト抽出できない.pdfファイルを開きます。 - ツールを選択する
画面右側にある「ツール」パネルをクリックします。 - PDFを編集を選択する
ツールの中から「PDFを編集」を選択し、クリックします。 - テキスト認識を実行する
「PDFを編集」ツールバーが表示されたら、「スキャンされた文書を認識」または「テキスト認識」ボタンをクリックします。 - 設定を確認し実行する
表示されるオプションで、認識するページ範囲や言語を設定し、「認識」ボタンをクリックしてOCR処理を開始します。 - テキストをコピーして翻訳する
OCR処理が完了したら、文書内のテキストを選択し、コピーします。コピーしたテキストをGoogle翻訳の入力欄に貼り付けて翻訳します。
オンラインOCRサービスを利用する手順
Acrobat Readerの有償版を持っていない場合でも、無料のオンラインOCRサービスを利用して.pdfをテキスト化できます。
- オンラインOCRサービスにアクセスする
「iLovePDF」や「Smallpdf」などのオンラインOCRサービスを提供するウェブサイトにアクセスします。 - PDFファイルをアップロードする
ウェブサイトの指示に従い、テキスト抽出できない.pdfファイルをアップロードします。 - OCR処理を実行する
OCR機能を選択し、必要であれば言語設定などを行い、「OCRを実行」または「変換」ボタンをクリックします。 - テキストを抽出またはダウンロードする
OCR処理が完了すると、テキストが抽出された状態の文書が表示されるか、テキスト検索可能な新しい.pdfファイルとしてダウンロードできます。 - テキストをコピーして翻訳する
抽出されたテキストをコピーし、Google翻訳の入力欄に貼り付けて翻訳します。新しい.pdfファイルの場合は、そのファイルを開いてテキストをコピーします。
Edgeブラウザでテキストをコピーして翻訳する手順
簡易的な確認や、一部のテキストが認識可能な.pdfの場合、Edgeブラウザで直接テキストをコピーできます。
- EdgeでPDFファイルを開く
Edgeブラウザで、翻訳したい.pdfファイルを直接開きます。 - テキストを選択する
マウスポインターで、翻訳したいテキスト部分をドラッグして選択します。 - テキストをコピーする
選択したテキストの上で右クリックし、「コピー」を選択するか、Ctrl+Cキー Windows または Command+Cキー Mac を押します。 - Google翻訳に貼り付ける
Google翻訳のウェブサイトを開き、コピーしたテキストを入力欄に貼り付けて翻訳します。
PDFのテキスト認識や翻訳時の注意点
OCR処理や.pdfの翻訳を行う際には、いくつか注意すべき点があります。
これらのポイントを押さえることで、より正確で安全な作業が可能です。
OCR処理後もテキストが認識されない場合
OCR処理を行っても、すべてのテキストが完璧に認識されるわけではありません。元の.pdfファイルの画像品質が低い場合、文字がぼやけていたり、傾いていたりすると、OCRの精度が低下します。
また、手書き文字や特殊なフォント、複数の言語が混在する文書では、認識が難しいことがあります。この場合は、手動で誤認識された部分を修正するか、より高性能なOCRソフトウェアの利用を検討してください。
レイアウトが崩れてしまう場合
OCR処理はテキスト情報を抽出することを目的としており、元の文書のレイアウトを完全に再現するものではありません。
特に複雑な表や図形、複数段組の文書では、テキストがバラバラになったり、順序が入れ替わったりすることがあります。この場合は、元の.pdfを見ながら翻訳結果を調整するか、部分的にテキストをコピー&ペーストして翻訳することをおすすめします。
機密情報を含むPDFをオンラインで処理する際の注意点
オンラインOCRサービスやオンライン翻訳ツールに機密情報を含む.pdfファイルをアップロードする際は、情報漏洩のリスクを考慮する必要があります。
信頼できるサービスを選び、利用規約やプライバシーポリシーを必ず確認してください。機密性の高い文書の場合は、オフラインでOCR処理ができるデスクトップソフトウェアを使用する方が安全です。
ADVERTISEMENT
PDF翻訳ツールの機能比較
PDFの翻訳には様々なツールが利用できます。それぞれの特徴を理解し、目的に合ったツールを選びましょう。
| 項目 | Google翻訳 | Acrobat Reader | Edgeブラウザ | オンラインOCRサービス |
|---|---|---|---|---|
| 主な機能 | 言語翻訳 | PDF閲覧・編集 | PDF閲覧・印刷 | 画像からテキスト抽出 |
| OCR機能 | なし | 有償版で利用可能 | なし | 主要機能として提供 |
| PDF直接翻訳 | 可能(テキストベースのみ) | 不可(テキストコピー後) | 不可(テキストコピー後) | 不可(テキスト抽出後) |
| 対応ファイルサイズ | 小規模ファイル向け | 大規模ファイルも対応 | 中規模ファイルまで | サービスにより異なる |
| セキュリティ | 一般的なセキュリティ | オフライン処理可能 | 一般的なセキュリティ | サービスにより異なる |
まとめ
Google翻訳で.pdfファイルのテキストが抽出できない原因は、そのファイルが画像ベースであるためです。
この記事で解説したOCR処理を行うことで、画像内の文字をテキストデータに変換し、Google翻訳で翻訳できるようになります。
Acrobat Readerのテキスト認識機能や、オンラインOCRサービスを活用して、PDFの翻訳をスムーズに進めてください。
ADVERTISEMENT
超解決 第一編集部
疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。
Office・仕事術の人気記事ランキング
- 【Outlook】宛先が「オートコンプリート」に出ない・間違っている時の修正手順|履歴の削除と再構築
- 【Outlook】メールの受信が数分遅れる!リアルタイムで届かない時の同期設定と送受信グループ設定
- 【Outlook】「メール送信を5分遅らせる」設定!誤送信を防ぐ最強のディレイ機能
- 【神技】保存せずに閉じたExcel・Wordファイルを復元する!消えたデータを復活させる4つの救出法
- 【Teams】会議の「参加者リスト」を出席後にダウンロードする!誰が参加したか確認する手順
- 【Outlook】メール本文が「文字化け」して読めない!エンコード設定の変更と修復手順
- 【Outlook】添付ファイルが「Winmail.dat」に化ける!受信側が困らない送信設定
- 【Excel】矢印キーで「セルが動かず画面がスクロールする」!ScrollLockの解除方法(ノートPC対応)
- 【Outlook】予定表の「祝日」が表示されない!最新カレンダーの追加と二重表示の修正手順
- 【Teams】チャットの「改行」をEnterキーで行う設定!間違えて誤送信してしまうのを防ぐ方法
