【PDF】Google翻訳にPDFをアップロードすると「テキストが抽出できません」と出る原因

【PDF】Google翻訳にPDFをアップロードすると「テキストが抽出できません」と出る原因
🛡️ 超解決

Google翻訳に.pdfファイルをアップロードした際、「テキストが抽出できません」というエラーメッセージが出て困っていませんか。この問題は、.pdfファイルにテキスト情報が含まれていないことが主な原因です。

この記事では、Google翻訳がテキストを抽出できない技術的な理由を解説します。

さらに、テキスト抽出ができない.pdfファイルを翻訳可能にする具体的な解決策を、ステップバイステップでご紹介します。

【要点】Google翻訳でPDFのテキストが抽出できない場合の対処法

  • PDFのテキスト認識(OCR): 画像ベースの.pdfファイルをテキスト検索可能な形式に変換することで、Google翻訳での読み込みを可能にします。
  • 手動でのテキストコピー: Acrobat ReaderやEdgeで.pdfを開き、テキストを直接コピーしてGoogle翻訳に貼り付けることで、部分的な翻訳に対応できます。
  • オンラインOCRサービス利用: Acrobat Readerを持っていない場合でも、無料のオンラインサービスで.pdfをOCR処理し、テキストを抽出できます。

ADVERTISEMENT

Google翻訳がPDFからテキストを抽出できない仕組み

Google翻訳が.pdfファイルからテキストを抽出できない主な理由は、その.pdfファイルがテキスト情報を持っていないためです。

一見すると文字が並んでいるように見えても、実際には文字が画像として埋め込まれている場合があります。

これは、紙の文書をスキャンして作成された.pdfファイルによく見られます。

画像ベースのPDFとテキストベースのPDF

.pdfファイルには、大きく分けて2つの種類があります。

一つは、パソコンで作成された文書を直接.pdfに変換した「テキストベースの.pdf」です。このタイプの.pdfは、文字情報がデータとして存在するため、テキストの選択やコピーが可能です。

もう一つは、紙の文書をスキャナーで読み込んで作成した「画像ベースの.pdf」です。これは文書全体が画像として扱われるため、画面上では文字に見えても、パソコンにとっては単なる絵であり、テキスト情報として認識されません。

Google翻訳のテキスト抽出機能

Google翻訳は、アップロードされた.pdfファイルからテキスト情報を直接読み取り、それを翻訳する仕組みです。

そのため、画像ベースの.pdfファイルでは、Google翻訳は読み取るべきテキスト情報を見つけられず、「テキストが抽出できません」というエラーを返します。

この問題を解決するには、画像内の文字をテキストデータに変換する光学文字認識 OCR 処理が必要です。

テキスト抽出できないPDFを翻訳可能にする操作手順

画像ベースの.pdfファイルをGoogle翻訳で扱えるようにするには、OCR処理でテキスト情報を付与する必要があります。

ここでは、Acrobat Readerを使った方法と、オンラインサービスを利用する方法を解説します。

Acrobat ReaderでPDFにテキスト認識(OCR)をかける手順

Acrobat Readerの有償版には、OCR機能が搭載されています。この機能を使って、画像ベースの.pdfをテキスト検索可能な状態に変換できます。

  1. PDFファイルを開く
    Acrobat Readerで、テキスト抽出できない.pdfファイルを開きます。
  2. ツールを選択する
    画面右側にある「ツール」パネルをクリックします。
  3. PDFを編集を選択する
    ツールの中から「PDFを編集」を選択し、クリックします。
  4. テキスト認識を実行する
    「PDFを編集」ツールバーが表示されたら、「スキャンされた文書を認識」または「テキスト認識」ボタンをクリックします。
  5. 設定を確認し実行する
    表示されるオプションで、認識するページ範囲や言語を設定し、「認識」ボタンをクリックしてOCR処理を開始します。
  6. テキストをコピーして翻訳する
    OCR処理が完了したら、文書内のテキストを選択し、コピーします。コピーしたテキストをGoogle翻訳の入力欄に貼り付けて翻訳します。

オンラインOCRサービスを利用する手順

Acrobat Readerの有償版を持っていない場合でも、無料のオンラインOCRサービスを利用して.pdfをテキスト化できます。

  1. オンラインOCRサービスにアクセスする
    「iLovePDF」や「Smallpdf」などのオンラインOCRサービスを提供するウェブサイトにアクセスします。
  2. PDFファイルをアップロードする
    ウェブサイトの指示に従い、テキスト抽出できない.pdfファイルをアップロードします。
  3. OCR処理を実行する
    OCR機能を選択し、必要であれば言語設定などを行い、「OCRを実行」または「変換」ボタンをクリックします。
  4. テキストを抽出またはダウンロードする
    OCR処理が完了すると、テキストが抽出された状態の文書が表示されるか、テキスト検索可能な新しい.pdfファイルとしてダウンロードできます。
  5. テキストをコピーして翻訳する
    抽出されたテキストをコピーし、Google翻訳の入力欄に貼り付けて翻訳します。新しい.pdfファイルの場合は、そのファイルを開いてテキストをコピーします。

Edgeブラウザでテキストをコピーして翻訳する手順

簡易的な確認や、一部のテキストが認識可能な.pdfの場合、Edgeブラウザで直接テキストをコピーできます。

  1. EdgeでPDFファイルを開く
    Edgeブラウザで、翻訳したい.pdfファイルを直接開きます。
  2. テキストを選択する
    マウスポインターで、翻訳したいテキスト部分をドラッグして選択します。
  3. テキストをコピーする
    選択したテキストの上で右クリックし、「コピー」を選択するか、Ctrl+Cキー Windows または Command+Cキー Mac を押します。
  4. Google翻訳に貼り付ける
    Google翻訳のウェブサイトを開き、コピーしたテキストを入力欄に貼り付けて翻訳します。

PDFのテキスト認識や翻訳時の注意点

OCR処理や.pdfの翻訳を行う際には、いくつか注意すべき点があります。

これらのポイントを押さえることで、より正確で安全な作業が可能です。

OCR処理後もテキストが認識されない場合

OCR処理を行っても、すべてのテキストが完璧に認識されるわけではありません。元の.pdfファイルの画像品質が低い場合、文字がぼやけていたり、傾いていたりすると、OCRの精度が低下します。

また、手書き文字や特殊なフォント、複数の言語が混在する文書では、認識が難しいことがあります。この場合は、手動で誤認識された部分を修正するか、より高性能なOCRソフトウェアの利用を検討してください。

レイアウトが崩れてしまう場合

OCR処理はテキスト情報を抽出することを目的としており、元の文書のレイアウトを完全に再現するものではありません。

特に複雑な表や図形、複数段組の文書では、テキストがバラバラになったり、順序が入れ替わったりすることがあります。この場合は、元の.pdfを見ながら翻訳結果を調整するか、部分的にテキストをコピー&ペーストして翻訳することをおすすめします。

機密情報を含むPDFをオンラインで処理する際の注意点

オンラインOCRサービスやオンライン翻訳ツールに機密情報を含む.pdfファイルをアップロードする際は、情報漏洩のリスクを考慮する必要があります。

信頼できるサービスを選び、利用規約やプライバシーポリシーを必ず確認してください。機密性の高い文書の場合は、オフラインでOCR処理ができるデスクトップソフトウェアを使用する方が安全です。

ADVERTISEMENT

PDF翻訳ツールの機能比較

PDFの翻訳には様々なツールが利用できます。それぞれの特徴を理解し、目的に合ったツールを選びましょう。

項目 Google翻訳 Acrobat Reader Edgeブラウザ オンラインOCRサービス
主な機能 言語翻訳 PDF閲覧・編集 PDF閲覧・印刷 画像からテキスト抽出
OCR機能 なし 有償版で利用可能 なし 主要機能として提供
PDF直接翻訳 可能(テキストベースのみ) 不可(テキストコピー後) 不可(テキストコピー後) 不可(テキスト抽出後)
対応ファイルサイズ 小規模ファイル向け 大規模ファイルも対応 中規模ファイルまで サービスにより異なる
セキュリティ 一般的なセキュリティ オフライン処理可能 一般的なセキュリティ サービスにより異なる

まとめ

Google翻訳で.pdfファイルのテキストが抽出できない原因は、そのファイルが画像ベースであるためです。

この記事で解説したOCR処理を行うことで、画像内の文字をテキストデータに変換し、Google翻訳で翻訳できるようになります。

Acrobat Readerのテキスト認識機能や、オンラインOCRサービスを活用して、PDFの翻訳をスムーズに進めてください。

📑
PDFトラブル・操作完全解決データベース 閲覧エラー、編集・結合、パスワード解除など、PDFに関するあらゆる困りごとを網羅しています。

ADVERTISEMENT

この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。