【PDF】PDFからコピーした英文の「ハイフン(-)」や「改行」が邪魔で翻訳サイトでエラーになる対策

【PDF】PDFからコピーした英文の「ハイフン(-)」や「改行」が邪魔で翻訳サイトでエラーになる対策
🛡️ 超解決

PDF文書から英文をコピーして翻訳サイトに貼り付けると、意図しないハイフンや改行が混ざり、翻訳エラーになることがあります。これは、PDFの内部構造が原因で、テキストが正しく認識されないために発生します。この記事では、PDFからコピーした英文の不要なハイフンや改行を効率的に取り除く具体的な方法を解説します。

この対策を講じることで、翻訳サイトでのエラーを回避し、スムーズな翻訳作業が可能になります。

【要点】PDFコピー時のハイフン・改行エラーを解消する主要な対策

  • テキストエディタの置換機能: 不要なハイフンと改行を一括で削除し、整形されたテキストを準備できます。
  • Microsoft Wordの置換機能: より高度な置換オプションを活用し、多様な改行コードや特定のハイフンを効率的に除去できます。
  • Edgeブラウザの読み上げ機能: PDFの内容を音声化し、その音声をテキストとして再取得することで、整形されたテキストを得られます。

ADVERTISEMENT

PDFのテキストコピーで不要なハイフン・改行が入る仕組み

PDF文書は、表示される見た目を忠実に再現するために、テキストを厳密な位置情報で配置しています。このため、元の文書で単語が改行された際に挿入されるハイフンが、PDFの内部データとしても保持されることがあります。また、PDFビューアがテキストを抽出する際、表示上の改行位置をそのままテキストデータに反映してしまうため、不要な改行コードが混入します。

この挙動は特に、印刷された文書をスキャンして作成されたPDFや、レイアウトが複雑なPDFで顕著です。テキストデータが「見た目」に強く依存しているため、そのままコピーすると意図しない整形が施されてしまうのです。

ソフトごとのコピー挙動と原因

PDFを閲覧・編集するソフトウェアによって、テキストのコピー挙動には違いがあります。Acrobat ReaderやEdgeなどの主要なPDFビューアでは、テキスト選択時に視覚的な行区切りを優先し、改行コードを挿入する傾向があります。特にEdgeはブラウザベースであるため、Webページと同様のテキスト抽出ロジックが適用されることが多く、余分な改行が入りやすい場合があります。

また、単語の途中にあるハイフンは、それが本来の単語の一部なのか、それとも行末の分割記号なのかをPDFビューアが正確に判断できないことがあります。結果として、行末の分割ハイフンがそのままコピーされ、翻訳サイトで「単語の誤り」として認識される原因となります。

不要なハイフンと改行を効率的に削除する手順

PDFからコピーした英文の不要なハイフンや改行を取り除くには、テキストエディタやWordの置換機能が有効です。ここでは、具体的な操作手順を解説します。

テキストエディタでの置換機能の活用

メモ帳やサクラエディタ、Sublime Textなどのテキストエディタは、シンプルながら強力な置換機能を持っています。これを利用して、不要な文字を一括で削除します。

  1. PDFからテキストをコピーする
    PDF文書から翻訳したい英文の範囲を選択し、コピーします。
  2. テキストエディタに貼り付ける
    開いたテキストエディタに、コピーした英文を貼り付けます。
  3. 置換機能を開く
    エディタのメニューから「編集」→「置換」を選択するか、ショートカットキー Ctrl + H を押します。
  4. 改行コードを削除する
    「検索」欄に改行コード「\n」または「\r\n」を入力し、「置換」欄は空欄のまま「すべて置換」を実行します。これにより、全ての改行が削除され、テキストが一行につながります。エディタによっては「改行」と直接入力できる場合もあります。
  5. ハイフンとスペースを調整する
    「検索」欄に「- 」ハイフンと半角スペースを入力し、「置換」欄は空欄のまま「すべて置換」を実行します。これにより、行末で単語が分割されていたハイフンが削除され、単語がつながります。
  6. 連続するスペースを削除する
    「検索」欄に半角スペースを2つ入力し、「置換」欄に半角スペースを1つ入力して「すべて置換」を繰り返します。これにより、複数のスペースが1つにまとめられ、テキストが整形されます。
  7. 最終確認と調整
    整形されたテキストを目視で確認し、残っている不要な記号や誤字を修正します。

Microsoft Wordでの置換機能の活用

Microsoft Wordは、より高度な置換オプションを提供しており、PDFからのテキスト整形に非常に有効です。特に特殊な改行コードの置換に強みがあります。

  1. PDFからテキストをコピーする
    PDF文書から翻訳したい英文の範囲を選択し、コピーします。
  2. Wordに貼り付ける
    新しいWord文書を開き、コピーした英文を貼り付けます。この際、「書式設定を保持」ではなく「テキストのみ保持」を選択すると、余計な書式が入りません。
  3. 置換機能を開く
    「ホーム」タブの「編集」グループにある「置換」をクリックするか、ショートカットキー Ctrl + H を押します。
  4. 特殊文字の置換設定を開く
    「検索と置換」ダイアログが表示されたら、「オプション」または「その他」ボタンをクリックし、「特殊」ボタンをクリックします。
  5. 改行コードを削除する
    「検索と置換」ダイアログで、以下の手順で改行コードを削除します。
    1. 段落記号を置換する: 「検索」欄に「^p」と入力し、「置換」欄に半角スペースを1つ入力して「すべて置換」を実行します。これにより、通常の段落の改行がスペースに置き換わります。
    2. 手動の改行を置換する: 「検索」欄に「^l」と入力し、「置換」欄に半角スペースを1つ入力して「すべて置換」を実行します。これにより、PDFでよく見られる手動改行がスペースに置き換わります。
  6. ハイフンとスペースを調整する
    「検索」欄に「- 」ハイフンと半角スペースを入力し、「置換」欄は空欄のまま「すべて置換」を実行します。これにより、行末で単語が分割されていたハイフンが削除されます。
  7. 連続するスペースを削除する
    「検索」欄に半角スペースを2つ入力し、「置換」欄に半角スペースを1つ入力して「すべて置換」を繰り返します。これにより、複数のスペースが1つにまとめられ、テキストが整形されます。
  8. 最終確認と調整
    整形されたテキストを目視で確認し、翻訳サイトに貼り付ける前に最終調整します。

Edgeブラウザの読み上げ機能を利用したコピー

EdgeブラウザにはPDF閲覧機能があり、読み上げ機能を利用すると、不要な改行やハイフンが整形された状態でテキストとして取得できる場合があります。

  1. EdgeでPDFを開く
    Edgeブラウザで該当の.pdfファイルを開きます。
  2. 読み上げ機能を開始する
    PDFの表示エリアで右クリックし、「音声で読み上げる」を選択します。または、ツールバーの読み上げアイコンをクリックします。
  3. 読み上げられたテキストをコピーする
    読み上げ機能が開始されると、Edgeがテキストを解析し、整形された形で読み上げます。この際、読み上げられたテキストは内部的に整理されています。読み上げを停止し、表示されているテキストを再度選択してコピーします。
  4. テキストエディタに貼り付けて確認する
    コピーしたテキストをテキストエディタに貼り付け、不要な改行やハイフンが削除されているか確認します。必要に応じて、前述の置換機能で微調整します。

コピーしたテキストの品質が低い場合の確認ポイント

上記の手順を試しても、コピーしたテキストの品質が低い、または全くテキストがコピーできない場合があります。その際の確認ポイントと対処法を解説します。

OCR処理されていないPDFからのコピー

スキャンされた画像ベースのPDFは、テキストデータを含んでいません。このため、テキストを選択してコピーしようとしても、画像の一部としてしか認識されず、文字として取得できません。このようなPDFはOCR光学文字認識処理を行う必要があります。

対処法: Acrobat ProなどのOCR機能を持つソフトウェアを利用して、PDFにテキストレイヤーを追加します。Acrobat ReaderにはOCR機能がありません。オンラインの無料OCRサービスを利用する方法もありますが、機密性の高い文書では注意が必要です。OCR処理後、再度テキストをコピーして整形手順を試します。

特殊な記号や文字化けが発生する場合

PDFによっては、フォントの埋め込み状況やエンコードの問題で、コピー時に特殊な記号が表示されたり、文字化けが発生したりすることがあります。これは、PDF内部の文字コードとシステムの文字コードが一致しない場合に起こりやすい現象です。

対処法: 異なるPDFビューアEdgeやChromeブラウザのPDFビューアなどを使用してみます。それでも解決しない場合は、PDFを画像としてキャプチャし、その画像をオンラインOCRサービスでテキスト化する方法が有効です。ただし、この方法は手間がかかり、元のテキストの精度に影響が出る可能性があります。

表形式のデータが崩れる場合

PDFから表形式のデータをコピーすると、列がずれたり、セル間の区切りが失われたりして、データが崩れることがあります。これは、PDFが表の構造を直接保持しているわけではなく、テキストを個々の要素として配置しているためです。

対処法: 表のデータを正確に取得したい場合は、PDFをCSVやExcel形式に変換できる専用ツールを使用します。Acrobat ProにはPDFをExcelにエクスポートする機能があります。また、表形式のデータをコピーする際は、コピー範囲を慎重に選択し、貼り付け先のアプリケーションExcelやスプレッドシートで「テキストのインポート」機能を利用して、区切り文字を指定しながら貼り付けることで、ある程度整形できます。

ADVERTISEMENT

PDF閲覧ソフトと置換ツールの機能比較

項目 Acrobat Reader Edgeブラウザ テキストエディタ Microsoft Word
PDF閲覧 可能 可能 不可 不可
テキストコピー 可能 可能 可能 可能
改行置換の容易さ 不可 不可 中(正規表現) 高(特殊文字)
ハイフン置換の容易さ 不可 不可
OCR機能 なし(Pro版のみ) なし なし なし
高度な整形 なし なし 可能 可能

PDFからコピーした英文が翻訳サイトでエラーになる問題は、テキストの整形不足が主な原因です。この記事で紹介したテキストエディタやWordの置換機能を活用することで、不要なハイフンや改行を効率的に削除できます。Edgeブラウザの読み上げ機能も、整形されたテキストを取得する一つの手段となります。

OCR処理されていないPDFや特殊な文字化けが発生する場合には、それぞれの状況に応じた対処法を試してください。これらの手順を実践することで、PDFからのテキストコピーと翻訳作業が格段にスムーズになります。

今後は、コピーするPDFの種類や目的によって最適な整形方法を選び、翻訳の精度を高めていきましょう。

📑
PDFトラブル・操作完全解決データベース 閲覧エラー、編集・結合、パスワード解除など、PDFに関するあらゆる困りごとを網羅しています。

ADVERTISEMENT

この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。