ADVERTISEMENT

【Googleドキュメント】OCR変換した文書の改行が多すぎる時の整形手順

【Googleドキュメント】OCR変換した文書の改行が多すぎる時の整形手順
🛡️ 超解決

スキャンした紙の書類や画像ファイルをGoogleドキュメントで開くと、OCR(光学文字認識)機能によって自動的にテキスト化されます。しかし、認識された文章には不要な改行が大量に含まれていることが多く、修正に時間を取られる方も少なくありません。特に、PDFや画像から取り込んだ文書では、元のレイアウトの改行や改ページがそのまま残るため、読みにくい状態になります。本記事では、Googleドキュメントの標準機能や便利なテクニックを使って、改行を効率的に整形する手順を詳しく解説します。

【要点】この記事で確認すること

  • 最初に見る場所: 文書内の改行が「段落改行(Enter)」か「強制改行(Shift+Enter)」かを見極めます。それぞれ削除方法が異なります。
  • 切り分けの軸: 端末側(ブラウザの表示設定)、アカウント側(Googleドキュメントの設定)、管理設定側(組織のポリシーによる機能制限)で対処方法が変わります。
  • 注意点: 会社PCではアドオンやGoogle Apps Scriptの実行が制限されている場合があります。管理者に確認せずに不用意に権限を付与しないでください。

ADVERTISEMENT

OCR変換で改行が多くなる原因

OCR変換後の文書に改行が多くなる理由は、元画像のレイアウトにあります。例えば、2段組の雑誌や幅の狭いテキストボックス内の文章は、折り返しごとに改行が挿入されます。また、PDFから直接インポートした場合も、ページ区切りや行間の空白が改行として認識されることが多いです。GoogleドキュメントのOCRエンジンは、テキストの構造を解析しますが、元の改行をそのまま保持する傾向があります。その結果、本来つながるべき行が分断され、読みにくい文書になってしまいます。

Googleドキュメント内で改行を削除する基本手順

まずは、特別なツールを使わずにGoogleドキュメントの標準機能だけで改行を取り除く方法を説明します。以下の手順を試してください。

1. 検索と置換機能を使った段落改行の削除

  1. メニューの「編集」→「検索と置換」(またはCtrl+H)を開きます。
  2. 「検索」欄に「\n」と入力します(正規表現を使う場合は「正規表現を使用」にチェックを入れます)。
  3. 「置換」欄に半角スペースを1つ入力します。文を1行につなげたい場合はスペースで区切ると自然です。
  4. 「すべて置換」をクリックすると、文書全体の段落改行が半角スペースに置き換わります。
  5. 置換後に文がつながりすぎてしまう場合は、句点「。」の後に改行を入れるなど、後述の追加整形を行います。

この方法は、OCRで挿入された無駄な改行を一括で取り除くのに効果的です。ただし、正規表現の「\n」は段落改行(Enterキーによる改行)のみにマッチします。強制改行(Shift+Enter)は別のコードなので、次の手順を参照してください。

2. 強制改行(Shift+Enter)を削除する

  1. 同じく「検索と置換」を開き、「正規表現を使用」にチェックを入れます。
  2. 検索欄に「\v」と入力します。これは垂直タブ(強制改行)を表します。
  3. 置換欄は空白のままにして「すべて置換」をクリックすると、強制改行が削除されます。
  4. 置換後に意図しない空白が残る場合は、スペースの連続も正規表現「\s{2,}」で半角スペース1つに置換すると整います。

強制改行は主に、表内や整形済みテキストで使われます。OCR文書ではあまり現れませんが、存在すると段落改行と混ざって整形を複雑にします。

段落単位で整形する高度なテクニック

検索と置換だけではうまくいかない場合、段落構造を意識した整形が必要です。特に、原文が2カラムや箇条書きを含む場合、単純な改行削除で文が崩れる恐れがあります。以下の方法を組み合わせると良いでしょう。

3. 正規表現で句点後のみ改行を残す

例えば、すべての改行を削除すると文が一塊になってしまいます。そこで、句点「。」や疑問符「?」など文の区切りでだけ改行を残す正規表現を使います。

  1. まず、先ほどの手順で「\n」を半角スペースに置換します。
  2. 次に、検索欄に「。」と入力し、置換欄に「。\n」と入力します(正規表現オフでも可)。
  3. 「すべて置換」を実行すると、句点の後ろだけ改行が復活します。
  4. 必要に応じて、読点「、」の後ろの改行は削除したい場合もあるので、その場合は「、」の置換は行わないでください。

この方法で、文の区切りが明確になり、読みやすい段落に整形できます。

4. アドオン「Doc Tools」を利用する

Googleのワークスペースマーケットプレイスには、文書整形に役立つアドオンがあります。「Doc Tools」は、余分な改行やスペースを一括削除する機能を提供します。ただし、会社PCではアドオンのインストールが制限されている場合があるので、インストール前に管理者に確認しましょう。インストールが許可されていれば、メニューから「アドオン」→「Doc Tools」→「Start」でツールバーが表示され、ワンクリックで改行を削除できます。

5. Google Apps Scriptで自動整形する

さらに高度な方法として、スクリプトエディタを使ってカスタム関数を作成することも可能です。例えば、以下のようなスクリプトを実行すると、文書内の不要な改行をスマートに処理できます。

  1. メニューの「拡張機能」→「Apps Script」を開きます。
  2. スクリプトエディタに、段落改行を削除し、句点後に改行を挿入するコードを記述します。
  3. スクリプトを保存し、実行すると文書が整形されます。初回は承認が必要です。
  4. 実行後、元に戻せないので、必ずコピーを取ってから試してください。

なお、Apps Scriptは組織のポリシーで無効化されている場合があります。その場合は代替手段を検討してください。

比較表:改行整形の方法と特徴

方法 必要なスキル 処理速度 柔軟性 会社PCでの利用制限
検索と置換(基本) 速い 低(一括置換のみ) なし
正規表現の活用 速い 高(パターン指定可) なし(機能自体は制限されない)
アドオン(Doc Tools等) 速い 中(機能に依存) 要管理者承認
Google Apps Script 中(実行に時間) 非常高(カスタマイズ自由) 要管理者承認、かつ環境によっては無効

失敗しやすいパターンとその対処法

改行整形でよくある失敗と、その回避策を紹介します。

失敗パターン1: すべての改行を削除して文がつながりすぎる

検索と置換で「\n」を空白に置換した後、文全体が1つの段落になり、句点もなくて読めなくなるケースです。この場合は、置換後に句点で改行を入れる手順を追加します。また、置換前に文末の句点が正しく認識されているか確認しましょう。OCRの誤認識で句点が別の文字になっている場合は、先に句点を修正しておきます。

失敗パターン2: 表やリストの構造が崩れる

OCRで表を読み込んだ文書では、表のセル内の改行まで削除してしまい、データがつながってしまうことがあります。表が含まれる文書では、正規表現で表のタグ(<table>など)を避けるか、表部分だけ手動で調整する必要があります。表が重要な場合は、一度プレーンテキストにエクスポートして整形後、再度表を挿入する方法も検討してください。

失敗パターン3: 英数字の前後で改行が残る

英文書の場合、単語の途中で改行が入ってハイフネーションが残ることがあります。この場合、正規表現で「-\n」を空白に置換するなど、特定のパターンだけを処理します。日本語文書でも、数字やアルファベットの前後の改行は特別扱いすると良いでしょう。

管理者に確認すべき設定

会社のGoogle Workspace環境では、セキュリティポリシーによって一部機能が制限されています。以下の点を管理者に確認してから作業を進めてください。

  • アドオンのインストール許可: 組織によってはマーケットプレイスからのアドオンインストールが禁止されている場合があります。Doc Toolsなどの整形ツールを使いたい場合は、事前に申請が必要です。
  • Google Apps Scriptの実行可否: スクリプトを実行するには、スクリプトエディタへのアクセス権限と、外部サービスへの接続が許可されている必要があります。管理者に確認し、必要ならばテスト用のスクリプトを用意して承認を得ましょう。
  • 共有設定の影響: 編集中の文書が組織外と共有されている場合、一部の機能が制限されることがあります。文書の共有範囲を「組織内のみ」に変更するか、コピーを作成して作業してください。

よくある質問(FAQ)

Q1: 正規表現の「\n」が使えません。何が間違っていますか?

「検索と置換」ダイアログで「正規表現を使用」にチェックが入っているか確認してください。また、Googleドキュメントでは「\n」は段落改行を表しますが、環境によっては改行コードが「\r\n」の場合もあります。その場合は「\r\n」と検索してみてください。

Q2: 強制改行(Shift+Enter)と段落改行(Enter)の違いが分かりません。

段落改行は新しい段落を作り、行間が広くなります。強制改行は同じ段落内で改行するため、行間が狭いままです。表示上、段落改行の後は次の行の先頭が少し下がります。検索と置換では、段落改行は「\n」、強制改行は「\v」で識別します。

Q3: 元の文書を壊さずに試す方法はありますか?

必ず文書のコピーを作成してから作業してください。Googleドキュメントの「ファイル」→「コピーを作成」でバックアップを取れます。また、スクリプトを実行する前に、Googleドライブにエクスポートしてローカルに保存しておくと安心です。

Q4: OCR変換自体の精度を上げる方法は?

元画像の解像度やコントラストを高くすると、OCRの精度が向上します。また、Googleドライブにアップロードする際に「Googleドキュメントとして開く」を選ぶと自動変換されますが、事前に画像の傾きを補正しておくことも効果的です。

まとめ

OCR変換後のGoogleドキュメント文書における過剰な改行は、検索と置換や正規表現を活用することで効率的に整形できます。基本は「\n」を半角スペースに置換し、句点で改行を復活させる手順です。より複雑な文書ではアドオンやスクリプトも有効ですが、会社のポリシーを事前に確認しましょう。失敗を避けるためには、必ずバックアップを取り、表やリストなどの構造に注意しながら作業を進めてください。これらの手順を身につければ、OCR文書の編集時間を大幅に短縮できるはずです。


ADVERTISEMENT

📄
Googleドキュメントトラブル完全解決データベースこの記事以外にも、書式・共有・Apps Script・引用など様々な困りごとへの解決策をまとめています。逆引きに活用してください。
この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。

ADVERTISEMENT