【PDF】Macの「automator」を使って複数PDFのテキストを一瞬でプレーンテキスト(.txt)に抽出・統合する

【PDF】Macの「automator」を使って複数PDFのテキストを一瞬でプレーンテキスト(.txt)に抽出・統合する
🛡️ 超解決

複数の.pdfファイルから必要なテキストだけをまとめて抽出したい、手作業でのコピー&ペーストに限界を感じているMacユーザーは多いでしょう。

Macに標準搭載されているAutomatorを使えば、この繰り返し作業を簡単に自動化できます。

この記事では、複数の.pdfファイルに散らばるテキストを一括で抽出し、一つのプレーンテキスト.txtファイルに統合する具体的な手順を解説します。

作業効率を大幅に向上させ、時間と労力を節約できる方法を学びましょう。

【要点】Automatorで複数PDFのテキストを一括抽出・統合

  • 新規ワークフロー作成: Automatorアプリケーションを起動し、複数の.pdfファイルからテキストを抽出・統合するワークフローを作成します。
  • PDFテキストの抽出アクション追加: 「PDFテキストを抽出」アクションで、指定されたPDFからテキストデータを効率的に取得します。
  • テキストファイルの保存アクション追加: 抽出したすべてのテキストデータを、一つの.txtファイルとして指定の場所に保存する設定を行います。

ADVERTISEMENT

AutomatorによるPDFテキスト抽出・統合の概要

Automatorは、Macに標準搭載されている自動化ツールです。

ユーザーが繰り返し行う作業をワークフローとして作成し、自動で実行できます。

複数の.pdfファイルからテキストデータを抽出し、一つのファイルに統合する作業もAutomatorで自動化が可能です。

これにより、手動でのコピー&ペースト作業を削減し、大幅な時間と労力の節約につながります。

Automatorで抽出されるのは、PDF内部にテキスト情報として埋め込まれた文字データのみです。

画像として保存された文字や、スキャン画像から作成されたPDFの文字は直接抽出できません。

テキストとして認識されていないPDFを処理する場合は、事前にOCR光学文字認識処理が必要です。

Automatorで複数PDFのテキストを一括抽出・統合する手順

ステップ1: Automatorワークフローの新規作成

  1. Automatorを起動する
    Macの「アプリケーション」フォルダから「Automator」アイコンをクリックして起動します。
  2. 新規書類を作成する
    Automatorが起動したら、「ファイル」メニューから「新規」を選択するか、表示されるダイアログで「新規書類」ボタンをクリックします。
  3. ワークフローの種類を選択する
    「ワークフロー」を選択し、「選択」ボタンをクリックして、新しいAutomatorワークフローの編集画面を開きます。

ステップ2: PDFファイルを選択するアクションを追加

  1. 「Finder項目を検索」アクションを追加する
    Automatorウィンドウの左側にある「ライブラリ」ペインから「ファイルとフォルダ」カテゴリを選択します。その中にある「Finder項目を検索」アクションを、右側のワークフロー領域にドラッグ&ドロップします。
  2. 検索条件を設定する
    追加された「Finder項目を検索」アクション内で、「検索」ドロップダウンメニューから「このMac」を選択します。「種類」を「PDF書類」に設定します。
  3. 検索範囲を絞り込む
    必要に応じて「場所」ドロップダウンメニューから特定のフォルダを指定し、抽出対象とする.pdfファイルを絞り込みます。

ステップ3: PDFからテキストを抽出するアクションを追加

  1. 「PDFテキストを抽出」アクションを追加する
    「ライブラリ」ペインから「PDF」カテゴリを選択します。その中にある「PDFテキストを抽出」アクションを、既存の「Finder項目を検索」アクションの下にドラッグ&ドロップします。
  2. テキスト抽出形式を設定する
    「PDFテキストを抽出」アクション内で、「テキストを抽出」ドロップダウンメニューから「プレーンテキスト」を選択します。これにより、装飾のない純粋なテキストが抽出されます。
  3. 改行コードを設定する
    「改行コード」は「改行」のままで問題ありません。これにより、テキスト内の段落や行区切りが適切に保持されます。

ステップ4: 抽出したテキストを結合・保存するアクションを追加

  1. 「テキストファイルを新規作成」アクションを追加する
    「ライブラリ」ペインから「テキスト」カテゴリを選択します。その中にある「テキストファイルを新規作成」アクションを、「PDFテキストを抽出」アクションの下にドラッグ&ドロップします。
  2. ファイル名と保存場所を指定する
    「テキストファイルを新規作成」アクション内で、「保存場所」ドロップダウンメニューから抽出したテキストを保存したいフォルダを選択します。「ファイル名」に「抽出テキスト統合」など、任意の名前を入力します。
  3. 既存ファイルへの追加設定を行う
    「既存のファイルがある場合」ドロップダウンメニューで「追加」を選択します。この設定により、複数のPDFから抽出されたテキストが、一つの.txtファイルに連続して追記され統合されます。

ステップ5: ワークフローを実行する

  1. ワークフローを実行する
    Automatorウィンドウの右上にある「実行」ボタンをクリックします。ワークフローが開始され、設定した手順でPDFからのテキスト抽出と統合が自動的に行われます。
  2. 結果を確認する
    ワークフローの実行が完了したら、ステップ4で指定した保存場所に移動します。すべてのPDFから抽出されたテキストが統合された、指定したファイル名の.txtファイルが作成されていることを確認してください。

Automator利用時の注意点と関連情報

画像ベースのPDFからテキストが抽出できない場合

スキャンして作成された.pdfファイルや、文字が画像として埋め込まれた.pdfファイルは、Automatorで直接テキストを抽出できません。

これらのPDFからテキストを抽出するには、OCR光学文字認識機能を持つ別のツールで事前に処理する必要があります。

Acrobat Readerの有料版や、専用のOCRソフトウェアを利用すると、画像データ内の文字をテキストデータに変換できます。

文字化けが発生する場合

PDFファイルのエンコーディング形式とAutomatorの処理が合わないと、抽出されたテキストが文字化けすることがあります。

特に古いPDFや、特殊なフォントが使用されているPDFでこの現象が発生しやすい傾向です。

抽出後の.txtファイルをテキストエディタで開き、エンコーディング設定を「UTF-8」や「Shift-JIS」などに変更して表示を試す方法があります。

大規模なPDFの処理に時間がかかる場合

ファイルサイズが大きい.pdfファイルや、非常に多数の.pdfファイルを一度に処理する場合、Automatorの実行に時間がかかります。

処理中はMacのシステムリソースが消費され、他の作業が重くなる可能性があります。

処理中は他のアプリケーションの使用を控えることや、一度に処理するファイル数を減らすなどの対策を検討してください。

ワークフローの保存と再利用

一度作成したAutomatorワークフローは、「ファイル」メニューから「保存」を選択して保存できます。

保存したワークフローは、後で同じテキスト抽出作業を行う際にいつでも再利用が可能です。

ワークフローをアプリケーションとして保存すると、アイコンをダブルクリックするだけで実行できるようになり、さらに便利に使えます。

ADVERTISEMENT

PDFテキスト抽出方法の比較

Automator以外にもPDFからテキストを抽出する方法は複数あります。

それぞれの特徴を理解し、目的や状況に合わせて最適な方法を選択することが重要です。

項目 Automator Acrobat Reader オンライン変換ツール Pythonなどのスクリプト
特徴 Mac標準搭載の自動化ツール。ワークフローで一括処理が可能 手動でコピー&ペースト。有料版Acrobat Proで一括変換も可能 Webサイト上で手軽に変換。ファイルアップロードが必要 高度なカスタマイズが可能。プログラミング知識が必要
対応ファイル形式 テキスト埋め込み.pdf テキスト埋め込み.pdf、有料版でOCR対応 テキスト埋め込み.pdf、一部OCR対応ツールあり テキスト埋め込み.pdf、ライブラリ追加でOCR対応
複数ファイル処理 可能 有料版で可能。無料版は手動で個別処理 一部ツールで可能。一度にアップロードできるファイル数に制限あり 可能
セキュリティ ローカルで処理完結 ローカルで処理完結 サーバーにファイルをアップロード。セキュリティリスクを考慮 ローカルで処理完結
必要な知識 基本的なMac操作 基本的なPDF操作 インターネットとブラウザ操作 プログラミング知識

まとめ

この記事では、MacのAutomatorを使って複数の.pdfファイルからテキストを一括抽出し、単一の.txtファイルに統合する具体的な手順を解説しました。

手作業では時間のかかる作業も、Automatorのワークフローを活用すれば効率的に自動化できます。

抽出したテキストデータは、データ分析や資料作成、情報整理など幅広い用途に活用できるでしょう。

一度作成したワークフローはアプリケーションとして保存し、今後のPDFテキスト抽出作業の効率化に役立ててください。

📑
PDFトラブル・操作完全解決データベース 閲覧エラー、編集・結合、パスワード解除など、PDFに関するあらゆる困りごとを網羅しています。

ADVERTISEMENT

この記事の監修者
✍️

超解決 第一編集部

疑問解決ポータル「超解決」の編集チーム。正確な検証と、現場視点での伝わりやすい解説を心がけています。