スキャンした文書内のテキストの認識



Acrobat を使用して、以前にスキャンして PDF に変換した文書のテキストを認識できます。OCR ソフトウェアを使用して、スキャンした PDF に含まれるテキストの検索、修正、コピーを行うことができます。OCR を PDF に適用するには、元のスキャナ解像度が 72 dpi 以上に設定されている必要があります。
注意: 300 dpi でスキャンすると、変換に最適なテキストが生成されます。150 dpi では OCR の精度がわずかに低くなります。

単一文書内のテキストの認識

  1. スキャンした PDF を開きます。
  2. 文書/OCR テキスト認識/OCR を使用してテキストを認識を選択します。
  3. テキスト認識ダイアログボックスで、「ページ」のオプションを選択します。
  4. 必要に応じて「編集」をクリックし、テキスト認識 - 設定ダイアログボックスを開いてオプションを指定します。

複数文書内のテキストの認識

  1. Acrobat で、文書/OCR テキスト認識/OCR を使用して複数のファイルのテキストを認識を選択します。
  2. OCR を使用して複数のファイルのテキストを認識ダイアログボックスで、「ファイルを追加」をクリックし、「ファイルを追加」、「フォルダを追加」または「開いているファイルを追加」を選択します。次に、ファイルまたはフォルダを選択します。
  3. 出力オプションダイアログボックスで、出力ファイルのターゲットフォルダ、ファイル名の設定、出力形式を指定します。
  4. テキスト認識 - 設定ダイアログボックスで、オプションを指定し、「OK」をクリックします。

PDF ポートフォリオ内のコンポーネント PDF のテキスト認識

  1. PDF ポートフォリオ内の 1 つまたは複数のスキャンされた PDF を選択します。
  2. 文書/OCR テキスト認識/OCR を使用してテキストを認識を選択します。
  3. テキスト認識 - 設定ダイアログボックスでオプションを指定します。

テキスト認識 - 設定ダイアログボックス

OCR の言語
文字を認識するために使用する OCR エンジンの言語を指定します。

PDF の出力形式
作成する PDF の種類を指定します。どのオプションも、72 ppi 以上(推奨)の入力解像度が必要です。どの形式でも、テキスト画像に対して OCR およびフォントとページ認識が適用され、通常のテキストに変換されます。
検索可能な画像
テキストの検索と選択を可能にします。このオプションを選択すると、元の画像が保持され、必要に応じてゆがみが補正され、その上に非表示のテキストレイヤーが配置されます。同じダイアログボックスの「画像のダウンサンプリング」の選択項目では、画像をダウンサンプルするかどうかや、ダウンサンプリングのレベルを指定します。

検索可能な画像(非圧縮)
テキストの検索と選択を可能にします。このオプションを選択すると、元の画像が保持され、その上に非表示のテキストレイヤーが配置されます。元の画像を忠実に再現する必要がある場合は、このオプションを選択することをお勧めします。

ClearScan
元のフォントに似た新しい Type 3 フォントを合成し、低解像度のコピーを使用してページの背景を保持します。

画像のダウンサンプリング
OCR が完了した後に、カラー、グレースケール、白黒の各画像のピクセル数を減らします。適用するダウンサンプリングのレベルを選択します。オプションの数値を高くすると、ダウンサンプリングがあまり適用されず、高い解像度の PDF が作成されます。