Adobe Acrobatでテキスト認識を使用すると、「スキャンしたページを検索可能な画像に変換中」という表示が出てきます。
この「検索可能な画像」って、いったい何と思った方もいるのではないでしょうか。
ここではスキャンとOCRの関係について解説し、検索可能な画像とは何かを紐解いていこうと思います。
検索可能な画像とは
「検索可能な画像(searchable image)」とは、画像としての見た目はそのまま保持しつつ、その背後にテキスト情報が埋め込まれているPDF形式のことです。
Adobe AcrobatのOCR処理後に、よくこの形式が使われます。
OCRについては後で解説します。
🔍 簡単に言うと:
- 📷 見た目はスキャン画像のまま
- 🧠 でも文字検索・コピーができる!
ということです。
📘 具体的には:
例えば、紙の書類をスキャンしてPDFにすると、最初はただの画像で文字検索できません。でもOCRをかけると…
- Acrobatが画像中の文字を認識(例:「請求書」など)
- 画像の背後に透明なテキストレイヤーを追加
- 結果として:
- 検索バーで「請求書」と打てばヒットする
- テキストを選択・コピーも可能
スキャンとは?
紙 → デジタル化(画像)してパソコンやスマホに取り込むことです。
たとえば、紙の契約書や手書きのメモをスキャンすると、JPEGやPDFなどの画像ファイルになります。
🧠 スキャンしただけのPDFの特徴:
- 📷 見た目はそのまま(紙と同じ)
- 🔍 文字は検索・コピーできない
- 🧾 AcrobatなどでOCRをかけないと、内容の検索は不可能
OCRとは?
「OCR」とは、Optical Character Recognition(光学式文字認識)の略で、
簡単にいうと、
📷 画像の中の文字をコンピューターが“読み取って”テキストデータにする技術です。
💡 たとえば:
- 紙の書類をスキャン → 画像になる(ただの絵)
- OCRを使う → 中の文字(たとえば「請求書」や「合計金額」)をコンピューターが認識し、
- 検索できるようになる
- コピーできるようになる
- 編集も可能にできる
🧠 OCRの主な用途
用途 | 説明 |
---|---|
📄 スキャンPDFの検索・コピー | AcrobatでスキャンしたPDFにOCRをかけると文字検索が可能になります。 |
🧾 領収書の整理 | スマホで撮ったレシート画像から合計金額などを自動読み取り |
📚 書籍のデジタル化 | 本をスキャンしてOCRをかけると電子書籍のように使える |
🖋 手書き文字の認識(限界あり) | 最近はAI OCRで手書き文字の認識精度も向上しています |
検索可能な画像って具体的には
検索可能な画像って具体的には
例えば、紙の書類をスキャンしてPDFにすると、最初はただの画像で文字検索できません。
でもOCRをかけると…
- Acrobatが画像中の文字を認識(例:「請求書」など)
- 画像の背後に透明なテキストレイヤーを追加
- 結果として:
- 検索バーで「請求書」と打てばヒットする
- テキストを選択・コピーも可能
レイヤーとは、層という意味の英語です。
透明なテキストレイヤーとは、透明なシートにコンピュータだけが読める透明な文字を書いて、画像に重ねているようなイメージです。
こうすることで、契約書や請求書などのスキャン文書を「見た目そのまま」に維持しつつ、検索性を持たせるといった用途に使えます。
PDFには3種類の状態がある
Adobe Acrobatでは、OCRの方法として、「検索可能な画像」として処理する方法と、「編集可能なテキストと画像」に変換処理する方法があります。
OCRの有無や処理方法の観点で分けると、PDFには次の3種類の状態があることになります。
種類 | 特徴 |
---|---|
画像のみ | 単なる画像PDF。OCRしない限り検索不可 |
検索可能な画像 | 画像の見た目そのまま+透明なテキストレイヤー |
編集可能なテキストと画像 | 文字も編集可能に変換(レイアウトが崩れやすい) |
画像のみというのは、スキャンしたままの状態でOCR処理していない状態です。
検索可能な画像は、文書の見た目はそのままに、検索可能な状態になっています。
編集可能なテキストと画像は、文字の部分をテキストで置き換えることで編集可能な状態にしますが、レイアウトや見た目が変わってしまうという欠点があります。
ということで、文書のテキストを編集したいという理由がなければ、検索可能な画像としてOCR(テキスト認識)するのが良いということになります。
Adobe Acrobatでは、デフォルトで検索可能な画像として処理しますので、特に設定の必要はないです。
Adobe AcrobatでOCRするには?
- PDFを開く
- 「ツール」>「テキスト認識」>「このファイルでテキストを認識」
- 言語を「日本語」などに設定
- 実行!
検索できないPDFを入手したときは、この方法でテキスト認識(OCR処理)すれば、検索可能な画像に変換できます。
コメント