画像やPDFからテキストを抽出する (AI-OCR)

NO IMAGE

 ホーム > ユーザガイド > BOT > BOTエディタの使い方 > 拡張機能 > AI > 画像やPDFからテキストを抽出する (AI-OCR)

アプリ概要

AI-OCRにより、画像やPDFからテキストを抽出します。

動画で見る   音声はありません。

高画質で見る

拡張機能URLcbot-extension://cloud-bot:ai:recognize-image:1
提供元Cloud BOT official
外部通信あり
*このアプリはAzure Cognitive ServicesのAPIと通信を行います。
バージョン1
*このアプリはベータ版として無料公開しています。今後、仕様や料金体系が変更となる場合がございます。

画面説明

入力画面について

抽出オプション

ファイルアップロード (*1)

テキスト抽出を行うファイルを指定します。

(対応形式:PDF,JPG/JPG,PNG,BMP,TIFF)

*1どちらか一方を指定して下さい。

ファイルURL (*1)

テキスト抽出を行うファイルのURLを指定します。

(対応形式:PDF,JPG/JPG,PNG,BMP,TIFF)

*1どちらか一方を指定して下さい。

ページ範囲 (オプション)

テキスト抽出を行うページを指定します。

※抽出対象のページ数をカンマ(,)区切りで複数指定できます。(例: 1,2,5)

※抽出対象のページ数をハイフン(-)で範囲指定できます。(例: 3-6)

※空値を指定すると全ページが対象となります。

出力形式

テキストの出力形式を指定します。

  • テキスト: 抽出結果を1つのテキストデータとして出力します。
  • レイアウト: 抽出結果を特定の区分に分類し、出力します。
  • JSON: 抽出結果をjson形式で出力します。

出力するデータ区分(出力形式:レイアウト選択時のみ表示)

結果画面に表示するデータ区分を指定します。

※データ区分については、こちらをご参照下さい。

出力する属性情報(出力形式:レイアウト選択時のみ表示)

結果画面に表示する属性情報を指定します。

※属性情報については、こちらをご参照下さい。

結果表示画面について

抽出完了しました。

抽出結果が表示されます。

出力形式:”レイアウト”についての補足説明

レイアウトを選択すると、抽出結果を”テーブル”、”タイトル”、”セッションの見出し”、”脚注”、”ヘッダー”、”フッター”、”ページ番号”、”バーコード”、”区分無し”のデータ区分に分類し、出力します。

※抽出されたデータがどのデータ区分に分類されるかはAIの自動判断になります。

”出力する属性情報”を指定する事で、データの属性情報である”データ区分”や”ページ番号”を抽出結果画面に出力する事ができます。

※データ区分が”テーブル”の場合に限り、属性情報は”ページ番号”のみが出力されます。