画像やPDFからテキストを抽出する (AI-OCR)

ホーム > ユーザガイド > BOT > BOTエディタの使い方 > 拡張機能 > AI > 画像やPDFからテキストを抽出する (AI-OCR)

アプリ概要
AI-OCRにより、画像やPDFからテキストを抽出します。
拡張機能URL | cbot-extension://cloud-bot:ai:recognize-image:1 |
提供元 | Cloud BOT official |
外部通信 | あり *このアプリはAzure Cognitive ServicesのAPIと通信を行います。 |
バージョン | 1 *このアプリはベータ版として無料公開しています。今後、仕様や料金体系が変更となる場合がございます。 |
画面説明
入力画面について
抽出オプション

ファイルアップロード (*1)
テキスト抽出を行うファイルを指定します。
(対応形式:PDF,JPG/JPG,PNG,BMP,TIFF)
*1どちらか一方を指定して下さい。
ファイルURL (*1)
テキスト抽出を行うファイルのURLを指定します。
(対応形式:PDF,JPG/JPG,PNG,BMP,TIFF)
*1どちらか一方を指定して下さい。
ページ範囲 (オプション)
テキスト抽出を行うページを指定します。
※抽出対象のページ数をカンマ(,)区切りで複数指定できます。(例: 1,2,5)
※抽出対象のページ数をハイフン(-)で範囲指定できます。(例: 3-6)
※空値を指定すると全ページが対象となります。
出力形式
テキストの出力形式を指定します。
- テキスト: 抽出結果を1つのテキストデータとして出力します。
- レイアウト: 抽出結果を特定の区分に分類し、出力します。
- JSON: 抽出結果をjson形式で出力します。
出力するデータ区分(出力形式:レイアウト選択時のみ表示)
結果画面に表示するデータ区分を指定します。
※データ区分については、こちらをご参照下さい。
出力する属性情報(出力形式:レイアウト選択時のみ表示)
結果画面に表示する属性情報を指定します。
※属性情報については、こちらをご参照下さい。
結果表示画面について
抽出完了しました。

抽出結果が表示されます。
出力形式:”レイアウト”についての補足説明
レイアウトを選択すると、抽出結果を”テーブル”、”タイトル”、”セッションの見出し”、”脚注”、”ヘッダー”、”フッター”、”ページ番号”、”バーコード”、”区分無し”のデータ区分に分類し、出力します。
※抽出されたデータがどのデータ区分に分類されるかはAIの自動判断になります。
”出力する属性情報”を指定する事で、データの属性情報である”データ区分”や”ページ番号”を抽出結果画面に出力する事ができます。

※データ区分が”テーブル”の場合に限り、属性情報は”ページ番号”のみが出力されます。