01
OCRとは
まずはOCRについて、概要や課題を整理していきましょう。
OCRの概要
OCR(光学文字認識)は、画像データやPDFから文字を識別してテキストデータへと変換する技術です。スキャナと混同しがちですが、スキャナは紙の書類を取り込んで画像データ化するものです。一方、その画像データから文字を認識して、テキストデータに変換する技術がOCRです。
例えば、契約書や注文書をOCRで読み取って業務支援システムと連携すれば、契約情報や顧客情報を手入力する手間が省けます。また、名刺管理システムでもOCR技術が使われていて、名刺をスキャナで読み込んだ後に、OCR機能により名刺に記載されている「会社名」「役職」「氏名」「住所」「電話番号」「メールアドレス」などが、自動的にテキストで登録されます。
データがテキスト化されることにより、数多くの顧客リストから、会社名、氏名などで対象者を検索することや郵便物などの宛先への印字などが可能になります。
OCRは顧客とやりとりする書類のほか社内帳票など、さまざまな手書きの書類の文字のデータ化にも役立てられています。
OCRの課題
OCRは人間の手間を大きく軽減してくれる便利な技術ですが、主に3つの課題があります。
主な課題
- 1. 手書きの文字に対する識字率の低さ
- 2. 解像度が低い書類が認識できない
- 3. 一定のフォーマットを持たない帳票への対応