AI-OCR: Scene Text Recognitionにデータ量は重要

タグ

投稿日: 2021/09/30 22:24:22

著者: 代表取締役CEO 木村 優志

AI-OCR のディープラーニングモデル

AI-OCR の分野の一つに、Scene Text Recognition があります。Scene Text Recognitiono は、写真の中にある文字を読む技術です。たとえば、スターバックスの看板に書かれた円形にまがった、STARBACKS という文字を読む技術です。

今回は、AI-OCR 技術の論文を一つ紹介します。

Why You Should Try the Real Data for the Scene Text Recognition

今回紹介する論文配下です。

Loginov Vladimir, Why You Should Try the Real Data for the Scene Text Recognition, arXiv:2107.13938v1 [cs.CV] 29 Jul 2021. https://arxiv.org/pdf/2107.13938v1.pdf https://github.com/openvinotoolkit/training_extensions

Scene Text Recognition のディープラーニングモデルは、これまで、以下の4つのフェーズに分かれているものが大半でした。

  • transformation
    • 曲がっている文字列の並びを真っ直ぐになるように変形する
  • feature extraction
    • 画像特徴抽出 (VGG など)
  • sequence modelling
    • シーケンスモデリング (LSTM など)
  • prediction
    • 文字列の予測 (SoftMax、CTC など)

今回紹介する論文では、そもそも学習データを増やせば transformation の溶暗処理は必要ないとするものです。学習には人工的に生成したデータと、複数のデータセットを混合した人間がラベリングしたデータを利用します。

モデルの構造は以下のとおりです。

Model Architecture

まず、画像に薄板スプライン補完をかけ、ResNeXt による特徴抽出、Attentionn、GRU によるシーケンスモデリングを行い予測します。 以下の表の容認、この比較的シンプルなモデルで、最新のモデルと同等以上の精度を出すことができます。

Results

まとめ

今回は、 Scene Text Recogitiono の論文の一つを紹介しました。ディープラーニングにとって、データ量がいかに大切かがわかる論文です。日本語のOCR用のオープンデータはほぼ存在しません。日本語OCRを作るには多くのコストがかかるでしょう。