Skip to content

OCR correction benchmark

License

FastAccounting/ocr_correction_benchmark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 

Repository files navigation

日本語OCR誤り訂正ベンチマーク

概要

近年、画像から文字を読み取るOCR(光学文字認識)技術の精度は大幅に向上しています。 しかし、さまざまな条件下での誤認識が発生する場合があり、必要に応じて誤りを訂正する必要があります。 我々は日本語におけるOCRの誤り訂正技術を向上するために、特に証憑画像内の会社名や取引先名を中心に、複数のOCR技術で認識した結果と、人が読み取った正確なテキストのペアを収集したデータセットを構築しました。 このデータセットは、OCRの誤認識を訂正するためのベンチマークとして役立ちます。 詳細については、参考文献をご覧ください。

データ形式

データファイル datasets_companyname/*.json

データファイルはjsonl形式で構成されています。 各行データは以下のような形式です。

{"id":"image_10000000","tgt":"有限会社オオサワボディ","src":"有限会社オオサワボディ","correct":true}
  • idは項目ID
  • tgtはあるべきOCR結果テキスト
  • srcはOCR結果テキスト
  • correctはtgtとsrcが一致しているかの真偽

参考文献

藤武将人、「証憑を用いた日本語OCR誤り訂正ベンチマークの構築」、言語処理学会第30回年次大会(NLP2024)

About

OCR correction benchmark

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published