日本語OCR誤り訂正ベンチマーク

概要

近年、画像から文字を読み取るOCR（光学文字認識）技術の精度は大幅に向上しています。しかし、さまざまな条件下での誤認識が発生する場合があり、必要に応じて誤りを訂正する必要があります。我々は日本語におけるOCRの誤り訂正技術を向上するために、特に証憑画像内の会社名や取引先名を中心に、複数のOCR技術で認識した結果と、人が読み取った正確なテキストのペアを収集したデータセットを構築しました。このデータセットは、OCRの誤認識を訂正するためのベンチマークとして役立ちます。詳細については、参考文献をご覧ください。

データ形式

データファイル datasets_companyname/*.json

データファイルはjsonl形式で構成されています。各行データは以下のような形式です。

{"id":"image_10000000","tgt":"有限会社オオサワボディ","src":"有限会社オオサワボディ","correct":true}

idは項目ID
tgtはあるべきOCR結果テキスト
srcはOCR結果テキスト
correctはtgtとsrcが一致しているかの真偽

参考文献

藤武将人、「証憑を用いた日本語OCR誤り訂正ベンチマークの構築」、言語処理学会第30回年次大会(NLP2024)

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
datasets_companyname		datasets_companyname
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

Uh oh!

Repository files navigation

日本語OCR誤り訂正ベンチマーク

概要

データ形式

参考文献

About

Uh oh!

Releases

Packages

Uh oh!

License

Uh oh!

FastAccounting/ocr_correction_benchmark

Folders and files

Latest commit

History

Repository files navigation

日本語OCR誤り訂正ベンチマーク

概要

データ形式

参考文献

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages