近年、画像から文字を読み取るOCR(光学文字認識)技術の精度は大幅に向上しています。 しかし、さまざまな条件下での誤認識が発生する場合があり、必要に応じて誤りを訂正する必要があります。 我々は日本語におけるOCRの誤り訂正技術を向上するために、特に証憑画像内の会社名や取引先名を中心に、複数のOCR技術で認識した結果と、人が読み取った正確なテキストのペアを収集したデータセットを構築しました。 このデータセットは、OCRの誤認識を訂正するためのベンチマークとして役立ちます。 詳細については、参考文献をご覧ください。
データファイル datasets_companyname/*.json
データファイルはjsonl形式で構成されています。 各行データは以下のような形式です。
{"id":"image_10000000","tgt":"有限会社オオサワボディ","src":"有限会社オオサワボディ","correct":true}- idは項目ID
- tgtはあるべきOCR結果テキスト
- srcはOCR結果テキスト
- correctはtgtとsrcが一致しているかの真偽
藤武将人、「証憑を用いた日本語OCR誤り訂正ベンチマークの構築」、言語処理学会第30回年次大会(NLP2024)