続・人間老いやすく、学成りがたし: 国立国会図書館が、OCR処理プログラムと学習用データセットを公開!

2022/05/16

国立国会図書館が、OCR処理プログラムと学習用データセットを公開!

  国立国会図書館(NDL)が、OCR処理プログラムであるNDLOCRと、パブリックドメインOCR学習用データセットをNDLラボのGitHubで公開しています。

 NDLOCRは、国立国会図書館が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムで、国立国会図書館がCC BY 4.0ライセンスで公開するものです。機能ごとに7つのリポジトリに分かれていますが、リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。

 パブリックドメインOCR学習用データセットは、国立国会図書館が令和3年度にLINE株式会社に委託して実施したデジタル化資料のOCRテキスト化事業において、OCRモデルの性能改善のために作成した機械学習用データセットのうち、著作権保護期間の満了した資料から作成されたデータセットで、2022年4月末現在、2,713画像分が公開されています。このデータセットを利用して性能改善を行ったOCRを利用して作成したテキストデータは、次世代デジタルライブラリー(https://lab.ndl.go.jp/dl/ )の全文検索機能・本文ダウンロード機能として提供を開始しているほか、令和4年12月にリニューアル予定の国立国会図書館デジタルコレクションの全文検索機能として提供予定だそうです。

 個人的には、NDLOCRの性能が気になりますね。日本語のOCRは英語のOCRに比べれば、まだその性能は劣っているのが現状で、より性能の良い日本語OCRを欲している御仁は多いと思います。かく言う自分もその一人ですので、NDLOCRを試してみたいと思います。

0 件のコメント:

コメントを投稿