「次世代デジタルライブラリー」で、デジタル化済み古典籍資料の一部である江戸期以前のくずし字資料等約6万点のOCR全文テキストデータが追加され、全文検索できるようになりました。
今回追加されたOCR全文テキストデータは、国立国会図書館が令和3年度に実施したOCR関連事業で得た知見等を踏まえ、機械学習技術を活用して当館の次世代システム開発研究室が内製で開発したOCRソフトウェアで作成されたものです。2022年中に、国立国会図書館デジタルコレクションでインターネット公開している古典籍資料約8万点全件へと拡大が予定されているとのことですが、令和3年度デジタル化資料のOCRテキスト化事業の成果物を利用した図書資料約28万点と合わせて、約35万点が検索可能となっています。
これほど大量のくずし字資料のテキスト検索ができるようになるなんて、まるで夢のようです。技術の進歩ってすごいですよね😆
0 件のコメント:
コメントを投稿