続・人間老いやすく、学成りがたし: くずし字資料の自動テキスト化や現代語訳、英訳が実現しつつあります。

2023/07/15

くずし字資料の自動テキスト化や現代語訳、英訳が実現しつつあります。

 人文学オープンデータ共同利用センター(CODH)が、「つくし」プロジェクトのウェブページを公開しました。

 くずし字資料の大規模テキスト化に基づき、全文検索技術の開発や大規模言語モデル(Large Language Model:LLM)へ展開し、人工知能(AI)ツールを開発・利用しつつ、くずし字資料の自動テキスト化や現代日本語や英語翻訳などが実現しつつあります。

 『絵本江戸桜』に対して、AIを用いた自動テキスト化/翻訳の実験が行われ、その結果を見ることができます。「AIくずし字認識」はAIで自動生成したものであって、人間による確認や修正は行っていないため、多少おかしな部分がありますが、「現代文翻訳」と「英語翻訳」はいい線いっていると思います。そうは言っても「AIくずし字認識」も、おかしな部分は明確にわかるので、そこだけ注意すれば、使えるのではなないでしょうか。

 AIくずし字認識アプリである「みを」が出た際には、夢かとも思いましたが、まさか自動テキスト化や現代語訳、英訳までできる世の中になるとは…。昔のマンガの話が、少しずつ現実化してきています。

0 件のコメント:

コメントを投稿