続・人間老いやすく、学成りがたし: 日本語の生成AIを開発するってことが、とても大事なことです。

2023/07/07

日本語の生成AIを開発するってことが、とても大事なことです。

 7月4日に、国立研究開発法人情報通信研究機構から「日本語に特化した大規模言語モデル(生成AI)を試作~日本語のWebデータのみで学習した400億パラメータの生成系大規模言語モデルを開発~」との発表がありました。

 「ChatGTP」を始め、「生成AI」に開発は海外が先行していますが、日本語でも答えてくれるとは言え、日本人にしてみれば学習用データが英語に偏ったものよりは、やはり日本語に特化したものの方が圧倒的に良いはずです。明治の日本が欧米に追い付けたのも、外国語を日本語に訳して、日本語でいろいろなことを考えられるようになったからです(何と言っても「philosophy」を「哲学」と訳したくらいですから、当時の知識人の素晴らしさは半端ではありません。その点では最近は外国語をそのまま使っていて、場合によっては意味が十分分からない状況でも、なんとなくそれっぽく使用している例も見られますが、本当はそれではダメです)。そのような意味で言えば、「日本語に特化した大規模言語モデル」をつくるということは、今後諸外国と渡り合っていくためには重要なことだと思います。

 今後は、「学習用のテキストについて、日本語を中心として更に大規模化していきます。また、現在、GPT-3と同規模の1,790億パラメータのモデルの事前学習に取り組んでおり、適切な学習の設定等を探索していく予定です。さらに、より大規模な事前学習用データ、大規模な言語モデルの構築に際し、既に述べたポジティブ、ネガティブの両方の要素に関して改善を図るとともに、WISDOM X、MICSUS等既存のアプリケーションやシステムの高度化等に取り組む予定です。加えて、NICTでは、まだ誰も考えておらず、Web等にも書かれていない、具体的で「尖った」将来シナリオや仮説をテキストとして生成し、対話システムによるブレインストーミング等で活用するための研究を実施してきましたが、このような研究においても今回開発した日本語大規模言語モデル等を活用していく予定です」と、大変頼もしい内容までも計画されているようです。

0 件のコメント:

コメントを投稿