NICTにおいては、長年に渡るAI技術の研究開発を通して日本最大級の大量の言語データを蓄積してきている。また、2023年(令和5年)7月には、当該言語データから作成した高品質な日本語データを基に大規模言語モデル(LLM)を試作するなど、LLM開発に必要な高品質な学習用言語データの構築に係る知見も有している。これらのNICTの有するデータや知見を活かして我が国のLLMの開発力強化に貢献すべく、NICTにおいて民間企業等におけるLLM開発に必要となる大量・高品質で安全性の高い日本語を中心とする学習用言語データを整備・拡充し、我が国のLLM開発者等にアクセスを提供する取組を進めている。加えて、LLMに起因する様々なリスクに対応するための技術の研究開発にも取り組んでいる。
【関連データ】LLM開発から利用までのプロセス及びNICTにおける取組
URL:https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/datashu.html#f00408(データ集)