総務省｜令和6年版情報通信白書

特集②　進化するデジタルテクノロジーとの共生

第1節　AIの進化に伴う課題と現状の取組

（2）　国産LLMの開発

ア　NICTによる国産LLMの開発5

2023年7月に、国立研究開発法人情報通信研究機構（NICT）は、ノイズに相当するテキストが少ない350GBの高品質な独自の日本語Webテキストを用いて、400億パラメータの生成系の大規模言語モデルを開発した旨を発表した。発表によれば、NICTの開発したLLMについてはファインチューニングや強化学習は未実施であり、性能面ではChatGPT等と比較できるレベルではないものの、日本語でのやり取りが可能な水準に到達しているとしており、今後は、学習テキストについて、日本語を中心として更に大規模化していくこととしている。また、GPT-3と同規模の1,790億パラメータのモデルの事前学習に取り組み、適切な学習の設定等を探索していく予定である。さらに、より大規模な事前学習用データ、大規模な言語モデルの構築に際し、ポジティブ・ネガティブ両方の要素に関して改善を図るとともに、WISDOM X、MICSUS等既存のアプリケーションやシステムの高度化等にも取り組む予定としている（2024年5月現在、NICTではさらに開発を進め、最大3,110億パラメータのLLMを開発するなど、複数種類のLLMを開発しパラメータや学習データの違いによる性能への影響等を研究している）。

イ　サイバーエージェントが開発した日本語LLM「CyberAgentLM」67

2023年5月、サイバーエージェントが最大68億パラメータの日本語LLMを開発したことを発表した。2023年11月には、より高性能な70億パラメータ、32,000トークン対応の日本語LLM「CyberAgentLM2-7B」と、チャット形式でチューニングを行った「CyberAgentLM2-7B-Chat」の種類を公開した。日本語の文章として約50,000文字相当の大容量テキストを処理可能である。商用利用が可能なApacheLicense2.0で提供されている。

ウ　日本電信電話（NTT）が開発した日本語LLM「tsuzumi」

2023年11月にNTTが開発した、軽量かつ世界トップレベルの日本語処理能力を持つLLMモデル「tsuzumi」が発表された。「tsuzumi」のパラメータサイズは6～70億と軽量であり、クラウド提供型LLMの課題である学習やチューニングに必要なコストを低減できる。「tsuzumi」は英語と日本語に対応しているほか、視覚や聴覚などのモーダルに対応し、特定の業界や企業組織に特化したチューニングが可能である。2024年3月から商用サービスが開始されており、今後はチューニング機能の充実やマルチモーダルの実装も順次展開される見込みである8。

5　国立研究開発法人情報通信研究機構,「日本語に特化した大規模言語モデル（生成AI）を試作～日本語のWebデータのみで学習した400億パラメータの生成系大規模言語モデルを開発～」2023年7月4日
<https://www.nict.go.jp/press/2023/07/04-1.html>（2024/3/22 参照）

6　サイバーエージェント，「サイバーエージェント、最大68億パラメータの日本語LLM（大規模言語モデル）を一般公開―オープンなデータで学習した商用利用可能なモデルを提供―」2023年5月17日，<https://www.cyberagent.co.jp/news/detail/id=28817>（2024/3/22参照）

7　サイバーエージェント，「独自の日本語LLM（大規模言語モデル）のバージョン2を一般公開―32,000トークン対応の商用利用可能なチャットモデルを提供―」2023年11月2日，<https://www.cyberagent.co.jp/news/detail/id=29479>（2024/3/22参照）

8　NTT，「NTT独自の大規模言語モデル「tsuzumi」を用いた商用サービスを2024年3月提供開始」2023年11月1日，<https://group.ntt/jp/newsrelease/2023/11/01/231101a.html>（2024/3/22参照）

（2） 国産LLMの開発

ア NICTによる国産LLMの開発5

イ サイバーエージェントが開発した日本語LLM「CyberAgentLM」67

ウ 日本電信電話（NTT）が開発した日本語LLM「tsuzumi」

（2）　国産LLMの開発

ア　NICTによる国産LLMの開発5

イ　サイバーエージェントが開発した日本語LLM「CyberAgentLM」67

ウ　日本電信電話（NTT）が開発した日本語LLM「tsuzumi」