生成AI・大規模言語モデルとは　人材獲得・開発競争は？

2024年4月19日 22:10

提供：NICT

2022年11月のChatGPT公開以降、AIの話題は絶えることがありません。日本語特化型国産生成AIを開発している、国立研究開発法人情報通信研究機構（NICT）の鳥澤健太郎フェローに、文章生成AIとはどのようなものか、人材獲得・開発競争について聞きました。（社会部・内田慧）

～文章生成AIの頭脳、大規模言語モデル（LLM）とは～

大規模言語モデルは何をしているのか、非常に単純化すると、入力されたテキストの次に来る単語の確率を計算するだけなんです。例えば「エーゲ海での新婚旅行のプランは」というテキストがあったときに、各単語が次に来る確率を計算し、その中で一番大きい確率の単語、例えば「島々」といった単語を出力します。これを繰り返すと、「エーゲ海での新婚旅行のプランは島々を巡るクルーズ船がおすすめです」といった滑らかな文章が出力されるわけです。

大規模言語モデルはデータベース的に字面を丸暗記して適当に切り貼りしているんじゃないかとかよく勘違いされるのですが、そういったものではありません。

大規模言語モデルとはトランスフォーマーという構造を持ったニューラルネットワークの一種です。（ニューラルネットワークとは人の脳を模したシステム）

脳細胞に相当する一つ一つは、非常に簡単な計算しかできないニューロンと呼ばれる小さな計算機が集まったものだと考えてもらえばいいです。で、ニューロンの間の「配線」を介して信号がやり取りされる。各々の配線には重みがついていて、その重みの値によって、信号がたくさん流れたり、ちょっとしか流れなかったり、そういうことで信号の強さを調整していくわけなんです。この重みを「パラメーター」といいます。

このパラメーターというのは、ひと昔前、オーディオに音質の調整つまみとかたくさん付いていたと思うんですけれども、そのつまみだと思っていただければ。実際に音楽を聴きながら、そのつまみをうまく調整すると低音を強調したり、高音を弱めたりすることができて、自分好みの音にすることができたわけです。このつまみがたくさん付いているオーディオはそれだけ細かい調整ができて、自分好みの音にできる可能性が高まるわけですね。

大規模言語モデルの学習というのも簡単に言うと、学習データのテキストを見ながら、つまみを調整するようなものです。パラメーターも多ければ多いほど賢い大規模言語モデルになると言われています。平たく言うと、オーディオのつまみの多い少ないと同じ話で、つまみ、つまりパラメーターが多いと大規模言語モデルを賢くするための調整がより細かく、柔軟にできるということです。人間が言語をしゃべるときに、考慮しなければいけない言語の性質は非常にたくさんあるわけですが、パラメーターが多いと、それだけ各々の性質を捉えられるように調整ができる、つまり、学習できる可能性も高まるわけです。

ChatGPTはこれまでに説明したこと以外にいろいろ工夫がされていると思いますが、まず、OpenAIのすごかったところは、学習するテキストデータをものすごく大量に用意して、パラメーターの数もすごく大きくしてやると、なんだかスムーズに言語をしゃべるようになるということを実証したということだと思うんですね。

学習自体にもすごく時間かかって、電気代もかかるし、ものすごくお金がかかるわけです。しかも、実際に大規模言語モデルの学習をやってみないとモデルが本当にスムーズにしゃべるようになるかどうかはわからない状況なわけで、そのような状況で実際に巨費を投資して、実際に学習してみたというところが一番すごいと思います。ギャンブルですよね。

次ページ

～鳥澤フェローは3000億のパラメーターのLLMを開発　増やすことは難しい？～

生成AI・大規模言語モデルとは　人材獲得・開発競争は？

～文章生成AIの頭脳、大規模言語モデル（LLM）とは～

関連ニュース

「春の園遊会」両陛下と皇族方が各界功労者と歓談

石破首相が表明　ガソリン価格1リットルあたり最大10円引き下げ　来月22日から

【速報】「夢洲から脱出できない」大阪メトロ中央線で一時運転見合わせ…万博会場につながる唯一の鉄道路線　約1時間で全線再開

塾に“無断侵入”全裸男を逮捕　強盗や死亡ひき逃げなど少なくとも5つの事件に関与か

【解説】「ドル高是正」どこまで現実味？日米財務相会談前に円高進む 1ドル＝139円台

宇宙飛行士の大西卓哉さんが滞在中の国際宇宙ステーションから高校生に特別授業

新たなローマ教皇を選ぶ選挙「コンクラーベ」とは？【#みんなのギモン】

【ＧＷ間近！必見】県内お花見スポット最新情報…桜に続き各地で春から初夏彩る花々が見頃に（静岡）

【独自】未開館の「ネパール館」1月から工事停止、建設会社に費用未払い「本国の都合」再開めど立たずも、出展の意向は変わらず　大阪・関西万博

救急車が“インロック”で遅延　患者を19分間搬送できず　愛知・犬山市

愛知・豊橋市新アリーナ建設　 "市議会が提案・可決した条例は法令違反"　市長が取り消しを求めて提訴

塾に“無断侵入”全裸男を逮捕　強盗や死亡ひき逃げなど少なくとも5つの事件に関与か

【速報】「夢洲から脱出できない」大阪メトロ中央線で一時運転見合わせ…万博会場につながる唯一の鉄道路線　約1時間で全線再開

「全国学力テスト」でオンライン導入　“ネットワーク故障などで実施できず”0.5%にとどまる

「量子コンピューター」の世界に触れ合う　日本科学未来館で新たな常設展示

300万本が春を彩る　チューリップフェアが開幕　富山・砺波市

生成AI・大規模言語モデルとは 人材獲得・開発競争は？

～文章生成AIの頭脳、大規模言語モデル（LLM）とは～

関連ニュース

「春の園遊会」両陛下と皇族方が各界功労者と歓談

石破首相が表明 ガソリン価格1リットルあたり最大10円引き下げ 来月22日から

【速報】「夢洲から脱出できない」大阪メトロ中央線で一時運転見合わせ…万博会場につながる唯一の鉄道路線 約1時間で全線再開

塾に“無断侵入”全裸男を逮捕 強盗や死亡ひき逃げなど少なくとも5つの事件に関与か

【解説】「ドル高是正」どこまで現実味？ 日米財務相会談前に円高進む 1ドル＝139円台

宇宙飛行士の大西卓哉さんが滞在中の国際宇宙ステーションから高校生に特別授業

新たなローマ教皇を選ぶ選挙「コンクラーベ」とは？【#みんなのギモン】

【ＧＷ間近！必見】県内お花見スポット最新情報…桜に続き各地で春から初夏彩る花々が見頃に（静岡）

【独自】未開館の「ネパール館」1月から工事停止、建設会社に費用未払い「本国の都合」再開めど立たずも、出展の意向は変わらず 大阪・関西万博

救急車が“インロック”で遅延 患者を19分間搬送できず 愛知・犬山市

愛知・豊橋市 新アリーナ建設 "市議会が提案・可決した条例は法令違反" 市長が取り消しを求めて提訴

塾に“無断侵入”全裸男を逮捕 強盗や死亡ひき逃げなど少なくとも5つの事件に関与か

【速報】「夢洲から脱出できない」大阪メトロ中央線で一時運転見合わせ…万博会場につながる唯一の鉄道路線 約1時間で全線再開

「全国学力テスト」でオンライン導入 “ネットワーク故障などで実施できず”0.5%にとどまる

「量子コンピューター」の世界に触れ合う 日本科学未来館で新たな常設展示

300万本が春を彩る チューリップフェアが開幕 富山・砺波市

生成AI・大規模言語モデルとは　人材獲得・開発競争は？

石破首相が表明　ガソリン価格1リットルあたり最大10円引き下げ　来月22日から

【速報】「夢洲から脱出できない」大阪メトロ中央線で一時運転見合わせ…万博会場につながる唯一の鉄道路線　約1時間で全線再開

塾に“無断侵入”全裸男を逮捕　強盗や死亡ひき逃げなど少なくとも5つの事件に関与か

【解説】「ドル高是正」どこまで現実味？日米財務相会談前に円高進む 1ドル＝139円台

【独自】未開館の「ネパール館」1月から工事停止、建設会社に費用未払い「本国の都合」再開めど立たずも、出展の意向は変わらず　大阪・関西万博

救急車が“インロック”で遅延　患者を19分間搬送できず　愛知・犬山市

愛知・豊橋市新アリーナ建設　 "市議会が提案・可決した条例は法令違反"　市長が取り消しを求めて提訴

塾に“無断侵入”全裸男を逮捕　強盗や死亡ひき逃げなど少なくとも5つの事件に関与か

【速報】「夢洲から脱出できない」大阪メトロ中央線で一時運転見合わせ…万博会場につながる唯一の鉄道路線　約1時間で全線再開

「全国学力テスト」でオンライン導入　“ネットワーク故障などで実施できず”0.5%にとどまる

「量子コンピューター」の世界に触れ合う　日本科学未来館で新たな常設展示

300万本が春を彩る　チューリップフェアが開幕　富山・砺波市