生成AI・大規模言語モデルとは 人材獲得・開発競争は?
大規模言語モデルは何をしているのか、非常に単純化すると、入力されたテキストの次に来る単語の確率を計算するだけなんです。例えば「エーゲ海での新婚旅行のプランは」というテキストがあったときに、各単語が次に来る確率を計算し、その中で一番大きい確率の単語、例えば「島々」といった単語を出力します。これを繰り返すと、「エーゲ海での新婚旅行のプランは島々を巡るクルーズ船がおすすめです」といった滑らかな文章が出力されるわけです。
大規模言語モデルはデータベース的に字面を丸暗記して適当に切り貼りしているんじゃないかとかよく勘違いされるのですが、そういったものではありません。
大規模言語モデルとはトランスフォーマーという構造を持ったニューラルネットワークの一種です。(ニューラルネットワークとは人の脳を模したシステム)
脳細胞に相当する一つ一つは、非常に簡単な計算しかできないニューロンと呼ばれる小さな計算機が集まったものだと考えてもらえばいいです。で、ニューロンの間の「配線」を介して信号がやり取りされる。各々の配線には重みがついていて、その重みの値によって、信号がたくさん流れたり、ちょっとしか流れなかったり、そういうことで信号の強さを調整していくわけなんです。この重みを「パラメーター」といいます。
このパラメーターというのは、ひと昔前、オーディオに音質の調整つまみとかたくさん付いていたと思うんですけれども、そのつまみだと思っていただければ。実際に音楽を聴きながら、そのつまみをうまく調整すると低音を強調したり、高音を弱めたりすることができて、自分好みの音にすることができたわけです。このつまみがたくさん付いているオーディオはそれだけ細かい調整ができて、自分好みの音にできる可能性が高まるわけですね。
大規模言語モデルの学習というのも簡単に言うと、学習データのテキストを見ながら、つまみを調整するようなものです。パラメーターも多ければ多いほど賢い大規模言語モデルになると言われています。平たく言うと、オーディオのつまみの多い少ないと同じ話で、つまみ、つまりパラメーターが多いと大規模言語モデルを賢くするための調整がより細かく、柔軟にできるということです。人間が言語をしゃべるときに、考慮しなければいけない言語の性質は非常にたくさんあるわけですが、パラメーターが多いと、それだけ各々の性質を捉えられるように調整ができる、つまり、学習できる可能性も高まるわけです。
ChatGPTはこれまでに説明したこと以外にいろいろ工夫がされていると思いますが、まず、OpenAIのすごかったところは、学習するテキストデータをものすごく大量に用意して、パラメーターの数もすごく大きくしてやると、なんだかスムーズに言語をしゃべるようになるということを実証したということだと思うんですね。
学習自体にもすごく時間かかって、電気代もかかるし、ものすごくお金がかかるわけです。しかも、実際に大規模言語モデルの学習をやってみないとモデルが本当にスムーズにしゃべるようになるかどうかはわからない状況なわけで、そのような状況で実際に巨費を投資して、実際に学習してみたというところが一番すごいと思います。ギャンブルですよね。
~鳥澤フェローは3000億のパラメーターのLLMを開発 増やすことは難しい?~
パラメーターを増やすこと自体は、そんなに難しくなく、プログラムの一部を変えたらそうなります。ただ、それで学習がうまくいくかどうかは別の話。変な設定で学習をすると、学習が途中で止まってしまうっていうこともあります。また、パラメーターを大きくするとその分、学習に時間がかかるようになります。
パラメーター数を増やすと賢くはなるのですが、そのために計算機も大量に必要だし、時間もかかるので、それだけお金がかかる。計算機は厳密に言うと少なくてもいいんですけど、少ないとその分、時間がかかるわけで、大ざっぱに言うと、計算機の数が半分になったら学習の時間は倍になる。本当は、いろいろな学習の設定を試す試行錯誤をして最も賢いモデルを作れる学習の設定を見つけなければいけないので、一回の学習を早く終わらせてたくさん試行錯誤できた方が断然有利ですよね。つまり、計算機がたくさんあって試行錯誤がたくさんできた方が有利だということになります。
~文章が出力されて、その結果の理由を知ることは~
とにかくパラメータが数千億個とかあって分析が難しいので、今のところは不可能だと思います。ただ、要するに学習データ中によく出てくる単語が、確率高く出力されるようになるとは言えます。つまり、みんなが頻繁に書いたり、言ったりしている言い回しや、それに意味的に近い内容が出力されてくる可能性が高いわけです。これはつまり、大規模言語モデルの出力が、違和感がなくて、滑らかでまっとうに見える理由でもあるわけです。
ただ、逆からみると、大規模言語モデルは月並みなことしか言わないっていうことでもあります。みんなが言っているようなことを繰り返し言っているわけですから。
ですが、大規模言語モデルは、到底普通の人間が読みこなせる量ではない学習データで学習してますので、例えば、自分がよく知らない分野につい質問をしても、その分野での常識的な回答をさっくり返したりします。これはみなさんがChatGPTが便利だと思う理由の一つだろうと思います。
今、私たちは大規模言語モデルを複数個組み合わせて、あえて月並みじゃないアイデアを出力するようなシステムを作ろうとしています。実はそのプロトタイプの出力で私自身の考え方が変わるといった経験も何度もしています。すでに私の脳は大規模言語モデルに一部乗っ取られてるんじゃないかと思うぐらいです。
~人材獲得・開発競争~
GAFAM(Googleやマイクロソフトなどアメリカの巨大IT企業)にうちからも転職する人がいます。原因はいろいろありますが、一つは待遇がやっぱり良くない。GAFAMに行けば給料数倍という世界が待っているわけですよね。
日本の企業でもAI分野などでは人材確保や流出防止のためにプロジェクトに大きな貢献をしている優秀な研究者に高い処遇をするという流れになっています。今、私の所属する情報通信研究機構でも特定研究員という制度を作って、優秀な研究者に特別な手当を付与するなどの高い処遇をする体制を整えています。
また、研究環境というところでは、我々は、データは大量に持っていますが、計算機が若干足りない。これも改善するとは思うんですけど、何しろ生成AIの学習で使うGPUというタイプの計算機は、世界中で大人気で品薄になっていて、発注してもなかなか手元に来ないという状況が続いてまして、それは一つ大きな問題です。
研究体制に関しては、開発成果をオープンに誰でも使えるようにしつつ開発する流派と、クローズドで、一つの会社の中だけで閉じて開発するという流派とが2つあります。OpenAIはクローズド、一方でMeta社は「Llama」という大規模言語モデルを公開しているんですけど、個人的には開発した大規模言語モデルをオープンにするとフェイクニュースの作成など悪用の可能性が高まるだけだと思っていまして、厳重に管理すべきだと思っています。日本の国内にもクローズドで最先端の研究開発ができるような体制を作るべきだと思っています。
また、今は日本国内の組織がまだ海外勢に何とか追いすがろうとしていますが、人材確保、体制構築も含めて、まさしく今きっちりやらないと、これ以上離されたらもう二度と追いつけない。つまり、日本の組織は未来永劫、競争力のあるAIを全く作れなくなって、海外製のAIを先方の言い値で買い続けなければいけない可能性があります。つまり、一部で言われている「デジタル小作人」におちぶれるしかないと。
~ともに事業を進める総務省担当者は~
総務省担当者「日本の開発力強化は政府としても喫緊の課題として捉えていて、まさに今、先行する海外のプレーヤーに置いていかれると、たぶんもう二度と追いつけない。例えば計算機の環境整備や、鳥澤さんから話があったデータ整備を行うことで、日本のプレーヤーの開発力をどう高めていくかという点に政府としても今、力を入れてやってるというところ。いかに戦っていくかを政府としても考えている」