LLMの未来: スケーリング則の限界と効率化の新アプローチ

今、LLMは一つの岐路にあると思っている、現状の認識としてはスケーリング則に限界が見受けられること。スケーリング即とはモデルの大規模化によって、モデルの精度、アウトプットの品質が高まるという経験則を指す。しかし、スケーリング即に現状、限界が見えていて、モデルの大規模化が必ずしもアウトプットの深化に結び付かない例が観測されている。

AIの天井が見えてきた日:スケール則の限界と新時代の幕開け

最近の事例から、私は今後の有望な方向性として二つのアプローチを見出しています。

MoE (Mixture of Experts):比較的歴史の長い発想で、Gradient Boostingなどもその考え方と考えられます。複数のモデルを組み合わせ、それぞれに重み付けを行うことで高精度なモデルを構築する手法です。

BitNet:比較的新しい考え方で、ニューラルネットワークは発火しているか否かという状態を表すため、ビットレンジを極限まで圧縮できるはずという理論に基づきます。このアプローチでは、計算リソースの使用を大幅に削減することが可能です。

これまでは、モデルの大規模化競争が主流でしたが、これは妥当な方向性でしょうか。ビッグプレイヤーは結果的に原子力発電にまで進んでいますが、これがよい方向性だとは思えません。したがって、モデルの効率化が今後のゲームチェンジャーとなり得ると考えています。

暴言の坩堝と化したX:その背後にあるもの

イーロン・マスクが最近このようなことを言っています:

XユーザーのElon Muskさん: 「Please post a bit more positive, beautiful or informative content on this platform」 / Twitter

しかし、以下の発言も彼のものです:

XユーザーのElon Muskさん: 「𝕏 is the PvP of social media」 / Twitter

イーロン・マスクがTwitterを買収し、私物化してPvP(プレイヤー対プレイヤー)ソーシャルメディアに変えたのは周知の事実です。なぜこのようなことが起きたのでしょうか?

単純な理由があります。H-1Bビザを擁護したからです。アメリカのIT業界は、H-1Bビザで入国してくる海外の優秀な労働者に大きく依存しています。H-1Bビザがなくなると、業界にとっては死活問題となります。しかし、PvPソーシャルメディアとなった「𝕏」上で、イーロン・マスクのような経営者は多数派ではありません。そして、マスクが焚きつけた対立感情により、海外からの安価な労働者の流入を止めたいと考える人が増えています。

結果、「𝕏」は暴言の坩堝と化しました。しかし、その引き金を引いたのはイーロン・マスク本人であることを忘れてはなりません。

さらにウィットに富んだ良い返しを紹介します:

Xユーザーのdownshift.eth (on Warpcast)さん: 「@elonmusk Please write an algorithm that promotes more positive, beautiful or informative content on this platform」 / Twitter

日本では良い言葉がある。「人を呪わば穴二つ」

MoonBit: WebAssembly特化言語のGitHub公開

WebAssemblyに特化した言語「MoonBit」のコンパイラがGitHubで公開 - Publickey WebAssemblyに特化した言語が公開されたそうです。WebAssemblyとはasm.jsなどの流れの延長上に、実行可能コードをWebでホストできるものです。現時点でも、SQLiteをWeb上にホストしたりなどの実装が見受けられます。

現状では、WebAssemblyに特化した言語はかなり珍しいです。今のところ、WebAssembly使用の実例としてはTensorflow.jsやUnityなどの例になります。

Apple Cardの性別バイアス問題とAI倫理

https://wired.jp/2019/11/22/the-apple-card-didnt-see-genderand-thats-the-problem で記されている古い問題ではあるが、今にもつながる問題を提起している。たしか、記憶してる限りだと、Apple Cardの極度額がある夫婦で夫と妻とで極端な差があったので問題になったはずです。同じ家計の夫婦であれば、リスクはほぼ同じになるはずが、そうなっていなかったというので問題になったはずです。

そして、これが性別を与信モデルに含んでいれば、ある種単純だったんですが、この事業では性別を見ていなかったのです。したがって、逆に、性別で差別をしていないという立証が困難になりました。

性別に限りませんが、ある変数が別の変数に関連しているのはよくある話です。例えば、今回の話でならば、女性の身長の平均が男性のそれより低いというのは、事実であり、身長というフィールドがあったならば性別を書いているのと同じことです。

そして、OECD AI五原則と言うルールがあります。

1. AIは持続可能な成長や開発、幸福促進に利益をもたらすべき。
(以下省略)

また、個人情報についてOECDには以下の八原則があります。

1. 個人データの収集目的を明確にし、データ利用は収集目的に合致するべきである。
(以下省略)

この二つを鑑みると、モデルを作るにあたっては収集目的に見合ったデータを集めモデルを作るべきとなります。
つまり、与信であれば、貸し倒れ等のリスクを見るのに、見合った項目によりモデルを作るべきということになります。

従って、これらの原則を援用すれば、適当にデータセットを作って、後はStep-wiseを含め機械に変数選択をやらせてなんとなく、精度高めのモデルできましたはOECDの各種原則に従ってるかと考えればかなり微妙となります。

実際、産総研の高木さんなんかは、OECDの原則に照らせば、こういう安易なモデルはもってのほかと考えているのは、Twitterでの発言を考えればわかる感じです。

LLM技術の革新とその課題

https://gigazine.net/news/20241224-openai-gpt5-orion-delays/ でGPT-5が苦戦中というのが出ているが。

僕の理解では、現状のLLMは古典的な自然言語処理では字句解析、構文解析、意味解析と下から順に階層的に処理して最終的にある問題の回答を求めようとしていたのを、LLMの隠れ層に中間的な工程を委ねていると思っている。古典的な自然言語処理がうまくいかなかったのは階層的な処理だと、例えば字句解析が90%の精度で、構文解析が80%の精度だと仮定すると、構文解析のところで実際の精度は72%になる。そして、工程を経るごとに精度は下がり続け決して上がることはない。

故に実際の問題のところに至るまでに実用的なラインを割り込んでしまう、実際、LLMの登極前の時点で、字句解析、構文解析、意味解析を実用的な精度できちんとやり切っているシステムを私は聞いたことがない。多くの場合は、Eliza的なパターンマッチングなどで動いていたと思う。


LLMはEnd to endで入力されたものと、出力とを完全に結びつけることで初めて、一つのブレイクスルーを得たと思う。途中を隠れ層に押し込むことで、精度低下を不可視化したと思う。勿論、技術的には活性化関数などや、もちろん計算機の進化によって、深層学習が実用になったこと、そして、Attention機構のようにRNN的な成果を実用的なパフォーマンスで得られるようになったことが大きい。

しかし、根本的には、人間はLLM内で何が起きているかを理解できていないし、結果的にフレーム問題なども前進したかどうかすらわからない。この辺に今のLLMを考える難しさがある。