DeepSeek-R1の実力とライセンス:知っておきたい重要ポイント

最近、話題のDeepSeek-R1について、まだ、実物を確認していないので周辺から確認できるところについてまとめています。まず、DeepSeek-R1は大雑把に言うと、OpenAI-o1よりもずっと小さいモデルにも関わらず、OpenAI-o1と同等レベルのアウトプットが出るということで話題になっています。

ただ、使う視点からすると公開されているモデルには以下のものがありライセンス的には別物なので注意が必要かと思います。

  • DeepSeek-R1
  • DeepSeek-R1-Distill

DeepSeek-R1は6710億の総パラメータ数とされています。従って、最近の表記で考えれば、671Bと言ったところだと思います。従って、実際に、ダウンロードして試行しているユーザがいるのは既存のLlamaなどをベースとしたDeepSeek-R1-Distillではないかと思います。

DeepSeek-R1はMITライセンスとされています。ただ、周辺を確認した範囲では学習データは不明で、案の定、OpenAIのライセンスに抵触するのではなどと言った、騒動の兆しはあります。とはいえ、学習データは不明なので、オープンソースと書いていいかは疑義があります。オープンウェイトであってもオープンソースではないと思います。

とはいえ、恐らく、OpenAI-o1よりは総パラメータ数が少なそうと考える理由はいくつかあり、恐らくそうだろうと考えています。

ただ、既に、DeepSeek-R1-DistillでローカルLLMをという記事はいくつか確認しております。とはいえ、先に述べたようにDistillは既知のモデルのファインチューンなので使用には注意が要ります。特に、DeepSeek-R1-Distill-Llama-70BはLlamaベースのため、Llamaライセンスに感染しており注意が必要です。

DeepSeek-R1の性能的には以下のようなサイトで確認しています。

MetaのLlamaライセンス契約:オープンソースとは程遠い理由とリスク

エグゼクティブサマリー

Llamaライセンス契約の主要リスク

  • 7億MAUの制限 : 利用者の総数が7億人を超えると使用停止リスクが発生し、派生モデルの利用者全てがカウントされる可能性がある。

  • Meta側の柔軟性 : Llamaライセンス契約はMeta側の都合で文言がいつでも変更可能であり、利用者に不利な条件が追加されるリスクがある。

  • エグゼクティブの信頼性 : 最近のSNSでのファクトチェック廃止など、エグゼクティブの行動に疑念を抱く要素が多く、法的安定性に欠ける場合がある。

  • ナラティブのリスク : ナラティブを無批判に信じ込むことは重大なリスクを生む可能性があり、批判的思考が必要。

  • 「妥当な倫理のためのガイドライン」とのギャップ : 喧伝されるナラティブと実際のライセンス文言の間にギャップが存在し、ユーザーは誤解しやすい。

  • 法律および管轄に関する条項 : カリフォルニア州法が適用され、国際取引における保護が適用されない場合がある。また、カリフォルニア州の裁判所の専属管轄権があるため、利用者にとって不利になる可能性がある。

Shuji Sadoから"Llamaライセンス契約を適用するAIモデルを使用する際の多大なリスク"という刺激的なアーティクルが出ています。

まず、ポイントがいくつかあります。一つはLlamaライセンス契約の本質。

  • ライセンス契約の認識:Llamaライセンスは一方的なライセンスではなく、利用者のサインが求められる契約である。

  • オープンウェイトの本質:ライセンスがオープンウェイトでしかなく、オープンソースと程遠いものであるという認識が重要。

オープンソースには定義があります。

  • 自由な再頒布
  • ソースコードの公開
  • 特定人物・集団に対する差別の禁止 : たとえば「特定国家への輸出を禁ずるソフトウェア」はOSDに合致しない。
  • 利用分野に対する差別の禁止 : 例えば「兵器への利用を禁ずるソフトウェア」はOSDに合致しない。
  • ライセンスの権利配分 : ライセンスが再頒布者に認める権利は差別なく与えなければならない。
  • ライセンスの技術的中立性 : ライセンスに特定技術に依存するような条項があってはならない。

この定義と比較すると、Llamaライセンスはこれらから逸脱しており、オープンソースとは程遠いものです。

特に注意すべきものは、

  • 7億MAUの制限 : 利用者の総数が7億人を突破した場合の使用停止リスク。特に派生モデルの場合派生モデルの利用者すべてがカウントされるリスクがある。
  • Meta側の柔軟性 : Llamaライセンス契約はMeta側の事情でいつでも文言を追加できる構造になっている。

さらに、Llamaライセンスの解釈には注意すべき点があり。出力結果によってトレーニングされたモデルにもLlamaライセンスが及ぶという解釈を採用しているものと思われる。

この部分は、出力にライセンスを主張しない、Gemmaとは明白に異なる点であり注意が必要。

Gemmaには以下の文言がある。

Google claims no rights in Outputs you generate using Gemma. You and your users are solely responsible for Outputs and their subsequent uses.

ただし、このLlamaライセンスは特許法などの解釈を明白に逸脱しているため、司法解釈は不安定と考えざるを得ない。

例えば、特許法では「消尽」という概念があり、適法に上市された時点で消尽します。仮に自動車に特許があるとしても、その自動車を運用しているタクシー会社に特許を主張することはできません。

結果的に、Llamaライセンスは、GPLなどの精神から考えれば、極めて不自由なライセンスである。

整合性の欠如

  • Metaのビジョンとライセンス文言の整合性 : Metaの「オープンである」というビジョンとライセンス文言の整合性が取れていない点に注意が必要。
  • 法的な安定性の欠如 : ナラティブは勝手な思い込みであり、法的な安定性を保証するものではない。実際にMetaの開発者が持つビジョンが、契約やライセンスの文言に反映されていない場合、利用者にとって大きなリスクとなる。

ナラティブのリスク

  • ナラティブの信頼性 : 昨今では、ナラティブを無批判に信じ込んでしまうことが重大なリスクを生む可能性がある。そのため、ナラティブに対しても批判的思考を持つことが重要である。

  • 「妥当な倫理のためのガイドライン」との整合性 :AIの透明性や信頼性確保のために喧伝されるナラティブと実際のライセンス文言の間にギャップが存在することが問題である。このギャップにより、ユーザーは誤解しやすく、潜在的なリスクを見逃す可能性がある。

ナラティブのリスクへの対処

  • 批判的思考の促進 : 情報を受け取る際には、常に批判的な視点を持つことが重要です。ナラティブの背後にある意図やバイアスを考慮することで、より客観的な理解が得られます。

  • 多様な視点の収集 : 異なる視点や意見を取り入れることで、ナラティブの偏りを軽減することができます。多様な情報源からの情報を集めることが重要です。

  • 透明性の確保 : ナラティブを構築する際には、その根拠やデータを明示することが求められます。透明性が確保されることで、信頼性が向上し、誤解を減らすことができます。

AIの透明性や信頼性確保のために「妥当な倫理のためのガイドライン」を備えた無料のオープンソース的なモデルとして喧伝することは危険であると思われます。特に、今はトランプ政権を始めとして多くのリスク要因が発生しています。トランプ氏の政策は、保護主義や規制強化を重視する傾向があり、特に対中政策や貿易政策においては厳しい姿勢を取ることが予想されます

LLMの未来: スケーリング則の限界と効率化の新アプローチ

今、LLMは一つの岐路にあると思っている、現状の認識としてはスケーリング則に限界が見受けられること。スケーリング即とはモデルの大規模化によって、モデルの精度、アウトプットの品質が高まるという経験則を指す。しかし、スケーリング即に現状、限界が見えていて、モデルの大規模化が必ずしもアウトプットの深化に結び付かない例が観測されている。

AIの天井が見えてきた日:スケール則の限界と新時代の幕開け

最近の事例から、私は今後の有望な方向性として二つのアプローチを見出しています。

MoE (Mixture of Experts):比較的歴史の長い発想で、Gradient Boostingなどもその考え方と考えられます。複数のモデルを組み合わせ、それぞれに重み付けを行うことで高精度なモデルを構築する手法です。

BitNet:比較的新しい考え方で、ニューラルネットワークは発火しているか否かという状態を表すため、ビットレンジを極限まで圧縮できるはずという理論に基づきます。このアプローチでは、計算リソースの使用を大幅に削減することが可能です。

これまでは、モデルの大規模化競争が主流でしたが、これは妥当な方向性でしょうか。ビッグプレイヤーは結果的に原子力発電にまで進んでいますが、これがよい方向性だとは思えません。したがって、モデルの効率化が今後のゲームチェンジャーとなり得ると考えています。

LLM技術の革新とその課題

https://gigazine.net/news/20241224-openai-gpt5-orion-delays/ でGPT-5が苦戦中というのが出ているが。

僕の理解では、現状のLLMは古典的な自然言語処理では字句解析、構文解析、意味解析と下から順に階層的に処理して最終的にある問題の回答を求めようとしていたのを、LLMの隠れ層に中間的な工程を委ねていると思っている。古典的な自然言語処理がうまくいかなかったのは階層的な処理だと、例えば字句解析が90%の精度で、構文解析が80%の精度だと仮定すると、構文解析のところで実際の精度は72%になる。そして、工程を経るごとに精度は下がり続け決して上がることはない。

故に実際の問題のところに至るまでに実用的なラインを割り込んでしまう、実際、LLMの登極前の時点で、字句解析、構文解析、意味解析を実用的な精度できちんとやり切っているシステムを私は聞いたことがない。多くの場合は、Eliza的なパターンマッチングなどで動いていたと思う。


LLMはEnd to endで入力されたものと、出力とを完全に結びつけることで初めて、一つのブレイクスルーを得たと思う。途中を隠れ層に押し込むことで、精度低下を不可視化したと思う。勿論、技術的には活性化関数などや、もちろん計算機の進化によって、深層学習が実用になったこと、そして、Attention機構のようにRNN的な成果を実用的なパフォーマンスで得られるようになったことが大きい。

しかし、根本的には、人間はLLM内で何が起きているかを理解できていないし、結果的にフレーム問題なども前進したかどうかすらわからない。この辺に今のLLMを考える難しさがある。