文書の過去の版を表示しています。

260113 世界モデル学習のベンチマーク分析 (ANALYSIS OF BENCHMARKING WORLD MODEL LEARNING)

著者： Qubic Scientific Team
公開日： 2026年1月13日
原文： ANALYSIS OF BENCHMARKING WORLD MODEL LEARNING

あなたは友人と会話をしながら街を歩いています。あなたの神経系は常に変数を推定しています。身体の位置、移動する速度、方向、環境の構造、そして動作における予想される誤差の範囲です。これらの変数は一歩ごとにゼロから再計算されるのではなく、継続的に更新されます。誰かが突然あなたの進路を横切ったり、地面が変化したりしても、この新しい情報は以前の状態を取り消すのではなく、調整します。私たちが歩き続けることができるのは、私たちの内部モデルが時間的な一貫性を維持しているからです。あまり馴染みのない通りに入ると、システムは連続性を失うことなく適応します。認知神経科学では、安定した、修正可能で、予測的な内部ダイナミクスを維持するこの能力を「世界モデル」と呼びます。これは環境の地図ではなく、知覚、行動、時間を結び付ける暗黙の方程式のシステムです。

もう一つの簡単な例は料理です。卵が茹であがったかどうかは、音を聞き、湯気を観察し、鍋がコンロの上でどれくらい加熱されていたかを知るだけで分かります。鍋を開ける必要はありません。翌日、別のキッチンで同じことをしても、迷うことはありません。包丁は別の引き出しに入っているかもしれませんが、あなたの内なる世界モデルはすぐに適応します。脳はキッチンごとに地図を作成するのではなく（そうするとすべての場所に地図が必要になるため）、物事がどのように機能するかについての操作的理解を構築することは明らかです。

これを実現するために、モデルは時間とともに変化する内部状態を維持します。何かが起こるのを受動的に待つのではなく、常に予測します。何かが期待通りに起こらなかったとしても、エラーによってモデルが消去されるのではなく、調整されます。

脳においても人工知能においても、「世界モデル」について語るとき、私たちは現実の静的な表現や明示的な記述を指しているのではありません。それは、システムが時間の経過とともに進化する内部状態を維持し、継続的にリセットすることなく予測、修正、そして行動することを可能にする能力です。

人工知能における世界モデルの概念はこれに似ています。世界モデルを持つシステムは、単に目の前の刺激にうまく反応するだけでなく、環境に存在するダイナミクスを学習しています。次に何が起こるか、何かが変化したら何が起こるか、そして状況が通常と異なる場合にどのように行動を再編成するかをシミュレートできます。多くの研究者にとって、AIの真の進歩とは、世界モデルの学習を意味します。

世界モデルへのこれまでのアプローチ

これまで、世界モデルへのアプローチは間接的に評価されてきました。

強化学習の例:
- エージェントは獲得する報酬によって評価されます。
- あるエージェントは、特定のコンロのバーナーがより多くの報酬をもたらすため「より良く機能する」と学習するかもしれません。
- しかし、それは真にその理由を学習したことを意味するわけではありません。強い意味での世界モデルを持たなくても機能することができます。
ARCチャレンジなどのアプローチ:
- システムが例から隠れたルールを推論できるかどうかに焦点が当てられます。
- 静的な幾何学的関係に基づくルールが新しいケースでも維持される場合、システムは適応します。
- しかし、図形のサイズが変化すると適応に失敗します。静的な環境で動作し、探索やインタラクションは行われません。

WorldTest フレームワーク

記事「世界モデル学習のベンチマーク」は、この限界から出発し、システムが適切に予測できるか、あるいはタスクを解決できるかを測定するだけでは不十分であることを指摘しています。世界モデルを学習したかどうかを知りたい場合は、直接尋ねる必要があります。

著者らは、新たな枠組み「WorldTest」を提案します。そのアイデアはシンプルです。

ステップ1: エージェントは外部報酬を受け取らずに環境と自由に相互作用する。
ステップ2: 元の環境とは異なるものの関連性のある明確な目的を持つ、元の環境から派生した新たな課題に直面する。
ステップ3: この新たな環境でのパフォーマンスを評価する。これは、エージェントが世界について真に何を学習したかを明らかにするものであり、以前の報酬を最大化した行動だけでなく、その行動自体も明らかになる。

この目的のために、彼らは人間の非常に基本的な能力を反映した3種類の課題を提示しています。

図1：WorldTestフレームワークとAutumnBenchインスタンスの概要。エージェントはまず外部報酬なしで環境とインタラクトして世界モデルを構築し、その後、派生課題に基づいて評価されます。左上のボックスには、AutumnBenchの9つのサンプル環境が表示されています。中央の黄色の注釈は、AutumnBenchのヒューマンインターフェースにおける主要なUI要素について説明しています。

ワールドテストフレームワークの例。Warrier et al. 2025 より。

1つ目：軌道の予測:
- 最終的な軌道の観測されていない部分を予測すること。
- 例：調理完了までの残り時間を推測する、あるいは移動距離と環境の手がかりから見慣れた広場からの距離を知る。
2つ目：ダイナミクスの変化の検出:
- 環境のダイナミクスの変化を検出し、期待通りに動作しなくなったときを識別すること。
- 例：新しいキッチンの動作の変化や、工事・交通規制による通りの変化に気づき、環境が以前のモデルと一致しなくなった正確な瞬間を認識する。
3つ目：計画性（プランニング）:
- 学習した情報がどのように目標達成に活用されるかを評価すること。
- 例：レシピを段階的に整理したり、移動しながらルートを選択・調整したりする。意思決定は、更新される内部状態に基づいて行われる。

AIモデルが失敗する理由

論文で報告された結果は示唆に富んでいます。AIモデルが失敗する理由は、「推論」ができないからではありません。

データ更新の不備:
- 矛盾する情報が現れたときにデータを適切に更新せず、適合しなくなっても学習したルールを適用してしまいます。
メタ認知の欠如:
- 環境をリセットしたり何もしなかったりといった中立的な行動を実験ツールとして用いていない。
- 自分が知っていることをどのように認識するか、つまりどのような情報を探すべきか、いつ疑うべきか、そしていつ学習内容を修正すべきかという点に関係している。
LLM（大規模言語モデル）の限界:
- Claude、Gemini、Grokなどは一貫性のあるテキストと流暢な応答には優れていますが、内部状態は「真の状態」ではありません。
- モデル自身のダイナミクスに従って時間の経過とともに変化する変数は存在しないのです。
- LLMはキッチンの仕組みを説明できても、世界モデルが機能していないことを検出できません。

Neuraxon のアプローチ

Neuraxonでは、時間をシステムの状態の一部として扱います。

ダイナミクスの保持:
- 内部変数は明示的なダイナミクスを通じて存在し、持続し、進化し、変化します。
- システムは世界を「記憶」するのではなく、世界をアクティブに保ちます。
適応能力:
- これはLLMでは実現できないこと、つまりルールの変化に応じて構造を適応させることを可能にします。
- データ、パラメータ、計算量を増やすという問題ではなく、アーキテクチャの再考が必要です。

結局のところ、優れた予測能力を持つすべてのシステムが世界モデルを持っているわけではありません。脳は持っています。人工知能がさらなる高みを目指すのであれば、既存の仕組みを単に権力と資金でスケールさせるのではなく、世界モデルを組み込むことでアーキテクチャを再考する必要があります。Neuraxon–Qubic–Aigarthの場合、アーキテクチャは動的であり、したがってリアルタイムの適応が可能です。

世界モデルのための分散型インフラストラクチャ

世界モデルAIシステムの現状を考えると、分散型計算インフラストラクチャの重要性は極めて明確です。

継続的な計算基盤:
- Qubicアーキテクチャ、分散型設計、そしてuPoWメカニズムは、散発的ではなく継続的な計算基盤を提供します。
リアルタイム性の実現:
- 従来の固定データセットに基づく再構築ではなく、リアルタイム性を基盤とする、根本的に異なるクラスのインテリジェントシステムを実現するものです。

参考文献: Warrier, A., Nguyen, D., Naim, M., Jain, M., Liang, Y., Schroeder, K., & Tavares, Z. (2025). Benchmarking World-Model Learning. arXiv preprint arXiv:2510.19788.

補足／論文要約：世界モデル学習のベンチマーク (WorldTest)

この論文は、人工知能が単なる統計的なパターンマッチングを超えて、現実世界の仕組みをシミュレートする「世界モデル（World Model）」を真に獲得しているかを測定するための新しい評価手法を提案しています。

1. 「世界モデル」の本質的な定義

世界モデルとは、システムが環境の動的な性質を内部的に表現し、それを利用して予測や計画を行う能力を指します。

予測と期待:
- 脳や知的なシステムは、次に何が起こるかを常に予測しています。

エラーの修正:
- 予測と現実にズレが生じたとき、システムは即座に内部モデルを更新（修正）し、一貫性を保ちます。

時間的な連続性:
- 断片的な情報ではなく、時間の経過とともに進化し続ける「内部状態」を維持する能力です。

2. 既存のベンチマークが抱える限界

従来のAI評価手法では、システムが本当に「理解」しているのかを判別できませんでした。

報酬によるバイアス:
- 強化学習では報酬を最大化する「特定の行動」だけを学習してしまい、環境の仕組み（ロジック）そのものを理解していない場合があります。

静的な推論:
- 従来のテストの多くは静的な画像やテキストの関係性を問うものが多く、時間的な変化や相互作用を伴う「動的な世界」を評価できていません。

3. WorldTest：新しい評価フレームワーク

著者らは、世界モデルの有無を厳密にテストするために、2段階の評価プロセスを導入しました。

第1段階：報酬なしの自由探索:
- エージェントに特定の目的（報酬）を与えず、環境内で自由に動かします。ここでエージェントは純粋に「この世界はどう動くか」というモデルを構築します。
第2段階：派生課題による評価:
- 学習した環境をベースに、全く新しい目標を与えます。世界モデルが構築されていれば、事前の追加学習なしで即座に新しい状況に適応できます。

4. 評価のための3つの主要な課題

WorldTestでは、知的な存在が持つべき3つの基本能力を測定します。

軌道の予測能力:
- 途中経過が見えない状態でも、最終的な結果や経過時間をシミュレーションできるか。

ダイナミクスの変化検出:
- 環境のルールが変更された際、古い知識を捨てて「新しいルールに変わった瞬間」を正確に認識できるか。

柔軟なプランニング:
- 障害物やルート変更が発生しても、内部モデルを更新しながら目的地へ到達できるか。

5. 現在のAI（LLM等）における主要な課題

実験の結果、現行の最先端モデル（大規模言語モデルなど）には、世界モデルの構築を阻む以下の弱点が確認されました。

情報の更新不全:
- 以前のデータと矛盾する情報が現れても、以前に学習した「統計的な尤もらしさ」を優先してしまい、矛盾を無視して古いルールを適用し続ける傾向があります。

メタ認知の欠如:
- 「何が分かっていないか」を判断し、情報を補うための中立的な行動（観察やリセット）を戦略的に選ぶことができません。

非動的な内部状態:
- 時間とともに自律的に進化する変数を持たず、入力に対する「一回限りの応答」の繰り返しに留まっていることが失敗の原因です。

結論

真の知能を実現するためには、より大規模なデータやパラメータの追加ではなく、アーキテクチャそのものを「時間軸を含んだ動的な世界モデルを構築・更新できる形式」へと転換する必要があることが示唆されています。

260113, Neuraxon

Qubic Japan Local Community Wiki

目次