文書の過去の版を表示しています。

260113 世界モデル学習のベンチマーク分析 (ANALYSIS OF BENCHMARKING WORLD MODEL LEARNING)

著者： Qubic Scientific Team
公開日： 2026年1月13日
原文： ANALYSIS OF BENCHMARKING WORLD MODEL LEARNING

あなたは友人と会話をしながら街を歩いています。あなたの神経系は常に変数を推定しています。身体の位置、移動する速度、方向、環境の構造、そして動作における予想される誤差の範囲です。これらの変数は一歩ごとにゼロから再計算されるのではなく、継続的に更新されます。誰かが突然あなたの進路を横切ったり、地面が変化したりしても、この新しい情報は以前の状態を取り消すのではなく、調整します。私たちが歩き続けることができるのは、私たちの内部モデルが時間的な一貫性を維持しているからです。あまり馴染みのない通りに入ると、システムは連続性を失うことなく適応します。認知神経科学では、安定した、修正可能で、予測的な内部ダイナミクスを維持するこの能力を「世界モデル」と呼びます。これは環境の地図ではなく、知覚、行動、時間を結び付ける暗黙の方程式のシステムです。

もう一つの簡単な例は料理です。卵が茹であがったかどうかは、音を聞き、湯気を観察し、鍋がコンロの上でどれくらい加熱されていたかを知るだけで分かります。鍋を開ける必要はありません。翌日、別のキッチンで同じことをしても、迷うことはありません。包丁は別の引き出しに入っているかもしれませんが、あなたの内なる世界モデルはすぐに適応します。脳はキッチンごとに地図を作成するのではなく（そうするとすべての場所に地図が必要になるため）、物事がどのように機能するかについての操作的理解を構築することは明らかです。

これを実現するために、モデルは時間とともに変化する内部状態を維持します。何かが起こるのを受動的に待つのではなく、常に予測します。何かが期待通りに起こらなかったとしても、エラーによってモデルが消去されるのではなく、調整されます。

脳においても人工知能においても、「世界モデル」について語るとき、私たちは現実の静的な表現や明示的な記述を指しているのではありません。それは、システムが時間の経過とともに進化する内部状態を維持し、継続的にリセットすることなく予測、修正、そして行動することを可能にする能力です。

人工知能における世界モデルの概念はこれに似ています。世界モデルを持つシステムは、単に目の前の刺激にうまく反応するだけでなく、環境に存在するダイナミクスを学習しています。次に何が起こるか、何かが変化したら何が起こるか、そして状況が通常と異なる場合にどのように行動を再編成するかをシミュレートできます。多くの研究者にとって、AIの真の進歩とは、世界モデルの学習を意味します。

世界モデルへのこれまでのアプローチ

これまで、世界モデルへのアプローチは間接的に評価されてきました。

強化学習の例:
- エージェントは獲得する報酬によって評価されます。
- あるエージェントは、特定のコンロのバーナーがより多くの報酬をもたらすため「より良く機能する」と学習するかもしれません。
- しかし、それは真にその理由を学習したことを意味するわけではありません。強い意味での世界モデルを持たなくても機能することができます。
ARCチャレンジなどのアプローチ:
- システムが例から隠れたルールを推論できるかどうかに焦点が当てられます。
- 静的な幾何学的関係に基づくルールが新しいケースでも維持される場合、システムは適応します。
- しかし、図形のサイズが変化すると適応に失敗します。静的な環境で動作し、探索やインタラクションは行われません。

WorldTest フレームワーク

記事「世界モデル学習のベンチマーク」は、この限界から出発し、システムが適切に予測できるか、あるいはタスクを解決できるかを測定するだけでは不十分であることを指摘しています。世界モデルを学習したかどうかを知りたい場合は、直接尋ねる必要があります。

著者らは、新たな枠組み「WorldTest」を提案します。そのアイデアはシンプルです。

ステップ1: エージェントは外部報酬を受け取らずに環境と自由に相互作用する。
ステップ2: 元の環境とは異なるものの関連性のある明確な目的を持つ、元の環境から派生した新たな課題に直面する。
ステップ3: この新たな環境でのパフォーマンスを評価する。これは、エージェントが世界について真に何を学習したかを明らかにするものであり、以前の報酬を最大化した行動だけでなく、その行動自体も明らかになる。

この目的のために、彼らは人間の非常に基本的な能力を反映した3種類の課題を提示しています。

図1：WorldTestフレームワークとAutumnBenchインスタンスの概要。エージェントはまず外部報酬なしで環境とインタラクトして世界モデルを構築し、その後、派生課題に基づいて評価されます。左上のボックスには、AutumnBenchの9つのサンプル環境が表示されています。中央の黄色の注釈は、AutumnBenchのヒューマンインターフェースにおける主要なUI要素について説明しています。

1つ目：軌道の予測:
- 最終的な軌道の観測されていない部分を予測すること。
- 例：調理完了までの残り時間を推測する、あるいは移動距離と環境の手がかりから見慣れた広場からの距離を知る。
2つ目：ダイナミクスの変化の検出:
- 環境のダイナミクスの変化を検出し、期待通りに動作しなくなったときを識別すること。
- 例：新しいキッチンの動作の変化や、工事・交通規制による通りの変化に気づき、環境が以前のモデルと一致しなくなった正確な瞬間を認識する。
3つ目：計画性（プランニング）:
- 学習した情報がどのように目標達成に活用されるかを評価すること。
- 例：レシピを段階的に整理したり、移動しながらルートを選択・調整したりする。意思決定は、更新される内部状態に基づいて行われる。

AIモデルが失敗する理由

論文で報告された結果は示唆に富んでいます。AIモデルが失敗する理由は、「推論」ができないからではありません。

データ更新の不備:
- 矛盾する情報が現れたときにデータを適切に更新せず、適合しなくなっても学習したルールを適用してしまいます。
メタ認知の欠如:
- 環境をリセットしたり何もしなかったりといった中立的な行動を実験ツールとして用いていない。
- 自分が知っていることをどのように認識するか、つまりどのような情報を探すべきか、いつ疑うべきか、そしていつ学習内容を修正すべきかという点に関係している。
LLM（大規模言語モデル）の限界:
- Claude、Gemini、Grokなどは一貫性のあるテキストと流暢な応答には優れていますが、内部状態は「真の状態」ではありません。
- モデル自身のダイナミクスに従って時間の経過とともに変化する変数は存在しないのです。
- LLMはキッチンの仕組みを説明できても、世界モデルが機能していないことを検出できません。

Neuraxon のアプローチ

Neuraxonでは、時間をシステムの状態の一部として扱います。

ダイナミクスの保持:
- 内部変数は明示的なダイナミクスを通じて存在し、持続し、進化し、変化します。
- システムは世界を「記憶」するのではなく、世界をアクティブに保ちます。
適応能力:
- これはLLMでは実現できないこと、つまりルールの変化に応じて構造を適応させることを可能にします。
- データ、パラメータ、計算量を増やすという問題ではなく、アーキテクチャの再考が必要です。

結局のところ、優れた予測能力を持つすべてのシステムが世界モデルを持っているわけではありません。脳は持っています。人工知能がさらなる高みを目指すのであれば、既存の仕組みを単に権力と資金でスケールさせるのではなく、世界モデルを組み込むことでアーキテクチャを再考する必要があります。Neuraxon–Qubic–Aigarthの場合、アーキテクチャは動的であり、したがってリアルタイムの適応が可能です。

世界モデルのための分散型インフラストラクチャ

世界モデルAIシステムの現状を考えると、分散型計算インフラストラクチャの重要性は極めて明確です。

継続的な計算基盤:
- Qubicアーキテクチャ、分散型設計、そしてuPoWメカニズムは、散発的ではなく継続的な計算基盤を提供します。
リアルタイム性の実現:
- 従来の固定データセットに基づく再構築ではなく、リアルタイム性を基盤とする、根本的に異なるクラスのインテリジェントシステムを実現するものです。

参考文献: Warrier, A., Nguyen, D., Naim, M., Jain, M., Liang, Y., Schroeder, K., & Tavares, Z. (2025). Benchmarking World-Model Learning. arXiv preprint arXiv:2510.19788.

260113, Neuraxon

Qubic Japan Local Community Wiki

目次