ユーザ用ツール

サイト用ツール


official_blog:260113_analysis-of-benchmarking-world-model-learning

文書の過去の版を表示しています。


260113 世界モデル学習のベンチマーク分析 (ANALYSIS OF BENCHMARKING WORLD MODEL LEARNING)

著者: Qubic Scientific Team
公開日: 2026年1月13日
原文: ANALYSIS OF BENCHMARKING WORLD MODEL LEARNING

友人と会話しながら街を歩いているとき、あなたの神経系は常に変数を推定しています。身体の位置、移動速度、方向、環境の構造、そして移動における予想される誤差の範囲などです。これらの変数は一歩ごとにゼロから再計算されるのではなく、継続的に更新されます。誰かが突然目の前を横切ったり、地面の状態が変わったりしても、その新しい情報は前の状態をキャンセルするのではなく、それを調整します。私たちの内部モデルが「時間的コヒーレンス(一貫性)」を維持しているからこそ、私たちは歩き続けることができるのです。慣れない通りに入っても、システムは連続性を失うことなく適応します。認知神経科学では、このように安定し、修正可能で、先見的な内部ダイナミクスを維持する能力を「世界モデル(World Model)」と呼びます。それは単なる環境の地図ではなく、知覚、行動、時間を結びつける方程式の暗黙のシステムです。

もう一つの簡単な例は料理です。音を聞き、蒸気を観察し、鍋を火にかけてからの時間を知るだけで、卵が茹で上がったことがわかります。鍋を開ける必要はありません。翌日に別のキッチンで料理をしても、迷うことはありません。ナイフが別の引き出しにあるかもしれませんが、あなたの内部の世界モデルは素早く調整されます。脳がそれぞれのキッチンの地図を作成しているのではないことは明らかです。なぜなら、それではあらゆる場所の地図が必要になってしまうからです。そうではなく、脳は物事がどのように機能するかという「操作的な理解」を構築しているのです。

これを達成するために、脳は時間とともに進化する内部状態を維持します。何かが起こるのをただ受動的に待って反応するのではなく、継続的に予見しています。何かが期待通りに起こらなかったとき、エラーによってモデルが消去されるのではなく、モデルが調整されるのです。

「世界モデル」について語るとき、それが脳であれ人工知能であれ、静的な表現や現実の明示的な記述を指しているわけではありません。それは、システムが時間とともに進化する内部状態を維持し、継続的にリセットすることなく予見、修正、行動することを可能にする能力のことです。

人工知能における世界モデルの概念も同様です。世界モデルを持つシステムは、単に即座の刺激に対してうまく反応するだけでなく、環境に存在するダイナミクスを学習しています。次に何が起こるか、何かが変わればどうなるか、そして条件が通常のものではなくなったときにどのように行動を再編成するかをシミュレートできます。多くの研究者にとって、AIの真の進歩は世界モデルを学習することを意味します。

1. 世界モデルへの従来のアプローチ

これまで、世界モデルへのアプローチは間接的に評価されてきました。

  • 強化学習:
    • エージェントは獲得する報酬によって測定されます。
    • 特定のコンロの火が「よりうまく機能する」ことを学習するかもしれませんが、それは必ずしも「なぜか」を真に理解していることを意味しません。
    • 強い意味での世界モデルを持たなくても機能できてしまいます。
  • ARC Challenge:
    • システムが例から隠れたルールを推論できるかに焦点を当てています。
    • 静的な幾何学的関係には適応しますが、図形のサイズが変わるなどの変化には失敗します。
    • 探索や相互作用のない、静的な環境で動作しています。

2. WorldTest フレームワーク

論文『Benchmarking World Model Learning』は、この限界から出発し、システムがうまく予測するか、あるいはタスクを解決するかを測定するだけでは不十分だと指摘しています。世界モデルを学習したかどうかを知るには、直接問いかける必要があります。

著者らは新しいフレームワーク「WorldTest」を提案しています。

  1. 自由な相互作用: まず、エージェントは外部報酬を受け取ることなく環境と自由に相互作用します。
  2. 新たな課題への直面: 次に、元の環境から派生した新しい課題に直面させられます。
  3. 真の学習の露呈: この第2の環境でのパフォーマンスが、エージェントが世界について真に何を学んだかを明らかにします。

これに向けて、人間の基本的な能力を反映した3つのタイプの課題を提示しています。

図1:WorldTestフレームワークとAutumnBenchインスタンスの概要。エージェントはまず外部報酬なしで環境とインタラクトして世界モデルを構築し、その後、派生課題に基づいて評価されます。左上のボックスには、AutumnBenchの9つのサンプル環境が表示されています。中央の黄色の注釈は、AutumnBenchのヒューマンインターフェースにおける主要なUI要素について説明しています。

  • 軌道の予測:
    • 観察されていない部分を予測すること。
    • 例:料理の完成まであとどれくらいか推測する、あるいは街を歩きながら既知の広場までの距離を把握するなど。
  • ダイナミクスの変化の検出:
    • 環境の挙動が期待外れになったタイミングを特定すること。
    • 例:新しいキッチンが以前と違うことに気づく、あるいは工事で通りが変わったことに気づく瞬間。
  • プランニング(計画):
    • 学習した情報を使って目標に到達すること。
    • 例:レシピの段取りを整理する、あるいは目的地までのルートを選択・調整すること。

3. なぜ AI モデルは失敗するのか

論文の結果は啓示的です。AIモデルが失敗するのは「推論」ができないからではなく、矛盾する情報が現れたときに適切にデータを更新できず、データが適合しなくなっても学習したルールを適用し続けるからです。

  • メタ認知の欠如:
    • どの情報を探すべきか、いつ疑うべきか、いつ学んだことを修正すべきかという能力が欠けています。
  • LLM(大規模言語モデル)の限界:
    • Claude、Gemini、Grokなどは一貫したテキスト生成には優れていますが、彼らの内部状態は「真の状態」ではありません。
    • 独自のダイナミクスに従って時間とともに進化する変数が存在しません。
    • LLMはキッチンの仕組みを説明できても、自身の世界モデルが失敗していることを検出できないのです。

4. NEURAXON のアプローチ

Neuraxon(ニューラクソン)では、時間をシステムの状態の一部として扱います。

  • ダイナミックなアーキテクチャ:
    • 内部変数が存在し、持続し、進化し、明示的なダイナミクスを通じて変化します。
    • システムは世界を「思い出す」のではなく、世界を「アクティブ(活動状態)」に保ちます。
  • LLMとの違い:
    • ルールが変わったときに構造を適応させることができます。これは単にデータやパラメータ、計算量を増やすことの問題ではありません。

最終的に、予測がうまいシステムすべてが世界モデルを持っているわけではありません。脳は持っています。人工知能がそれ以上を目指すのであれば、既存のスキームを力と金でスケールアップさせるのではなく、アーキテクチャを再考し、世界モデルを含める必要があります。Neuraxon–Qubic–Aigarthにとって、アーキテクチャは動的であり、したがってリアルタイムの適応が可能です。

5. 世界モデルのための分散型インフラ

世界モデルAIシステムの現状を考えると、なぜ分散型計算インフラが重要になるのかは明らかです。

  • 継続的な演算:
    • QubicのアーキテクチャとuPoW(有用なプルーフ・オブ・ワーク)メカニズムは、演算が「エピソード的」ではなく「継続的」である計算基盤を提供します。
  • リアルタイム性の担保:
    • Qubicにおいて、分散型アーキテクチャは単なるスケーラブルなプラットフォームではありません。
    • 固定されたデータセット上の再構築ではなく、リアルタイムに基づいた根本的に異なるクラスの知能システムを可能にするものです。

参考文献: Warrier, A., et al. (2025). Benchmarking World-Model Learning. arXiv:2510.19788.

official_blog/260113_analysis-of-benchmarking-world-model-learning.1768341823.txt.gz · 最終更新: by d.azuma