目次

260113 世界モデル学習のベンチマーク分析 (ANALYSIS OF BENCHMARKING WORLD MODEL LEARNING)

著者: Qubic Scientific Team
公開日: 2026年1月13日
原文: ANALYSIS OF BENCHMARKING WORLD MODEL LEARNING

あなたは友人と会話をしながら街を歩いています。あなたの神経系は常に変数を推定しています。身体の位置、移動する速度、方向、環境の構造、そして動作における予想される誤差の範囲です。これらの変数は一歩ごとにゼロから再計算されるのではなく、継続的に更新されます。誰かが突然あなたの進路を横切ったり、地面が変化したりしても、この新しい情報は以前の状態を取り消すのではなく、調整します。私たちが歩き続けることができるのは、私たちの内部モデルが時間的な一貫性を維持しているからです。あまり馴染みのない通りに入ると、システムは連続性を失うことなく適応します。認知神経科学では、安定した、修正可能で、予測的な内部ダイナミクスを維持するこの能力を「世界モデル」と呼びます。これは環境の地図ではなく、知覚、行動、時間を結び付ける暗黙の方程式のシステムです。

もう一つの簡単な例は料理です。卵が茹であがったかどうかは、音を聞き、湯気を観察し、鍋がコンロの上でどれくらい加熱されていたかを知るだけで分かります。鍋を開ける必要はありません。翌日、別のキッチンで同じことをしても、迷うことはありません。包丁は別の引き出しに入っているかもしれませんが、あなたの内なる世界モデルはすぐに適応します。脳はキッチンごとに地図を作成するのではなく(そうするとすべての場所に地図が必要になるため)、物事がどのように機能するかについての操作的理解を構築することは明らかです。

これを実現するために、モデルは時間とともに変化する内部状態を維持します。何かが起こるのを受動的に待つのではなく、常に予測します。何かが期待通りに起こらなかったとしても、エラーによってモデルが消去されるのではなく、調整されます。

脳においても人工知能においても、「世界モデル」について語るとき、私たちは現実の静的な表現や明示的な記述を指しているのではありません。それは、システムが時間の経過とともに進化する内部状態を維持し、継続的にリセットすることなく予測、修正、そして行動することを可能にする能力です。

人工知能における世界モデルの概念はこれに似ています。世界モデルを持つシステムは、単に目の前の刺激にうまく反応するだけでなく、環境に存在するダイナミクスを学習しています。次に何が起こるか、何かが変化したら何が起こるか、そして状況が通常と異なる場合にどのように行動を再編成するかをシミュレートできます。多くの研究者にとって、AIの真の進歩とは、世界モデルの学習を意味します。

世界モデルへのこれまでのアプローチ

これまで、世界モデルへのアプローチは間接的に評価されてきました。

WorldTest フレームワーク

記事「世界モデル学習のベンチマーク」は、この限界から出発し、システムが適切に予測できるか、あるいはタスクを解決できるかを測定するだけでは不十分であることを指摘しています。世界モデルを学習したかどうかを知りたい場合は、直接尋ねる必要があります。

著者らは、新たな枠組み「WorldTest」を提案します。そのアイデアはシンプルです。

  1. ステップ1: エージェントは外部報酬を受け取らずに環境と自由に相互作用する。
  2. ステップ2: 元の環境とは異なるものの関連性のある明確な目的を持つ、元の環境から派生した新たな課題に直面する。
  3. ステップ3: この新たな環境でのパフォーマンスを評価する。これは、エージェントが世界について真に何を学習したかを明らかにするものであり、以前の報酬を最大化した行動だけでなく、その行動自体も明らかになる。

この目的のために、彼らは人間の非常に基本的な能力を反映した3種類の課題を提示しています。


図1:WorldTestフレームワークとAutumnBenchインスタンスの概要。エージェントはまず外部報酬なしで環境とインタラクトして世界モデルを構築し、その後、派生課題に基づいて評価されます。左上のボックスには、AutumnBenchの9つのサンプル環境が表示されています。中央の黄色の注釈は、AutumnBenchのヒューマンインターフェースにおける主要なUI要素について説明しています。

ワールドテストフレームワークの例。Warrier et al. 2025 より。

AIモデルが失敗する理由

論文で報告された結果は示唆に富んでいます。AIモデルが失敗する理由は、「推論」ができないからではありません。

Neuraxon のアプローチ

Neuraxon では、時間をシステムの状態の一部として扱います。

結局のところ、優れた予測能力を持つすべてのシステムが世界モデルを持っているわけではありません。脳は持っています。人工知能がさらなる高みを目指すのであれば、既存の仕組みを単に権力と資金でスケールさせるのではなく、世界モデルを組み込むことでアーキテクチャを再考する必要があります。Neuraxon–Qubic–Aigarthの場合、アーキテクチャは動的であり、したがってリアルタイムの適応が可能です。

世界モデルのための分散型インフラストラクチャ

世界モデルAIシステムの現状を考えると、分散型計算インフラストラクチャの重要性は極めて明確です。


参考文献: Warrier, A., Nguyen, D., Naim, M., Jain, M., Liang, Y., Schroeder, K., & Tavares, Z. (2025). Benchmarking World-Model Learning. arXiv preprint arXiv:2510.19788.


補足/論文要約:世界モデル学習のベンチマーク (WorldTest) Gemini による解説

この研究論文は、人工知能が環境の仕組みを深く理解する能力を測定するための新しい評価手法、WorldTestを提案しています。従来の評価法は単純な予測や報酬獲得に偏っていましたが、本手法は報酬のない探索段階と、その後に続く未知の課題への対応力を切り離して評価するのが特徴です。

著者らはこの枠組みに基づき、43種類の仮想環境と129のタスクから構成されるベンチマークAutumnBenchを開発しました。実験の結果、現在の最新AIモデルは人間のパフォーマンスに及ばず、単に計算量を増やすだけでは解決できない課題があることが浮き彫りになりました。この成果は、AIがより汎用的な世界モデルを獲得するための新たな指針を提示しています。

NotebookLM よる描画

1. 「世界モデル」の本質的な定義

世界モデルとは、システムが環境の動的な性質を内部的に表現し、それを利用して予測や計画を行う能力を指します。

2. 既存のベンチマークが抱える限界

従来のAI評価手法では、システムが本当に「理解」しているのかを判別できませんでした。

3. WorldTest:新しい評価フレームワーク

著者らは、世界モデルの有無を厳密にテストするために、2段階の評価プロセスを導入しました。

  1. 第1段階:報酬なしの自由探索:
    • エージェントに特定の目的(報酬)を与えず、環境内で自由に動かします。ここでエージェントは純粋に「この世界はどう動くか」というモデルを構築します。
  2. 第2段階:派生課題による評価:
    • 学習した環境をベースに、全く新しい目標を与えます。世界モデルが構築されていれば、事前の追加学習なしで即座に新しい状況に適応できます。

4. 評価のための3つの主要な課題

WorldTestでは、知的な存在が持つべき3つの基本能力を測定します。

5. 現在のAI(LLM等)における主要な課題

実験の結果、現行の最先端モデル(大規模言語モデルなど)には、世界モデルの構築を阻む以下の弱点が確認されました。

結論

真の知能を実現するためには、より大規模なデータやパラメータの追加ではなく、アーキテクチャそのものを「時間軸を含んだ動的な世界モデルを構築・更新できる形式」へと転換する必要があることが示唆されています。