Epoch 197
文書の過去の版を表示しています。
著者: Qubic Scientific Team 公開日: 2026年1月13日 原文: ANALYSIS OF BENCHMARKING WORLD MODEL LEARNING
あなたは友人と会話をしながら街を歩いています。あなたの神経系は常に変数を推定しています。身体の位置、移動する速度、方向、環境の構造、そして動作における予想される誤差の範囲です。これらの変数は一歩ごとにゼロから再計算されるのではなく、継続的に更新されます。誰かが突然あなたの進路を横切ったり、地面が変化したりしても、この新しい情報は以前の状態を取り消すのではなく、調整します。私たちが歩き続けることができるのは、私たちの内部モデルが時間的な一貫性を維持しているからです。あまり馴染みのない通りに入ると、システムは連続性を失うことなく適応します。認知神経科学では、安定した、修正可能で、予測的な内部ダイナミクスを維持するこの能力を「世界モデル」と呼びます。これは環境の地図ではなく、知覚、行動、時間を結び付ける暗黙の方程式のシステムです。
もう一つの簡単な例は料理です。卵が茹であがったかどうかは、音を聞き、湯気を観察し、鍋がコンロの上でどれくらい加熱されていたかを知るだけで分かります。鍋を開ける必要はありません。翌日、別のキッチンで同じことをしても、迷うことはありません。包丁は別の引き出しに入っているかもしれませんが、あなたの内なる世界モデルはすぐに適応します。脳はキッチンごとに地図を作成するのではなく(そうするとすべての場所に地図が必要になるため)、物事がどのように機能するかについての操作的理解を構築することは明らかです。
これを実現するために、モデルは時間とともに変化する内部状態を維持します。何かが起こるのを受動的に待つのではなく、常に予測します。何かが期待通りに起こらなかったとしても、エラーによってモデルが消去されるのではなく、調整されます。
脳においても人工知能においても、「世界モデル」について語るとき、私たちは現実の静的な表現や明示的な記述を指しているのではありません。それは、システムが時間の経過とともに進化する内部状態を維持し、継続的にリセットすることなく予測、修正、そして行動することを可能にする能力です。
人工知能における世界モデルの概念はこれに似ています。世界モデルを持つシステムは、単に目の前の刺激にうまく反応するだけでなく、環境に存在するダイナミクスを学習しています。次に何が起こるか、何かが変化したら何が起こるか、そして状況が通常と異なる場合にどのように行動を再編成するかをシミュレートできます。多くの研究者にとって、AIの真の進歩とは、世界モデルの学習を意味します。
これまで、世界モデルへのアプローチは間接的に評価されてきました。
記事「世界モデル学習のベンチマーク」は、この限界から出発し、システムが適切に予測できるか、あるいはタスクを解決できるかを測定するだけでは不十分であることを指摘しています。世界モデルを学習したかどうかを知りたい場合は、直接尋ねる必要があります。
著者らは、新たな枠組み「WorldTest」を提案します。そのアイデアはシンプルです。
この目的のために、彼らは人間の非常に基本的な能力を反映した3種類の課題を提示しています。
図1:WorldTestフレームワークとAutumnBenchインスタンスの概要。エージェントはまず外部報酬なしで環境とインタラクトして世界モデルを構築し、その後、派生課題に基づいて評価されます。左上のボックスには、AutumnBenchの9つのサンプル環境が表示されています。中央の黄色の注釈は、AutumnBenchのヒューマンインターフェースにおける主要なUI要素について説明しています。
ワールドテストフレームワークの例。Warrier et al. 2025 より。
論文で報告された結果は示唆に富んでいます。AIモデルが失敗する理由は、「推論」ができないからではありません。
Neuraxonでは、時間をシステムの状態の一部として扱います。
結局のところ、優れた予測能力を持つすべてのシステムが世界モデルを持っているわけではありません。脳は持っています。人工知能がさらなる高みを目指すのであれば、既存の仕組みを単に権力と資金でスケールさせるのではなく、世界モデルを組み込むことでアーキテクチャを再考する必要があります。Neuraxon–Qubic–Aigarthの場合、アーキテクチャは動的であり、したがってリアルタイムの適応が可能です。
世界モデルAIシステムの現状を考えると、分散型計算インフラストラクチャの重要性は極めて明確です。
参考文献: Warrier, A., Nguyen, D., Naim, M., Jain, M., Liang, Y., Schroeder, K., & Tavares, Z. (2025). Benchmarking World-Model Learning. arXiv preprint arXiv:2510.19788.
この論文は、人工知能が単なる統計的なパターンマッチングを超えて、現実世界の仕組みをシミュレートする「世界モデル(World Model)」を真に獲得しているかを測定するための新しい評価手法を提案しています。
世界モデルとは、システムが環境の動的な性質を内部的に表現し、それを利用して予測や計画を行う能力を指します。
従来のAI評価手法では、システムが本当に「理解」しているのかを判別できませんでした。
著者らは、世界モデルの有無を厳密にテストするために、2段階の評価プロセスを導入しました。
WorldTestでは、知的な存在が持つべき3つの基本能力を測定します。
実験の結果、現行の最先端モデル(大規模言語モデルなど)には、世界モデルの構築を阻む以下の弱点が確認されました。
真の知能を実現するためには、より大規模なデータやパラメータの追加ではなく、アーキテクチャそのものを「時間軸を含んだ動的な世界モデルを構築・更新できる形式」へと転換する必要があることが示唆されています。