ユーザ用ツール

サイト用ツール


official_blog:260113_analysis-of-benchmarking-world-model-learning

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

次のリビジョン
前のリビジョン
official_blog:260113_analysis-of-benchmarking-world-model-learning [2026/01/13 21:59] – 作成 d.azumaofficial_blog:260113_analysis-of-benchmarking-world-model-learning [2026/01/13 23:12] (現在) – [Neuraxon のアプローチ] d.azuma
行 7: 行 7:
 {{.:pasted:20260113-215642.png}} {{.:pasted:20260113-215642.png}}
  
-友人と会話しながら街を歩いているとき、あなたの神経系は常に変数を推定しています。身体の位置、移動速度、方向、環境の構造、そして移動における予想される誤差の範囲などです。これらの変数は一歩ごとにゼロから再計算されるのではなく、継続的に更新されます。誰かが突然目の前を横切ったり、地面の状態が変わったりしても、その新しい情報は前の状態をキャンセルするのではなく、それを調整します。私たちの内部モデルが「時間的コヒーレンス(一貫性)」を維持しているからこそ、私たちは歩き続けることができるのです。慣れない通りに入っても、システムは連続性を失うことなく適応します。認知神経科学では、このように安定し、修正可能で、先見的な内部ダイナミクスを維持する能力を**「世界モデル(World Model)」**と呼びます。それは単なる環境の地図ではなく、知覚、行動、時間を結びつける方程式の暗黙のシステムです。 
  
-もう一つの簡単料理です。音聞き、蒸気を観察、鍋火にかけから時間けで、卵が茹で上がったことがわります。鍋を開け必要ありせん翌日に別キッチンで料理をしても、迷うりませんナイフ別の引出しにあかもしれませんが、あなたの内部の世界モデルは素早く調整されます。脳それぞれのキッチンの地図作成しているのではないことは明です。なぜなら、それではらゆる場所地図が必要になってしまうからです。そうではなく脳は物事がどのように機能するかという操作的な理解」を構築しているのです。+友人と会話をしながら街歩いいます。あなた神経系は常に変数推定しています。身体の位置、移動す速度、方向、環境の構造、そして動作におる予想される誤差の範囲す。れらの変数は一歩ごにゼロら再計算されのでなく、継続的に更新され誰かが突然あなた進路横切ったり、地面が変化したりしても、この新しい情報以前の状態を取消すのではなく、調整し私たち続けことできるのはの内部モデルが時間的な一貫性維持しているらです。あまり馴染みない通り入ると、システムは連続性を失うことく適応します。認知神経科学では、安定した、修正可で、予測的な内部ダイナミクスを維持するこの能力を世界モデルと呼びます。これは環境の地図ではなく、知覚、行動、時間結び付け暗黙の方程式システムです。
  
-これを達成めに、脳時間とともに進化する内部状態維持ます。何か起こるのをただ受動的に待って反応するのではな、継続的に予見しています。何かが期待通に起らなかったエラーってモデルが消去されるのではなく、モデル調整されるのです。+もう一つの簡単な例は料理で。卵が茹であがっかどうか、音聞き、湯気を観察、鍋コンロどれらい加熱されていたかを知るだけで分かります。鍋を開ける必要はあません。翌日、別のキッチンで同じことをしても迷うことはありません。包丁は別の引き出しっているかもしれませんが、あなたの内なる世界モデルはすぐに適応します。脳はキッチンごとに地図を作成するのではなく(そうするとすべての場所に地図が必要になるため)物事どのように機能すかについて操作的理解を構築することは明らかです。
  
-「世界モデル」について語るとき、そが脳であれ人工知能であれ、静的な表現や現の明示的な記述を指していわけではありません。それ、システムが時間とともに化する内部状態を維持し、継続的にリセットなく予見修正、行動ことを可能能力ことです。+現すために、モデルは時間とともに化する内部状態を維持し。何かが起るのを受動的に待つのではなく、常に予測しま。何かが期待通りに起らなかったしても、エラーよってモデルが消去されるのではなく、調整されます。
  
-人工知能における世界モデルの概念も同様世界モデルを持つシステムは、単に即座刺激対してうまく反応するだけでなく環境存在するダイナミクスを学習しています。次に何が起るか、何かが変わればどうるか、そして条件が通常のものではなくなったときにどのように行動を再編成するシミュレートできます。多くの研究者とって、AIの真の進歩は世界モデルを学習することを意味します。+脳においても人工知能においても、「世界モデル」について語るとき、私たちは現実の静的な表現や明示的な記述を指しているのではありませんそれは、システムが時間経過ととも進化する内部状態を維持し継続的リセットするこく予測、修正、そして行動すること可能にする能力です。
  
-===== 1. 世界モデルへの従来のアプローチ =====+人工知能における世界モデルの概念はこれに似ています。世界モデルを持つシステムは、単に目の前の刺激にうまく反応するだけでなく、環境に存在するダイナミクスを学習しています。次に何が起こるか、何かが変化したら何が起こるか、そして状況が通常と異なる場合にどのように行動を再編成するかをシミュレートできます。多くの研究者にとって、AIの真の進歩とは、世界モデルの学習を意味します。 
 + 
 +===== 世界モデルへのこれまでのアプローチ =====
  
 これまで、世界モデルへのアプローチは間接的に評価されてきました。 これまで、世界モデルへのアプローチは間接的に評価されてきました。
  
-  * **強化学習:** +  * **強化学習の例:** 
-    * エージェントは獲得する報酬によって測定されます。 +    * エージェントは獲得する報酬によって評価されます。 
-    * 特定のコンロのが「よりうまく機能する」学習するかもしれません、それは必ずしも「なぜか」を真に理ていることを意味ません。 +    * あるエージェントは、特定のコンロのバーナーより多くの報酬をもたらすため「よりく機能する」と学習するかもしれません。 
-    * 強い意味での世界モデルを持たなくても機能できてしまいます。 +    * しかし、それは真にその由を学習ことを意味するわけではありません。強い意味での世界モデルを持たなくても機能することができます。 
-  * **ARC Challenge:** +  * **[[https://arcprize.org/|ARCチャレンジ]]などのアプローチ:** 
-    * システムが例から隠れたルールを推論できるかに焦点当てています。 +    * システムが例から隠れたルールを推論できるかどうかに焦点当てられます。 
-    * 静的な幾何学的関係には適応します、図形のサイズが変わるなどの変化に失敗します。 +    * 静的な幾何学的関係に基づくルールが新しいケースでも維持される場合、システムは適応します。 
-    * 探索や相互作用のない、静的な環境で動作してい+    * しかし、図形のサイズが変化すると適応に失敗します。静的な環境で動作し、探索やインタラクションは行われせん
  
-===== 2. WorldTest フレームワーク =====+===== WorldTest フレームワーク =====
  
-論文『Benchmarking World Model Learning』は、この限界から出発し、システムがうまく予測るか、あるいはタスクを解決るかを測定するだけでは不十分と指摘しています。世界モデルを学習したかどうかを知るには、直接問いかける必要があります。+記事「[[https://arxiv.org/abs/2510.19788|世界モデル学習のベンチマーク]]」は、この限界から出発し、システムが適切に予測できるか、あるいはタスクを解決できるかを測定するだけでは不十分であるこ指摘しています。世界モデルを学習したかどうかを知りたい場合は、直接尋ねる必要があります。
  
-著者らは新しいフレームワーク「WorldTest」を提案しています。+著者らはたな枠組み「WorldTest」を提案します。そのアイデアはシンプルです。
  
-  - **自由な相互作用:** まず、エージェントは外部報酬を受け取ることなく環境と自由に相互作用します。 +  - **ステップ1:** エージェントは外部報酬を受け取らずに環境と自由に相互作用す。 
-  - **新たな課題への直面:** 次に、元の環境から派生した新しい課題に直面させられます。 +  - **ステップ2:** 元の環境とは異なるものの関連性のある明確な目的を持つ、元の環境から派生した新たな課題に直面す。 
-  - **真の学習の露呈:** この第2の環境でのパフォーマンス、エージェントが世界について真に何を学んだかを明らかにします。+  - **ステップ3:** この新たな環境でのパフォーマンスを評価する。これは、エージェントが世界について真に何を学習したかを明らかにするものであり、以前の報酬を最大化した行動だけでなく、その行動自体も明らかになる
  
-向けて、人間の基本的な能力を反映した3つのタイプの課題を提示しています。+の目的のために、彼らは人間の非常に基本的な能力を反映した3種類の課題を提示しています。
  
-{{.:pasted:20260113-215828.png}}+{{.:pasted:20260113-215828.png}}\\ 
 +図1:WorldTestフレームワークとAutumnBenchインスタンスの概要。エージェントはまず外部報酬なしで環境とインタラクトして世界モデルを構築し、その後、派生課題に基づいて評価されます。左上のボックスには、AutumnBenchの9つのサンプル環境が表示されています。中央の黄色の注釈は、AutumnBenchのヒューマンインターフェースにおける主要なUI要素について説明しています。
  
-  * **軌道の予測:** +ワールドテストフレームワークの例。Warrier [[https://arxiv.org/abs/2510.19788|et al. 2025]] より。
-    * 観察されていない部分を予測すること。 +
-    * 例:料理の完成まであとどれくらいか推測する、あるいは街を歩きながら既知の広場までの距離を把握するなど。 +
-  * **ダイナミ変化の検出:** +
-    * 環境の挙動が期待外れになったタイミングを特定すること。 +
-    * :新しいキッチンが以前と違うことに気づく、あるいは工事で通りが変わったことに気づく瞬間 +
-  * **プランニング(計画):** +
-    * 学習した情報を使って目標に到達すること。 +
-    * 例:レシピの段取を整理する、あるいは目的地までのルートを選択・調整すること+
  
-===== 3. ぜ AI モデルは失敗するのか =====+  * **1つ目:軌道の予測:** 
 +    * 最終的軌道の観測されていない部分を予測すること。 
 +    * 例:調理完了までの残り時間を推測する、あるいは移動距離と環境の手がかりから見慣れた広場からの距離を知る。 
 +  * **2つ目:ダイナミクスの変化の検出:** 
 +    * 環境のダイナミクスの変化を検出し、期待通りに動作しなくなったときを識別すること。 
 +    * 例:新しいキッチンの動作の変化や、工事・交通規制による通りの変化に気づき、環境が以前のモデルと一致しなくなった正確な瞬間を認識する。 
 +  * **3つ目:計画性(プランニング):** 
 +    * 学習した情報がどように目標達成に活用されるを評価すること。 
 +    * 例:レシピを段階的に整理したり、移動しながらルートを選択・調整したりする。意思決定は、更新される内部状態に基づいて行われる。
  
-論文の結果は啓示的です。AIモデルが失敗するのは「推論」ができないからではなく、矛盾する情報が現れたときに適切にデータを更新できず、データが適合しなくなっても学習したルールを適用し続けるからです。+===== AIモデルが失敗する理由 =====
  
 +論文で報告された結果は示唆に富んでいます。AIモデルが失敗する理由は、「推論」ができないからではありません。
 +
 +  * **データ更新の不備:**
 +    * 矛盾する情報が現れたときにデータを適切に更新せず、適合しなくなっても学習したルールを適用してしまいます。
   * **メタ認知の欠如:**   * **メタ認知の欠如:**
-    * どの情報を探すべきか、いつ疑うべきか、いつ学んだことを修正すべきかという能力が欠けています+    * 環境をリセットしたり何もしなかったりといった中立的な行動を実験ツールとして用いていない。 
 +    * 自分が知っていることをどのように認識するか、つまりどのような情報を探すべきか、いつ疑うべきか、そしていつ学習内容を修正すべきかという点に関係してい
   * **LLM(大規模言語モデル)の限界:**   * **LLM(大規模言語モデル)の限界:**
-    * Claude、Gemini、Grokなどは一貫したテキスト生成には優れていますが、彼らの内部状態は「真の状態」ではありません。 +    * Claude、Gemini、Grokなどは一貫性のあるテキストと流暢な応答には優れていますが、内部状態は「真の状態」ではありません。 
-    * 自のダイナミクスに従って時間とともに化する変数存在しません。 +    * モデルのダイナミクスに従って時間の経過とともに化する変数存在しないのです。 
-    * LLMはキッチンの仕組みを説明できても、自身の世界モデルが失敗していことを検出できないのです+    * LLMはキッチンの仕組みを説明できても、世界モデルが機能していないことを検出できません
  
-===== 4. NEURAXON のアプローチ =====+===== Neuraxon のアプローチ =====
  
-Neuraxon(ニューラクソン)では、**時間をシステムの状態の一部**として扱います。+**[[tag/Neuraxon]]** では、時間をシステムの状態の一部として扱います。
  
-  * **ダイナミなアーキテクチャ:** +  * **ダイナミクスの保持:** 
-    * 内部変数が存在し、持続し、進化し、明示的なダイナミクスを通じて変化します。 +    * 内部変数明示的なダイナミクスを通じて存在し、持続し、進化し、変化します。 
-    * システムは世界を「思い出のではなく、世界をアクティブ(活動状態)」に保ちます。 +    * システムは世界を「記憶」のではなく、世界をアクティブに保ちます。
-  * **LLMとの違い:** +
-    * ルールが変わったときに構造を適応させることができます。これは単にデータやパラメータ、計算量を増やすことの問題ではありません+
  
-最終的に予測がういシステムすべてが世界モデルを持っていわけではありません。脳は持っています。人工知能がそれ以上を目指すのであれば既存のスキ金でスケールアップさせるのではなく、アーキテクチャ再考し、世界モデルを含める必要があります。Neuraxon–Qubic–Aigarthにとって、アーキテクチャは動的であり、したがってリアルタイムの適応が可能です。+  * **適応能力:** 
 +    * これはLLMでは実現できないことりルーの変化に応じて構造適応させことを可能にします。 
 +    * データパラメタ、計算量増やすいう問題ではなく、アーキテクチャ再考必要です。
  
-===== 5. 世界モデルのため分散型ンフラ =====+結局のところ、優れた予測能力を持つすべてのシステムが世界モデルを持っているわけではありません。脳は持っています。人工知能がさらなる高みを目指すであれば、既存仕組みを単に権力と資金でスケールさせるのではなく、世界モデルを組み込むことでアーキテクチャを再考する必要があります。Neuraxon–Qubic–Aigarthの場合、アーキテクチャは動的であり、したがってリアルタムの適応が可能です。
  
-世界モデルAIシステム現状を考えると、なぜ分散型計算インフラが重要になるのかは明らかです。+===== 世界モデルのための分散型インフラストラクチャ =====
  
-  * **継続的な算:** +世界モデルAIシステムの現状を考えると、分散型計算インフラストラクチャの重要性は極めて明確です。 
-    * QubicアーキテクチャuPoW(有用なプルーフ・オブ・ワーク)メカニズムは、演算が「エピソードではなく継続的」である計算基盤を提供します。 + 
-  * **リアルタイム性の担保:** +  * **継続的な基盤:** 
-    * Qubicにおいて、分散型アーキテクチャは単なるスケーラブルなプラットフォームではありません。 +    * Qubicアーキテクチャ、分散型設計、そしてuPoWメカニズムは、散発的ではなく継続的計算基盤を提供します。 
-    * 固定されたデータセット上の再構築ではなく、リアルタイムづいた根本的に異なるクラスの知能システムを可能にするものです。+  * **リアルタイム性の実現:** 
 +    * 従来の固定データセットに基づく再構築ではなく、リアルタイム性を盤とする、根本的に異なるクラスのインテリジェントシステムを実現するものです。 
 + 
 +----
  
---- 
 **参考文献:** **参考文献:**
-Warrier, A., et al. (2025). Benchmarking World-Model Learning. arXiv:2510.19788.+Warrier, A., Nguyen, D., Naim, M., Jain, M., Liang, Y., Schroeder, K., & Tavares, Z. (2025). Benchmarking World-Model Learning. arXiv preprint arXiv:2510.19788. 
 + 
 +---- 
 + 
 +===== 補足/論文要約:世界モデル学習のベンチマーク (WorldTest)  Gemini による解説 ===== 
 + 
 +この研究論文は、人工知能が**環境の仕組みを深く理解する能力を測定するための新しい評価手法、WorldTest**を提案しています。従来の評価法は単純な予測や報酬獲得に偏っていましたが、本手法は報酬のない探索段階と、その後に続く未知の課題への対応力を切り離して評価するのが特徴です。 
 + 
 +著者らはこの枠組みに基づき、43種類の仮想環境と129のタスクから構成されるベンチマークAutumnBenchを開発しました。実験の結果、現在の最新AIモデルは人間のパフォーマンスに及ばず、単に計算量を増やすだけでは解決できない課題があることが浮き彫りになりました。この成果は、AIがより汎用的な世界モデルを獲得するための新たな指針を提示しています。 
 + 
 +{{:official_blog:unnamed_2_-min.png|NotebookLM よる描画}} 
 +===== 1. 「世界モデル」の本質的な定義 ===== 
 + 
 +世界モデルとは、システムが環境の動的な性質を内部的に表現し、それを利用して予測や計画を行う能力を指します。 
 + 
 +  * **予測と期待:** 
 +    * 脳や知的なシステムは、次に何が起こるかを常に予測しています。 
 + 
 +  * **エラーの修正:** 
 +    * 予測と現実にズレが生じたとき、システムは即座に内部モデルを更新(修正)し、一貫性を保ちます。 
 + 
 +  * **時間的な連続性:** 
 +    * 断片的な情報ではなく、時間の経過とともに進化し続ける「内部状態」を維持する能力です。 
 + 
 +===== 2. 既存のベンチマークが抱える限界 ===== 
 + 
 +従来のAI評価手法では、システムが本当に「理解」しているのかを判別できませんでした。 
 + 
 +  * **報酬によるバイアス:** 
 +    * 強化学習では報酬を最大化する「特定の行動」だけを学習してしまい、環境の仕組み(ロジック)そのものを理解していない場合があります。 
 + 
 +  * **静的な推論:** 
 +    * 従来のテストの多くは静的な画像やテキストの関係性を問うものが多く、時間的な変化や相互作用を伴う「動的な世界」を評価できていません。 
 + 
 +===== 3. WorldTest:新しい評価フレームワーク ===== 
 + 
 +著者らは、世界モデルの有無を厳密にテストするために、2段階の評価プロセスを導入しました。 
 + 
 +  - **第1段階:報酬なしの自由探索:** 
 +    * エージェントに特定の目的(報酬)を与えず、環境内で自由に動かします。ここでエージェントは純粋に「この世界はどう動くか」というモデルを構築します。 
 +  - **第2段階:派生課題による評価:** 
 +    * 学習した環境をベースに、全く新しい目標を与えます。世界モデルが構築されていれば、事前の追加学習なしで即座に新しい状況に適応できます。 
 + 
 + 
 + 
 +===== 4. 評価のための3つの主要な課題 ===== 
 + 
 +WorldTestでは、知的な存在が持つべき3つの基本能力を測定します。 
 + 
 +  * **軌道の予測能力:** 
 +    * 途中経過が見えない状態でも、最終的な結果や経過時間をシミュレーションできるか。 
 + 
 +  * **ダイナミクスの変化検出:** 
 +    * 環境のルールが変更された際、古い知識を捨てて「新しいルールに変わった瞬間」を正確に認識できるか。 
 + 
 +  * **柔軟なプランニング:** 
 +    * 障害物やルート変更が発生しても、内部モデルを更新しながら目的地へ到達できるか。 
 + 
 +===== 5. 現在のAI(LLM等)における主要な課題 ===== 
 + 
 +実験の結果、現行の最先端モデル(大規模言語モデルなど)には、世界モデルの構築を阻む以下の弱点が確認されました。 
 + 
 +  * **情報の更新不全:** 
 +    * 以前のデータと矛盾する情報が現れても、以前に学習した「統計的な尤もらしさ」を優先してしまい、矛盾を無視して古いルールを適用し続ける傾向があります。 
 + 
 +  * **メタ認知の欠如:** 
 +    * 「何が分かっていないか」を判断し、情報を補うための中立的な行動(観察やリセット)を戦略的に選ぶことができません。 
 + 
 +  * **非動的な内部状態:** 
 +    * 時間とともに自律的に進化する変数を持たず、入力に対する「一回限りの応答」の繰り返しに留まっていることが失敗の原因です。 
 + 
 +===== 結論 ===== 
 + 
 +真の知能を実現するためには、より大規模なデータやパラメータの追加ではなく、アーキテクチャそのものを「時間軸を含んだ動的な世界モデルを構築・更新できる形式」へと転換する必要があることが示唆されています。 
  
-{{tag>260113  }}+{{tag>260113 Neuraxon news }}
official_blog/260113_analysis-of-benchmarking-world-model-learning.1768341557.txt.gz · 最終更新: by d.azuma