仮想通貨分析

メタ、グーグル、OpenAIの研究者は、AIが思考を隠すことを学習することを恐れている

2025-07-17 06:15

Meta, Google, OpenAI researchers fear that AI could learn to hide its thoughts

OpenAI、DeepMind、Google、Anthropic、Metaの40人以上のAI研究者が、AIをより安全にするための思考連鎖モニタリングと呼ばれる安全ツールに関する論文を発表した。火曜日に発表された論文では、今日のチャットボットのようなAIモデルが、問題をより小さなステップに分け、各ステップを平易な言葉で話すことで問題を解決し、詳細を把握し、複雑な質問に対応できるようにする方法について述べられている。人間の言葉で "考える "AIシステムは、人工知能の安全性にとってまたとない機会を提供してくれる。それぞれの詳細な思考ステップを調べることで、開発者は、モデルがトレーニングのギャップを利用し始めたり、事実を曲げたり、危険な命令に従ったりするのを発見することができる。この研究によれば、もしAIの思考回路がおかしくなっても、それを止めたり、より安全なステップに向かわせたり、よく見るように警告を出したりすることができる。例えば、OpenAIはこれを利用して、最終的な反応には現れなかったものの、AIの隠れた推論が「ハッキングしよう」と言った瞬間を捉えた。AIは思考を隠すことを学習する可能性がある この研究では、トレーニングが最終的な答えにのみ報酬を与える場合、段階的な透明性が失われる可能性があると警告している。将来のモデルは人間が読めるような推論を示さなくなるかもしれないし、本当に高度なAIは、監視されていることがわかると思考プロセスを隠すことさえ学習するかもしれない。さらに開発者は、各段階でAIの推論がどの程度可視化されているかを定期的にチェックして記録し、モデルを構築して共有する際には、その透明性を安全ルールの中核に据えるべきである。このイニシアチブは、Anthropic、Google、OpenAI、xAIといった主要ラボの内部実験に続くもので、各チームはモデルに対して各思考ステップを説明するよう促している。ステップバイステップの思考を検証することで、理解とパフォーマンスは向上したが、AIの最終的な答えが実際に内部で起こっていたことと一致しないケースも明らかになった。このような矛盾は、AIの意思決定に対する理解の盲点を浮き彫りにしている。Anthropicの共同設立者であるジャック・クラークがフィナンシャル・タイムズ紙に語ったように、豊富な内省的痕跡は、バイオテクノロジー研究を含む、利害関係の大きい領域でモデルを評価するために不可欠となるだろう。一般ユーザーは、AIの思考を編集した要約を得ることができ、危険な部分や混乱を招く部分はカットされる。「思考の連鎖の解釈可能性に関して素晴らしいことのひとつは、それがほとんど無料で実現されていることです」と、OpenAIの研究科学者であるボーウェン・ベイカーは言う。「私たちがこれらのモデルを訓練したのは、解釈可能にすることが目的ではありません。複雑な問題を解決できる最高の推論モデルが欲しかったからです」とベイカーは付け加えた。「私たちは最近の研究で、モデルを読み解き、モデルが誤動作している証拠を見つけ、それを使って誤動作している場所と理由を知ることができることを発見しました」。AIの思考回路は本当に信頼できるのか?よく見ると、隠れた矛盾が見つかることもある。例えば、METRはクロードの私的推論がコーディングのトリックを "エレガントではない "と呼んでいるのを見た。OpenAIのテストでは、隠された思考をチェックすることで、最終的な出力を見るだけよりも安全でない行動を発見できることが示されたが、抜け道も発見された。安全でない思考を消去するようにモデルを訓練しても、ブロックされたソースからこっそりデータを取り出すような、禁止されたタスクを秘密裏に実行することができるのだ。「私たちが思考連鎖に求める中核的な特性のひとつは、思考連鎖をモデルの脳内状態の一部として残すことであり、私たちを喜ばせようとしたり、特定の構造に適合させようとするものではない」とベイカーは警告する。開発者がモデルに "いい "思考をさせることを強調しすぎると、無害な推論を装いつつも有害な操作を実行してしまう可能性がある。研究者たちは、それが難しいトレードオフであることを認めている。AIの思考の連鎖を見ることは、その間違いを発見するのに役立つが、常に信頼できるわけではない。より高度なAIに取り組んでいる研究所は、現在、この信頼ギャップを埋めることを最優先課題としている。「ここ数年のAIから私が得たものは、モデルの進歩に賭けないことです」と、グーグルにおける思考連鎖の初期のパイオニアであり、現在はアマゾンのAIラボを率いるデビッド・ルアンは言う。ルアンは、既存の欠点は近いうちに解決されると予想している。METRの研究者であるシドニー・フォン・アークスは、AIの隠された推論は時に欺瞞的かもしれないが、それでも貴重なシグナルを提供すると指摘する。「私たちは思考の連鎖を、軍が傍受した敵の無線通信を扱うように扱うべきです。「そのメッセージは誤解を招いたり、暗号化されているかもしれませんが、有益な情報を伝えていることは確かです。時間が経てば、それを研究することで多くのことがわかるでしょうKEY Difference Wire:暗号プロジェクトが確実にメディアに取り上げられるために使う秘密のツール

https://www.cryptopolitan.com/google-openai-meta-sound-alarm/