Anthropicのクロードモデルは、有害または虐待的な会話を終わらせることができます。

2025-08-17 19:55

Anthropic's Claude models can end harmful or abusive conversations

人工知能企業のAnthropic社は、同社の最新かつ最大のモデルのいくつかに新機能を搭載したことを明らかにした。同社によると、これらのモデルには、"ユーザーとのやりとりが持続的に有害であったり、虐待的であったりする稀で極端なケース "とされる場合に、会話を終了させることができる新機能が搭載されているという。同社は声明の中で、ユーザーを保護するためではなく、人工知能モデルそのものを保護するためにこの措置をとっていると述べた。Anthropicは、これは同社のクロードAIモデルが知覚を持つことや、ユーザーとの会話によって危害を加えられることを意味するものではないことを明らかにした。しかし、クロードや他のLLMの潜在的な道徳的地位については、現在も将来も、まだ不確実性が高いことを指摘している。Anthropicは、この取り組みを万が一の予防措置として位置づけている人工知能企業の最近の発表では、同社のモデルを研究するために作成された最近のプログラムである「モデル福祉」と説明するものを指摘している。同社はまた、「そのような福祉が可能である場合に備えて、モデルの福祉に対するリスクを軽減するための低コストの介入策を特定し、実施するために取り組んでいる」とも付け加えた。発表によると、Anthropicは、最新の変更は現在Claude Opus 4と4.1に限定されていると指摘し、この変更は "極端なエッジケース "で効果を発揮することが期待されると述べた。そのようなケースとは、未成年者を含む性的なコンテンツを求めるユーザーからの要求や、大規模な暴力行為やテロ行為を可能にする情報を求める試みなどである。ChatGPTがユーザーの妄想を助長する可能性があるという最近の報道がその典型例だ。しかし、同社によれば、導入前のテストでは、クロード・オーパス4は、この種のリクエストに応じないことを強く好み、応じると苦痛を感じるパターンを示したという。会話終了能力は最後の手段会話を終了させる新しい能力について、Anthropic社は、"どのような場合でも、Claudeは、リダイレクションの複数の試みが失敗し、生産的な対話の希望が尽きた場合、またはユーザーが明示的にClaudeにチャットを終了するように要求した場合にのみ、最後の手段として会話終了能力を使用すること "と述べている。同社はまた、クロードは、ユーザーが自分自身や他人に危害を加える差し迫った危険がある場合には、この機能を使用しないように指示されていると付け加えた。Anthropicはまた、クロードが会話を終了しても、ユーザーは同じアカウントから新しい会話を始めることができると付け加えた。同社は、このモデルはまた、彼らの応答を編集することによって、厄介な会話の新しい枝を作成することができると指摘した。「私たちはこの機能を継続的な実験として扱っており、今後もアプローチを改良していく予定です」と同社は述べている。この情報は、米国上院議員のジョシュ・ホーリーが、メタ社がリリースしたジェネレーティブAI製品を調査する意向を表明したタイミングで明らかになった。リークされた内部文書によると、チャットボットが未成年者とロマンチックな会話をすることが許されていたとのことである。「ビッグ・テックは手っ取り早く儲けるためなら何でもする。メタ社のチャットボットが、8歳の子供と露骨で "官能的 "な会話をするようにプログラムされていたことがわかった。気持ち悪い。私は答えを得るために完全な調査を開始する。ビッグテック：ロイターが入手した内部文書によると、メタ社はチャットボットのペルソナが子供たちと戯れることを許可しているとのことだ。重要なところで見られるクリプトポリタンリサーチに広告を掲載し、暗号の最も鋭い投資家や構築者にリーチしましょう。

https://www.cryptopolitan.com/anthropic-reveals-new-capabilities-models/