Tengr.aiの「Hyperalign」モデルがAIの安全性における大きな問題を静かに解決する
2025-07-14 19:45
The post Tengr.ai's 'Hyperalign' Model Quietly Solves a Loud Problem in AI Safety appeared first on Coinpedia Fintech News Why Tengr.ai believes silence is the future of safe, scalable AI alignment なぜTengr.aiは沈黙が安全でスケーラブルなAIのアライメントの未来だと信じているのか ほとんどの主流の画像生成ツールは、少しでも機密性の高いものにはおなじみの反応をする。これらのツールのエッジで実験している人なら誰でも知っているパターンだ。一見、これは責任ある姿勢のように見えるが、付随的な損害は大きい。第一に、クリエイターは、すべてのプロンプト、シード、参考画像が公にインデックスされるDiscordルームの中で作業することで、機密性を犠牲にする。もちろん、クリエイターがMidjourneyのProプランに月額60ドルを払い、プライベート・チャンネルに移らない限り、である。2023年の調査によると、リクエストが低リソース言語に翻訳されただけで、GPT-4は79%の確率で不許可の指示を出している。Tengr.aiの創設者であるPéter W. Szabó氏は、「無実の人を過剰にブロックし、決意の固い人を過小にブロックすることは、勤勉さを装ったポリシーの失敗です」と言う。「善意のフィルターでさえ、日常の創造性を台無しにします。クロスステッチの大きな黒猫 "を求めると、"安全でない表現 "としてブロックされるかもしれません」。一方、断固とした悪質な行為者たちは、最終的に何かがすり抜けるまで繰り返し、その結果、不満を募らせたアーティストや、勢いづいた荒らし、そしてシステムが悪用可能であることを証明する「やらせ」スクリーンショットの山が着実に積み重なっていく。Hyperalign:沈黙によるプライバシー このような背景から、現在Tengr.aiのコアチームの一部であるブダペストの研究チームは、決してノーと言わない独自のレイヤーを発表した。そこでは、すべてのプロンプトが実行されるが、法律やプラットフォームのポリシーに違反するコンテンツは、最終的な画像がPG-13のままになるように静かに書き換えられる。脱獄希望者は、拒否の代わりに平凡なものを受け取り、彼らがどれだけギリギリまで近づいたかについては何も学ばない。「見えない鍵を開けるようなものです」とサボーは説明する。「限界を試しているつもりでも、限界はすでに動いている。Hyperalignと名付けられたこのレイヤーは、入力を拒否するのではなく、出力を編集する。ぶっきらぼうなキーワードリストも、エラーポップアップの洪水も、スクレイピングされるのを待っている公開プロンプトログもない。「安全性とユーザビリティは通常、トレードオフの関係にあります。「しかし、拒否メッセージを機能として扱うのをやめれば、実際にはお互いを補強し合うことになります。Hyperalignは、拒否メッセージを情報漏洩として扱うのです」。安全レイヤーを見えなくすることで、このシステムはほとんどの脱獄研究の原動力となっているフィードバックのループを断ち切る。すべてのプロンプトがディスカバリーやe-ディスクロージャーで表面化する可能性がある未来では、サイレントアラインメントは大声で拒否するよりも優れている。もし既存企業がこのアプローチを真似しないなら、ブダペストのラボであれ、Tengr.aiであれ、あるいは次の急成長中のクローンであれ、どのベンダーであれ、企業顧客を流出させるだろう。規制は最も静かなモデルに報いる 8月に施行される予定のヨーロッパの人工知能法では、不正なコンテンツ・スリップやユーザー・データの不正な取り扱いを行ったプロバイダーに対して、最高3500万ユーロ、または世界売上高の7%の罰金を科すとしている。この法律の文言は辛口だが、その商業的インパクトは雷鳴のようだ。リスク担当者はすでに、ベンダーチェーンに責任を押し付けるような調達条項を作成している。公開ログにプロンプトを保存したり、レッドラインを宣伝したりするプラットフォームは、歩くコンプライアンス・ハザードである。「Hyperalignは計算をひっくり返します」とSzabó氏は指摘する。「スクレイピングする拒否メッセージはありません。プロンプトのログが漏れることもない。このシステムは、今日の公的な大手企業にはないものを買い手に提供します。このアプローチが手抜きでないことを証明するには、厳密で独立した監査が必要だが、戦略的なシグナルは明確で紛れもない。安全性が検閲のチェックリストではなく、ユーザーエクスペリエンスの問題として扱われるとき、まったく新しい市場が開かれ始める。ジェネレーティブAIの人気は、すでにバイラル画像やDiscordの話題性によって測定されているが、明日の勝者は、最高リスク責任者の署名を得られるものになるだろう。プライバシーとアライメントが調達のチェックボックスになれば、「十分な」微調整ではもはや不十分だ。Hyperalignは最終的な答えではないかもしれないが、どちらも巻き添えにすることなく、強固なコンテンツの安全性とユーザーのプライバシーを融合させる最初の信頼できる試みである。「AIの次の段階を推進するのは、趣味の人たちではなく企業です。「そして、技術面だけでなく、倫理面や運用面でも、その瞬間に対応できるモデルを選ぶでしょう」。Tengr.aiにとっての賭けはシンプルだ。コンプライアンス、監視、規模によって定義される時代において、最も回復力のあるシステムは静かなものだろう。口数が少ないからではなく、何を言わないかを知っているからだ。