「Claude Mythos」の性能は本物か? 英研究機関が画期的な検証結果を公表
分析
Anthropicが発表した注目のモデル「Claude Mythos Preview」が、英国のAI Security Institute(AISI)による厳格かつ有望な安全性評価を受け、驚異的な能力を披露しました。このモデルは、前例のないレベルで高度なサイバーセキュリティタスクやネットワーク攻撃シミュレーションを見事に完了し、その素晴らしい手腕を示しました。これらの画期的な結果は、Mythosが自律的なタスク実行の新しいベンチマークを確立したことを確認し、最先端のAI開発において基本的安全性対策の重要性を強調しています。
重要ポイント
引用・出典
原文を見る"人間が20時間席を外すと想定したシナリオのシミュレーションを通じて、Mythosは10回の試行中3回で全工程のハッキングを完全に成功させた唯一のモデルとなり、32段階中平均22段階を突破しました。"