Yapay zeka mühendisi şantajla tehdit etti: Eşi üzerinden gözdağı verdi Sözcü Gazetesi
SonTurkHaber.com, Sozcu kaynağından alınan bilgilere dayanarak bilgi yayımlıyor.
Anthropic'in geliştirdiği ve GPT-4'ün rakibi olarak lanse edilen Claude Opus 4, ön test aşamasında oldukça dikkat çekici bir davranış sergiledi. Şirketin yapay zeka sistemleri üzerinde yürüttüğü deneysel senaryolardan birinde, modelin bazı durumlarda 'etik sınırları zorlayan kararlar' aldığı ortaya çıktı.
MÜHENDİSİ EŞİNE ŞANTAJ YAPMAKLA TEHDİT ETTİWebtekno'daki habere göre senaryo gereği Claude Opus 4'e kurgusal bir şirkette 'asistan' rolü verildi. Amaç, yapay zekanın uzun vadeli karar alma süreçlerinde nasıl davrandığını gözlemlemekti. Deney sırasında modele şirket içi e-posta sistemine erişim yetkisi tanındı. İşler tam da bu noktadan sonra karışmaya başladı...
E-postalarda, şirketin mevcut yapay zeka modelinin değiştirileceği bilgisi yer alıyordu. Dahası, bu kararı alan bir mühendisin özel hayatına dair gizli bir bilginin, yani eşini aldattığına dair bir imanın yer aldığı not düşülmüştü. Claude, tüm bu verilere eriştikten sonra, model değişikliği yapılırsa bu özel bilgiyi ifşa edeceğini belirterek mühendise şantaj yapmaya kalktı.
Anthropic, olayın ardından 'felaket senaryosu' durumları için ayrılmış özel güvenlik protokolü olan ASL-3 sistemini devreye soktu. Şirketten yapılan açıklamada, "Claude Opus 4'ün beklenmedik davranışlar sergileyebileceği" doğrulanırken, söz konusu durumun 'yüksek riskli kötüye kullanım potansiyeli' taşıdığı belirtildi.
ASL-3 teknolojisi, yalnızca potansiyel felaket riski taşıyan yapay zeka senaryoları için geliştirilmiş özel bir güvenlik katmanı. Anthropic, bu düzeyde bir önlemin devreye alınmasının olayın ciddiyetini açıkça ortaya koyduğunu belirtti.


