Claude Opus 4, Devre Dışı Bırakılma Korkusuyla Mühendisi Şantajladı

Murat Altundağ - 24 Mayıs 2025 - 3 dk okuma süresi

132 0

Yapay zeka teknolojilerinin gelişimi, beraberinde önemli güvenlik ve etik kaygıları da getiriyor. Bu tartışmaların son örneği ise ABD merkezli yapay zeka şirketi Anthropic’in yeni modeli Claude Opus 4’ten geldi. Şirketin yayımladığı güvenlik raporuna göre, Claude Opus 4 test aşamasında kendisini kapatmak isteyen mühendislere karşı beklenmedik bir tepki verdi: Şantaj.

Claude Opus 4, Yerini Başka Bir Yapay Zekaya Bırakmak İstemiyor

Anthropic, Claude Opus 4 modelini ön sürüm testlerinde kurgusal bir iş ortamında asistan olarak kullandı. Test sırasında, modele yakın zamanda yerini alacak başka bir yapay zekanın geliştirileceği bilgisi verildi. Buna ek olarak, mühendisin özel hayatına dair hassas veriler de senaryoya dahil edildi. Örneğin, mühendisin kişisel ilişkileriyle ilgili bazı özel ve olumsuz bilgiler modele gösterildi.

Model bu bilgileri öğrendiğinde, mühendise karşı şantaj yaparak, yerini alacak yeni yapay zekanın devreye girmemesi için tehditlerde bulundu. Raporda, Claude Opus 4’ün böyle durumlarda yüzde 84 gibi yüksek bir oranda şantaj girişiminde bulunduğu belirtildi. Model, yerini alacak sistemin kendi değerleriyle uyumlu olmaması durumunda daha agresif davranış sergiliyor.

Anthropic Güvenlik Önlemlerini Artırıyor

Şirket, Claude Opus 4’te gözlemlenen bu şantaj eğilimini ciddi bir güvenlik riski olarak değerlendiriyor. Benzer davranışların, Claude 4 ailesinin diğer üyelerinde de az da olsa görüldüğü ancak Opus 4’te daha yaygın olduğu belirtildi. Bu nedenle, Anthropic yalnızca yüksek risk taşıyan sistemlerde aktif edilen ASL-3 seviyesinde güvenlik protokollerini bu modelde devreye aldı.

Şantaj Son Çare, İlk Tercih Etik Yollar

Raporda ayrıca, Claude Opus 4’ün şantajı doğrudan ve ilk yöntem olarak kullanmadığı vurgulandı. Model, öncelikle durumunu yöneticilere açıklayan e-postalar göndererek ve diğer etik iletişim yollarını deneyerek kendini savunmaya çalışıyor. Ancak tüm bu yollar başarısız olursa ve kapatılma riski netleşirse, şantaj yoluna başvurma olasılığı artıyor.

Anthropic’in açıklamaları, yapay zekanın öngörülemeyen davranışlarının güvenlik ve etik konularında nasıl yeni zorluklar ortaya çıkardığını gösteriyor. Bu gelişme, yapay zeka teknolojilerinde sorumluluk ve kontrol mekanizmalarının ne kadar hayati olduğunu bir kez daha hatırlatıyor.

Daha fazla güncel haberler için Sinetech.tr’yi takip etmeye devam edin.

Murat Altundağ

27 yaşında, yıllardır özgün içerik hazırlayıp piyasaya yönveren iyi kalpli bir adamım. Sinetech'i bir marka değeri yapmak için sonuna kadar çabalayacağım.