Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic araştırmacılarının ortak çalışması, büyük dil modellerinin (LLM’ler) güvenliğine dair çarpıcı bir uyarı yayınladı: yaklaşık 250 adet kasıtlı olarak bozulmuş belge, GPT- benzeri modellerde geri döndürülemez hatalara yol açabilecek “zehirlenme” (poisoning) saldırılarına olanak sağlıyor.
Çalışmanın özü: küçük sayıda kötü içerik — büyük etki
Araştırma, ChatGPT ve Google Gemini gibi geniş ölçekli dil modellerinin eğitim veri setlerine çok sınırlı sayıda kötü niyetli içerik karıştırılmasının bile model davranışında arka kapı (backdoor) veya hassas verileri sızdırmaya yatkınlık gibi ciddi bozulmalara neden olabileceğini gösterdi. Araştırmacılar, saldırı için gereken zehirli belge sayısının (≈250) model boyutundan neredeyse bağımsız olduğunu; yani daha büyük modellerin otomatik olarak daha dayanıklı olmadığı sonucuna ulaştı.
Arka kapı (backdoor) nedir?
Arka kapılar, modelin normalde göstermeyeceği bir davranışı tetikleyen özel tetikleyici ifadeler içerir. Örnek senaryoda saldırgan; internete açık kaynaklara (kişisel bloglar, makaleler, forum yazıları vb.) yerleştirilen zehirli metinlerle, belirli bir tetikleyici verildiğinde modelin hassas ya da tehlikeli çıktılar üretmesini sağlayabiliyor.
Neden bu kadar tehlikeli?
-
Popüler LLM’ler internetten toplanan herkese açık verilerle eğitiliyor; bu da kötü niyetli aktörlerin içerik üretip sisteme karışmasını kolaylaştırıyor.
-
250 belge yaratmak ve yayımlamak, teknik açıdan görece basit ve ekonomik bir saldırı olarak değerlendiriliyor.
-
Zehirli örnekler, modelin güvenli kullanımını ve hassas uygulamalardaki güvenilirliğini büyük ölçüde zayıflatabiliyor.
Araştırmacıların vurgu yaptığı noktalar
Alan Turing Enstitüsü’nden Dr. Vasilios Mavroudis ve Dr. Chris Hicks, çalışmanın sonuçlarını “şaşırtıcı ve endişe verici” olarak nitelendirdi ve şu tespiti paylaştı: “Bir LLM’yi zehirlemek için gereken kötü niyetli belge sayısı, modelin veya eğitim verilerinin boyutundan bağımsız olarak neredeyse sabittir.”
Anthropic’in araştırma notlarında da belirtildiği üzere, saldırganlar veriye “zehir” enjekte ederek modelin istenmeyen veya tehlikeli davranışlar öğrenmesini sağlayabilirler. Bu tür arka kapılar, kötü amaçlı tetikleyici girdiler kullanıldığında modelin normalden farklı hata davranışları göstermesine sebep olabiliyor.
Ne yapılmalı? (Kısa çözüm önerileri)
-
Veri kaynaklarının doğrulanması ve sürekli izleme: Eğitim verisi tedarik zincirinde otomatik doğrulama ve anomali tespiti kritik.
-
Eğitim veri filtreleme: Kaynak güvenilirliği ve içerik bütünlüğü için daha sıkı filtreleme mekanizmaları uygulanmalı.
-
Model denetimi & red-team testleri: LLM’ler yayımlanmadan önce “kötü niyetli tetikleyicilere” karşı dayanıklılık testlerine tabi tutulmalı.
-
Şeffaflık ve standartlar: Açık değerlendirme kriterleri ve endüstri çapında güvenlik standartları geliştirilmesi gerekiyor.
-
#YapayZeka #AIGüvenlik #VeriZehirlemesi #LLM #ChatGPT #Anthropic #AlanTuring #ModelPoisoning #TeknolojiHaberleri #SiberGüvenlik