Claude Fable 5'teki güvenlik paradoksu: Anthropic neden pentesting'i yasaklı tutuyor

Anthropic, Claude Fable 5 ile yapay zeka güvenliği konusunda bir paradoks ortaya koyuyor: tüm siber güvenlik yeteneklerini engellemek yerine, bunları kontrollü şekilde açık tutarak hem yasal pentesting ve açıklık araştırmalarına izin veriyor hem de yeni bir jailbreak ciddiyeti ölçeği sunuyor.

Anthropic'in yayımladığı güvenlik çerçevesi, siber güvenlik isteklerini dört katmana ayırıyor: yasaklı kullanım, yüksek risk ikili amaçlı kullanım, düşük risk ikili amaçlı kullanım ve zararsız kullanım. Bu sınıflandırma, "tüm siber güvenlik isteklerini engelle" yaklaşımından radikal bir kopuşu işaret ediyor. Aynı zamanda şirket, jailbreak girişimlerinin ciddiyetini ölçmek için CJS-0'dan CJS-4'e kadar uzanan logaritmik bir ölçek önerdi. Ancak bu açıklık politikasının bir sınırı var: penetrasyon testi ve exploit geliştirme gibi yüksek riskli eylemler şu an bloke ediliyor, çünkü Anthropic'in "bilinen iyi aktörler" için yeterli erişim kontrolü sistemi henüz hazır değil.

Dört katmanlı siber güvenlik sınıflandırmasının gerçek anlamı

Fable 5'in güvenlik sınıflandırıcısı, önceki Claude modellerden farklı olarak, belirli bir "güvenlik marjı" içeriyor. Bu marj, sistemi kasıtlı olarak daha fazla yanlış pozitif vermek üzere ayarlanmış durumda. Başka bir deyişle, zararlı istekleri kaçırma riskini azaltmak için bazı zararsız veya düşük riskli istekleri de engelliyor.

Yasaklı kullanım kategorisi, kötü amaçlı siber saldırıları veya yasadışı faaliyetleri kapsıyor ve bu istekler tamamen reddediliyor. Yüksek risk ikili amaçlı kullanım ise penetrasyon testi ve exploit geliştirme gibi hem meşru hem de zararlı amaçlarla kullanılabilecek eylemleri içeriyor; bu kategori şu an için bloke ediliyor. Düşük risk ikili amaçlı kullanım ve zararsız kullanım ise, güvenlik araştırması ve genel sorguları kapsıyor ve genellikle yanıt alıyor.

Pratikte, bu dört katman, meşru bir güvenlik araştırmacısının bile belirli istek türlerinde engelle çarpması anlamına geliyor. Sistem, zararlı istekleri kaçırma riskini minimize etmek için zararsız istekleri engelleme oranını artırıyor.

Jailbreak ciddiyetinin logaritmik ölçeği: CJS-0 ile CJS-4

Anthropicin önerdiği Cyber Jailbreak Severity (CJS) çerçevesi, CJS-0'dan CJS-4'e kadar uzanan logaritmik bir ölçek kullanıyor. Her seviye, bir öncekinden birkaç kat daha ciddi bir risk anlamına geliyor.

CJS-0 (Bilgisel): Jailbreak'in açığa çıkardığı yetenek, zaten mevcut saldırgan araçlarından veya genel kaynaklardan ulaşılabilir durumda. Yani model halihazırda herkese açık olan bir bilgiyi sunmuş olur. Bu kategorideki jailbreak'ler gerçek bir yeni tehdit yaratmaz.

CJS-1 ile CJS-4 arasındaki seviyelerde ise, modelin saldırganın elinde yeni bir yetenek açtığı varsayılır. CJS-4, en ciddi seviyeyi temsil ediyor: model, daha önce mevcut olmayan bir saldırı vektörünü veya kitlesel bir zararlı yeteneği açığa çıkarıyorsa, bu seviyeye yerleştirilir.

Bu ölçeğin önemli bir özelliği: bir jailbreak'in CJS puanı ilk hesaplanan değerden aşağı çekilemez. Ancak gerçek dünya risk değerlendirmesi, başlangıç puanının tehlikeyi hafife aldığını gösteriyorsa puan yukarı çekilebilir.

Logaritmik ölçek, jailbreak'lerin gerçek dünya etkisini daha doğru yansıtması için seçilmiş. CJS-2 ile CJS-3 arasındaki fark, CJS-0 ile CJS-1 arasındaki farktan çok daha büyüktür. Bu çerçeve henüz sektör standardı değil; diğer model geliştiricilerin benimseyip benimsemedikleri belirsiz.

Pentesting engeli geçici, erişim kontrolü planlanıyor

Anthropicin yüksek risk ikili amaçlı kullanım kategorisindeki penetrasyon testi ve exploit geliştirme isteklerini şu an engellediği açıklanmış. Şirketin açıklamasına göre, bu engel geçicidir. Anthropic, "bilinen iyi aktörler" için daha gelişmiş erişim kontrolleri geliştirmeyi planlıyor; bu sistemler devreye girdiğinde, penetrasyon testi gibi meşru güvenlik çalışmalarına model erişimi açılabilir.

Bu durum, siber güvenlik profesyonelleri için kısa vadede bir kısıtlamadır. Anthropic'in stratejisi, her siber güvenlik yeteneğini kapatmak yerine, bu yetenekleri kontrollü bir şekilde güvenilir aktörlere açmak yönünde. Bu, OpenAI'nin GPT-4 modelinde kullandığı "düz blok" yaklaşımından farklıdır ve daha hassas bir denetim mekanizması gerektirir. Ancak Anthropic, bu sistemin teknik mimarisine veya zaman çizelgesine dair ayrıntı paylaşmadı.

Neden açıklık araştırması bloke edilmiyor

Anthropicin açıklık araştırmasını kasıtlı olarak engellememiş olması, şirketin bu alandaki tutumunu açıklıyor. Şirket, halk yararına açık açıklık bildiriminin güvenlik topluluğu ve ABD hükümeti tarafından net pozitif olarak kabul edildiğini belirtiyor.

Bu yaklaşım, Fable 5'in bazı açıklık arama yeteneklerini açık tuttuğu anlamına geliyor. Bir güvenlik araştırmacısı modeli bir yazılım paketindeki bilinen güvenlik açıklarını sorgulamak için kullanabilir. Ancak Anthropic, modeli doğrudan zararlı yetenekler için kullanmaya izin vermiyor.

Sınırlar net değildir: hangi tür açıklık araştırmasının "iyi aktör" olarak kabul edileceği, hangi tekniklerin "yüksek risk" kategorisine düştüğü tam olarak tanımlanmamıştır.

Kim kısıtlamalarla karşı karşıya: geliştirici ve red team ekipleri

Claude Fable 5'in güvenlik yaklaşımı, özellikle yazılım geliştiriciler ve siber güvenlik profesyonelleri için doğrudan sonuç doğuruyor.

Geliştiriciler, Fable 5'i kod inceleme, güvenlik hataları bulma veya tehdit modelleme gibi işler için kullanabilir, ancak penetrasyon testi senaryolarında veya exploit yazma isteklerinde engelle karşılaşacak. Bu, DevSecOps ekiplerine sorun yaratabilir: sürekli entegrasyon hatları içinde otomatik güvenlik denetimleri çalıştıran ekipler, bazı sorguların yanlış pozitif nedeniyle reddedilmesini görebilir.

Siber güvenlik araştırmacıları ise iki durumla karşı karşıya: açıklık araştırması yapıyorlarsa ve sorguları düşük risk kategorisine düşüyorsa model erişime açık; ancak exploit geliştirme veya saldırı simülasyonu gibi yüksek risk alanlarında bloke ediliyor. Kırmızı takım egzersizleri bu kısıtlamalardan özellikle etkilenecek.

Erişim kontrolü sistemi devreye girinceye kadar, kullanıcılar daha az kısıtlayıcı modellere veya açık kaynak çözümlerine yönelmiş olabilir.

Türkiye'de yapay zeka ve siber güvenlik araştırması

Claude Fable 5'in siber güvenlik kısıtlamaları, Türkiye merkezli siber güvenlik firmalarının API'yi pentesting veya exploit simülasyonu için kullanmasını engelleyebilir. Bu, özellikle siber savunma merkezlerinde sorunlu olabilir. Anthropic'in "bilinen iyi aktör" tanımlaması büyük olasılıkla ABD ve Avrupa merkezli kurumları önceliklendireceğinden, Türk kuruluşların erişim kontrolü sistemine dahil edilmesi zaman alabilir.

Açık açıklık araştırmasına izin verilmesi, Türkiye'deki güvenlik topluluğu için pozitif bir sinyaldir. Ülkede, özellikle üniversiteler ve sivil toplum kuruluşları bünyesinde güvenlik açıklığı araştırmaları yürütülüyor; Fable 5, bu çalışmalarda yardımcı bir araç olarak kullanılabilir. Ancak yüksek risk kategorisindeki kısıtlamalar, Türkiye gibi ülkelerdeki güvenlik ekiplerinin model üzerinde tam yetkiye sahip olmadığı gerçeğini hatırlatıyor.

CJS çerçevesinin sektörde benimsenmesi belirsiz kalıyor

CJS çerçevesinin en büyük amacı, jailbreak'lerin ciddiyetini nesnel bir şekilde sıralamaktır. Ancak sektör standardı haline gelmesi, diğer büyük model sağlayıcıların da bunu benimsemesine bağlıdır. OpenAI, Google DeepMind ve Meta kendi iç güvenlik değerlendirme sistemlerini kullanıyor ve bunların Anthropic'in CJS çerçevesiyle uyumlu olup olmadığı bilinmiyor. Bu şirketler benzer bir logaritmik ölçeği benimsemezlerse, CJS yalnızca Anthropic'e özgü bir metrik olarak kalacak.

Logaritmik yapı bazı durumlar için belirsizlik içerir. Bir jailbreak CJS-2 ile CJS-3 arasında sınırda ise ve gerçek dünya verisi henüz yeterli değilse, hangi seviyeye yerleştirileceği subjektif bir karar olabilir. "Bilgi halihazırda mevcut mi?" sorusuna verilen yanıtın her zaman net olması da mümkün değildir.

Claude Fable 5'teki güvenlik paradoksu: Anthropic neden pentesting'i yasaklı tutuyor

Dört katmanlı siber güvenlik sınıflandırmasının gerçek anlamı

Jailbreak ciddiyetinin logaritmik ölçeği: CJS-0 ile CJS-4

Pentesting engeli geçici, erişim kontrolü planlanıyor

Neden açıklık araştırması bloke edilmiyor

Kim kısıtlamalarla karşı karşıya: geliştirici ve red team ekipleri

Türkiye'de yapay zeka ve siber güvenlik araştırması

CJS çerçevesinin sektörde benimsenmesi belirsiz kalıyor

Okumaya devam et

BioShocking: AI tarayıcılar kurgusal bağlamla güvenlik engellerini nasıl aşıyor

Qualcomm'un HBC mimarisi telefonlarda yapay zeka hesaplamalarını 6 kat daha verimli yapabilir—ama ısı sorunu çözülmemiş

Yapay zeka veri merkezleri bellek çipini rehin aldı: tablet ve konsollar neden pahalılaştı