Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü Güvenlik Testlerinden Geçirdi: Şantaj İhtimali?

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch’ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.

Related Posts

Dünya merakla bekliyor: Sovyet uydusunun hangi ülkeye düşeceği belli oldu

Kontrolden çıkan bir Sovyet uzay aracı Pazar sabahı Dünya’ya çarpmaya hazırlanıyor. Hangi ülkeler risk altında ve Türkiye bu listede yer alıyor mu diye merakla beklenirken uydunun hangi ülkeye düşeceği belli oldu. İşte detaylar…

Apple akıllı gözlükler için yeni bir çip geliştiriyor

Özellikle Meta gibi gözlüklerin piyasada yer almasının ardından harekete geçen Apple, sanal gerçeklik gözlüğünün ardından hem arttırılmış gerçeklik destekli hem de daha sade modeller üzerinde çalışacak.

Teknolojik güvenli sürüş yatırımı kazaları yüzde 47 azalttı

Trafik Haftası vesilesiyle güvenli sürüşün önemine dikkat çeken GetirAraç, güvenli sürüşe yönelik teknoloji yatırımlarıyla ağır kaza/hasar oranında yüzde 47 iyileşme sağlandığını duyurdu.

Kulaklık takmayı sevmeyenler dikkat! Koltuğa ses sistemi ekleyen cihaz

Ofis ve oyuncu koltuklarıyla uyumlu olan Clio duyuruldu. Kulaklık takmayı sevmeyenlere odaklanan bu cihaz THX Spatial Audio’yu desteklediği gibi 14 saate kadar pil ömrü sunuyor.

Katlanabilir ekranlı iPhone, hangi özellikleriyle diğerlerinden ayrılacak?

Apple’ın halihazırda katlanabilir ekranlı bir iPhone geliştirdiği biliniyor. Telefonla ilgili ayrıntılı bilgiler henüz yokken, bazı özellikleri ortaya çıktı.

Neuralink’in beyin çipi takılan ALS hastası video hazırladı

Neuralink’in konuşamayan ilk hastası, beyin çipi sayesinde tek bir tuşa basmadan bir YouTube videosu hazırladı.