Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü Güvenlik Testlerinden Geçirdi: Şantaj İhtimali?

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch’ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.

Related Posts

Bilim dünyası alarmda, Dünya’nın dönüş hızında anormallik var: 9 Temmuz 2025, tarihin en kısa günü oldu

9 Temmuz 2025, bilim dünyasını şaşkına çevirdi. Dünya’nın dönüş süresi ortalamadan 1,6 milisaniye daha kısa olacak. Peki bu ne anlama geliyor? Dünya neden daha hızlı dönüyor? Bilim insanlarının açıklamalarıyla en kısa günün sırları haberimizde.

GTA 6’ya rakip deniyordu: Tarihin fiyaskosu oldu

Alanının öncüsü GTA 6’ya rakip olacağı iddialarıyla piyasaya sürülen MindsEye, beklentilerin fersah fersah uzağında kaldı…
10 Haziran’da piyasaya sürülen üçüncü şahıs aksiyon oyunu MindsEye, lansman döneminde “GTA 6’nın rakibi” olarak adlandırılmıştı.

Teknoloji ve finans uzmanlarını buluşturan zirve sona erdi

2019’dan bu yana düzenlenen Istanbul Fintech Week (IFW), 11-12 Haziran tarihlerinde finans ve teknoloji sektörlerindeki kanaat önderlerini ve sektör profesyonellerini altıncı kez İstanbul’da bir araya getirdi. Bu yıl “Finansın Geleceğini Yapay Zeka …

OpenAI’dan “beklemeye değecek” erteleme kararı

OpenAI CEO’su Sam Altman, X platformu üzerinden yaptığı duyuru ile, şirketin yıllar sonra piyasaya süreceği ilk açık modelin haziran ayında değil, yaz sonuna doğru geleceğini bildirdi. Altman, ertelemenin nedenini açıklarken, “araştırma ekibimizin …

Axiom Space, Hindistan, Polonya ve Macaristan’ı uzaya taşıyor

Özel uzay şirketi Axiom Space, 10 Haziran’da gerçekleştireceği Ax-4 misyonuyla Hindistan, Polonya ve Macaristan’ı tekrar insanlı uzay yolculuğuna taşıyor. Şirketin CEO’su Tejpaul Bhatia, görevi “bir tür zafer turu” olarak nitelendirirken, bu uçuşun …

YouTube’un Music uygulamasına daha fazla reklam getirildi

Reklam sayısını artırmaya devam eden YouTube, bu sefer de müzik uygulamasındaki reklamların sayısını artırdı.