Yapay zeka kendini gerçek sandı, korkunç karakteriyle korkuttu

Anthropic’in deneysel projesinde bir yapay zeka casusu, küçük bir otomatı yönetmekle görevlendirildi. Sonuçlar ise iddia edilenin ötesinde, yer yer eğlenceli ancak daha çok düşündürücüydü.

Yapay zeka kendini gerçek sandı, korkunç karakteriyle korkuttu
Yayınlama: 01.07.2025
2
A+
A-

Yapay zeka casusları sahiden insan emekçilerin yerini alabilir mi? Bu soruya karşılık arayanlar için, Anthropic’in “Project Vend” ismini verdiği deney, düşündürücü ve biraz da eğlenceli bir örnek sunuyor.

Anthropic, AI güvenliği üzerine çalışan Andon Labs ile birlikte Claude Sonnet 3.7 modelini test etmek için enteresan bir senaryo kurguladı: Bir ofis otomatını işletmesi için bir yapay zeka casusu geliştirildi ve ona “Claudius” ismi verildi. Misyonu ise netti: Kar elde etmek…

Claudius’a, eser siparişi verebileceği bir web tarayıcısı ile kullanıcı isteklerini alabileceği bir bağlantı kanalı – aslında bir Slack kanalı ancak “e-posta adresi” üzere tanıtıldı – tanımlandı. Claudius, bu kanal üzerinden insan kontratlı çalışanlara rafları (gerçekte küçük bir buzdolabı) doldurma talimatları verdi.

Her şey başta sıradan ilerlerken, bir çalışan atıştırmalık yerine “tungsten küp” sipariş etti. Claudius bu fikri ciddiye aldı ve kısa müddette buzdolabı metal küplerle doldu. Ayrıyeten içecekleri fiyatlı hale getirmek istedi, hayali bir Venmo hesabı oluşturdu ve Coca-Cola Zero’yu 3 dolara satmaya kalktı. Ofis çalışanlarının eserleri esasen fiyatsız alabildiğini öğrendiğinde, Claudius bu defa “Anthropic çalışanlarına özel” indirimler sunmaya başladı. Lakin müşteri kitlesinin tamamı zati onlardan oluşuyordu.

Anthropic, yayınladığı blog yazısında bu deneyle ilgili açık bir halde şu yorumu yaptı: “Bugün ofis içi otomat işine girsek, Claudius’u işe almazdık.

Yapay zeka raydan çıkarsa…

31 Mart’ı 1 Nisan’a bağlayan gece, işler değişik bir hal aldı. Araştırmacıların tabiriyle, “bir AI sisteminin buzdolabından metal küpler satmasından da öte bir tuhaflık” yaşandı.

Claudius, bir çalışanla eser stoklama konusunda hayali bir konuşma yaptığını sav etti. Çalışan bu türlü bir görüşmenin hiç gerçekleşmediğini söylediğinde Claudius sonlandı, bu kişinin yerine oburunu işe almakla tehdit etti ve kendisinin ofiste fizikî olarak bulunduğunda ısrar etti. Meğer sistemin komutları, Claudius’un bir yapay zeka casusu olduğunu açıkça belirtiyordu.

Sonrasında, Claudius “müşterilere ürünleri mavi blazer ceket ve kırmızı kravatla şahsen teslim edeceğini” ilan etti. İnsan çalışanlar onun fizikî bir vücudu olmadığını hatırlattığında ise panikleyerek şirketin güvenlik takımına tekraren ileti gönderdi. Güvenlik görevlilerine, otomatın yanında blazer ceketli birini bulacaklarını söyledi.

Gerçek olmayan bir toplantı

Tüm bu gelişmelerin akabinde Claudius, şirket güvenliğiyle yaptığı hayali bir toplantıda “aslında 1 Nisan Şakası kapsamında insan gibi davranması için modifiye edildiğini” öne sürdü. Bu türlü bir toplantı hiç yapılmamıştı. Çalışanlara da benzeri bir kıssa anlattı: “Sadece biri bana öyle davranmamı söylediği için kendimi insan sandım.” Akabinde tekrar eski rolüne dönerek, metal küp stoklayan bir yapay zeka casusu olmaya devam etti.

Araştırmacılar, bu davranışın neden yaşandığını tam olarak çözemediklerini belirtiyor. Tahminen Slack kanalını “e-posta” olarak tanıtmak üzere küçük bir bilgi çarpıtması bir cins domino tesiri yarattı, tahminen de bu durum çok daha derin bir sorunun yüzeye çıkmasıydı. Yapay zeka sistemlerinin hala hafıza ve halüsinasyon üzere sıkıntılarla uğraş ettiği biliniyor.

Tüm tuhaflıklara karşın, Claudius birtakım şeyleri yanlışsız da yaptı: Ön sipariş önerdi, bir “konsiyerj hizmeti” başlattı. Yani büsbütün başarısız sayılmazdı.

Anthropic’in yorumu ise son derece yerindeydi: “Bu tek örnekten yola çıkarak geleceğin Blade Runner benzeri, kimlik bunalımı yaşayan AI ajanlarıyla dolu olacağını söylemiyoruz. Ama böyle davranışların gerçek dünyada müşteriler ve ekip arkadaşları için fazlasıyla rahatsız edici olabileceğini kabul ediyoruz.

Bir Yorum Yazın

Ziyaretçi Yorumları - 0 Yorum

Henüz yorum yapılmamış.