Apple araştırmacıları, muhakeme yeteneğiyle öne çıkan son model yapay zeka araçlarının karmaşık misyonlarda büsbütün başarısız olduğunu gösteren bir çalışma yayınladı.
Apple araştırmacıları, yapay zekanın muhakeme yeteneklerine dair tezli telaffuzlara ağır bir darbe vurabilecek bir çalışmaya yayınladı.
7 Haziran’da Apple’ın makine tahsili sitesinde yayınlanan çalışmaya nazaran, Meta, OpenAI ve DeepSeek üzere büyük teknoloji şirketlerinin geliştirdiği son model yapay zeka araçları, muhakeme yapabildikleri sav edilse de, vazifeler karmaşıklaştığında büsbütün başarısız oluyor.
MUHAKEME MODELLERİ NE VAAT EDİYORDU?
Anthropic firmasının Claude modeli, OpenAI’ın o3 modeli ve DeepSeek’in R1’i üzere modeller, klasik büyük lisan modellerine (LLM) kıyasla daha gerçek karşılıklar üretmek üzere tasarlanmış özel “muhakeme” sistemleri olarak tanıtıldı.
Bu modeller, “chain-of-thought” (düşünce zinciri) ismi verilen çok adımlı mantık yürütme sürecini kullanarak, daha karmaşık misyonları çözebilmeleriyle öne çıkıyorlardı.
Bu gelişmeler, “yapay genel zeka” (AGI) yani insanı birçok alanda aşacak seviyedeki yapay zeka düzeyinin yaklaştığı istikametindeki savları da güçlendirmişti. Lakin Apple’ın yeni araştırması, bu beklentilere temkinli yaklaşmak gerektiğini ortaya koyuyor.
KARMAŞIK MİSYONLARDA ÇÖKÜYOR
Araştırmada, OpenAI’IN o1 ve o3 modelleri, DeepSeek R1, Anthropic Claude 3.7 Sonnet ve Google Gemini üzere hem klasik hem de muhakeme yetenekli modeller dört klasik mantık bilmecesiyle test edildi: Irmaktan geçme, dama atlamaca, blok dizme ve Hanoi Kulesi. Bilmece karmaşıklıkları düşük, orta ve yüksek düzeylerde ayarlanarak modellerin dayanıklılığı ölçüldü.
Sonuçlar çarpıcıydı:
– Düşük karmaşıklık düzeyine sahip testlerde klasik modeller daha başarılıydı.
– Orta düzey testlerde muhakeme modelleri avantaj sağladı.
– Lakin yüksek düzeyde tüm modellerin muvaffakiyet oranı sıfıra düştü.
Muhakeme modellerinin, muhakkak bir karmaşıklık eşiğini aştıktan sonra, düşünme için kullandıkları “token” ölçüsünü azalttıkları görüldü. Araştırmacılara nazaran bu, modellerin karmaşık vazifelerde mantık yürütme marifetlerinin çöktüğü manasına geliyor.
Dahası, tahlil algoritması direkt verildiğinde bile bu çöküş engellenemedi. Örneğin, Hanoi Kulesi testinde 100 yanlışsız atak yapan modeller, ırmaktan geçme bilmecesinde yalnızca 5 atakta başarısız oldu.
HALÜSİNASYON SORUNU
OpenAI’ın kendi teknik raporları da muhakeme modellerinin halüsinasyon üretme (yani hatalı veya uydurma bilgi sunma) riskinin daha yüksek olduğunu göstermişti.
Nitekim o1 modelinde yanlışlı bilgi oranı yüzde 16 iken, o3 ve o4-mini modellerinde bu oran sırasıyla yüzde 33 ve yüzde 48’e çıkıyor.
OpenAI, bu durumun neden kaynaklandığını şimdi çözemediğini ve “daha fazla araştırmaya ihtiyaç olduğunu” belirtiyor.
DEĞERLENDİRME FORMÜLÜNDE SORUN MU VAR?
Apple araştırmacıları ise mevcut yapay zeka kıymetlendirme usullerinin yetersiz kaldığını savunuyor. Matematik ve kodlama testlerinin data sızıntısı (contamination) riski taşıdığını ve denetimli deney şartlarında muhakeme yeteneğini ölçmede eksik kaldığını tabir ediyorlar.
Veri sızıntısı, test edilen bir sorunun yahut tahlilinin daha evvel modelin eğitim datalarında yer almış olması manasına geliyor. Yani buna nazaran, modeller, daha evvel gördüğü bir soruyla karşılaştığında nitekim muhakeme etmek yerine bu soruya “ezberden” cevap veriyor olabilir.
APPLE’IN NİYETİ NE?
Apple’ın kendi yapay zeka stratejisi daha çok cihaz içi (on-device) verimli yapay zeka çözümleri geliştirmeye odaklanıyor. Ancak Siri’nin ChatGPT’ye göre yüzde 25 daha az doğru yanıt verdiğini gösteren analizler de var. Bu yüzden bazı analistler Apple’ın bu stratejisini eleştiriyor.
Bu durum Apple’ın kelam konusu yapay zeka araştırmasının da kimi kısımlar tarafından eleştirilmesine yol açtı.
Washington Üniversitesi’nden emekli bilgisayar bilimcisi Pedro Domingos, toplumsal medya hesabından, “Apple’ın parlak yeni yapay zeka stratejisi: Yapay zeka diye bir şeyin olmadığını ispatlamak” diye yazdı.
Ancak pek çok araştırmacı bu çalışmayı, yapay zeka hakkındaki abartılı telaffuzlara karşı değerli bir “soğuk duş” olarak da kıymetlendiriyor.
Yapay zeka uzmanı Andriy Burkov, “Apple, hakemli bir çalışmayla LLM’lerin sadece nöral ağlar olduğunu ve klasik sınırlamalara sahip olduklarını ispatladı” dedi ve ekledi:
“Umarım artık bilim insanları, LLM’leri hastalarla konuşan psikiyatristler gibi değil, matematikçiler gibi inceler.”