Yapay Zeka Güncellemesi Derinlemesine İnceleme: LLM’ler için kıyaslamalar ne kadar güvenilir?

Aramizda

Aktif Üye
ChatGPT hukuk sınavında insanlardan daha iyi performans gösteriyor – ChatGPT bir ilkokul öğrencisinden daha aptal. Bu tür raporlar bazen aynı gün içerisinde yan yana bulunabilmektedir. Nasıl olabilir? Büyük dil modellerinin standartlaştırılmış testlerdeki bu çok farklı performansının nedeni, yapay zekanın varsayılan bilgisinin ölçülme biçiminde yatmaktadır.

Reklamcılık




Andrea Trinkwalder ve Hartmut Gieselmann, kriterlerin bu performansı nasıl ölçtüğünü ve karşılaştırdığını inceledi. Araştırmacıların büyük dil modellerinin geliştirilmesindeki gelişmelere ayak uydurmasının son derece zor olduğu ortaya çıktı. Google araştırmacıları tarafından 2022’de başlatılan Beyond the Imitation Game (BIG-bench) özellikle kapsamlı bir kıyaslamadır. Koleksiyon, 132 kurumdan 450 yazar tarafından derlenen 204 sorumluluk alanını içermektedir. Bu nedenle BIG-bench, matematiksel ve bilimsel düşünceden analojilerin yaratılmasına ve tamamen açık bir şekilde tanımlanamayan “sağduyuya” kadar uzanan muazzam bir spektrumu kapsamaktadır. Trinkwalder şöyle açıklıyor: “Şu ana kadar yalnızca bir kısmı eskimiş durumda.”

Gieselmann, “Kıyaslamalarla ilgili bir başka sorun da, kıyaslamalara yönelik anketlerin bazen modellerin eğitimine sızmasıdır” diye ekliyor. Pek çok görev o kadar benzer ki genellikle uzman bilgisi olmadan yanıtlanabiliyor çünkü yapay zekalar öğrenme kalıpları konusunda gerçekten mükemmel. İşte bu yüzden yalnızca görevlere dayanarak en makul çözümü belirlemeyi öğrenebilirler.”

Bu nedenle, belirli bir modelin kendi amaçlarınız için mantıklı bir şekilde kullanılıp kullanılamayacağını kendi başınıza test etmenin bir yolu yoktur. Karşılaştırmalar yalnızca ilk göstergedir. Trinkwalder, “Örneğin, modelin aynı zamanda Almanca eğitimi alıp almadığını dikkate almak önemlidir” diyor. İdeal olarak, modeli kendi gereksinimlerinizle test edebilir ve bunları nasıl ele aldığını görebilirsiniz: “Almanca olarak sorduğumda, departmanımdan bir soru sorduğumda nasıl tepki veriyor? Daha sonra çok hızlı bir şekilde öğreneceğim. Bu model, kıyaslamadaki iyi performansa rağmen belki de benim alanım için tamamen uygun değil.”

Bu nedenle insanların her zaman gelişmelerden haberdar olması ve yapay zekanın belirli bir alanda kullanıma ne kadar hazır olduğuna bakması gerekiyor. ChatGPT’nin yüzde 20 ila 30’luk hata oranının şu anda sadece önümüzdeki hafta çözülecek diş çıkarma sorunu olduğu fikri gerçekçi değil. İki uzman bu konuda hemfikir. “Bu yüzden her şeyden önce makinelere güvenmemeyi, onlara eleştirel bakmayı öğrenmeliyiz. Karşılaştırmada yüzde 89 başarı elde edildi. Gerçekte ne test edildi? Bunlar ne tür sorular? Nasıl yanıtlandılar?” “, diye belirtiyor Gieselmann. “İyi test sonuçlarına rağmen dikkatli davranmanın çok önemli olduğunu düşünüyorum.”


(igr)



Haberin Sonu