Gemini’nin veri analiz yetenekleri Google’ın iddia ettiği kadar iyi değil
Google’ın amiral gemisi üretken AI modelleri Gemini 1.5 Pro ve 1.5 Flash’ın satış noktalarından biri, sözde işleyebilecekleri ve analiz edebilecekleri veri miktarıdır. Google, basın brifinglerinde ve demolarında, modellerin “uzun bağlamları” sayesinde daha önce imkansız olan görevleri başarabileceğini, örneğin yüzlerce sayfalık belgeleri özetleyebileceğini veya film görüntülerinde sahneler arasında arama yapabileceğini defalarca iddia etti.
Ancak yeni araştırmalar, modellerin aslında bu konularda pek de iyi olmadığını öne sürüyor.
İki ayrı çalışma, Google’ın Gemini modellerinin ve diğerlerinin muazzam miktarda veriden ne kadar iyi anlam çıkardığını araştırdı – “Savaş ve Barış” uzunluktaki çalışmaları düşünün. Her ikisi de Gemini 1.5 Pro ve 1.5 Flash’ın büyük veri kümeleriyle ilgili soruları doğru yanıtlamakta zorlandığını tespit etti; Belgeye dayalı bir dizi testte modeller yalnızca %40 ila %50 oranında doğru yanıtı verdi.
UMass Amherst’te doktora sonrası araştırmacı ve çalışmalardan birinin ortak yazarı olan Marzena Karpinska, TechCrunch’a yaptığı açıklamada, “Gemini 1.5 Pro gibi modeller teknik olarak uzun bağlamları işleyebilse de, modellerin içeriği aslında ‘anlamadığını’ gösteren birçok durum gördük.” dedi.
Gemini’nin bağlam penceresi eksik
Bir modelin bağlamı veya bağlam penceresi, modelin çıktı (örneğin ek metin) üretmeden önce dikkate aldığı girdi verilerini (örneğin metin) ifade eder. Basit bir soru — “2020 ABD başkanlık seçimlerini kim kazandı?” — bağlam olarak kullanılabilir, bir film senaryosu, gösteri veya ses klibi de öyle. Ve bağlam pencereleri büyüdükçe, bunlara sığdırılan belgelerin boyutu da büyür.
Gemini’nin en yeni sürümleri bağlam olarak 2 milyondan fazla token alabilir. (“Tokenler”, “fantastic” kelimesindeki “fan”, “tas” ve “tic” heceleri gibi, ham verilerin alt bölümlere ayrılmış parçalarıdır.) Bu, yaklaşık 1,4 milyon kelimeye, iki saatlik videoya veya 22 saatlik sese eşdeğerdir; ticari olarak mevcut herhangi bir modelin en büyük bağlamıdır.
Bu yılın başlarında yapılan bir brifingde Google, Gemini’nin uzun bağlam yeteneklerinin potansiyelini göstermeyi amaçlayan önceden kaydedilmiş birkaç demo gösterdi. Bunlardan biri Gemini 1.5 Pro’nun, Apollo 11’in aya iniş yayınının transkriptini (yaklaşık 402 sayfa) şakalar içeren alıntılar için aramasını ve ardından yayında karakalem taslağına benzeyen bir sahne bulmasını sağladı.
Brifingi yöneten Google DeepMind Araştırma Başkan Yardımcısı Oriol Vinyals, modeli “sihirli” olarak nitelendirdi.
“(1.5 Pro) bu tür muhakeme görevlerini her sayfada, her kelimede gerçekleştiriyor” dedi.
Bu bir abartı olabilir.
Bu yetenekleri karşılaştıran yukarıda bahsedilen çalışmalardan birinde Karpinska, Allen Yapay Zeka Enstitüsü ve Princeton’dan araştırmacılarla birlikte, modellerden İngilizce yazılmış kurgu kitaplar hakkındaki doğru/yanlış ifadeleri değerlendirmelerini istedi. Araştırmacılar, modellerin önceden bilgiye dayanarak “hile yapmaması” için son çalışmaları seçtiler ve ifadeleri, kitapları bütünüyle okumadan anlaşılması imkansız olan belirli ayrıntılara ve olay örgüsüne göndermelerle süslediler.
“Nusis, bir Apoth olarak becerilerini kullanarak, Rona’nın tahta sandığında bulunan reaktif anahtarının açtığı portalın türünü tersine mühendislik yoluyla oluşturabilir” gibi bir ifade verildiğinde, ilgili kitabı yutan Gemini 1.5 Pro ve 1.5 Flash, ifadenin doğru mu yanlış mı olduğunu söylemek ve gerekçelerini açıklamak zorundaydı.
Yaklaşık 260.000 kelime (~520 sayfa) uzunluğundaki bir kitap üzerinde test edilen araştırmacılar, 1.5 Pro’nun doğru/yanlış ifadelerini %46,7 oranında doğru yanıtladığını, Flash’ın ise yalnızca %20 oranında doğru yanıt verdiğini buldu. Bu, bir madeni paranın kitapla ilgili soruları yanıtlamada Google’ın en son makine öğrenme modelinden önemli ölçüde daha iyi olduğu anlamına geliyor. Tüm kıyaslama sonuçlarının ortalaması alındığında, hiçbir model soru yanıtlama doğruluğu açısından rastgele şanstan daha yüksek bir değere ulaşamadı.
Karpinska, “Modellerin, cümle düzeyindeki kanıtları alarak çözülebilen iddialara kıyasla, kitabın daha büyük bölümlerini veya hatta tüm kitabı dikkate almayı gerektiren iddiaları doğrulamakta daha fazla zorluk çektiğini fark ettik,” dedi. “Nitel olarak, modellerin, bir insan okuyucu için açık olan ancak metinde açıkça belirtilmeyen örtük bilgiler hakkındaki iddiaları doğrulamakta da zorluk çektiğini gözlemledik.”
UC Santa Barbara’daki araştırmacıların ortak yazdığı iki çalışmadan ikincisi, Gemini 1.5 Flash’ın (ancak 1.5 Pro değil) videolar üzerinde “akıl yürütme” (yani, içindeki içerikle ilgili soruları arama ve yanıtlama) yeteneğini test etti. .
Ortak yazarlar, modelin resimlerde tasvir edilen nesneler hakkında yanıt vermesi için sorularla (örneğin, “Bu pastanın üzerinde hangi çizgi film karakteri var?”) eşleştirilen resimlerden (örneğin, bir doğum günü pastasının fotoğrafı) oluşan bir veri seti oluşturdular. Modelleri değerlendirmek için görüntülerden birini rastgele seçtiler ve slayt gösterisi benzeri görüntüler oluşturmak için önüne ve arkasına “dikkat dağıtıcı” görüntüler eklediler.
Flash o kadar iyi performans göstermedi. Modelin 25 resimden oluşan bir “slayt gösterisinden” altı el yazısı rakamı kopyaladığı bir testte, Flash kopyaların yaklaşık %50’sini doğru yaptı. Doğruluk, sekiz rakamla yaklaşık %30’a düştü.
UC Santa Barbara’da doktora öğrencisi ve çalışmanın ortak yazarlarından biri olan Michael Saxon, TechCrunch’a “Görüntüler üzerinden gerçek soru-cevap görevlerinde, test ettiğimiz tüm modeller için özellikle zor görünüyor” dedi. “Bu küçük miktardaki akıl yürütme – bir sayının bir çerçevede olduğunu fark etmek ve onu okumak – modeli bozan şey olabilir.”
Google Gemini ile aşırı vaatlerde bulunuyor
Çalışmaların hiçbiri hakem incelemesinden geçmedi ve Gemini 1.5 Pro ve 1.5 Flash’ın 2 milyon token içerikli sürümlerini araştırmıyor. (Her ikisi de 1 milyon jetonlu bağlam sürümlerini test etti.) Ve Flash’ın performans açısından Pro kadar yetenekli olması amaçlanmamıştır; Google bunu düşük maliyetli bir alternatif olarak tanıtıyor.
Bununla birlikte, ikisi de Google’ın Gemini ile başından beri aşırı vaatlerde bulunduğu ve yetersiz kaldığı ateşe benzin döküyor. Araştırmacıların test ettiği modellerin hiçbiri, OpenAI’nin GPT-4o ve Anthropic’in Claude 3.5 Sonnet’i dahil, iyi performans göstermedi. Ancak Google, reklamlarında bağlam penceresine en üst sırayı veren tek model sağlayıcısı.
Saxon, “Nesnel teknik ayrıntılara dayanarak ‘Modelimiz X sayıda token alabilir’ şeklindeki basit iddiada yanlış bir şey yok” dedi. “Ama soru şu ki, onunla ne gibi yararlı şeyler yapabilirsiniz?”
İşletmeler (ve yatırımcılar) teknolojinin sınırlamalarından dolayı hayal kırıklığına uğradıkça, genel olarak üretken yapay zeka giderek daha fazla inceleme altına alınıyor.
Boston Consulting Group tarafından yakın zamanda yapılan bir çift ankette, yanıt verenlerin yaklaşık yarısı (tümü üst düzey yöneticiler) üretken yapay zekanın önemli üretkenlik kazanımları getirmesini beklemediklerini ve hata potansiyelinden endişe duyduklarını söyledi. üretken yapay zeka destekli araçlardan kaynaklanan veri uzlaşmaları. PitchBook kısa bir süre önce, üretken yapay zeka anlaşmalarının en erken aşamalarda üst üste iki çeyrek boyunca azaldığını ve 2023’ün üçüncü çeyreğindeki zirve noktasına göre %76 düşüş yaşadığını bildirdi.
İnsanlar hakkında kurgusal ayrıntılar ortaya çıkaran toplantı özetleyen sohbet robotları ve temelde intihal üreteçleri olan AI arama platformlarıyla karşı karşıya kalan müşteriler, umut vadeden farklılaştırıcılar peşinde. Üretken AI rakiplerine yetişmek için zaman zaman beceriksizce yarışan Google, Gemini’nin bağlamını bu farklılaştırıcılardan biri yapmak için can atıyordu.
Ama görünen o ki, bu bahis erken yapılmış.
Karpinska, “Uzun belgeler üzerinde ‘akıl yürütme’ veya ‘anlama’nın gerçekleştiğini gerçekten göstermenin bir yolunu henüz belirlemedik ve temelde bu modelleri yayınlayan her grup, bu iddiaları ortaya koymak için kendi özel değerlendirmelerini bir araya getiriyor,” dedi. “Bağlam işlemenin ne kadar uzun süre uygulandığı bilgisi olmadan – ve şirketler bu ayrıntıları paylaşmıyor – bu iddiaların ne kadar gerçekçi olduğunu söylemek zor.”
Google yorum talebine yanıt vermedi.
Hem Saxon hem de Karpinska, üretken yapay zekayla ilgili abartılı iddialara karşı panzehirlerin daha iyi kriterler olduğuna ve aynı şekilde üçüncü tarafların eleştirisine daha fazla vurgu yapıldığına inanıyor. Saxon, uzun bağlam için en yaygın testlerden biri olan (Google’ın pazarlama materyallerinde bolca alıntı yaptığı) “samanlıktaki iğne” testinin yalnızca bir modelin veri kümelerinden adlar ve sayılar gibi belirli bilgileri alma yeteneğini ölçtüğünü belirtiyor – cevap değil Bu bilgiyle ilgili karmaşık sorular.
Saxon, “Bu modelleri kullanan tüm bilim insanları ve mühendislerin çoğu, mevcut kıyaslama kültürümüzün bozuk olduğu konusunda temelde hemfikir,” dedi ve ekledi: “Bu nedenle, kamuoyunun ‘kıyaslamalar genelinde genel zeka’ gibi sayılar içeren bu devasa raporları büyük bir şüpheyle karşılaması önemlidir.”
Kaynak: https://techcrunch.com/2024/06/29/geminis-data-analyzing-abilities-arent-as-good-as-google-claims/