Google'ın üretken yapay zekası artık saatlerce süren videoyu analiz edebiliyor
Google'ın üretken yapay zeka modelleri ailesi Gemini, artık eskisinden daha uzun belgeleri, kod tabanlarını, videoları ve ses kayıtlarını analiz edebiliyor.
Açılış konuşması sırasında Salı günü Google I/O 2024 geliştirici konferansıGoogle, şirketin mevcut amiral gemisi modeli olan Gemini 1.5 Pro'nun 2 milyona kadar token alabilen yeni sürümünün özel ön izlemesini duyurdu. Bu önceki maksimum miktarın iki katı.
Gemini 1.5 Pro'nun yeni sürümü, 2 milyon token ile piyasada bulunan tüm modeller arasında en büyük girdiyi destekliyor. Bir sonraki en büyük Anthropic's Claude 31 milyon jetona ulaşıyor.
Yapay zeka alanında “jetonlar”, “fantastik” kelimesindeki “fan”, “tas” ve “tic” heceleri gibi ham verilerin alt bölümlere ayrılmış bitlerini ifade eder. İki milyon jeton, yaklaşık 1,4 milyon kelimeye, iki saatlik videoya veya 22 saatlik sese eşdeğerdir.
Büyük dosyaları analiz edebilmenin ötesinde, daha fazla jeton alabilen modeller bazen daha iyi performans elde edebilir.
Küçük maksimum token girişlerine sahip modellerin aksine (diğer adıyla bağlam), 2 milyon jeton girişli Gemini 1.5 Pro gibi modeller, en son konuşmaların içeriğini kolayca “unutmayacak” ve konudan sapmayacak. Geniş bağlamlı modeller ayrıca aldıkları veri akışını (en azından varsayımsal olarak) daha iyi kavrayabilir ve bağlamsal olarak daha zengin yanıtlar üretebilir.
Gemini 1.5 Pro'yu 2 milyon jetonluk bir bağlamla denemek isteyen geliştiriciler, adlarını Google'ın üretken AI geliştirme aracı olan Google AI Studio'daki bekleme listesine ekleyebilir. (1 milyon jetonlu içeriğe sahip Gemini 1.5 Pro, önümüzdeki ay Google'ın geliştirici hizmetlerinde ve yüzeylerinde genel kullanıma sunulacak.)
Daha geniş bağlam penceresinin ötesinde Google, Gemini 1.5 Pro'nun son birkaç ayda algoritmik iyileştirmeler yoluyla “geliştirildiğini” söylüyor. Google, kod oluşturmada, mantıksal akıl yürütmede ve planlamada, çok yönlü konuşmada ve ses ve görüntü anlamada daha iyi olduğunu söylüyor. Gemini API ve AI Studio'da, 1.5 Pro artık görüntü ve videonun yanı sıra ses üzerinden de mantık yürütebiliyor ve sistem talimatları adı verilen bir özellik aracılığıyla “yönlendirilebiliyor”.
Gemini 1.5 Flash, daha hızlı bir model
Daha az zorlu uygulamalar için, Google, Gemini 1.5 Pro'nun “damıtılmış” bir versiyonu olan ve “dar”, “yüksek frekanslı” üretken yapay zeka iş yükleri için oluşturulmuş küçük ve verimli bir model olan Gemini 1.5 Flash'ı genel önizlemede kullanıma sunuyor. 2 milyon jetona kadar bağlam penceresine sahip olan Flash, Gemini 1.5 Pro gibi çok modludur, yani metnin yanı sıra ses, video ve görüntüleri de analiz edebilir (ancak yalnızca metin üretir).
Google'ın deneysel AI bölümlerinden biri olan Google Labs Başkan Yardımcısı Josh Woodward, gazetecilere verdiği bir brifing sırasında “Gemini Pro, çok daha genel veya karmaşık, genellikle çok adımlı muhakeme görevleri içindir” dedi. “(Fakat) bir geliştirici olarak, model çıktısının hızına çok önem veriyorsanız gerçekten (Flash) kullanmak istersiniz.”
Woodward, Flash'ın özellikle özetleme, sohbet uygulamaları, resim ve video altyazıları ekleme ve uzun belge ve tablolardan veri çıkarma gibi görevler için çok uygun olduğunu ekledi.
Flash, Anthropic'inki gibi API'ler aracılığıyla sunulan küçük, düşük maliyetli modellere Google'ın cevabı gibi görünüyor Claude 3 Haiku. Gemini 1.5 Pro ile birlikte şu anda Avrupa Ekonomik Alanı, Birleşik Krallık ve İsviçre de dahil olmak üzere 200'den fazla ülke ve bölgede oldukça yaygın olarak mevcuttur. (Bununla birlikte, 2 milyon tokenlık içerik versiyonu bir bekleme listesinin arkasında yer alıyor.)
Maliyet bilincine sahip geliştiricileri hedefleyen başka bir güncellemede, yalnızca Flash değil, tüm Gemini modelleri yakında bağlam önbelleğe alma adı verilen bir özellikten yararlanabilecek. Bu, geliştiricilerin büyük miktarlarda bilgiyi (örneğin, bir bilgi tabanı veya araştırma makaleleri veritabanı) Gemini modellerinin hızlı ve nispeten ucuz bir şekilde (kullanım başına bakış açısından) erişebileceği bir önbellekte saklamasına olanak tanır.
Google'ın kurumsal odaklı üretken yapay zeka geliştirme platformu Vertex AI'de bugün genel önizlemeye sunulan ücretsiz Batch API, sınıflandırma ve duyarlılık analizi, veri çıkarma ve açıklama oluşturma gibi iş yüklerini yönetmek için daha uygun maliyetli bir yol sunarak birden fazla istemin Gemini modellerine tek istekte gönderilebilir.
Woodward, ayın ilerleyen günlerinde Vertex'te ön izleme olarak gelecek bir başka yeni özelliğin, kontrollü üretimin, kullanıcıların Gemini modeli çıktılarını belirli formatlara veya şemalara (örneğin JSON veya XML) göre tanımlamasına olanak tanıyarak daha fazla maliyet tasarrufu sağlayabileceğini öne sürüyor.
Woodward, “Tüm dosyalarınızı modele bir kez gönderebileceksiniz ve onları tekrar tekrar göndermeniz gerekmeyecek” dedi. “Bu, uzun bağlamı (özellikle) çok daha kullanışlı ve aynı zamanda daha uygun maliyetli hale getirmelidir.”
Kaynak: https://techcrunch.com/2024/05/14/googles-generative-ai-model-can-now-analyze-hours-of-video/