Haber kuruluşları Perplexity’yi intihal ve etik olmayan web kazıma ile suçluyor
Üretken yapay zekanın hakim olduğu, sohbet robotlarının internetten alınan içeriklere dayanarak sorulara detaylı yanıtlar verebildiği bir çağda, adil kullanım ile intihal arasındaki ve rutin web tarama ile etik olmayan özetleme arasındaki çizgi oldukça incedir.
Perplexity AI, yalnızca bağlantılar yerine ayrıntılı yanıtlar üreten büyük bir dil modeliyle bir arama motorunu birleştiren bir girişimdir. OpenAI’nin ChatGPT’si ve Anthropic’in Claude’unun aksine, Perplexity kendi temel AI modellerini eğitmez, bunun yerine internetten topladığı bilgileri alıp yanıtlara dönüştürmek için açık veya ticari olarak mevcut olanları kullanır.
Ancak Haziran ayındaki bir dizi suçlama, girişimin yaklaşımının etik dışı olma sınırında olduğunu gösteriyor. Forbes, Perplexity’yi girişimin beta Perplexity Pages özelliğinde haber makalelerinden birini intihal etmekle suçladı. Wired ise Perplexity’yi diğer sitelerle birlikte kendi web sitesini yasadışı olarak kopyalamakla suçladı.
Nisan ayından itibaren 3 milyar dolara yakın bir değerlemeyle 250 milyon dolar toplamak için çalışan Perplexity, hiçbir yanlış yapmadığını iddia ediyor. Nvidia ve Jeff Bezos destekli şirket, yayıncıların içerikleri kopyalamama isteklerini yerine getirdiğini ve adil kullanım telif hakkı yasalarının sınırları içinde faaliyet gösterdiğini söylüyor.
Durum karmaşıktır. Özünde iki kavramı çevreleyen nüanslar vardır. Birincisi, web sitelerinin içeriklerinin web tarayıcıları tarafından erişilmesini veya kullanılmasını istemediklerini belirtmek için kullandıkları bir standart olan Robots Exclusion Protocol’dür. İkincisi, telif hakkı yasasında, belirli durumlarda izin veya ödeme olmadan telif hakkıyla korunan materyalin kullanımına izin veren yasal çerçeveyi oluşturan adil kullanımdır.
Gizlice web içeriğini taramak
Wired’ın 19 Haziran tarihli haberi, Perplexity’nin yayıncıların botların erişmesini istemediği web sitelerinin alanlarını gizlice taramak için Robot Dışlama Protokolünü görmezden geldiğini iddia ediyor. Wired, Perplexity’ye bağlı bir makinenin bunu kendi haber sitesinde ve ana şirketi Condé Nast’ın altındaki diğer yayınlarda yaptığını gözlemlediğini bildirdi.
Raporda, geliştirici Robb Knight’ın da benzer bir deney gerçekleştirdiği ve aynı sonuca ulaştığı belirtildi.
Hem Wired muhabirleri hem de Knight, Perplexity’den bir dizi URL’yi özetlemesini isteyerek ve ardından sunucu tarafında Perplexity ile ilişkili bir IP adresinin bu siteleri ziyaret etmesini izleyerek şüphelerini test ettiler. Perplexity daha sonra bu URL’lerdeki metni “özetledi” — ancak Wired’ın bu amaçla oluşturduğu sınırlı içeriğe sahip bir sahte web sitesi durumunda, sayfadaki metni kelimesi kelimesine döndürdü.
İşte Robot Dışlama Protokolü’nün nüansları tam da bu noktada devreye giriyor.
Web kazıma teknik olarak tarayıcılar olarak bilinen otomatik yazılım parçaları web’i tarayıp web sitelerinden bilgi topladığında. Google gibi arama motorları bunu web sayfalarının arama sonuçlarına dahil edilebilmesi için yapar. Diğer şirketler ve araştırmacılar pazar analizi, akademik araştırma ve öğrendiğimiz kadarıyla makine öğrenimi modellerini eğitmek için internetten veri toplamak amacıyla tarayıcıları kullanır.
Bu protokole uyan web kazıyıcılar, öncelikle bir sitenin kaynak kodunda “robots.txt” dosyasını arayarak neyin izin verilip neyin verilmediğini görecektir; bugün, izin verilmeyen şey genellikle yapay zeka için büyük eğitim veri kümeleri oluşturmak üzere bir yayıncının sitesini kazımaktır. Perplexity de dahil olmak üzere arama motorları ve yapay zeka şirketleri, protokole uyduklarını belirtmişlerdir ancak bunu yapmak için yasal olarak bir zorunlulukları yoktur.
Perplexity’nin iş başkanı Dmitry Shevelenko, TechCrunch’a bir URL’yi özetlemenin taramayla aynı şey olmadığını söyledi. Shevelenko, “Tarama, sadece etrafta dolaşıp bilgileri emip dizininize eklemektir,” dedi. Perplexity’nin IP’sinin, yalnızca bir kullanıcı sorgusuna bir URL koyduğunda, “başka bir şekilde robots.txt’den yasaklanmış” bir web sitesinin ziyaretçisi olarak görünebileceğini ve bunun “tarama tanımına uymadığını” belirtti.
Shevelenko, “Biz sadece o URL’ye gitmemiz yönündeki doğrudan ve belirli bir kullanıcı talebine yanıt veriyoruz” dedi.
Başka bir deyişle, bir kullanıcı bir URL’yi manuel olarak bir yapay zekaya sağladığında, Perplexity’nin söylediğine göre yapay zeka bir web tarayıcısı gibi değil, kullanıcının talep ettiği bilgileri almasına ve işlemesine yardımcı olan bir araç gibi davranıyor.
Ancak Wired ve diğer pek çok yayıncı için bu, fark yaratmayan bir ayrımdır; çünkü bir URL’yi ziyaret edip, metni özetlemek için bilgileri çekmek, günde binlerce kez yapılıyorsa, kazımaya çok benzer.
(Wired ayrıca, Perplexity’nin bulut servis sağlayıcılarından biri olan Amazon Web Services’in, kullanıcıların istemlerinde alıntı yaptıkları web sayfalarını taramak için robots.txt protokolünü görmezden gelen girişimi soruşturduğunu bildirdi. AWS, TechCrunch’a Wired’ın raporunun doğru olmadığını ve medya kuruluşuna, hizmetin kötüye kullanıldığına dair diğer tüm raporlar gibi medya soruşturmasını da işlediğini söylediğini söyledi.)
İntihal mi yoksa makul kullanım mı?
Wired ve Forbes da Perplexity’yi intihalle suçladı. Wired, ironik bir şekilde Perplexity’nin, girişimin gizlice web içeriğini kazıdığı için onu suçlayan makaleyi intihal ettiğini söylüyor.
Wired muhabirleri Perplexity sohbet robotunun “hikayenin sonuçlarını ve bunlara ulaşmak için kullanılan kanıtları yakından özetleyen altı paragraf, 287 kelimelik bir metin ürettiğini” söyledi. Bir cümle, orijinal hikayeden bir cümleyi birebir kopyalıyor; Wired bunun intihal teşkil ettiğini söylüyor. Poynter Enstitüsü’nün yönergeleri, yazarın (veya yapay zekanın) orijinal kaynak çalışmadan art arda yedi kelime kullanması durumunda bunun intihal olabileceğini söylüyor.
Forbes ayrıca Perplexity’yi intihalle suçladı. Haber sitesi, Haziran ayının başlarında Google CEO’su Eric Schmidt’in yeni girişiminin yoğun bir şekilde işe alım yaptığı ve askeri uygulamalarla AI destekli drone’ları test ettiği hakkında bir araştırma raporu yayınladı. Ertesi gün, Forbes editörü John Paczkowski, Perplexity’nin bu haberi beta özelliği Perplexity Pages’in bir parçası olarak yeniden yayınladığını söyleyerek X’e bir gönderi yaptı.
Şimdilik yalnızca belirli Perplexity abonelerine açık olan Perplexity Pages, Perplexity’ye göre kullanıcıların araştırmalarını “görsel olarak çarpıcı, kapsamlı içeriklere” dönüştürmelerine yardımcı olmayı vaat eden yeni bir araçtır. Sitedeki bu tür içeriklere örnekler, girişimin çalışanlarından gelir ve “Davul çalmaya yeni başlayanlar için bir rehber” veya “Steve Jobs: vizyon sahibi CEO” gibi makaleler içerir.
“Bizim haberlerimizin çoğunu kopyalıyor,” diye yazdı Paczkowski. “Bizi ve bizi yeniden bloglayan birkaç kişiyi, mümkün olan en kolay görmezden gelinebilecek şekilde kaynak olarak gösteriyor.”
Forbes, Perplexity ekibi tarafından düzenlenen gönderilerin çoğunun “Forbes, CNBC ve Bloomberg dahil olmak üzere birden fazla yayından alınan orijinal hikayelere çarpıcı biçimde benzediğini” bildirdi. Forbes, gönderilerin on binlerce görüntüleme aldığını ve makale metninde hiçbir yayının adının geçmediğini söyledi. Bunun yerine, Perplexity’nin makaleleri “kendilerine bağlantı veren küçük, gözden kaçması kolay logolar” biçiminde atıflar içeriyordu.
Ayrıca Forbes, Schmidt hakkındaki gönderinin Forbes’un haberine “neredeyse aynı ifadeleri” içerdiğini söyledi. Toplama ayrıca, Perplexity tarafından hafifçe değiştirilmiş gibi görünen Forbes tasarım ekibi tarafından oluşturulan bir görseli de içeriyordu.
Perplexity CEO’su Aravind Srinivas, o zamanlar Forbes’a, girişimin gelecekte kaynakları daha belirgin bir şekilde alıntılayacağını söyleyerek yanıt vermişti; bu, alıntıların kendisi teknik zorluklarla karşılaştığı için kusursuz bir çözüm değildi. ChatGPT ve diğer modeller halüsinasyonlu bağlantılara sahipti ve Perplexity OpenAI modellerini kullandığından, bu tür halüsinasyonlara yatkın olması muhtemeldir. Aslında Wired, Perplexity’nin tüm hikayeleri halüsinasyon gördüğünü gözlemlediğini bildirdi.
Srinivas ve şirket, Perplexity’nin “pürüzlü taraflarını” not etmenin dışında, Perplexity’nin bu tür içerikleri özetleme amacıyla kullanma hakkını büyük ölçüde ikiye katladılar.
İşte adil kullanımın nüansları burada devreye giriyor. İntihal hoş karşılanmasa da teknik olarak yasadışı değildir.
ABD Telif Hakları Ofisi’ne göre, alıntılar da dahil olmak üzere bir eserin sınırlı bölümlerini yorum, eleştiri, haber raporlaması ve akademik raporlar gibi amaçlarla kullanmak yasaldır. Perplexity gibi yapay zeka şirketleri, bir makalenin özetini sağlamanın makul kullanım sınırları içinde olduğunu ileri sürmektedir.
“Kimsenin gerçekler üzerinde tekeli yok,” dedi Shevelenko. “Gerçekler bir kez ortaya çıktığında, herkes kullanabilir.”
Shevelenko, Perplexity’nin özetlerini, gazetecilerin kendi haberlerini desteklemek için sıklıkla diğer haber kaynaklarından bilgi kullanmalarına benzetti.
UCLA Teknoloji, Hukuk ve Politika Enstitüsü’nde hukuk profesörü olan Mark McKenna, TechCrunch’a durumun çözülmesinin kolay olmadığını söyledi. Adil kullanım davasında, mahkemeler özetin orijinal makalenin ifadelerinin çoğunu kullanıp kullanmadığını, yoksa sadece fikirleri kullanıp kullanmadığını değerlendirir. Ayrıca özeti okumanın makaleyi okumanın yerine geçip geçmediğini de inceleyebilirler.
McKenna, “Parlak çizgiler yok,” dedi. “Bu yüzden (Perplexity) bir makalenin ne söylediğini veya neyi bildirdiğini gerçekçi bir şekilde söylemek, çalışmanın telif hakkı olmayan yönlerini kullanmak olurdu. Bu sadece gerçekler ve fikirler olurdu. Ancak özet gerçek ifade ve metin içerdiğinde, sadece bir özet olmaktan ziyade çoğaltmaya daha çok benzemeye başlar.”
Yayıncılar açısından talihsizlik şu ki, Perplexity tam ifadeleri kullanmıyorsa (ve görünen o ki bazı durumlarda kullanıyor), özetleri makul kullanım ihlali olarak değerlendirilmeyebilir.
Perplexity kendini nasıl korumayı amaçlıyor
OpenAI gibi AI şirketleri, algoritmalarını eğitmek için güncel ve arşiv içeriklerine erişmek üzere çeşitli haber yayıncılarıyla medya anlaşmaları imzaladı. Karşılığında, OpenAI, ChatGPT’deki kullanıcı sorgularına yanıt olarak bu yayıncılardan haber makaleleri sunmayı vaat ediyor. (Ancak bunun bile çözülmesi gereken bazı sorunları var, Nieman Lab’ın geçen hafta bildirdiği gibi.)
Perplexity, belki de aleyhindeki suçlamaların yatışmasını bekleyerek kendi medya anlaşmalarını duyurmaktan kaçındı. Ancak şirket, yayıncılarla bir dizi reklam geliri paylaşım anlaşması konusunda “tam gaz ilerliyor”.
Fikir, Perplexity’nin sorgu yanıtlarının yanında reklamlar eklemeye başlaması ve herhangi bir yanıtta içerik alıntılanan yayıncıların ilgili reklam gelirinin bir kısmını almasıdır. Shevelenko, Perplexity’nin ayrıca yayıncıların teknolojisine erişebilmeleri için çalıştığını, böylece soru-cevap deneyimleri oluşturabileceklerini ve ilgili sorular gibi şeyleri kendi sitelerinde ve ürünlerinde doğal olarak destekleyebileceklerini söyledi.
Peki bu, sistemsel IP hırsızlığı için sadece bir kılıf mı? Perplexity, okuyucuların orijinal kaynak materyale tıklama ihtiyacını fark edemeyecekleri kadar eksiksiz bir içerik özetlemekle tehdit eden tek sohbet robotu değil.
Ve eğer bu tür AI kazıyıcılar yayıncıların çalışmalarını alıp kendi işleri için yeniden kullanmaya devam ederse, yayıncıların reklam doları kazanması daha zor olacak. Bu da sonunda kazınacak daha az içerik olacağı anlamına geliyor. Kazınacak daha fazla içerik kalmadığında, üretken AI sistemleri daha sonra sentetik veriler üzerinde eğitime yönelecek ve bu da potansiyel olarak önyargılı ve yanlış içeriklerden oluşan cehennem azabı dolu bir geri bildirim döngüsüne yol açabilir.
Kaynak: https://techcrunch.com/2024/07/02/news-outlets-are-accusing-perplexity-of-plagiarism-and-unethical-web-scraping/