New York Times ChatGPT botunu yasakladı

Aramizda

Aktif Üye
New York Times, GPTBot’un gazetenin web sitesine göz atmasını yasaklıyor. GPTBot, sürekli olarak yeni içerik kopyalamak için OpenAI tarafından çalıştırılıyor ve bu daha sonra GPT4 dil modelini eğitmek için kullanılabiliyor. GPT4, chatbot ChatGPT’nin temelidir. OpenAI, yıllardır fikri mülkiyet hukukuyla korunan sayısız eseri, hak sahiplerinin izni olmadan kullanıyor. New York Times (NYT) artık bunu kabul etmiyor.

Reklamcılık



Yayıncı, haftalardır OpenAI ile NYT içeriğinin geçmiş ve gelecekteki kullanımını ve bunun için gereken değerlendirmeyi düzenlemeyi amaçlayan bir sözleşme müzakere ediyor. Görünüşe göre bu müzakereler pek iyi gitmiyor. Geçen hafta, ticari olmayan ABD yayıncısı NPR, NYT’nin OpenAI’ye karşı bir dava açmayı düşündüğünü bildirdi.

Başarılı olursa OpenAI’nin tüm NYT içeriğini dil modellerinden kaldırması gerekecek. Ancak algoritmalar hiçbir şeyi unutamaz. Bu nedenle OpenAI, dil modellerini sıfırdan oluşturmak zorunda kalabilir. Elbette diğer birçok hak sahibi tazminat konusunda ısrar edecekti.

Hizmet Şartları + robots.txt





Ekran görüntüsü: Kullanıcı aracısı: CCBot Disallow: / Kullanıcı aracısı: GPTBot Disallow: / Kullanıcı aracısı: ia_archiver Disallow: /



https://www.nytimes.com/robots.txt dosyasından bir alıntının ekran görüntüsü


(Resim: NYT/Daniel AJ Sokolov)



Yayıncı, kullanım koşullarını 3 Ağustos’ta zaten değiştirmişti. O zamandan beri, NYT içeriğinin Büyük Dil Modelleri (LLM) eğitimi için istenmeden kullanılmasını açıkça yasakladılar. Yayıncı geçen hafta https://www.nytimes.com/robots.txt dosyasını da güncelledi. Verge bunu fark etti.

Dosya robots.txt otomatik tarayıcılara bir web sitesinin hangi bölümlerinin kendileri için tabu olduğunu bildirir. Tarayıcılar bunu göz ardı edebilir, ancak büyük operatörler genellikle buna sadık kalır. Çoğu tarayıcı, misafir olarak hoş karşılanmak ister; operatörleri IP kara listeleri, captcha’lar ve oran limitleri ile hem yasal zorluklardan hem de teknik çatışmalardan kaçınıyor.

Özellikle, NYT engelleme listesinde şu anda beş tarayıcı var: Bu amaçla https://www.nytimes.com/robots.txt dosyasını sürekli olarak yedekleyen İnternet Arşivi ve Omgili’den iki bot (şimdi webz.io) ). Bu yaz Common Crawl’ın CCBot’u eklendi. Bağışlarla finanse edilen bu kuruluş, on beş yıldır kapsamlı “internet kopyaları” oluşturuyor ve bunlar daha sonra araştırma amacıyla ücretsiz olarak kullanıma sunuluyor. Her ay birkaç milyar web sayfası yüzlerce terabaytlık veriyle bir araya geliyor ve bunlar da üçüncü taraflarca yapay zeka dil modellerini eğitmek için kullanılıyor.

Reklamcılık

Ve 17 Ağustos’tan bu yana GPTBot da endekste yer alıyor. Bu arada, Twitterbot’un yalnızca belirli NYT içeriğine erişmesine izin veriliyor. New York Times, çevrimiçi abonelikler açısından en büyük İngilizce gazetedir.


(ds)



Haberin Sonu