Kompakt AI güncellemesi: İnsanlığın Son Sınavı, AI asistanları, DeepSeek, Clipchamp

Aramizda · 28 Ocak 2025

Kompakt AI güncellemesi: İnsanlığın Son Sınavı, AI asistanları, DeepSeek, Clipchamp

İnsanlığın Son Sınavı: Tüm modellerin başarısız olduğu yeni yapay zeka testi

Reklamcılık

İki San Francisco kuruluşu, en güçlü yapay zeka modellerini bile başarısızlığa uğratmak için tasarlanan, İnsanlığın Son Sınavı adı verilen yeni bir yapay zeka kriterini açıkladı.

Ortak kıyaslamalarda önde gelen AI modelleri, sağlayıcılarına göre görevlerin yüzde 90'ını doğru bir şekilde çözerken, Scale AI ve Center for AI Safety artık daha zorlu bir test geliştirdi. Bir yapay zeka eğitim verisi sağlayıcısı olan Scale AI ve kar amacı gütmeyen bir yapay zeka güvenlik ve etik kuruluşu olan Yapay Zeka Güvenliği Merkezi, en iyi yapay zeka modellerinin bile görevlerin yalnızca yaklaşık yüzde 10'unu gerçekleştirebildiği bir kıyaslama noktası oluşturdu.

“Son Sınav” için doğa bilimleri, matematik ve beşeri bilimler gibi çeşitli akademik alanlardan 3.000 görev, çok aşamalı bir seçim süreciyle orijinal 70.000 uzman sorusu arasından seçildi. GPT-4o ve o1, Claude veya Gemini gibi gelişmiş yapay zeka modelleri bile sinek kuşunun iskelet yapısıyla ilgili sorular gibi bu görevlerin çoğunda başarısız oluyor.

Ancak bu kıyaslama, yapay zeka modellerinin performansı açısından yalnızca sınırlı öneme sahiptir; çünkü bir bilgi testi, herhangi bir sonuca varma yeteneği olmaksızın salt ezberleme yoluyla da çözülebilir.

OpenAI, Operatör'ü piyasaya sürdü, Perplexity, Perplexity Assistant'ı piyasaya sürdü

OpenAI, ilk AI aracısı Operator'un erken bir sürümünü yayınladı. İnterneti insan gibi kullanıyor. AI aracısının etkileşime girdiği, yazdığı, tıkladığı ve kaydırdığı kendi tarayıcısı (bulutta) vardır. Bu kullanıcı için şeffaftır, bireysel adımlar görsel olarak görüntülenir ve kişiler istedikleri zaman bu görevi devralabilir.

Operatör, Bilgisayar Kullanan Aracı (CUA) adı verilen yeni bir AI modeline dayanmaktadır. Bu CUA, GPT-4o'nun görüntü işleme yeteneklerinden yararlanır ve bunları pekiştirmeli öğrenme yoluyla akıl yürütmeyle birleştirir. OpenAI halihazırda DoorDash, Instacart, OpenTable, StubHub ve Uber gibi İnternet şirketleriyle işbirliği yapıyor; böylece kullanıcı yemek siparişi vermek, bir restoranda masa ayırtmak, bilet satın almak veya araç siparişi vermek için bunları doğrudan operatörden seçebiliyor.

OpenAI ile neredeyse aynı zamanda rakibi Perplexity de asistanını piyasaya sürdü. Ayrıca diğer şeylerin yanı sıra bir restoranda masa rezervasyonu yapabilmeli, e-posta yazabilmeli, gezi rezervasyonu yapabilmeli ve randevular için hatırlatıcılar ayarlayabilmelidir. Perplexity Assistant, Google Play Store'da ücretsiz olarak mevcuttur; henüz iOS için mevcut değil.

OpenAI Operatörü ise başlangıçta yalnızca ChatGPT Pro aboneliği aracılığıyla seçilen müşteriler tarafından kullanılabilir. Bunun aylık maliyeti 200 dolar.

OpenAI, kod oluşturma için Canvas özelliğini geliştiriyor

ChatGPT'deki, metin ve kod içeriğini sohbet robotunda ayrı bir pencerede görüntüleyen Canvas özelliğine yönelik iki ek güncelleme halihazırda genel kullanıma sunuldu. Kullanıcılar artık Canvas'ta o1 modelini kullanabilecek. Ayrıca, HTML ve React kodu artık doğrudan Canvas'ta oluşturulabiliyor; bu, geliştiricilerin ilk kontrol için HTML kodunu indirip çalıştırma zorunluluğunu ortadan kaldırıyor. Canvas'ta kod oluşturma tüm ChatGPT kullanıcıları tarafından kullanılabilirken, o1 yalnızca ödeme yapan Pro, Plus ve Team müşterilerine ayrılmıştır. Canvas ayrıca macOS için ChatGPT masaüstü uygulamasına da tam olarak entegre edilmiştir.

Enterprise ve Edu kullanıcıları yenilikleri birkaç hafta içinde alacaktır. Yapılan iyileştirmelerle birlikte OpenAI, Canvas'taki rakibi Anthropic ile aynı seviyeye geliyor. Bir süredir AI sohbet robotu Claude.ai için “Artifacts” adı verilen benzer bir işlev sunuyor.

Deepseek, Meta ve ABD çip stoklarına baskı yapıyor

The Information'ın haberine göre, Çinli start-up DeepSeek'in en son R1 modeli şu anda sosyal medya grubu Meta'yı alarma geçiriyor. ABD çip stokları da yapay zeka modeline yanıt veriyor.

Bunun nedeni, Deepseek'in yapay zeka sohbet robotu R1'in, Batı'daki benzer tekliflerden, özellikle de şirketin şu anda mevcut en güçlü modeli olan OpenAI'nin o1'inden önemli ölçüde daha verimli ve uygun maliyetli çalışan muazzam başarısıdır. Çeşitli kıyaslamalara göre R1, kabaca o1 ile aynı seviyededir.

Uygulamada kullanım durumuna bağlı olarak her zaman farklılıklar olabilse de, R1'in birçok önemli avantajı vardır: Deepseek, bulut API'sini o1'den 27 kat daha ucuz fiyatlarla sunmaktadır. Şirket ayrıca R1'i ticari kullanım da dahil olmak üzere bir MIT lisansı ile ücretsiz olarak kullanılabilir hale getirdi. Hatta R1'in piyasaya sürülmesinin ardından Deepseek uygulaması, ChatGPT'nin önünde iPhone listelerinde zirveye yerleşti.

Buna yanıt olarak Meta'nın Deepseek'in teknolojilerini yakından analiz etmek için dört özel kriz ekibi kurduğu söyleniyor. Bu ekiplerden ikisi Deepseek'in daha uygun maliyetli eğitim ve operasyonel yöntemlerini anlamaya ve uyarlamaya odaklanıyor. Meta'daki başka bir kriz ekibi ise Deepseek'in hangi eğitim verilerini kullanmış olabileceğini araştırıyor. Dördüncü ekip, Meta'nın modellerini Deepseek çizgisinde daha verimli hale getirmek için nasıl yeniden yapılandırabileceğine bakıyor.

Nvidia gibi ABD yapay zeka bağlantılı çip stoklarının fiyatları da Deepseek'in verimliliği nedeniyle baskı altına girdi. Çinli start-up, daha az çiple bile güçlü ve uygun maliyetli yapay zeka modellerini eğitip çalıştırabileceğinizi gösteriyor.

Nepenthes: AI web tarayıcıları için bir katran çukuru

Yapay zeka modelleri için web tarayıcıları genellikle telif hakkı korumasıyla yetinmiyor; Nepenthes aracı onlar için bir tuzak kuruyor. Tarayıcıları sonsuz bir labirente çekmek ve hatta tonlarca anlamsız içerikle verilere olan sonsuz açlıklarını beslemek amaçlanıyor.

Web sitesi operatörleri, LLM'ler için web taramasına izin vermezlerse aslında robots.txt dosyasını depolayabilirler. Ancak ilgili talimatlar yapay zeka modelinden yapay zeka modeline farklılık gösteriyor ve bazı şirketler halihazırda bu tür engelleri özel olarak aşmaya çalışıyor. Programcı Aaron B. bu durumdan rahatsız olduğu için aracı geliştirdi.

Nepenthes, tamamı kendilerine bağlanan yaklaşık bir düzine bağlantı içeren bir sayfa oluşturarak çalışır. Ayrıca Nepenthes sayfalarının yükleme süreleri son derece uzun olduğundan tarayıcıların zaman almasına neden olur. Geliştirici, web sitesinde “Bu, web tarayıcılarını tuzağa düşürmek için tasarlanmış bir katran çukuru” diye yazıyor. Her şey özellikle AI web tarayıcılarına yöneliktir.

Ancak arama motorları gibi diğer web tarayıcı türleri de etkilenir. Nepenthes'i kendi sitesine yükleyen herkes büyük olasılıkla Google aramalarından atılacaktır. Geliştirici, bu nedenle tam olarak ne yaptığınızı bilmiyorsanız araçtan uzak durmanız gerektiği konusunda uyarıyor.

Yapay zeka aslında ne kadar akıllı? Üretken yapay zekanın işimiz, boş zamanlarımız ve toplumumuz açısından ne gibi sonuçları var? Haberler'nin “Yapay Zeka Güncellemesi”nde The Decoder ile birlikte size hafta içi her gün en önemli yapay zeka gelişmelerine ilişkin güncellemeleri sunuyoruz. Cuma günleri uzmanlarla yapay zeka devriminin farklı yönlerini inceliyoruz.

McCartney, yeni telif hakkı yasası aracılığıyla “soygun teknolojisi” konusunda uyardı

BBC'ye verdiği röportajda eski Beatle Paul McCartney, İngiliz telif hakkı yasasında yapılması planlanan değişikliği sert bir şekilde eleştirdi. Bu, yazarlar buna aktif olarak itiraz etmedikçe, AI geliştiricilerinin, modellerini eğitmek için açık izin almadan İnternet'teki yaratıcı içeriği kullanmalarına olanak tanıyacaktır. Röportajda McCartney, hükümete planlarını yeniden düşünmesi ve sanatçıları daha iyi koruması yönünde çağrıda bulunuyor. Yaratıcı insanların telif haklarının çiğnendiği bir “Vahşi Batı” tehlikesini görüyor.

Müzisyen özellikle gelecek nesil için endişeleniyor: “Gençler geliyor, harika bir şarkı yazıyor ve bu şarkının sahibi bile değiller” diyor müzisyen.

McCartney, Birleşik Krallık Müzik endüstrisi derneği başkanı Tom Kiehl tarafından destekleniyor. Planlanan devre dışı bırakma sistemini “yaratıcı insanların çalışmalarını yapay zeka sistemleri tarafından eğitimin dışında tutabileceğine dair hiçbir kanıt yok” diye eleştiriyor.

Ve: Böyle bir sistem yükü bireysel sanatçıların üzerine kaydıracaktır. Tüm yapay zeka operatörlerine ilişkin genel bir bakış elde etmeniz ve her biriyle çelişmeniz gerekir.

Copilot Clipchamp'tan destek alıyor

Microsoft, Clipchamp video düzenleme ve oluşturma yazılımını Microsoft 365 Copilot'a entegre ediyor. Yeni işlev, yapay zeka istemlerini kullanarak otomatik olarak video içeriği ve komut dosyaları oluşturmayı mümkün kılıyor.

Microsoft'a göre kullanıcılar gelecekte herhangi bir konuda metin girerek videolar oluşturabilecek. Clipchamp, stok görüntüleri ve müziğin yanı sıra yapay zeka tarafından oluşturulan ses çıkışını kullanarak otomatik olarak bir video oluşturur.

Güncellenen yol haritası girişi süreci biraz daha ayrıntılı olarak açıklıyor: Yazılım, kişiye özel bir komut dosyası oluşturur, yüksek kaliteli stok video materyalini seçer ve bunu seslendirme, müzik, metin katmanları ve geçişlerle tamamlanan bir video projesi oluşturmak için kullanır.

Oluşturulan video projesi daha sonra Clipchamp'ta açılabilir, daha fazla düzenlenebilir, dışa aktarılabilir ve paylaşılabilir. Microsoft, bilgilendirici videolar, video mesajları, nasıl yapılır kılavuzları, gösterimler ve video sunumları dahil olmak üzere çeşitli olası kullanımlar öngörmektedir. Clipchamp Copilot Video Creator dünya çapındaki tüm bulut örneklerinde mevcut olacak ve özellikle kurumsal müşterilere yöneliktir.

Genel kullanıma sunulmasının Şubat 2024 için planlanması planlanıyor.

Çalışma, AI tarafından oluşturulan doku görüntüleri yoluyla aldatma riskini gösteriyor

Bir görüntünün gerçek mi yoksa yapay zeka tarafından mı oluşturulduğu sorusuna gelince, insanlar doğru atamayı (sezgisel olarak) yanlış olana göre çok daha hızlı yapıyorlar, ancak değerlendirme hala zorluklar yaratıyor. Bu, Jena Üniversitesi tarafından yapılan “Uzmanlar yapay zeka tarafından oluşturulan histolojik verileri güvenilir bir şekilde tanıyamıyor” başlıklı bir çalışmanın sonucuydu.

800 katılımcıdan gerçek ve yapay doku kesit görüntülerini sınıflandırmaları istendi. Patologların doku numunelerindeki kanser gibi anormallikleri tespit etmesine ve sınıflandırmasına yardımcı olmak için histopatolojide derin öğrenme algoritmaları giderek daha fazla kullanılıyor. Yapay zekanın yardımıyla tıbbi teşhisler daha hızlı ve daha kesin bir şekilde yapılabilir. Yapay zeka modellerini eğitmek için kapsamlı veri kümeleri gereklidir. Gerçek görüntülerin yanı sıra, yapay zeka tarafından oluşturulan sentetik görüntüler de belirli kanser türlerine yönelik modellerin tespit oranını artırmak için ön eğitimde kullanılabilir. Ancak yapay zekanın sentetik veriler üzerinde (tek başına) eğitilmesi gerekip gerekmediğine ilişkin araştırmalar uzmanlar tarafından tartışmalı bir şekilde tartışılıyor.

Manipüle edilmiş veya sahte verilerle dolandırıcılık artıyor, çünkü yapay zeka ölçüm verilerinin hızlı bir şekilde oluşturulabilmesi yalnızca ChatGPT ile sağlanmıyor. Bu nedenle çalışmanın yazarları, diğer şeylerin yanı sıra, veri kaynağını sağlamak ve bilimsel yayınlarda sahtekarlığı önlemek için teknik standartların getirilmesini önermektedir. Ham veri sunma zorunluluğu olmalıdır. Sahte görüntüleri tespit etmek için otomatik araçların kullanılması da düşünülebilir.

(igr)

Kompakt AI güncellemesi: İnsanlığın Son Sınavı, AI asistanları, DeepSeek, Clipchamp

Aramizda

Aktif Üye