Yapay zekaların eğitim verileri endişe veriyor
Araştırmacılar Eylül 2023’te LAION veri setini taramaya başlayarak varsa ne kadar çocuk cinsel istismarı materyali (CSAM) bulunduğunu araştırdı. Araştırmacılar hash’lere veya görüntünün tanımlayıcılarına baktılar. Toplanan bilgiler PhotoDNA gibi CSAM tespit platformlarına gönderildi ve Kanada Çocuk Koruma Merkezi tarafından doğrulandı.
LAION web sitesine göre, bu veri seti görüntülerin depolarını tutmuyor. İnterneti indeksliyor ve kazıyarak elde ettiği görüntülere ve alt metinlere bağlantılar içeriyor. Google‘ın Imagen metinden görüntüye yapay zeka aracının yalnızca araştırma için yayınlanan ilk sürümü, LAION’un veri setlerinin LAION-400M adlı farklı bir varyantı, 5B’nin eski bir sürümü üzerinde eğitilmişti. Şirket, sonraki yinelemelerin LAION veri kümelerini kullanmadığını belirtiyor. Stanford raporu, Imagen’in geliştiricilerinin 400M’nin “pornografik görüntüler, ırkçı hakaretler ve zararlı sosyal stereotipler de dahil olmak üzere çok çeşitli uygunsuz içerik” içerdiğini tespit ettiklerini belirtti.
Öte yandan veri setini yöneten kar amacı gütmeyen LAION, yaptığı açıklamada zararlı içerik için “sıfır tolerans” politikası olduğunu ve veri setlerini geçici olarak kaldıracağını söyledi. Stability AI ise platformlarının kötüye kullanımına karşı yönergeleri olduğunun altını çizerken modellerini LAION-5B ile eğittiğini, ancak veri setinin bir kısmına odaklandığını ve güvenlik için ince ayar yaptığını söyledi.
Stable Diffusion 1.5’in kaldırılması tavsiye edildi