Yapay zeka eğitiminde çocukların cinsel istismar görüntülerinin kullanıldığı bulundu!

Stanford‘un Internet Observatory programı, yapay zeka görüntü üretimi için popüler bir eğitim veri setinin çocuk istismarı görüntülerine bağlantılar içerdiğini ve yapay zeka modellerinin zararlı içerik oluşturmasına izin verebileceğini tespit etti. Aktarılanlara göre Stable Diffusion geliştiricisi Stability AI tarafından kullanılan bir veri seti olan LAION-5B, sosyal medya paylaşımlarından ve popüler yetişkin web sitelerinden kazınmış en az 1.679 yasadışı görüntü içeriyor.

Yapay zekaların eğitim verileri endişe veriyor

Araştırmacılar Eylül 2023’te LAION veri setini taramaya başlayarak varsa ne kadar çocuk cinsel istismarı materyali (CSAM) bulunduğunu araştırdı. Araştırmacılar hash’lere veya görüntünün tanımlayıcılarına baktılar. Toplanan bilgiler PhotoDNA gibi CSAM tespit platformlarına gönderildi ve Kanada Çocuk Koruma Merkezi tarafından doğrulandı.

LAION web sitesine göre, bu veri seti görüntülerin depolarını tutmuyor. İnterneti indeksliyor ve kazıyarak elde ettiği görüntülere ve alt metinlere bağlantılar içeriyor. Google‘ın Imagen metinden görüntüye yapay zeka aracının yalnızca araştırma için yayınlanan ilk sürümü, LAION’un veri setlerinin LAION-400M adlı farklı bir varyantı, 5B’nin eski bir sürümü üzerinde eğitilmişti. Şirket, sonraki yinelemelerin LAION veri kümelerini kullanmadığını belirtiyor. Stanford raporu, Imagen’in geliştiricilerinin 400M’nin “pornografik görüntüler, ırkçı hakaretler ve zararlı sosyal stereotipler de dahil olmak üzere çok çeşitli uygunsuz içerik” içerdiğini tespit ettiklerini belirtti.

Öte yandan veri setini yöneten kar amacı gütmeyen LAION, yaptığı açıklamada zararlı içerik için “sıfır tolerans” politikası olduğunu ve veri setlerini geçici olarak kaldıracağını söyledi. Stability AI ise platformlarının kötüye kullanımına karşı yönergeleri olduğunun altını çizerken modellerini LAION-5B ile eğittiğini, ancak veri setinin bir kısmına odaklandığını ve güvenlik için ince ayar yaptığını söyledi.

Stable Diffusion 1.5’in kaldırılması tavsiye edildi

Stanford’dan araştırmacılar istismar görüntülerinin varlığının her zaman eğitilen modelleri etkileyecek anlamına gelmediğini ancak yine de modellerin bu görüntülerden bir şeyler öğrenmiş olabileceğini söylüyor. Araştırmacılar, sorunlu içeriği, özellikle de üzerinde eğitilen yapay zeka modellerinden tamamen kaldırmanın zor olacağını da itiraf ediyorlar. Stable Diffusion 1.5 gibi LAION-5B üzerinde eğitilen modellerin kullanımdan kaldırılmasını ve mümkün olan yerlerde dağıtımının durdurulmasını tavsiye ettiler. Öte yandan Google, Imagen’in yeni bir sürümünü yayınladı ancak LAION’u kullanmamak dışında hangi veri kümesi üzerinde eğitildiğini kamuoyuna açıklamadı.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

x