1. Ana Sayfa
  2. Artificial Intelligence - Yapay Zeka

Stable Diffusion Nedir?

Stable Diffusion Nedir?
Stable-Diffusion-Nedir
+ - 0

Merhaba. Bu yazımızda Stable Diffusion Nedir? konusunu inceleyeceğiz. Kararlı Difüzyon, difüzyon tekniklerine dayalı olarak 2022’de piyasaya sürülen derin öğrenme, metinden resme bir modeldir. Öncelikle metin açıklamalarına bağlı olarak ayrıntılı görüntüler oluşturmak için kullanılır, ancak iç boyama, dış boyama ve bir metin istemi tarafından yönlendirilen görüntüden görüntüye çeviriler oluşturma gibi diğer görevlere de uygulanabilir.

 

Stable Diffusion Nedir?

Stable Diffusion, difüzyon tekniklerine dayalı olarak 2022’de piyasaya sürülen derin öğrenme, metinden resme bir modeldir. Öncelikle metin açıklamalarına bağlı olarak ayrıntılı görüntüler oluşturmak için kullanılır, ancak iç boyama, dış boyama ve bir metin istemi tarafından yönlendirilen görüntüden görüntüye çeviriler oluşturma gibi diğer görevlere de uygulanabilir. Stability AI tarafından yapılan bir bilgi işlem bağışı ve kar amacı gütmeyen kuruluşlardan alınan eğitim verileri ile Münih ve Runway’deki Ludwig Maximilian Üniversitesi’ndeki CompVis Group’tan araştırmacılar tarafından geliştirilmiştir.

Kararlı Difüzyon, gizli bir difüzyon modelidir, bir tür derin üretken yapay sinir ağıdır. Kodu ve model ağırlıkları herkese açık olarak yayınlandı ve en az 8 GB VRAM’e sahip mütevazı bir GPU ile donatılmış çoğu tüketici donanımında çalışabilir. Bu, yalnızca bulut hizmetleri aracılığıyla erişilebilen DALL-E ve Midjourney gibi önceki tescilli metinden görüntüye modellerden bir sapmaya işaret ediyordu.

 

Stable Diffusion Nedir

 

Stable Diffusion Gelişimi

Stable Diffusion’ın geliştirilmesi, başlangıç şirketi Stability AI tarafından finanse edildi ve şekillendirildi. Modelin teknik lisansı, Münih Ludwig Maximilian Üniversitesi’ndeki CompVis grubu tarafından yayınlandı. Geliştirme, daha önce Stable Diffusion tarafından kullanılan gizli difüzyon modeli mimarisini icat eden araştırmacılar arasında yer alan Runway’den Patrick Esser ve CompVis’ten Robin Rombach tarafından yönetildi. Stability AI ayrıca, projenin destekçileri olarak EleutherAI ve LAION’a (Stable Diffusion’ın eğitildiği veri setini bir araya getiren bir Alman kar amacı gütmeyen kuruluş) itibar etti.

Ekim 2022’de Stability AI, Lightspeed Venture Partners ve Coatue Management liderliğindeki bir turda 101 milyon ABD doları topladı.

 

Stable Diffusion Mimarisi

Kararlı Difüzyon, LMU Münih’teki CompVis grubu tarafından geliştirilen gizli difüzyon modeli (LDM) adı verilen bir tür difüzyon modeli (DM) kullanır. 2015 yılında tanıtılan difüzyon modelleri, otomatik kodlayıcıların gürültü giderme dizisi olarak düşünülebilecek eğitim görüntülerinde art arda Gauss gürültüsü uygulamalarını ortadan kaldırmak amacıyla eğitilmiştir. Kararlı Difüzyon 3 bölümden oluşur: değişken otomatik kodlayıcı (VAE), U-Net ve isteğe bağlı bir metin kodlayıcı. VAE kodlayıcı, görüntüyü piksel alanından daha küçük boyutlu bir gizli alana sıkıştırarak görüntünün daha temel anlamsal anlamını yakalar. Gauss gürültüsü, ileri difüzyon sırasında sıkıştırılmış gizli temsile yinelemeli olarak uygulanır. Bir ResNet omurgasından oluşan U-Net bloğu, gizli bir temsil elde etmek için ileri difüzyondan geriye doğru çıktıyı gürültüden arındırır. Son olarak, VAE kod çözücü, gösterimi tekrar piksel alanına dönüştürerek son görüntüyü oluşturur.

Gürültü giderme adımı, bir metin dizisi, bir görüntü veya başka bir modalite üzerinde esnek bir şekilde şartlandırılabilir. Kodlanmış koşullandırma verileri, bir çapraz dikkat mekanizması yoluyla U-Net’lerin gürültüsünü gidermeye maruz kalır. Metin üzerinde koşullandırma için, sabit, önceden eğitilmiş CLIP ViT-L/14 metin kodlayıcı, metin istemlerini bir yerleştirme alanına dönüştürmek için kullanılır.

Araştırmacılar, LDM’lerin bir avantajı olarak eğitim ve üretim için artan hesaplama verimliliğine işaret ediyor.

U-Net’te 860 milyon ve metin kodlayıcıda 123 milyon parametre ile Stable Diffusion, 2022 standartlarına göre nispeten hafif kabul edilir ve diğer difüzyon modellerinin aksine, tüketici GPU’larında çalışabilir.

 

Stable Diffusion Yetenekleri

Stable Difüzyon modeli, çıktıya dahil edilecek veya çıkarılacak öğeleri açıklayan bir metin istemi kullanarak sıfırdan yeni görüntüler oluşturma yeteneğini destekler. Mevcut görüntüler, difüzyon-gürültü giderme mekanizması aracılığıyla bir metin istemi (“kılavuzlu görüntü sentezi” olarak bilinen bir süreç) tarafından açıklanan yeni öğeleri dahil etmek için model tarafından yeniden çizilebilir. Ek olarak, model, çok sayıda farklı açık kaynak uygulamasının mevcut olduğu bu tür özellikleri destekleyen uygun bir kullanıcı arayüzü ile birlikte kullanıldığında, iç boyama ve dış boyama yoluyla mevcut görüntüleri kısmen değiştirmek için istemlerin kullanılmasına da izin verir.

Kararlı Difüzyonun 10 GB veya daha fazla VRAM ile çalıştırılması önerilir, ancak daha az VRAM’e sahip kullanıcılar, daha düşük VRAM kullanımıyla model performansından ödün vermek için varsayılan float32 yerine ağırlıkları float16 hassasiyetinde yüklemeyi tercih edebilir.

 

Stable Diffusion Metinden Görüntü Oluşturma

“txt2img” olarak bilinen Stable Diffusion içindeki metinden görüntüye örnekleme komut dosyası, örnekleme türlerini, çıktı görüntü boyutlarını ve çekirdek değerleri kapsayan çeşitli seçenek parametrelerine ek olarak bir metin istemi kullanır. Komut dosyası, modelin istemi yorumlamasına dayalı olarak bir görüntü dosyası çıkarır. Oluşturulan görüntüler, kullanıcıların bir görüntüyü Stable Diffusion tarafından oluşturulan şekliyle tanımlamasına izin vermek için görünmez bir dijital filigranla etiketlenir, ancak görüntü yeniden boyutlandırıldığında veya döndürüldüğünde bu filigran etkinliğini kaybeder.

Her txt2img üretimi, çıktı görüntüsünü etkileyen belirli bir çekirdek değeri içerecektir. Kullanıcılar, oluşturulan farklı çıktıları keşfetmek için çekirdeği rastgele seçmeyi seçebilir veya önceden oluşturulmuş bir görüntüyle aynı görüntü çıktısını elde etmek için aynı çekirdeği kullanabilir. Kullanıcılar, örnekleyici için çıkarım adımlarının sayısını da ayarlayabilir; daha yüksek bir değer daha uzun zaman alır, ancak daha küçük bir değer görsel kusurlara neden olabilir. Başka bir yapılandırılabilir seçenek olan sınıflandırıcıdan bağımsız kılavuz ölçek değeri, kullanıcının çıktı görüntüsünün istemle ne kadar yakın olduğunu ayarlamasına olanak tanır. Daha deneysel kullanım senaryoları daha düşük bir ölçek değerini tercih edebilirken, daha spesifik çıktıları hedefleyen kullanım senaryoları daha yüksek bir değer kullanabilir.

Ek text2img özellikleri, kullanıcıların metin isteminin belirli bölümlerine verilen ağırlığı değiştirmesine olanak tanıyan Stable Diffusion’ın ön uç uygulamaları tarafından sağlanır. Vurgu işaretçileri, kullanıcıların anahtar sözcükleri köşeli parantez içine alarak vurgu eklemelerine veya vurgulamalarını azaltmalarına olanak tanır. Bilgi isteminin bölümlerine ağırlık ayarlamanın alternatif bir yöntemi, “olumsuz bilgi istemleridir”. Olumsuz istemler, Stability AI’nin kendi DreamStudio bulut hizmeti dahil olmak üzere bazı ön uç uygulamalarında yer alan bir özelliktir ve kullanıcının görüntü oluşturma sırasında modelin kaçınması gereken istemleri belirlemesine olanak tanır. Belirtilen istemler, kullanıcı tarafından sağlanan olumlu istemler nedeniyle veya modelin orijinal olarak nasıl eğitildiğinden dolayı görüntü çıktılarında bulunabilecek istenmeyen görüntü özellikleri olabilir; yaygın bir örnek, ezilmiş insan elleridir.

 

Stable Diffusion Kullanım ve Tartışma Konuları

Stable Diffusion, oluşturulan görüntüler üzerinde hiçbir hak iddia etmez ve kullanıcılara, görüntü içeriğinin yasa dışı veya bireyler için zararlı olmaması koşuluyla, modelden oluşturulan tüm görüntülerin kullanım haklarını özgürce verir. Stable Diffusion ve diğer üretken modeller, sahibinin izni olmadan telif hakkıyla korunan görüntülerden eğitildiğinden, kullanıcılara görüntü kullanımı konusunda sağlanan özgürlük, mülkiyet etiği konusunda tartışmalara neden oldu.

Görsel stiller ve kompozisyonlar telif hakkına tabi olmadığından, genellikle sanat eserlerinin görüntülerini oluşturan Stable Diffusion kullanıcılarının görsel olarak benzer eserlerin telif haklarını ihlal etmediği şeklinde yorumlanır. Bununla birlikte, oluşturulan görüntülerde tasvir edilen kişiler, benzerlikleri kullanılırsa kişilik haklarıyla korunabilir ve tanınabilir marka logoları gibi fikri mülkiyet, telif hakkıyla korunmaya devam eder. Bununla birlikte, görsel sanatçılar, Stable Diffusion gibi görüntü sentez yazılımlarının yaygın kullanımının sonunda insan sanatçıların yanı sıra fotoğrafçılar, modeller, görüntü yönetmenleri ve aktörlerin yapay zeka tabanlı rakiplere karşı ticari uygulanabilirliğini kademeli olarak kaybetmesine yol açabileceği konusundaki endişelerini dile getirdiler.

Stable Diffusion, üretken yapay zekaya dayalı diğer ticari ürünlerle karşılaştırıldığında, kullanıcıların oluşturabileceği şiddet içeren veya müstehcen görüntüler gibi içerik türlerinde özellikle daha müsamahakardır. Stability AI CEO’su Emad Mostaque, modelin kötüye kullanım amacıyla kullanılabileceğine dair endişeleri ele alarak, “Bu teknolojiyi nasıl çalıştırdıkları konusunda etik, ahlaki ve yasal olup olmadıklarının insanların sorumluluğundadır.” olduğunu savunuyor. ve Stabil Difüzyon yeteneklerinin halkın eline verilmesi, teknolojinin olası olumsuz sonuçlarına rağmen net bir fayda sağlamasıyla sonuçlanacaktır. Ek olarak Mostaque, Stable Diffusion’ın açık kullanılabilirliğinin ardındaki amacın, daha önce yalnızca görüntü sentezi için yalnızca kapalı AI sistemleri geliştirmiş olan bu tür teknolojiler üzerindeki kurumsal kontrolü ve hakimiyeti sona erdirmek olduğunu savunuyor. Bu, Stability AI’nin kullanıcıların oluşturabileceği içeriğe getirdiği herhangi bir kısıtlamanın, kaynak kodun kullanılabilirliği nedeniyle kolayca atlanabilmesi gerçeğiyle yansıtılmaktadır.

 

 


Stable Diffusion Nedir? konusu bu kadardı arkadaşlar. Diğer yazılarımızda görüşmek üzere…

Dikkat ettiyseniz, önceki bir kaç yazımda kapak görsellerinde SD ile üretilen görselleri kullanıyorum. Bir süredir bilgisayarımda kurulu ve üzerinde çalışmalar yapıyorum. Benim PC’de 4GB belleği olan bir nvidia ekran kartı varken bile istediğim gibi görsel üretebiliyorum. Tek sorun 10+ GB belleği olan ekran kartlarına göre çok daha yavaş olması oluyor.

Discord sunucuma katılmayı unutmayın. :D

Teknoloji ve Kodla kalın.

Bu yazıya tepkiniz ne oldu?

Yazar Hakkında

Lise Ağ Sistemleri ve Yönetimi bölümü, üniversite Bilgisayar Programcılığı bölümü Ön Lisans, Yönetim Bilişim Sistemleri Lisans öğrenimi aldım. Askerlik görevimi tamamladım. Uzmanlık alanım; C# ve SQL Programlama dilleri ile müşteri odaklı, kullanıcı dostu ERP ve CRM gibi sistemleri geliştirmektir. Ayrıca şuanda PHP ve MYSQL alanında projeler geliştirmekteyim. C++, Phyton, Xamarin, MVC gibi konuları öğrenmek ve kendimi geliştirme çabası içerisindeyim. Discord için: https://discord.gg/FBxZeHu9

Değerli yorumlarınızı bekliyorum. :)