Stable Diffusion

Stable Diffusion
VývojářStability AI
První vydání22. srpna 2022
Aktuální verzeSDXL 1.0 (model)[1]
Operační systémVšechny, které podporují jádra CUDA
Vyvíjeno vPython
LicenceCreative ML OpenRAIL-M
Webstability.ai
Některá data mohou pocházet z datové položky.

Stable Diffusion je model hlubokého učení převádějící text na obraz, který byl uveden na trh v roce 2022 na základě techniky difúze. Je primárně určen k generování podrobných obrázků na základě popisů textu, ale lze jej také použít k dalším úkolům, jako je inpainting, outpainting a generování překladů obrazu k textovému zadání. Byl vyvinut výzkumníky z CompVis Group na Ludwig Maximilian University v Mnichově a Runway, s výpočetním příspěvkem od Stability AI a trénovacími daty poskytnutými neziskovými organizacemi.[2][3][4]

Stable Diffusion, vývojový krok v oblasti generativního umělého modelování, reprezentuje latentní difúzní model postavený na hluboké neuronové síti. Tento inovativní model byl navržen s důrazem na otevřený zdrojový kód[5], umožňující komunitě vývojářů přístup k jeho váhám kódu a modelu. Co ještě fascinující, je jeho schopnost provozu na široké škále spotřebního hardwaru, přičemž minimální požadavek je grafická karta s alespoň 4 GB VRAM (virtuální paměti).

Odklon od předchozích proprietárních modelů, jako jsou DALL-E a Midjourney, je patrný v tom, že Stable Diffusion nabízí možnost využívat jej na lokálním hardwaru bez nutnosti spoléhat se na cloudové služby. Tímto způsobem se dále posiluje nezávislost uživatelů a umožňuje větší flexibilitu při využívání této pokročilé technologie.[6]

Rozvoj

Vývoj Stable Diffusion představuje spolupráci a finanční podporu od začínající společnosti Stability AI[7][8] Technickou licenci na tento model poskytla renomovaná skupina CompVis na Univerzitě Ludwiga Maximiliana v Mnichově. Vedoucími postavami tohoto projektu byli Patrick Esser z Runway a Robin Rombach z CompVis, kteří předtím vytvořili architekturu latentní difúze, jež je v jádru modelu Stable Diffusion.

Stability AI uznává podporu EleutherAI a LAION, německé neziskové organizace, které sestavily klíčovou datovou sadu pro trénování modelu.

V říjnu 2022 získala Stability AI 101 miliónů USD (amerických dolarů) v kole vedeném společností Lightspeed Venture Partners a Coatue Management.[9]

Technologie

(c) Machine Vision and Learning Group, LMU Munich, MIT
Schéma latentní difúzní architektury používané Stable Diffusion
Proces odšumování používaný Stable Diffusion. Model generuje obrázky opakovaným odšumováním náhodného šumu, dokud není dosaženo nakonfigurovaného počtu kroků, vedený textovým kodérem CLIP předem natrénovaným na koncepty spolu s mechanismem pozornosti, což vede k požadovanému snímku zobrazujícímu reprezentaci natrénovaného konceptu.

Architektura

Stable Diffusion využívá pokročilý difúzní model nazývaný Model latentní difúze (LDM), který vyvinula skupina CompVis na LMU Mnichov.[10] Tato nová generace difúzních modelů, představená v roce 2015, je zaměřena na trénování s cílem eliminovat postupné aplikace Gaussova šumu na trénovacích snímcích. Tento postup lze přirovnat k sekvenci odšumovacích autokodérů.

Stable Diffusion se skládá ze tří klíčových částí: variačního autoenkodéru (VAE), U-Net a volitelného textového kodéru.[11] V první fázi kodér VAE komprimuje obraz z prostoru pixelů do menšího latentního prostoru s nižším rozměrem, což umožňuje zachytit podstatný sémantický význam obrazu. Během dopředné difúze je na tuto komprimovanou latentní reprezentaci iterativně aplikován Gaussovský šum.

Blok U-Net, složený z páteře ResNet, následně odšumuje výstup z dopředné difúze, přivádějící latentní reprezentaci zpět do původního stavu. Nakonec dekodér VAE generuje finální obraz tím, že převede reprezentaci zpět do původního prostoru pixelů[12]. Tímto sofistikovaným procesem je dosaženo Stable Diffusion, což přináší vylepšenou kvalitu a sémantickou interpretaci obrazu.

Proces odšumování je flexibilně podmíněn pomocí různých modalit, včetně textu, obrázků a dalších. Zakódovaná data pro podmíněné odšumování jsou vystavena síti U prostřednictvím mechanismu křížové pozornosti. Při úpravě textu je využíván pevný, předem připravený textový kodér CLIP ViT-L/14, který transformuje textové vstupy do vloženého prostoru.[13]

Výzkumníci zdůrazňují zvýšenou výpočetní efektivitu při trénování a generování jako klíčovou výhodu modelu latentní difúze (LDM). Tato efektivita představuje výrazné zlepšení oproti jiným přístupům, což potvrzuje významný pokrok v oblasti odšumování a generativního modelování.

S 860 miliony parametry v U-Net a 123 miliony v textovém kodéru se Stable Diffusion v souladu se standardy roku 2022 řadí mezi relativně lehké modely. Na rozdíl od jiných difúzních modelů má schopnost provozovat se na spotřebitelských GPU[14], což představuje významnou výhodu v přístupnosti a možnosti využívání širšího spektra hardwaru. Tato schopnost rozšiřuje dosah modelu a umožňuje efektivní nasazení i na zařízeních s omezenými výpočetními zdroji.

Tréninkové údaje

Stable Diffusion byla trénována na dvojicích obrázků a popisků pocházejících z LAION-5B, veřejně dostupného datasetu odvozeného z dat Common Crawl, která byla načítána ze sítě. Dataset obsahuje 5 miliard párových kombinací obrazů a textů, které byly klasifikovány podle jazyka a filtrovány do samostatných datasetů podle rozlišení, pravděpodobnosti obsahu vodoznaku a předpokládané "estetické" hodnocení (například subjektivní vizuální kvality).[15] Dataset vytvořila organizace LAION, německá nezisková organizace, která získává finanční prostředky od Stability AI.[16][17]

Model Stable Diffusion byl trénován na třech podmnožinách LAION-5B: laion2B-en, laion-high-resolution a laion-aesthetics v2 5+.[18] Analýza dat trénovacího modelu provedená třetí stranou identifikovala, že z menší podmnožiny 12 milionů obrázků z původního širšího datasetu pochází přibližně 47 % vzorku z 100 různých domén, přičemž Pinterest tvoří 8,5 % této podmnožiny, následovaný webovými stránkami jako WordPress, Blogspot, Flickr, DeviantArt a Wikimedia Commons. [citace potřebná] Vyšetřování Bayerischer Rundfunk ukázalo, že datasety LAION, hostované na Hugging Face, obsahují velké množství soukromých a citlivých dat.[19]

Tréninkové postupy

Původně byl model trénován na podmnožinách laion2B-en a laion-high-resolution, přičemž poslední několik kol tréninku proběhlo na LAION-Aesthetics v2 5+, což je podmnožina 600 milionů popsaných obrázků. LAION-Aesthetics Predictor V2 předpověděl, že lidé by průměrně udělili hodnocení minimálně 5 z 10, když byli požádáni, aby ohodnotili, jak moc se jim obrázky líbily. [20][21][22] Podmnožina LAION-Aesthetics v2 5+ také vyloučila nízké rozlišení a obrázky, které byly identifikovány jako nesoucí vodoznak s pravděpodobností vyšší než 80 % pomocí LAION-5B-WatermarkDetection.[23] V posledních kolech tréninku bylo navíc sníženo 10 % textové podmíněnosti s cílem zlepšit metodu Classifier-Free Diffusion Guidance.[24]

Model Stable Diffusion byl vytrénován s využitím výkonných 256 grafických karet Nvidia A100, přičemž tento trénink probíhal na webových službách Amazon. Celkem bylo vynaloženo 150 000 hodin GPU výpočetního času na dosažení optimálních výsledků.[25][26][27]

Omezení

Stable Diffusion má potíže s degradací a nepřesnostmi v určitých scénářích. První verze modelu byla trénována na datasetu s obrázky o rozlišení 512×512, což znamená, že kvalita generovaných obrázků výrazně degraduje, když se specifikace uživatele odchýlí od "očekávaného" rozlišení 512×512.[28] Verze 2.0 aktualizace modelu Stable Diffusion následně přidala schopnost nativně generovat obrázky o rozlišení 768×768.[29] Další výzvou je generování lidských končetin v důsledku nízké kvality dat o končetinách v databázi LAION.[30] Model je nedostatečně vyškolen na porozumění lidským končetinám a obličejům kvůli nedostatku reprezentativních prvků v databázi, a vyvolávání generování obrázků tohoto typu může model zmat.[31] Verze Stable Diffusion XL (SDXL) 1.0, uvedená na trh v červenci 2023, představila nativní rozlišení 1024x1024 a zlepšenou generaci pro končetiny a text.[32][33]

Dostupnost pro jednotlivé vývojáře může být také problémem. Aby bylo možné upravit model pro nové použití, které není zahrnuto v datasetu, například pro generování postav anime ("waifu difúze"),[34] je zapotřebí nových dat a dalšího tréninku. Jemně naladěné adaptace modelu Stable Diffusion vytvořené prostřednictvím dalšího opětovného tréninku byly použity pro různé účely, od lékařského zobrazování po algoritmicky generovanou hudbu.[35][36] Nicméně tento proces jemného ladění je citlivý na kvalitu nových dat; nízké rozlišení obrázků nebo odlišné rozlišení od původních dat může nejen selhat při naučení se nového úkolu, ale i degradovat celkový výkon modelu. I když je model dodatečně vyškolen na obrázky vysoké kvality, je pro jednotlivce obtížné spouštět modely na spotřebitelské elektronice. Například trénovací proces pro waifu-difúzi vyžaduje minimálně 30 GB VRAM,[37] což přesahuje běžné zdroje poskytované v takových spotřebitelských GPU jako například Nvidia GeForce 30 series, které mají pouze kolem 12 GB.[38]

Tvůrci modelu Stable Diffusion uznávají možnost algoritmického zkreslení, neboť byl model primárně trénován na obrázcích s anglickými popisy.[39] Výsledkem je, že generované obrázky posilují sociální zkreslení a jsou západně orientované, neboť tvůrci upozorňují, že model chybí data z jiných komunit a kultur. Model poskytuje přesnější výsledky pro zadání napsaná anglicky ve srovnání s těmi napsanými v jiných jazycích, přičemž západní nebo bílé kultury jsou často defaultním zobrazením.[40]

Jemné ladění koncovým uživatelem

Aby bylo možné řešit omezení původního tréninku modelu, koncoví uživatelé mohou zvolit implementaci dalšího tréninku k jemnému ladění generovaných výstupů a přizpůsobení je specifickým účelům, což je proces označovaný jako personalizace. Existují tři metody, jak lze na checkpoint modelu Stable Diffusion aplikovat přístupné jemné ladění uživatelem:

  • "Vložení" lze natrénovat z kolekce obrázků poskytnutých uživatelem a umožňuje modelu generovat vizuálně podobné obrázky, kdykoli je název vložení použit ve výzvě ke generování. [41] Vkládání je založeno na konceptu „textové inverze“, který vyvinuli vědci z Tel Aviv University v roce 2022 s podporou společnosti Nvidia, kde jsou vektorové reprezentace pro konkrétní tokeny používané kodérem textu modelu propojeny s novými pseudoslovy. Vložení lze použít ke snížení předsudků v rámci původního modelu nebo k napodobení vizuálních stylů. [42]
  • „Hypersíť“ je malá předtrénovaná neuronová síť, která se aplikuje na různé body v rámci větší neuronové sítě a odkazuje na techniku vytvořenou vývojářem NovelAI Kurumuz v roce 2021, původně určenou pro modely transformátorů pro generování textu. Hypernetworks nasměrují výsledky určitým směrem a umožňují modelům založeným na Stable Diffusion napodobovat umělecký styl konkrétních umělců, i když umělec není rozpoznán původním modelem; zpracovávají obraz nalezením klíčových důležitých oblastí, jako jsou vlasy a oči, a poté tyto oblasti zalepují v sekundárním latentním prostoru. [43]
  • DreamBooth je model generování hlubokého učení vyvinutý výzkumníky z Google Research a Boston University v roce 2022, který dokáže model doladit tak, aby generoval přesné, personalizované výstupy, které zobrazují konkrétní předmět, po školení prostřednictvím sady obrázků, které předmět zobrazují. [44]

Schopnosti

Model Stable Diffusion podporuje schopnost generovat nové obrázky od základu pomocí textového zadání popisujícího prvky, které mají být zahrnuty nebo vynechány ve výstupu.[45] Existující obrázky mohou být modelem překresleny a začleněny nové prvky popsané textovým zadáním (proces známý jako "vedená syntéza obrázku") pomocí jeho mechanismu difúzního vyhlazování.[46] Kromě toho model umožňuje použití zadání k částečné úpravě existujících obrázků pomocí inpaintingu a outpaintingu, pokud je používán s vhodným uživatelským rozhraním, které podporuje tyto funkce, a existuje mnoho různých implementací s otevřeným zdrojovým kódem.[47]

Pro optimální provoz modelu Stable Diffusion se doporučuje spustit ho na zařízeních s minimálně 10 GB virtuální paměti (VRAM). Nicméně, uživatelé s omezenou virtuální pamětí mají možnost načíst váhy s přesností float16 namísto výchozí float32. Tato možnost umožňuje vyrovnat výkon modelu s nižší spotřebou virtuální paměti,[48] což může být výhodné pro uživatele s omezenými hardwarovými prostředky.

Generování textu na obrázek

Demonstrace efektu negativního popisu na generaci obrázků
  • Nahoře: žádný negativní popis
  • Uprostřed: "zelené stromy"
  • Dole: "kulaté kameny"

Skript vzorkování textu na obrázek v rámci Stable Diffusion, známý jako „txt2img“, využívá kromě různých parametrů volby zahrnujících typy vzorkování, rozměry výstupního obrázku a počáteční hodnoty také textovým vstupem. Výstupem skriptu je obrazový soubor založený na interpretaci výzvy modelu. [49] Vygenerované obrázky jsou označeny neviditelným digitálním vodoznakem, aby uživatelé mohli identifikovat obrázek jako vytvořený pomocí Stable Diffusion,[49] ačkoli tento vodoznak ztrácí svou účinnost, pokud je velikost obrázku změněna nebo otočena. [50]

Každá generace txt2img bude zahrnovat specifickou počáteční hodnotu, která ovlivňuje výstupní obrázek. Uživatelé se mohou rozhodnout randomizovat semeno (seed), aby prozkoumali různé generované výstupy, nebo použít stejné semeno k získání stejného obrazového výstupu jako dříve vygenerovaný obraz. [51] Uživatelé jsou také schopni upravit počet inferenčních kroků pro vzorkovač; vyšší hodnota trvá delší dobu (lepší kvalita), avšak nižší hodnota může mít za následek vizuální vady (horší kvalita). [51] Další konfigurovatelná možnost, hodnota vodicí stupnice bez klasifikátoru, umožňuje uživateli upravit, jak přesně se výstupní obraz připojuje k výzvě. Experimentálnější případy použití se mohou rozhodnout pro nižší hodnotu rozsahu, zatímco případy použití zaměřené na specifičtější výstupy mohou používat vyšší hodnotu. [51]

Další funkce text2img jsou poskytovány předními implementacemi Stable Diffusion, které umožňují uživatelům upravovat váhu přidělovanou konkrétním částem textové výzvy. Značky důrazu umožňují uživatelům přidat nebo snížit důraz na klíčová slova jejich uzavřením do hranatých závorek. [52] Alternativní metodou úpravy váhy na části výzvy jsou „negativní výzvy“. Negativní výzvy jsou funkcí zahrnutou v některých front-end implementacích, včetně vlastní cloudové služby DreamStudio Stability AI, a umožňují uživateli určit výzvy, kterým by se model měl během generování obrázků vyhnout. Specifikované výzvy mohou být nežádoucími rysy obrazu, které by jinak byly přítomny v obrazových výstupech kvůli pozitivním výzvám poskytnutým uživatelem nebo kvůli tomu, jak byl model původně trénován, přičemž běžným příkladem jsou rozbité lidské ruce. [53] [54]

Úprava obrazu

Before
© VulcanSphere / CC BY 4.0
After
© VulcanSphere / CC BY 4.0
Demonstrace modifikace obrázek do obrázku (img2img)
  • Nalevo: Originální obrázek vytvořen se Stable Diffusion 1.5
  • Napravo: Modifikovaný obrázek vytvořený se Stable Diffusion XL 1.0

Stable Diffusion také obsahuje další vzorkovací skript „img2img“, který využívá textovou výzvu, cestu k existujícímu obrázku a hodnotu síly mezi 0,0 a 1,0. Skript vygeneruje nový obrázek založený na původním obrázku, který také obsahuje prvky poskytn vstupu. Hodnota síly udává množství šumu přidaného do výstupního obrazu. Vyšší hodnota síly vytváří více variací v rámci obrázku, ale může vytvořit obrázek, který není sémanticky konzistentní s poskytnutou výzvou. [49]

Díky schopnosti img2img přidat do původního obrázku šum je potenciálně užitečný pro anonymizaci dat a rozšiřování dat, při kterých se mění a anonymizují vizuální vlastnosti obrazových dat. [55] Stejný proces může být také užitečný pro převzorkování obrazu, při kterém se zvýší rozlišení obrazu a do obrazu může být přidáno více detailů. [56] Navíc se experimentovalo se Stable Diffusion jako s nástrojem pro kompresi obrazu. Ve srovnání s JPEG a WebP, poslední metody používané pro kompresi obrazu ve Stable Diffusion face omezení při zachování malého textu a obličejů. [57]

Další případy použití pro úpravu obrazu prostřednictvím img2img nabízí řada předních implementací modelu Stable Diffusion. Inpainting zahrnuje selektivní úpravu části existujícího obrazu vymezeného uživatelem poskytnutou maskou vrstvy, která vyplní maskovaný prostor nově vygenerovaným obsahem na základě poskytnuté výzvy. [53] Spolu s vydáním Stable Diffusion 2.0 vytvořila Stability AI speciální model speciálně vyladěný pro případy použití malování. [58] Naopak přemalba rozšíří obraz za jeho původní rozměry a vyplní dříve prázdný prostor obsahem generovaným na základě poskytnuté výzvy. [53]

S vydáním Stable Diffusion 2.0 dne 24. listopadu 2022 byl představen hloubkově naváděný model s názvem „depth2img“. tento model odvodí hloubku poskytnutého vstupního obrazu a generuje nový výstupní obraz na základě textové výzvy a informací o hloubce, což umožňuje zachovat soudržnost a hloubku původního vstupního obrazu ve generovaném výstupu. [58]

ControlNet

ControlNet[59] je architektura neuronové sítě navržená pro řízení modelů difúze začleněním dalších podmínek. Duplikuje váhy bloků neuronové sítě do „uzamčené“ kopie a „trénovatelné“ kopie. „Trénovatelná“ kopie se naučí požadovaný stav, zatímco „uzamčená“ kopie zachová původní model. Tento přístup zajišťuje, že trénování s malými datovými sadami obrazových párů neohrozí integritu difúzních modelů připravených pro výrobu. "Nulová konvoluce" je konvoluce 1×1 s hmotností i předpětím inicializovaným na nulu. Před tréninkem všechny nulové konvoluce produkují nulový výstup, čímž se zabrání jakémukoli zkreslení způsobenému ControlNet. Žádná vrstva není trénována od nuly; proces se stále dolaďuje a udržuje původní model v bezpečí. Tato metoda umožňuje trénink modelů na malých nebo dokonce osobních zařízeních.

Vydání

Číslo verzeDatum vydáníOdkaz
1,0
1.4srpna 2022[60]
1.5října 2022[61]
2,0listopadu 2022[62]
2.1prosince 2022[63]
XL 1.0července 2023[64]

Použití a kontroverze

Stable Diffusion si nenárokuje žádná práva na generované obrázky a volně dává uživatelům práva na použití jakýchkoli vygenerovaných obrázků z modelu za předpokladu, že obsah obrázku není nezákonný nebo škodlivý pro jednotlivce nebo skupinu. Svoboda poskytovaná uživatelům v používání obrázků vyvolala spory ohledně etiky vlastnictví, protože Stable Diffusion a další generativní modely jsou trénovány z obrázků chráněných autorským právem bez souhlasu vlastníka. [65] To také vede k velkému množství soukromých a citlivých informací v tréninkových datech. [66]

Vzhledem k tomu, že vizuální styly a kompozice nepodléhají autorským právům, je často interpretováno, že uživatelé Stable Diffusion, kteří vytvářejí obrázky uměleckých děl, by neměli být považováni za porušující autorská práva vizuálně podobných děl. [67] Jednotlivci vyobrazení na generovaných obrázcích však mohou být chráněni osobnostními právy, pokud je použita jejich podoba [67], a duševní vlastnictví, jako jsou rozpoznatelná loga značek, stále zůstává chráněno autorským právem. Vizuální umělci nicméně vyjádřili obavy, že rozšířené používání softwaru pro syntézu obrazu, jako je Stable Diffusion, může nakonec vést k tomu, že lidští umělci spolu s fotografy, modelkami, kameramany a herci postupně ztrácejí komerční životaschopnost proti konkurentům založeným na umělé inteligenci.

Stable Diffusion je ve srovnání s jinými komerčními produkty založenými na generativní umělé inteligenci zejména tolerantnější, pokud jde o typy obsahu, který mohou uživatelé vytvářet, jako jsou násilné nebo sexuálně explicitní snímky. [68] Generální ředitel společnosti Stability AI, Emad Mostaque, se vypořádal s obavami, že model může být použit pro zneužití, tvrdí, že „[je] odpovědností lidí za to, zda jsou etické, morální a legální v tom, jak tuto technologii provozují“. a že uvedení schopností Stable Diffusion do rukou veřejnosti by vedlo k tomu, že technologie bude poskytovat čistý přínos, a to i přes potenciální negativní důsledky. Mostaque navíc tvrdí, že záměrem otevřené dostupnosti Stable Diffusion je ukončit podnikovou kontrolu a dominanci nad takovými technologiemi, které dříve vyvíjely pouze uzavřené systémy umělé inteligence pro syntézu obrazu. [68] To se odráží ve skutečnosti, že jakákoli omezení Stability AI na obsah, který mohou uživatelé generovat, lze snadno obejít díky dostupnosti zdrojového kódu. [65]

Kontroverze kolem fotorealistických sexualizovaných zobrazení nezletilých postav byla vychována kvůli tomu, že takové obrázky vytvořené Stable Diffusion jsou sdíleny na webových stránkách, jako je Pixiv . [69]

Soudní spory

V lednu 2023 podali umělci Sarah Andersen, Kelly McKernan a Karla Ortiz žalobu na porušení autorských práv proti Stability AI, Midjourney a DeviantArt s tvrzením, že tyto společnosti porušily práva milionů umělců tím, že vycvičily nástroje AI na pěti miliardách obrázků stažených z webu bez souhlasu původních umělců. [70] Ve stejném měsíci byla Stability AI také žalována společností Getty Images za použití jejích obrázků v tréninkových datech. [71]

V červenci 2023 americký okresní soudce William Orrick rozhodl ve prospěch zamítnutí většiny žalob podaných Andersenovou, McKernanovou a Ortizovou. Nicméně, soudce umožnil těmto stranám podat novou stížnost.[72]

Licence

Na rozdíl od některých modelů, jako například DALL-E, Stable Diffusion nabízí transparentnost a otevřenost tím, že poskytuje svůj zdrojový kód spolu s předtrénovanými váhami modelu.[73][74]

Pro regulaci užívání modelu M[75] je však zavedena licence Creative ML OpenRAIL-M, která představuje formu Responsible AI License (RAIL).

Licence podle RAIL explicitně zakazuje některé konkrétní případy použití, včetně zločinu, urážky na cti, obtěžování, doxingu, vykořisťování nezletilých, poskytování lékařských rad, automatické vytváření právních povinností, předkládání právních důkazů a diskriminace nebo poškozování jednotlivců nebo skupin na základě sociálního chování nebo osobních charakteristik,[76][77] a to včetně zákonem chráněných vlastností nebo kategorií.[78]

Odkazy

Reference

V tomto článku byl použit překlad textu z článku Stable Diffusion na anglické Wikipedii.

  1. Announcing SDXL 1.0 [online]. Dostupné v archivu pořízeném z originálu dne July 26, 2023. 
  2. Leaked deck raises questions over Stability AI's Series A pitch to investors [online]. [cit. 2023-06-20]. Dostupné v archivu pořízeném z originálu dne June 29, 2023. 
  3. Revolutionizing image generation by AI: Turning text into images [online]. [cit. 2023-06-21]. Dostupné v archivu pořízeném z originálu dne September 17, 2022. 
  4. MOSTAQUE, Emad. Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen [online]. November 2, 2022 [cit. 2023-06-22]. Dostupné v archivu pořízeném z originálu dne July 20, 2023. (anglicky) 
  5. Stable Diffusion Repository on GitHub [online]. CompVis - Machine Vision and Learning Research Group, LMU Munich, 17 September 2022 [cit. 2022-09-17]. Dostupné v archivu pořízeném z originálu dne January 18, 2023. 
  6. The new killer app: Creating AI art will absolutely crush your PC [online]. [cit. 2022-08-31]. Dostupné v archivu pořízeném z originálu dne 2022-08-31. 
  7. The AI Founder Taking Credit For Stable Diffusion's Success Has A History Of Exaggeration [online]. [cit. 2023-06-20]. Dostupné v archivu pořízeném z originálu dne June 21, 2023. 
  8. KORN, Jennifer. Getty Images suing the makers of popular AI art tool for allegedly stealing photos [online]. 2023-01-17 [cit. 2023-01-22]. Dostupné v archivu pořízeném z originálu dne March 1, 2023. (anglicky) 
  9. WIGGERS, Kyle. Stability AI, the startup behind Stable Diffusion, raises $101M [online]. 17 October 2022 [cit. 2022-10-17]. Dostupné v archivu pořízeném z originálu dne October 17, 2022. (anglicky) 
  10. Stable Diffusion Repository on GitHub [online]. CompVis - Machine Vision and Learning Research Group, LMU Munich, 17 September 2022 [cit. 2022-09-17]. Dostupné v archivu pořízeném z originálu dne January 18, 2023. 
  11. ALAMMAR, Jay. The Illustrated Stable Diffusion [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne November 1, 2022. 
  12. ALAMMAR, Jay. The Illustrated Stable Diffusion [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne November 1, 2022. 
  13. Stable Diffusion Repository on GitHub [online]. CompVis - Machine Vision and Learning Research Group, LMU Munich, 17 September 2022 [cit. 2022-09-17]. Dostupné v archivu pořízeném z originálu dne January 18, 2023. 
  14. Stable diffusion pipelines [online]. [cit. 2023-06-22]. Dostupné v archivu pořízeném z originálu dne June 25, 2023. 
  15. BAIO, Andy. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online]. 2022-08-30 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 20, 2023. (anglicky) 
  16. BAIO, Andy. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online]. 2022-08-30 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 20, 2023. (anglicky) 
  17. This artist is dominating AI-generated art. And he's not happy about it. [online]. [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 14, 2023. (anglicky) 
  18. BAIO, Andy. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online]. 2022-08-30 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 20, 2023. (anglicky) 
  19. BRUNNER, Katharina; HARLAN, Elisa. We Are All Raw Material for AI [online]. Bayerischer Rundfunk (BR), 2023-07-07 [cit. 2023-09-12]. Dostupné v archivu pořízeném z originálu dne September 12, 2023. 
  20. SCHUHMANN, Christoph. CLIP+MLP Aesthetic Score Predictor. [s.l.]: [s.n.], 2022-11-02. Dostupné v archivu pořízeném z originálu dne June 8, 2023. 
  21. BAIO, Andy. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online]. 2022-08-30 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 20, 2023. (anglicky) 
  22. LAION-Aesthetics | LAION [online]. [cit. 2022-09-02]. Dostupné v archivu pořízeném z originálu dne 2022-08-26. (anglicky) 
  23. BAIO, Andy. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator [online]. 2022-08-30 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 20, 2023. (anglicky) 
  24. Šablona:Cite arXiv
  25. MOSTAQUE, Emad. Cost of construction [online]. August 28, 2022 [cit. 2022-09-06]. Dostupné v archivu pořízeném z originálu dne 2022-09-06. (anglicky) 
  26. CompVis/stable-diffusion-v1-4 · Hugging Face [online]. [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 11, 2023. 
  27. WIGGERS, Kyle. A startup wants to democratize the tech behind DALL-E 2, consequences be damned [online]. 2022-08-12 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 19, 2023. (anglicky) 
  28. Stable Diffusion with 🧨 Diffusers [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne January 17, 2023. 
  29. Stable Diffusion 2.0 Release [online]. Dostupné v archivu pořízeném z originálu dne December 10, 2022. 
  30. LAION [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne October 16, 2023. (anglicky) 
  31. Generating images with Stable Diffusion [online]. 2022-08-24 [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne October 31, 2022. (anglicky) 
  32. Announcing SDXL 1.0 [online]. [cit. 2023-08-21]. Dostupné v archivu pořízeném z originálu dne July 26, 2023. (anglicky) 
  33. EDWARDS, Benj. Stability AI releases Stable Diffusion XL, its next-gen image synthesis model [online]. 2023-07-27 [cit. 2023-08-21]. Dostupné v archivu pořízeném z originálu dne August 21, 2023. (anglicky) 
  34. hakurei/waifu-diffusion · Hugging Face [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne October 8, 2023. 
  35. Šablona:Cite arXiv
  36. Seth Forsgren; HAYK MARTIROS. Riffusion - Stable diffusion for real-time music generation [online]. Dostupné v archivu pořízeném z originálu dne December 16, 2022. 
  37. MERCURIO, Anthony. Waifu Diffusion. [s.l.]: [s.n.], 2022-10-31. Dostupné v archivu pořízeném z originálu dne October 31, 2022. 
  38. SMITH, Ryan. NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne August 27, 2023. 
  39. CompVis/stable-diffusion-v1-4 · Hugging Face [online]. [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 11, 2023. 
  40. CompVis/stable-diffusion-v1-4 · Hugging Face [online]. [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne January 11, 2023. 
  41. ; Dave James. Dostupné online. 
  42. Šablona:Cite arXiv
  43. Dostupné online. 
  44. ; Yuki Yamashita. Dostupné online. (japonsky) 
  45. Stable Diffusion Repository on GitHub [online]. CompVis - Machine Vision and Learning Research Group, LMU Munich, 17 September 2022 [cit. 2022-09-17]. Dostupné v archivu pořízeném z originálu dne January 18, 2023. 
  46. Stable Diffusion Repository on GitHub [online]. CompVis - Machine Vision and Learning Research Group, LMU Munich, 17 September 2022 [cit. 2022-09-17]. Dostupné v archivu pořízeném z originálu dne January 18, 2023. 
  47. Stable Diffusion web UI [online]. 10 November 2022 [cit. 2022-09-27]. Dostupné v archivu pořízeném z originálu dne January 20, 2023. 
  48. Stable Diffusion with 🧨 Diffusers [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne January 17, 2023. 
  49. a b c Dostupné online. 
  50. [s.l.]: [s.n.] Dostupné online. 
  51. a b c Dostupné online. 
  52. Dostupné online. (anglicky) 
  53. a b c Dostupné online. 
  54. Dostupné online. 
  55. Šablona:Cite arXiv
  56. Luzi, Lorenzo; Siahkoohi, Ali; Mayer, Paul M.; Casco-Rodriguez, Josue; Baraniuk, Richard (October 21, 2022).
  57. BÜHLMANN, Matthias. Stable Diffusion Based Image Compression [online]. 2022-09-28 [cit. 2022-11-02]. Dostupné v archivu pořízeném z originálu dne November 2, 2022. (anglicky) 
  58. a b Dostupné online. 
  59. Zhang, Lvmin (February 10, 2023).
  60. Dostupné online. 
  61. Dostupné online. 
  62. Dostupné online. 
  63. Dostupné online. 
  64. Dostupné online. 
  65. a b Dostupné online. (anglicky) 
  66. Dostupné online. 
  67. a b Dostupné online. (japonsky) 
  68. a b ; Ryo Shimizu. Dostupné online. (japonsky) 
  69. Dostupné online. (anglicky) 
  70. Dostupné online. 
  71. Dostupné online. (anglicky) 
  72. BRITTAIN, Blake. US judge finds flaws in artists' lawsuit against AI companies. Reuters. 2023-07-19. Dostupné v archivu pořízeném z originálu dne September 6, 2023. (anglicky) 
  73. Stable Diffusion Public Release [online]. [cit. 2022-08-31]. Dostupné v archivu pořízeném z originálu dne 2022-08-30. 
  74. Stable Diffusion Repository on GitHub [online]. CompVis - Machine Vision and Learning Research Group, LMU Munich, 17 September 2022 [cit. 2022-09-17]. Dostupné v archivu pořízeném z originálu dne January 18, 2023. 
  75. From RAIL to Open RAIL: Topologies of RAIL Licenses [online]. 18 August 2022 [cit. 2023-02-20]. Dostupné v archivu pořízeném z originálu dne July 27, 2023. (anglicky) 
  76. Ready or not, mass video deepfakes are coming. The Washington Post. 2022-08-30. Dostupné v archivu pořízeném z originálu dne 2022-08-31. 
  77. License - a Hugging Face Space by CompVis [online]. [cit. 2022-09-05]. Dostupné v archivu pořízeném z originálu dne 2022-09-04. 
  78. Katsuo Ishida. 言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能 [online]. August 26, 2022 [cit. 2022-10-04]. Dostupné v archivu pořízeném z originálu dne November 14, 2022. (japonsky) 

Externí odkazy

Média použitá na této stránce

Nuvola web broom.svg
Autor: , Licence: LGPL
Web broom icon
NightCitySphere (SDXL).jpg
© VulcanSphere / CC BY 4.0
A synthography of night cyberpunk city created in NightCafe Studio with Stable Diffusion XL (SDXL). The positive prompt is Vector art, thick lines, smooth, perfect, Night Cyberpunk City made into an abstract polygon design, defined edges, amazing depth, incredible composition, darkest dungeon style by dribbble, beeple, galaxy and nebula colours, astral background, double exposure" with weight of 2.1 and the negative prompt is misaligned, boring, human, man, woman, ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, blurry, bad anatomy, blurred, watermark, grainy, signature, cut off, draft with weight of -2.1 (NightCafe Studio scale). Runtime is medium, overall prompt weight is 70%, and the noise weight is 40%. This artwork was created with image-to-image (img2img) process from the SD 1.5 version.
Astronaut Riding a Horse (SDXL).jpg
A synthograph of an astronaut riding a horse created in NightCafe Studio with Stable Diffusion XL (SDXL). Prompt is a photograph of an astronaut riding a horse with weight of 1.0 (NightCafe Studio scale). Runtime is medium and overall prompt weight is 70%. This artwork was created with text-to-image (txt2img) process.
Stable Diffusion architecture.png
(c) Machine Vision and Learning Group, LMU Munich, MIT
Diagram of the architecture of Stable Diffusion, a neural network trained to generate photorealistic images
Algorithmically-generated landscape artwork of forest with Shinto shrine.png
Autor: Benlisquare, Licence: CC BY-SA 4.0

Demonstration of the usage of negative prompting on algorithmically-generated artworks created using the Stable Diffusion V1-4 AI diffusion model. The purpose of a negative prompt is to instruct the AI to omit certain objects, motifs or visual elements when generating an image, as opposed to a positive prompt which instructs the AI to include such things.

This image aims to illustrate the process in which negative prompting within Stable Diffusion can be used to fine-tune the output of an AI generated image based on the desires of the user, as one part out of three images showing each step of the procedure.

Procedure/Methodology

All artworks created using a single NVIDIA RTX 3090. Front-end used for the entire generation process is Stable Diffusion web UI created by AUTOMATIC1111.

A single 768x512 image was generated with txt2img using the following prompts:

Prompt: Hakurei Shrine in distance, Gensokyo, nature landscape, landscape art, far view from distance, traditional Japanese architecture in distance, Shinto shrine in distance, forests, mountains, rivers, art style of Craig Mullins and jordan grimmer and tyler edlin and darek zabrocki and raphael lacoste

Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 1411213889, Size: 768x512

From there, two additional images were generated using the same seed and positive prompt, however this time using negative prompts:

Second image

Prompt: Hakurei Shrine in distance, Gensokyo, nature landscape, landscape art, far view from distance, traditional Japanese architecture in distance, Shinto shrine in distance, forests, mountains, rivers, art style of Craig Mullins and jordan grimmer and tyler edlin and darek zabrocki and raphael lacoste

Negative prompt: green trees

Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 1411213889, Size: 768x512

Third image

Prompt: Hakurei Shrine in distance, Gensokyo, nature landscape, landscape art, far view from distance, traditional Japanese architecture in distance, Shinto shrine in distance, forests, mountains, rivers, art style of Craig Mullins and jordan grimmer and tyler edlin and darek zabrocki and raphael lacoste

Negative prompt: round stones, round rocks

Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 1411213889, Size: 768x512

Afterwards, for all three images, the image was extended by 128 pixels on both the left and right sides using a single pass of the "Outpainting mk2" script within img2img. This was done using the same seed value of 1411213889 earlier, along with a setting of 100 sampling steps with Euler a, denoising strength of 0.8, CFG scale of 7, mask blur of 25, fall-off exponent value of 1.8, colour variation set to 0.03. The prompts used were identical to those utilised during the first step. This subsequently increases the image's dimensions to 1024x512, while also revealing additional foilage and architectural elements which were previously absent from the original AI-generated image.

Then, two passes of the SD upscale script using "Real-ESRGAN 4x plus anime 6B" were run within img2img. The first pass used a tile overlap of 64, denoising strength of 0.3, 50 sampling steps with Euler a, and a CFG scale of 7, using an identical seed of 482112941 for all three images. The second pass used a tile overlap of 128, denoising strength of 0.1, 30 sampling steps with Euler a, and a CFG scale of 7, using an identical seed of 3320472043 for all three images.
Algorithmically-generated landscape artwork of forest with Shinto shrine using negative prompt for green trees.png
Autor: Benlisquare, Licence: CC BY-SA 4.0

Demonstration of the usage of negative prompting on algorithmically-generated artworks created using the Stable Diffusion V1-4 AI diffusion model. The purpose of a negative prompt is to instruct the AI to omit certain objects, motifs or visual elements when generating an image, as opposed to a positive prompt which instructs the AI to include such things.

This image aims to illustrate the process in which negative prompting within Stable Diffusion can be used to fine-tune the output of an AI generated image based on the desires of the user, as one part out of three images showing each step of the procedure.

Procedure/Methodology

All artworks created using a single NVIDIA RTX 3090. Front-end used for the entire generation process is Stable Diffusion web UI created by AUTOMATIC1111.

A single 768x512 image was generated with txt2img using the following prompts:

Prompt: Hakurei Shrine in distance, Gensokyo, nature landscape, landscape art, far view from distance, traditional Japanese architecture in distance, Shinto shrine in distance, forests, mountains, rivers, art style of Craig Mullins and jordan grimmer and tyler edlin and darek zabrocki and raphael lacoste

Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 1411213889, Size: 768x512

From there, two additional images were generated using the same seed and positive prompt, however this time using negative prompts:

Second image

Prompt: Hakurei Shrine in distance, Gensokyo, nature landscape, landscape art, far view from distance, traditional Japanese architecture in distance, Shinto shrine in distance, forests, mountains, rivers, art style of Craig Mullins and jordan grimmer and tyler edlin and darek zabrocki and raphael lacoste

Negative prompt: green trees

Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 1411213889, Size: 768x512

Third image

Prompt: Hakurei Shrine in distance, Gensokyo, nature landscape, landscape art, far view from distance, traditional Japanese architecture in distance, Shinto shrine in distance, forests, mountains, rivers, art style of Craig Mullins and jordan grimmer and tyler edlin and darek zabrocki and raphael lacoste

Negative prompt: round stones, round rocks

Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 1411213889, Size: 768x512

Afterwards, for all three images, the image was extended by 128 pixels on both the left and right sides using a single pass of the "Outpainting mk2" script within img2img. This was done using the same seed value of 1411213889 earlier, along with a setting of 100 sampling steps with Euler a, denoising strength of 0.8, CFG scale of 7, mask blur of 25, fall-off exponent value of 1.8, colour variation set to 0.03. The prompts used were identical to those utilised during the first step. This subsequently increases the image's dimensions to 1024x512, while also revealing additional foilage and architectural elements which were previously absent from the original AI-generated image.

Then, two passes of the SD upscale script using "Real-ESRGAN 4x plus anime 6B" were run within img2img. The first pass used a tile overlap of 64, denoising strength of 0.3, 50 sampling steps with Euler a, and a CFG scale of 7, using an identical seed of 482112941 for all three images. The second pass used a tile overlap of 128, denoising strength of 0.1, 30 sampling steps with Euler a, and a CFG scale of 7, using an identical seed of 3320472043 for all three images.
X-Y plot of algorithmically-generated AI art of European-style castle in Japan demonstrating DDIM diffusion steps.png
Autor: Benlisquare, Licence: CC BY-SA 4.0

An X/Y plot of algorithmically-generated AI artworks depicting a European-style castle in Japan, created using the Stable Diffusion V1-5 AI diffusion model. This plot serves to demonstrate the U-Net denoising process, using the DDIM sampling method. Diffusion models algorithmically generate images by repeatedly removing Gaussian noise, step-by-step, and then decoding the denoised output into pixel space. Shown here are a smaller subset of steps within a 40-step generation process.

Procedure/Methodology

These images were generated using an NVIDIA RTX 4090; since Ada Lovelace chipsets (using compute capability 8.9, which requires CUDA 11.8) are not fully supported by the pyTorch dependency libraries currently used by Stable Diffusion, I've used a custom build of xformers, along with pyTorch cu116 and cuDNN v8.6, as a temporary workaround. Front-end used for the entire generation process is Stable Diffusion web UI created by AUTOMATIC1111.

A batch of 512x768 images were generated with txt2img using the following prompts:

Prompt: a (european castle:1.3) in japan. by Albert Bierstadt, ray traced, octane render, 8k

Negative prompt: None

Settings: Sampler: DDIM, CFG scale: 7, Size: 512x768

During the generation of this batch, the X/Y plot was generated using the "X/Y plot" txt2img script, along with the following settings:

  • X-axis: Steps: 1, 2, 3, 5, 8, 10, 15, 20, 30, 40
  • Y-axis: None
NightCitySphere (SD1.5).jpg
© VulcanSphere / CC BY 4.0
A synthography of night cyberpunk city created in NightCafe Studio with Stable Diffusion 1.5. The positive prompts are Night cityscape with tail buildings and neon lights with weight of 1.0, detailed matte painting, deep color, fantastical, intricate detail, splash screen, complementary colors, fantasy concept art, 8k resolution trending on Artstation Unreal Engine 5 with weight of 0.9, and cyberpunk 2099 blade runner 2049 neon with weight of 0.9 (NightCafe Studio scale). Resolution is thumbnail, runtime is short, overall prompt weight is 50%, and the noise weight is 50%. This artwork was created with image-to-image (img2img) process from another SD 1.5 artwork.
Algorithmically-generated landscape artwork of forest with Shinto shrine using negative prompt for round stones.png
Autor: Benlisquare, Licence: CC BY-SA 4.0

Demonstration of the usage of negative prompting on algorithmically-generated artworks created using the Stable Diffusion V1-4 AI diffusion model. The purpose of a negative prompt is to instruct the AI to omit certain objects, motifs or visual elements when generating an image, as opposed to a positive prompt which instructs the AI to include such things.

This image aims to illustrate the process in which negative prompting within Stable Diffusion can be used to fine-tune the output of an AI generated image based on the desires of the user, as one part out of three images showing each step of the procedure.

Procedure/Methodology

All artworks created using a single NVIDIA RTX 3090. Front-end used for the entire generation process is Stable Diffusion web UI created by AUTOMATIC1111.

A single 768x512 image was generated with txt2img using the following prompts:

Prompt: Hakurei Shrine in distance, Gensokyo, nature landscape, landscape art, far view from distance, traditional Japanese architecture in distance, Shinto shrine in distance, forests, mountains, rivers, art style of Craig Mullins and jordan grimmer and tyler edlin and darek zabrocki and raphael lacoste

Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 1411213889, Size: 768x512

From there, two additional images were generated using the same seed and positive prompt, however this time using negative prompts:

Second image

Prompt: Hakurei Shrine in distance, Gensokyo, nature landscape, landscape art, far view from distance, traditional Japanese architecture in distance, Shinto shrine in distance, forests, mountains, rivers, art style of Craig Mullins and jordan grimmer and tyler edlin and darek zabrocki and raphael lacoste

Negative prompt: green trees

Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 1411213889, Size: 768x512

Third image

Prompt: Hakurei Shrine in distance, Gensokyo, nature landscape, landscape art, far view from distance, traditional Japanese architecture in distance, Shinto shrine in distance, forests, mountains, rivers, art style of Craig Mullins and jordan grimmer and tyler edlin and darek zabrocki and raphael lacoste

Negative prompt: round stones, round rocks

Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 1411213889, Size: 768x512

Afterwards, for all three images, the image was extended by 128 pixels on both the left and right sides using a single pass of the "Outpainting mk2" script within img2img. This was done using the same seed value of 1411213889 earlier, along with a setting of 100 sampling steps with Euler a, denoising strength of 0.8, CFG scale of 7, mask blur of 25, fall-off exponent value of 1.8, colour variation set to 0.03. The prompts used were identical to those utilised during the first step. This subsequently increases the image's dimensions to 1024x512, while also revealing additional foilage and architectural elements which were previously absent from the original AI-generated image.

Then, two passes of the SD upscale script using "Real-ESRGAN 4x plus anime 6B" were run within img2img. The first pass used a tile overlap of 64, denoising strength of 0.3, 50 sampling steps with Euler a, and a CFG scale of 7, using an identical seed of 482112941 for all three images. The second pass used a tile overlap of 128, denoising strength of 0.1, 30 sampling steps with Euler a, and a CFG scale of 7, using an identical seed of 3320472043 for all three images.