DALL-E
DALL-E | |
---|---|
Logo | |
Základní údaje | |
Datum založení | 5. ledna 2021 |
Zakladatel | OpenAI |
Identifikátory | |
Oficiální web | labs |
Některá data mohou pocházet z datové položky. |
DALL-E a DALL-E 2 jsou modely strojového učení vyvinuté společností OpenAI pro generování digitálních obrazů na základě popisů. Model DALL-E byl odhalen společností OpenAI v příspěvku na blogu v lednu 2021 a využívá verzi GPT-3 upravenou pro generování obrázků. V dubnu 2022 oznámila společnost OpenAI nástupce DALL-E 2, který má generovat realističtější obrázky ve vyšším rozlišení, které "dokáží kombinovat pojmy, atributy a styly".
Společnost OpenAI nezveřejnila zdrojový kód ani pro jeden z modelů, ačkoli výstup z omezeného výběru ukázkových výzev je k dispozici na webových stránkách OpenAI. Dne 20. července 2022 vstoupil DALL-E 2 do fáze beta, kdy byly pozvánky zaslány 1 milionu čekatelů. Přístup byl předtím omezen na předem vybrané uživatele pro výzkumný náhled kvůli obavám o etiku a bezpečnost. Dne 28. září 2022 byl DALL-E 2 zpřístupněn komukoli a požadavek na čekací listinu byl zrušen; uživatelé mohou zdarma vygenerovat určitý počet snímků a další si mohou zakoupit.
Technologie
DALL-E se skládá ze dvou neuronových sítí, z nichž jedna je GPT a druhá je VQ-GAN.[1]
GPT se snaží předpovědět posloupnost tokenů na základě posloupnosti, která mu byla dána. Model je architektura transformátorů sestávající pouze z dekodéru. GPT se učí soustředit pozornost na předchozí slova, která jsou nejdůležitější pro předpovídání dalšího slova ve větě pomocí mechanismu pozornosti.[2]
VQ-GAN je schopen komprimovat obraz do mřížky vektorů (tokenů) a rekonstruovat jej zpět do obrazu. Neuronová síť se skládá z kodéru, dekodéru a diskriminátoru.
VQ-GAN je kombinací myšlenek VQVAE a GAN.[3]
DALL-E 2 využívá další vývoj OpenAI – CLIP - Contrastive Language-Image Pre-training artificial vision system (Comparative Text-Graphic Training). Systém se učí ze stovek milionů obrázků a jejich popisů, učí se rozlišovat "kolik" textového fragmentu X koreluje s obrázkem X, to znamená, že místo předpovídání, pro který obrázek je tento popis vhodnější, model umělého vidění přesně studuje, jak jsou tento text a tento obrázek propojeny. Srovnání namísto predikce umožňuje CLIPu navázat spojení mezi textovou a vizuální reprezentací stejného významu. CLIP definuje a vytváří sémantické vazby mezi textem a obrázkem.[4]
Možnosti
Ihned po objevení DALL-E 2 začal humbuk (dokonce více než při objevení první verze algoritmu). Na webu se začaly rychle objevovat nové ukázky schopností neuronové sítě, takže uživatelům bylo ukázáno, jak může kreslit klasická díla, a pomocí ní proměnili "Monu Lisu" a "Dívku s perlou" v portréty v plnou výšku.[5]
Neuronová síť byla také testována na pochopení smyslu pro humor a byla nucena předělat populární memy.[6]
Obálka lesklého časopisu Cosmopolitan, kompletně generovaná neuronovou sítí od OpenAI, se stala velkou novinkou. Byla vytvořena týmem vedeným digitální umělkyní Karen X Chang. Autoři myšlenky vyzkoušeli mnoho možností, dokud se neusadili na poslední, vytvořené na vyžádání, "širokoúhlý záběr ze spodního úhlu ženského kosmonautu atletické stavby, který se houpal na kameru na povrchu Marsu v nekonečném vesmíru."[7]
Odkazy
Reference
V tomto článku byl použit překlad textu z článku DALL-E na anglické Wikipedii.
- ↑ Image GPT. OpenAI [online]. 2020-06-17 [cit. 2022-11-30]. Dostupné online. (anglicky)
- ↑ DALL·E: Creating Images from Text. OpenAI [online]. 2021-01-05 [cit. 2022-11-30]. Dostupné online. (anglicky)
- ↑ DALL-E 2.0, Explained. Medium [online]. 2022-05-16 [cit. 2022-12-01]. Dostupné online. (anglicky)
- ↑ How Does DALL·E 2 Work? Medium [online]. 2022-04-27 [cit. 2022-11-30]. Dostupné online. (anglicky)
- ↑ AI can now create any image in seconds, bringing wonder and danger. The Washington Post [online]. 2022-09-28 [cit. 2022-11-30]. Dostupné online. (anglicky)
- ↑ People are using DALL-E mini to make meme abominations. The Polygon [online]. 2022-06-15 [cit. 2022-11-30]. Dostupné online. (anglicky)
- ↑ The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover. Cosmopolitan [online]. 2022-06-15 [cit. 2022-11-30]. Dostupné online. (anglicky)
Související články
Externí odkazy
- Obrázky, zvuky či videa k tématu DALL-E na Wikimedia Commons
Média použitá na této stránce
DALL-E 2 generated this image when given the prompt "Teddy bears working on new AI research underwater with 1990s technology".
The signature found on images generated by DALL-E 2, found at the bottom-right of the image.