DALL-E

DALL-E
Logo
Logo
Základní údaje
Datum založení5. ledna 2021
ZakladatelOpenAI
Identifikátory
Oficiální weblabs.openai.com
Některá data mohou pocházet z datové položky.

DALL-E a DALL-E 2 jsou modely strojového učení vyvinuté společností OpenAI pro generování digitálních obrazů na základě popisů. Model DALL-E byl odhalen společností OpenAI v příspěvku na blogu v lednu 2021 a využívá verzi GPT-3 upravenou pro generování obrázků. V dubnu 2022 oznámila společnost OpenAI nástupce DALL-E 2, který má generovat realističtější obrázky ve vyšším rozlišení, které "dokáží kombinovat pojmy, atributy a styly".

Společnost OpenAI nezveřejnila zdrojový kód ani pro jeden z modelů, ačkoli výstup z omezeného výběru ukázkových výzev je k dispozici na webových stránkách OpenAI. Dne 20. července 2022 vstoupil DALL-E 2 do fáze beta, kdy byly pozvánky zaslány 1 milionu čekatelů. Přístup byl předtím omezen na předem vybrané uživatele pro výzkumný náhled kvůli obavám o etiku a bezpečnost. Dne 28. září 2022 byl DALL-E 2 zpřístupněn komukoli a požadavek na čekací listinu byl zrušen; uživatelé mohou zdarma vygenerovat určitý počet snímků a další si mohou zakoupit.

Technologie

DALL-E se skládá ze dvou neuronových sítí, z nichž jedna je GPT a druhá je VQ-GAN.[1]

GPT se snaží předpovědět posloupnost tokenů na základě posloupnosti, která mu byla dána. Model je architektura transformátorů sestávající pouze z dekodéru. GPT se učí soustředit pozornost na předchozí slova, která jsou nejdůležitější pro předpovídání dalšího slova ve větě pomocí mechanismu pozornosti.[2]

VQ-GAN je schopen komprimovat obraz do mřížky vektorů (tokenů) a rekonstruovat jej zpět do obrazu. Neuronová síť se skládá z kodéru, dekodéru a diskriminátoru.

VQ-GAN je kombinací myšlenek VQVAE a GAN.[3]

DALL-E 2 využívá další vývoj OpenAI – CLIP - Contrastive Language-Image Pre-training artificial vision system (Comparative Text-Graphic Training). Systém se učí ze stovek milionů obrázků a jejich popisů, učí se rozlišovat "kolik" textového fragmentu X koreluje s obrázkem X, to znamená, že místo předpovídání, pro který obrázek je tento popis vhodnější, model umělého vidění přesně studuje, jak jsou tento text a tento obrázek propojeny. Srovnání namísto predikce umožňuje CLIPu navázat spojení mezi textovou a vizuální reprezentací stejného významu. CLIP definuje a vytváří sémantické vazby mezi textem a obrázkem.[4]

Možnosti

Ihned po objevení DALL-E 2 začal humbuk (dokonce více než při objevení první verze algoritmu). Na webu se začaly rychle objevovat nové ukázky schopností neuronové sítě, takže uživatelům bylo ukázáno, jak může kreslit klasická díla, a pomocí ní proměnili "Monu Lisu" a "Dívku s perlou" v portréty v plnou výšku.[5]

Neuronová síť byla také testována na pochopení smyslu pro humor a byla nucena předělat populární memy.[6]

Obálka lesklého časopisu Cosmopolitan, kompletně generovaná neuronovou sítí od OpenAI, se stala velkou novinkou. Byla vytvořena týmem vedeným digitální umělkyní Karen X Chang. Autoři myšlenky vyzkoušeli mnoho možností, dokud se neusadili na poslední, vytvořené na vyžádání, "širokoúhlý záběr ze spodního úhlu ženského kosmonautu atletické stavby, který se houpal na kameru na povrchu Marsu v nekonečném vesmíru."[7]

Odkazy

Reference

V tomto článku byl použit překlad textu z článku DALL-E na anglické Wikipedii.

  1. Image GPT. OpenAI [online]. 2020-06-17 [cit. 2022-11-30]. Dostupné online. (anglicky) 
  2. DALL·E: Creating Images from Text. OpenAI [online]. 2021-01-05 [cit. 2022-11-30]. Dostupné online. (anglicky) 
  3. DALL-E 2.0, Explained. Medium [online]. 2022-05-16 [cit. 2022-12-01]. Dostupné online. (anglicky) 
  4. How Does DALL·E 2 Work? Medium [online]. 2022-04-27 [cit. 2022-11-30]. Dostupné online. (anglicky) 
  5. AI can now create any image in seconds, bringing wonder and danger. The Washington Post [online]. 2022-09-28 [cit. 2022-11-30]. Dostupné online. (anglicky) 
  6. People are using DALL-E mini to make meme abominations. The Polygon [online]. 2022-06-15 [cit. 2022-11-30]. Dostupné online. (anglicky) 
  7. The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover. Cosmopolitan [online]. 2022-06-15 [cit. 2022-11-30]. Dostupné online. (anglicky) 

Související články

Externí odkazy

Média použitá na této stránce

DALL-E 2 artificial intelligence digital image generated photo.jpg
DALL-E 2 generated this image when given the prompt "Teddy bears working on new AI research underwater with 1990s technology".
DALL-E 2 Signature.svg
The signature found on images generated by DALL-E 2, found at the bottom-right of the image.