Ano ang Dalle-mini at Paano Ito Gumagana?

Ang Dalle-mini ay isang malalim na modelo ng pag-aaral na maaaring makabuo ng mga larawang may mataas na kalidad mula sa text ng input ng user. Ito ay batay sa modelong DALL-E, na inilabas ng OpenAI noong Enero 2021. Ang DALL-E ay nangangahulugang “ Wika at Nakatagong Pagpapahayag ” ay isang transpormer-based na neural network na maaaring mag-encode ng text at mga larawan sa isang karaniwang latent space, at pagkatapos ay i-decode ang mga ito pabalik sa alinmang modality.

Ipapaliwanag ng artikulong ito ang sumusunod na nilalaman:

Ano ang Dalle-mini?

Bigyan mo siya-mini ay isang mas maliit at mas mabilis na bersyon ng DALL-E, na nilikha ng EleutherAI, isang open-source na research collective. Gumagamit lamang ang Dalle-mini ng 6 bilyong parameter, kumpara sa 12 bilyon ng DALL-E, at maaari itong tumakbo sa isang GPU. Gumagamit din ang Dalle-mini ng ibang tokenizer at bokabularyo para sa input ng text, na ginagawang mas tugma ito sa iba't ibang wika at domain:

Tandaan : Ang mga gumagamit ay maaaring makabuo ng walang bayad na mga imahe gamit ang Dalle-mini sa pamamagitan ng pagsunod sa link .

Ano ang Paggawa ng Dalle-mini?

Ang pangunahing ideya sa likod ng Dalle-mini ay ang kapangyarihan ng mga transformer, na mga neural network. Maaari silang matuto ng mga long-range na dependency at kumplikadong pattern sa sequential data, gaya ng text o mga imahe.

Ang mga transformer ay binubuo ng dalawang pangunahing bahagi: isang encoder at isang decoder. Ang unang bahagi ay kumukuha ng input (isang paglalarawan ng teksto) at binabago ito sa mga nakatagong vector. Pagkatapos nito, kukunin ito ng decoder at bubuo ng isang output (isang imahe) na may kaugnayan sa input.

Ano ang Pagkakaiba sa pagitan ng Dalle-mini at DALL-E?

Gumagamit ang Dalle-mini at DALL-E ng shared encoder-decoder architecture para sa text at mga imahe. Maaari nilang i-encode at i-decode ang parehong mga modalidad gamit ang parehong network. Nagbibigay-daan ito sa kanila na matuto ng karaniwang latent space na kumukuha ng semantikong relasyon sa pagitan ng text at mga larawan. Pagkatapos nito, binibigyang-daan silang magsagawa ng cross-modal generation, tulad ng paggawa ng mga larawan mula sa text o vice versa.

Paano Gumagana ang Dalle-mini?

Upang makabuo ng isang larawan mula sa isang paglalarawan ng text, i-tokenize muna ng Dalle-mini ang teksto gamit ang isang byte-pair encoding (BPE) algorithm, na naghahati sa text sa mga subword unit batay sa dalas ng mga ito at magkakasamang pangyayari:

Tumungo tayo sa detalye ng panloob na paggawa ng Dalle-mini:

Panloob na Paggawa ng Dalle-mini

Ipagpalagay natin, ang salitang ' naglalaro 'maaaring hatiin sa' pla 'at' ying ”. Ang mga token ay namamapa sa mga numerong ID gamit ang isang bokabularyo ng 8192 na mga token. Ang mga ID ay ipinapasok sa encoder, na gumagawa ng isang nakatagong representasyon ng laki na 256 x 64:

Pagkatapos ay kinukuha ng decoder ang latent na representasyon at bubuo ng larawang may sukat na 256 x 256 pixels. Gumagamit ang decoder ng autoregressive na proseso, na nangangahulugang binubuo nito ang bawat pixel nang paisa-isa, na nakakondisyon sa mga nakaraang pixel at sa nakatagong representasyon.

Paano Bumuo ng Imahe mula sa Paglalarawan ng Teksto Gamit ang Dalle-mini?

Upang bumuo ng isang paglalarawan ng teksto mula sa isang imahe gamit ang Dalle-mini, ipasok ang teksto sa prompt window. Halimbawa, i-type ang ' Isang pagpipinta ng mga random na bulaklak ” sa prompt at pindutin ang “ Takbo 'button:

Ang output ay nagpapakita na ang Dalle-mini ay nakabuo ng mga kaugnay na larawan ayon sa input text.

Konklusyon

Ang Dalle-mini ay isang kahanga-hangang modelo na nagpapakita ng potensyal ng mga transformer para sa cross-modal na henerasyon. Maaari silang lumikha ng makatotohanan at magkakaibang mga imahe mula sa mga natural na paglalarawan ng wika, pati na rin ang magkakaugnay at nauugnay na mga teksto mula sa mga larawan. Maaari rin nilang pangasiwaan ang mga kumplikadong komposisyon, tulad ng pagsasama-sama ng maraming bagay o katangian sa isang larawan o text. Ipinaliwanag ng artikulong ito ang Dalle-mini at ang paggana nito nang detalyado.

Ano ang Dalle-mini at Paano Ito Gumagana?