Što je Dalle-mini i kako radi?

Dalle-mini je model dubokog učenja koji može generirati slike visoke kvalitete iz korisničkog unosa teksta. Temelji se na modelu DALL-E koji je OpenAI objavio u siječnju 2021. DALL-E je kratica za ' Razdvojeni jezik i latentni izraz ” je neuronska mreža temeljena na transformatoru koja može kodirati tekst i slike u zajednički latentni prostor, a zatim ih dekodirati natrag u oba modaliteta.

Ovaj će članak objasniti sljedeći sadržaj:

Što je Dalle-mini?

Daj joj-mini je manja i brža verzija DALL-E-a koju je stvorio EleutherAI, istraživački kolektiv otvorenog koda. Dalle-mini koristi samo 6 milijardi parametara, u usporedbi s 12 milijardi DALL-E-a, i može raditi na jednom GPU-u. Dalle-mini također koristi drugačiji tokenizator i vokabular za unos teksta, što ga čini kompatibilnijim s različitim jezicima i domenama:

Bilješka : Korisnici mogu generirati besplatne slike koristeći Dalle-mini slijedeći veza .

Što Dalle-mini radi?

Glavna ideja iza Dalle-minija je snaga transformatora, koji su neuronske mreže. Oni mogu naučiti dugotrajne ovisnosti i složene obrasce u sekvencijalnim podacima, kao što su tekst ili slike.

Transformatori se sastoje od dva glavna dijela: kodera i dekodera. Prvi dio uzima ulaz (opis teksta) i mijenja ga u skrivene vektore. Nakon toga, dekoder ga uzima i generira izlaz (sliku) koji je relevantan za ulaz.

Koja je razlika između Dalle-mini i DALL-E?

Dalle-mini i DALL-E koriste zajedničku arhitekturu koder-dekoder i za tekst i za slike. Oni mogu kodirati i dekodirati oba modaliteta koristeći istu mrežu. To im omogućuje da nauče zajednički latentni prostor koji bilježi semantički odnos između teksta i slika. Nakon toga, omogućuje im izvođenje višemodalnog generiranja, kao što je stvaranje slika iz teksta ili obrnuto.

Kako Dalle-mini radi?

Kako bi generirao sliku iz tekstualnog opisa, Dalle-mini prvo tokenizira tekst pomoću algoritma za kodiranje para bajtova (BPE), koji dijeli tekst u jedinice podriječi na temelju njihove učestalosti i zajedničkog pojavljivanja:

Prijeđimo na detalje unutarnjeg rada Dalle-minija:

Interni rad Dalle-minija

Pretpostavimo, riječ ' sviranje ” može se podijeliti na “ pla ' i ' ying ”. Tokeni se zatim mapiraju u numeričke ID-ove koristeći vokabular od 8192 tokena. ID-ovi se unose u koder, stvarajući latentnu reprezentaciju veličine 256 x 64:

Dekoder tada uzima latentnu reprezentaciju i generira sliku veličine 256 x 256 piksela. Dekoder koristi autoregresivni proces, što znači da generira svaki piksel jedan po jedan, ovisno o prethodnim pikselima i latentnoj reprezentaciji.

Kako generirati sliku iz opisa teksta koristeći Dalle-mini?

Za generiranje tekstualnog opisa iz slike koristeći Dalle-mini, unesite tekst u prozor upita. Na primjer, upišite ' Slika nasumičnog cvijeća ' u upitu i pritisnite ' Trčanje ' dugme:

Izlaz pokazuje da je Dalle-mini generirao relevantne slike prema ulaznom tekstu.

Zaključak

Dalle-mini je izvanredan model koji demonstrira potencijal transformatora za višemodalnu proizvodnju. Mogu stvoriti realistične i raznolike slike iz opisa prirodnog jezika, kao i koherentne i relevantne tekstove iz slika. Također se mogu nositi sa složenim kompozicijama, kao što je kombiniranje više objekata ili atributa u jednoj slici ili tekstu. Ovaj članak je detaljno objasnio Dalle-mini i njegov rad.

Što je Dalle-mini i kako radi?