Feed forward VQGAN+CLIP
0 Favoriten
Generieren von Bildern aus Text. Dieses Modell nimmt einen Text als Eingabe und gibt den VQGAN-Latenzraum als Ausgabe zurück, der dann in ein RGB-Bild umgewandelt wird. Schließlich minimiert es den Abstand zwischen den von CLIP generierten Bildmerkmalen und den CLIP-Eingabetextmerkmalen.
Generieren von Bildern aus Text. Dieses Modell nimmt einen Text als Eingabe und gibt den VQGAN-Latenzraum als Ausgabe zurück, der dann in ein RGB-Bild umgewandelt wird. Schließlich minimiert es den Abstand zwischen den von CLIP generierten Bildmerkmalen und den CLIP-Eingabetextmerkmalen.
Preismodell:
price unknown / product not launched yet
Top 5
Tools of the DAY