CLIP-based Neural Neighbor Style Transfer for 3D Assets
Eine Methode zur Übertragung des Stils von einer Gruppe von Bildern auf ein 3D-Objekt. Das Texturerscheinungsbild eines Assets wird mit einem differenzierbaren Renderer in einer Pipeline optimiert, die auf Verlusten basiert, die mit vortrainierten tiefen neuronalen Netzen verwendet werden. Konkret nutzen wir einen nearest-neighbor Feature-Matching-Verlust mit CLIP-ResNet50, um den Stil aus Bildern zu extrahieren. Wir zeigen, dass ein CLIP-basierter Stil-Verlust ein unterschiedliches Erscheinungsbild im Vergleich zu einem VGG-basierten Verlust bietet, indem er sich stärker auf Texturen als auf geometrische Formen konzentriert. Zusätzlich erweitern wir den Verlust, um mehrere Bilder zu unterstützen und ermöglichen verlustbasierte Kontrolle über die Farbpalette in Kombination mit automatischer Farbpalettenextraktion aus Stilbildern.
Preismodell: