Minigpt-4
MiniGPT-4 ist ein Werkzeug, das die Verbindung von visueller und sprachlicher Wahrnehmung verbessert, indem es einen eingefrorenen visuellen Encoder mit einem eingefrorenen großen Sprachmodell (LLM) unter Verwendung einer einzigen Projektionsschicht kombiniert. Dieses Werkzeug ist in der Lage, detaillierte Bildbeschreibungen zu generieren, Websites aus handgeschriebenen Entwürfen zu erstellen, Geschichten und Gedichte zu schreiben, die von gegebenen Bildern inspiriert sind, Lösungen für in Bildern gezeigte Probleme zu bieten und Benutzern beizubringen, wie man auf der Grundlage von Lebensmittelfotos kocht. MiniGPT-4 ist hochgradig recheneffizient, da es nur erforderlich ist, die lineare Schicht zu trainieren, um die visuellen Merkmale mit dem Vicuna anzugleichen, wobei etwa 5 Millionen ausgerichtete Bild-Text-Paare verwendet werden.
Preismodell: