Model ChatGPT GPT-4o generuje obrazy z czytelnymi etykietami

OpenAI wprowadziło ważną aktualizację do GPT-4o, która umożliwia generowanie obrazów z niezwykle dokładnym tekstem. Ta nowa funkcja pozwala użytkownikom tworzyć szczegółowe, wysokiej jakości obrazy z podpowiedziami głosowymi i dostosowywać je w procesie, aby dokładnie odtworzyć ich zamierzone znaczenie.
Co wiemy.
Wygląda na to, że możemy teraz zapomnieć o nieczytelnych napisach lub dziwacznych symbolach, które często pojawiały się w starszych modelach AI.
W przeciwieństwie do tradycyjnych metod generowania obrazów, w których trzeba poprawić pojedyncze zapytanie, GPT-4o wykorzystuje dynamiczne podejście. Najpierw użytkownik podaje podstawową wskazówkę, taką jak "kot", a następnie może zaangażować się w dialog z modelem, aby dodać pożądane szczegóły, takie jak kapelusz detektywa lub monokl.








OpenAI pokazało, jak użytkownicy mogą stopniowo tworzyć sceny, łącząc elementy z różnych obrazów. Model wykazuje wysoką dokładność w odtwarzaniu tekstu na znakach lub obiektach, co stanowi znaczący postęp w stosunku do poprzednich modeli, które nie były w stanie poprawnie odtworzyć napisanych słów.
GPT-4o pozwala także na pracę ze zdjęciami poprzez nanoszenie na nie zmian. Model może obsłużyć 10-20 obiektów w scenie, podczas gdy inne modele często zatrzymują się na 5-8.




Jednak nie wszystko jest idealne: istnieją pewne wady, takie jak przycinanie od dołu, nieporozumienia z tekstem niełacińskim i problemy z ponad 20 obiektami. Niemniej jednak, nowa funkcja zapewnia dokładność i elastyczność, które otwierają nowe możliwości dla projektantów i twórców.
Źródło: OpenAI, Gizmochina