Model ChatGPT GPT-4o generuje obrazy z czytelnymi etykietami

Aktualizacja: 28.03.2025, 06:29

OpenAI wprowadziło ważną aktualizację do GPT-4o, która umożliwia generowanie obrazów z niezwykle dokładnym tekstem. Ta nowa funkcja pozwala użytkownikom tworzyć szczegółowe, wysokiej jakości obrazy z podpowiedziami głosowymi i dostosowywać je w procesie, aby dokładnie odtworzyć ich zamierzone znaczenie.

Co wiemy.

Wygląda na to, że możemy teraz zapomnieć o nieczytelnych napisach lub dziwacznych symbolach, które często pojawiały się w starszych modelach AI.

W przeciwieństwie do tradycyjnych metod generowania obrazów, w których trzeba poprawić pojedyncze zapytanie, GPT-4o wykorzystuje dynamiczne podejście. Najpierw użytkownik podaje podstawową wskazówkę, taką jak "kot", a następnie może zaangażować się w dialog z modelem, aby dodać pożądane szczegóły, takie jak kapelusz detektywa lub monokl.

OpenAI pokazało, jak użytkownicy mogą stopniowo tworzyć sceny, łącząc elementy z różnych obrazów. Model wykazuje wysoką dokładność w odtwarzaniu tekstu na znakach lub obiektach, co stanowi znaczący postęp w stosunku do poprzednich modeli, które nie były w stanie poprawnie odtworzyć napisanych słów.

GPT-4o pozwala także na pracę ze zdjęciami poprzez nanoszenie na nie zmian. Model może obsłużyć 10-20 obiektów w scenie, podczas gdy inne modele często zatrzymują się na 5-8.

Jednak nie wszystko jest idealne: istnieją pewne wady, takie jak przycinanie od dołu, nieporozumienia z tekstem niełacińskim i problemy z ponad 20 obiektami. Niemniej jednak, nowa funkcja zapewnia dokładność i elastyczność, które otwierają nowe możliwości dla projektantów i twórców.

Źródło: OpenAI, Gizmochina