OpenAI wypuszcza darmowy ChatGPT-4o, który może mówić, śmiać się, śpiewać i widzieć
13 maja OpenAI ogłosiło wydanie nowej wersji ChatGPT-4o, która według nich "sprawi, że interakcja człowiek-komputer będzie o krok bardziej naturalna". Nowa sieć neuronowa akceptuje dowolną kombinację tekstu, dźwięku i obrazów i generuje odpowiedzi we wszystkich tych formatach. Według firmy, sztuczna inteligencja rozpoznaje emocje, może przerywać w połowie zdania i odpowiada prawie tak szybko, jak człowiek.
Litera "o" w nazwie ChatGPT-4o nie tylko naśladuje 40, ale także oznacza omni, co oznacza kompleksowość lub wszystkożerność. CTO OpenAI Mira Murati stwierdziła, że ChatGpt-4o będzie sztuczną inteligencją na poziomie ChatGPT-4 dla każdego, nawet użytkowników bez płatnej subskrypcji.
Podczas prezentacji ChatGPT-4o rozwiązał równanie liniowe zapisane na papierze, a także udzielił wskazówek dotyczących głębokiego oddychania, po prostu słuchając dźwięków oddechu.
Poprzednie modele językowe ChatGpt-3.5 i ChatGPT-4 mogły również komunikować się głosowo, ale w tym celu głos był najpierw tłumaczony na tekst, a następnie przetwarzany. Innymi słowy, najpierw jedna sieć neuronowa przetwarzała głos, a następnie druga przetwarzała tekst. Teraz ta sama sieć neuronowa przetwarza zarówno dźwięk, jak i informacje, które niesie. Dzięki takiemu podejściu OpenAI stara się uzyskać więcej kontekstu z dostępnego materiału, takiego jak stan emocjonalny rozmówcy. Jest też znacznie szybsze.