OpenAI wypuszcza darmowy ChatGPT-4o, który może mówić, śmiać się, śpiewać i widzieć

Pamiętaj, że będzie on w stanie zrozumieć, że kłamiesz

Aktualizacja: 14.05.2024, 15:24

OpenAI wypuszcza darmowy ChatGPT-4o, który może mówić, śmiać się, śpiewać i widzieć

13 maja OpenAI ogłosiło wydanie nowej wersji ChatGPT-4o, która według nich "sprawi, że interakcja człowiek-komputer będzie o krok bardziej naturalna". Nowa sieć neuronowa akceptuje dowolną kombinację tekstu, dźwięku i obrazów i generuje odpowiedzi we wszystkich tych formatach. Według firmy, sztuczna inteligencja rozpoznaje emocje, może przerywać w połowie zdania i odpowiada prawie tak szybko, jak człowiek.

Przywitaj się z GPT-4o, naszym nowym flagowym modelem, który może rozumować w czasie rzeczywistym za pomocą dźwięku, obrazu i tekstu: https://t.co/MYHZB79UqN

Wprowadzanie tekstu i obrazu w API i ChatGPT już dziś, a głos i wideo w nadchodzących tygodniach. pic.twitter.com/uuthKZyzYx
- OpenAI (@OpenAI) 13 maja 2024 r.

Litera "o" w nazwie ChatGPT-4o nie tylko naśladuje 40, ale także oznacza omni, co oznacza kompleksowość lub wszystkożerność. CTO OpenAI Mira Murati stwierdziła, że ChatGpt-4o będzie sztuczną inteligencją na poziomie ChatGPT-4 dla każdego, nawet użytkowników bez płatnej subskrypcji.

Podczas prezentacji ChatGPT-4o rozwiązał równanie liniowe zapisane na papierze, a także udzielił wskazówek dotyczących głębokiego oddychania, po prostu słuchając dźwięków oddechu.

Poprzednie modele językowe ChatGpt-3.5 i ChatGPT-4 mogły również komunikować się głosowo, ale w tym celu głos był najpierw tłumaczony na tekst, a następnie przetwarzany. Innymi słowy, najpierw jedna sieć neuronowa przetwarzała głos, a następnie druga przetwarzała tekst. Teraz ta sama sieć neuronowa przetwarza zarówno dźwięk, jak i informacje, które niesie. Dzięki takiemu podejściu OpenAI stara się uzyskać więcej kontekstu z dostępnego materiału, takiego jak stan emocjonalny rozmówcy. Jest też znacznie szybsze.