OpenAI dodało do ChatGPT rozpoznawanie mowy, rozpoznawanie obrazów i głosowe wyrażanie tekstu

Autor: Bohdan Kaminskyi | 25.09.2023, 17:29

OpenAI

OpenAI ogłosiło dużą aktualizację chatbota ChatGPT, który przeszukuje obrazy, rozpoznaje mowę i dubbinguje tekst.

Co wiadomo

Rozpoznawanie mowy umożliwia zadawanie pytań chatbotowi za pomocą głosu. W tym celu ChatGPT wykorzystuje Whisper, model open source opracowany przez OpenAI.

Za konwersję tekstu na mowę odpowiada nowy model, który według firmy może wygenerować "głos podobny do ludzkiego" z zaledwie kilku sekund próbek mowy. Obecnie dostępnych jest pięć wariantów głosowych do wyboru.

Wyszukiwanie obrazem pozwala na zrobienie zdjęcia interesującego nas przedmiotu i wysłanie go do ChatGPT. Chatbot spróbuje zrozumieć żądanie i odpowiednio zareagować.

W aplikacji można również użyć narzędzia do rysowania, aby wskazać określoną część obrazu.

OpenAI zdaje sobie sprawę z potencjalnego ryzyka związanego z nowymi funkcjami. Firma nie zezwala ChatGPT na przetwarzanie zdjęć ludzi ani odpowiadanie na pytania ich dotyczące.

Nowe funkcje będą dostępne dla subskrybentów ChatGPT Plus Enterprise w ciągu dwóch tygodni. Później firma otworzy do nich dostęp dla każdego, kto będzie chciał z nich skorzystać.

Źródło: OpenAI