OpenAI dodało do ChatGPT rozpoznawanie mowy, rozpoznawanie obrazów i głosowe wyrażanie tekstu

25.09.2023, 17:30

OpenAI

OpenAI ogłosiło dużą aktualizację chatbota ChatGPT, który przeszukuje obrazy, rozpoznaje mowę i dubbinguje tekst.

Co wiadomo

Rozpoznawanie mowy umożliwia zadawanie pytań chatbotowi za pomocą głosu. W tym celu ChatGPT wykorzystuje Whisper, model open source opracowany przez OpenAI.

Za konwersję tekstu na mowę odpowiada nowy model, który według firmy może wygenerować "głos podobny do ludzkiego" z zaledwie kilku sekund próbek mowy. Obecnie dostępnych jest pięć wariantów głosowych do wyboru.

Wyszukiwanie obrazem pozwala na zrobienie zdjęcia interesującego nas przedmiotu i wysłanie go do ChatGPT. Chatbot spróbuje zrozumieć żądanie i odpowiednio zareagować.

Użyj swojego głosu, aby zaangażować się w rozmowę z ChatGPT. Porozmawiaj z nim w podróży, poproś o bajkę na dobranoc lub rozstrzygnij debatę przy stole.

Dźwięk na ???? pic.twitter.com/3tuWzX0wtS
- OpenAI (@OpenAI) 25 września 2023 r.

W aplikacji można również użyć narzędzia do rysowania, aby wskazać określoną część obrazu.

OpenAI zdaje sobie sprawę z potencjalnego ryzyka związanego z nowymi funkcjami. Firma nie zezwala ChatGPT na przetwarzanie zdjęć ludzi ani odpowiadanie na pytania ich dotyczące.

Nowe funkcje będą dostępne dla subskrybentów ChatGPT Plus Enterprise w ciągu dwóch tygodni. Później firma otworzy do nich dostęp dla każdego, kto będzie chciał z nich skorzystać.

Źródło: OpenAI