OpenAI dodało do ChatGPT rozpoznawanie mowy, rozpoznawanie obrazów i głosowe wyrażanie tekstu
OpenAI
OpenAI ogłosiło dużą aktualizację chatbota ChatGPT, który przeszukuje obrazy, rozpoznaje mowę i dubbinguje tekst.
Co wiadomo
Rozpoznawanie mowy umożliwia zadawanie pytań chatbotowi za pomocą głosu. W tym celu ChatGPT wykorzystuje Whisper, model open source opracowany przez OpenAI.
Za konwersję tekstu na mowę odpowiada nowy model, który według firmy może wygenerować "głos podobny do ludzkiego" z zaledwie kilku sekund próbek mowy. Obecnie dostępnych jest pięć wariantów głosowych do wyboru.
Wyszukiwanie obrazem pozwala na zrobienie zdjęcia interesującego nas przedmiotu i wysłanie go do ChatGPT. Chatbot spróbuje zrozumieć żądanie i odpowiednio zareagować.
W aplikacji można również użyć narzędzia do rysowania, aby wskazać określoną część obrazu.
OpenAI zdaje sobie sprawę z potencjalnego ryzyka związanego z nowymi funkcjami. Firma nie zezwala ChatGPT na przetwarzanie zdjęć ludzi ani odpowiadanie na pytania ich dotyczące.
Nowe funkcje będą dostępne dla subskrybentów ChatGPT Plus Enterprise w ciągu dwóch tygodni. Później firma otworzy do nich dostęp dla każdego, kto będzie chciał z nich skorzystać.
Źródło: OpenAI