Xiaomi opracowała superszybki model rozpoznawania głosu i udostępniła go jako OpenSource

Aktualizacja: 04.08.2025, 10:09

Xiaomi opracowała moduł rozpoznawania głosu o nazwie MiDashengLM-7B. Wykorzystując zamiast stałych algorytmów sieci neuronowe, firma osiągnęła najszybsze wyniki rozpoznawania głosu w 22 syntetycznych testach. To umożliwia budowanie platform użytkowych, które pracują praktycznie bez opóźnienia. Model może być wykorzystywany w smartfonach, systemach inteligentnego domu, samochodach itp.

MiDashengLM-7B w czasie rzeczywistym analizuje dźwięk, oddzielając dźwięki otoczenia lub muzykę. Xiaomi już aktywnie stosuje ten model głosowy w praktyce w swoich produktach, na przykład samochód YU7 permanentnie analizuje dźwięki i może wykrywać dźwięk drapania lub tłuczenia szkła, co pozwala włączyć alarm, nawet gdy nie ma uderzenia, które mogłoby zostać zarejestrowane przez czujnik ruchu.

Xiaomi opublikowała kod źródłowy zaawansowanego głosu na licencji Apache License 2.0, a także udostępniła szczegółową dokumentację na temat techniki uczenia i wprowadzania technologii. Model może stać się bazą dla deweloperów i badaczy akademickich, którzy pragną tworzyć otwarte systemy głosowe bez zależności od zamkniętych ekosystemów.

Dla chińskich firm nie jest charakterystyczna praca nad projektami z otwartym kodem. Udostępniając model językowy, Xiaomi przyciąga więcej deweloperów, co pomoże temu produktowi konkurować na równych zasadach z odpowiednikami dużych korporacji technologicznych. Doświadczenie pokazuje, że duże i złożone produkty programowe, takie jak systemy operacyjne czy przeglądarki internetowe, rozwijają się szybciej i stają się bardziej konkurencyjne, jeśli ich rozwijaniem zajmuje się nie jedna firma, a otwarta społeczność programistów.

Źródło: xiaomitime.com