Wikipedia stanie bardziej dostępna dla AI: nowy projekt czyni dane «czytelnymi»
Wikimedia Deutschland (niemiecki oddział Wikimedia) ogłosiła uruchomienie Wikidata Embedding Project — bazy danych, która ułatwia dostęp do materiałów Wikipedii i jej „siostrzanych” projektów dla sztucznej inteligencji.
Co się zmieniło
Do tej pory programiści mogli pracować z danymi Wikipedii jedynie za pomocą słów kluczowych i specjalistycznego języka SPARQL. Teraz baza otrzymała wsparcie dla wyszukiwania wektorowego — technologii, która pozwala komputerom rozumieć nie tylko słowa, ale także ich znaczeniowe powiązania. Dzięki temu AI będzie mogło wyszukiwać i wykorzystywać wiedzę z niemal 120 milionów artykułów w bardziej „ludzkiej” formie.
Poza tym projekt jest zintegrowany ze standardem Model Context Protocol (MCP), który ułatwia interakcję AI z zewnętrznymi źródłami. Jest to szczególnie przydatne dla systemów retrieval-augmented generation (RAG) — gdy model nie tylko odpowiada „z pamięci”, ale pobiera sprawdzone dane z zewnątrz.
Jak to działa
Na przykład zapytanie „naukowiec” wygeneruje nie tylko listę osobowości, ale dobrą selekcję według dziedzin: fizyka jądrowa, pracownicy Bell Labs, tłumaczenia terminu na różne języki, obrazy z Wikimedia i nawet pokrewne pojęcia, takie jak „badacz” lub „naukowiec-teoretyk”.
Kontext
Projekt został stworzony wspólnie z Jina.AI i DataStax (należy do IBM). Jest już dostępny dla programistów na Toolforge, a 9 października odbędzie się webinar dla tych, którzy chcą dowiedzieć się więcej.
W warunkach, w których laboratoria AI walczą o wysokiej jakości zestawy danych, ten krok wydaje się szczególnie istotny. Zważając na to, że Wikipedia, mimo krytyki, dysponuje znacznie bardziej zweryfikowanymi materiałami niż, na przykład, Common Crawl — „wysypisko internetu” z przypadkowymi stronami.
„Potężne AI nie musi być kontrolowane przez garstkę korporacji. Może być otwarte, współdzielone i służyć wszystkim,” — powiedział lider projektu Philippe Saadé.
Źródło: TechCrunch