Wikipedia stanie bardziej dostępna dla AI: nowy projekt czyni dane «czytelnymi»

Autor: Russell Thompson | 01.10.2025, 11:24

Wikimedia Deutschland (niemiecki oddział Wikimedia) ogłosiła uruchomienie Wikidata Embedding Project — bazy danych, która ułatwia dostęp do materiałów Wikipedii i jej „siostrzanych” projektów dla sztucznej inteligencji.

Co się zmieniło

Do tej pory programiści mogli pracować z danymi Wikipedii jedynie za pomocą słów kluczowych i specjalistycznego języka SPARQL. Teraz baza otrzymała wsparcie dla wyszukiwania wektorowego — technologii, która pozwala komputerom rozumieć nie tylko słowa, ale także ich znaczeniowe powiązania. Dzięki temu AI będzie mogło wyszukiwać i wykorzystywać wiedzę z niemal 120 milionów artykułów w bardziej „ludzkiej” formie.

Poza tym projekt jest zintegrowany ze standardem Model Context Protocol (MCP), który ułatwia interakcję AI z zewnętrznymi źródłami. Jest to szczególnie przydatne dla systemów retrieval-augmented generation (RAG) — gdy model nie tylko odpowiada „z pamięci”, ale pobiera sprawdzone dane z zewnątrz.

Jak to działa

Na przykład zapytanie „naukowiec” wygeneruje nie tylko listę osobowości, ale dobrą selekcję według dziedzin: fizyka jądrowa, pracownicy Bell Labs, tłumaczenia terminu na różne języki, obrazy z Wikimedia i nawet pokrewne pojęcia, takie jak „badacz” lub „naukowiec-teoretyk”.

Kontext

Projekt został stworzony wspólnie z Jina.AI i DataStax (należy do IBM). Jest już dostępny dla programistów na Toolforge, a 9 października odbędzie się webinar dla tych, którzy chcą dowiedzieć się więcej.

W warunkach, w których laboratoria AI walczą o wysokiej jakości zestawy danych, ten krok wydaje się szczególnie istotny. Zważając na to, że Wikipedia, mimo krytyki, dysponuje znacznie bardziej zweryfikowanymi materiałami niż, na przykład, Common Crawl — „wysypisko internetu” z przypadkowymi stronami.

„Potężne AI nie musi być kontrolowane przez garstkę korporacji. Może być otwarte, współdzielone i służyć wszystkim,” — powiedział lider projektu Philippe Saadé.

Źródło: TechCrunch