Wikipedia stanie bardziej dostępna dla AI: nowy projekt czyni dane «czytelnymi»

Wikipedia stanie bardziej dostępna dla AI: nowy projekt czyni dane «czytelnymi»
AI uzyskało dostęp do 120 milionów artykułów Wikipedii. Źródło: AI

Wikimedia Deutschland (niemiecki oddział Wikimedia) ogłosiła uruchomienie Wikidata Embedding Project — bazy danych, która ułatwia dostęp do materiałów Wikipedii i jej „siostrzanych” projektów dla sztucznej inteligencji.

Co się zmieniło

Do tej pory programiści mogli pracować z danymi Wikipedii jedynie za pomocą słów kluczowych i specjalistycznego języka SPARQL. Teraz baza otrzymała wsparcie dla wyszukiwania wektorowego — technologii, która pozwala komputerom rozumieć nie tylko słowa, ale także ich znaczeniowe powiązania. Dzięki temu AI będzie mogło wyszukiwać i wykorzystywać wiedzę z niemal 120 milionów artykułów w bardziej „ludzkiej” formie.

Poza tym projekt jest zintegrowany ze standardem Model Context Protocol (MCP), który ułatwia interakcję AI z zewnętrznymi źródłami. Jest to szczególnie przydatne dla systemów retrieval-augmented generation (RAG) — gdy model nie tylko odpowiada „z pamięci”, ale pobiera sprawdzone dane z zewnątrz.

Jak to działa

Na przykład zapytanie „naukowiec” wygeneruje nie tylko listę osobowości, ale dobrą selekcję według dziedzin: fizyka jądrowa, pracownicy Bell Labs, tłumaczenia terminu na różne języki, obrazy z Wikimedia i nawet pokrewne pojęcia, takie jak „badacz” lub „naukowiec-teoretyk”.

Kontext

Projekt został stworzony wspólnie z Jina.AI i DataStax (należy do IBM). Jest już dostępny dla programistów na Toolforge, a 9 października odbędzie się webinar dla tych, którzy chcą dowiedzieć się więcej.

W warunkach, w których laboratoria AI walczą o wysokiej jakości zestawy danych, ten krok wydaje się szczególnie istotny. Zważając na to, że Wikipedia, mimo krytyki, dysponuje znacznie bardziej zweryfikowanymi materiałami niż, na przykład, Common Crawl — „wysypisko internetu” z przypadkowymi stronami.

„Potężne AI nie musi być kontrolowane przez garstkę korporacji. Może być otwarte, współdzielone i służyć wszystkim,” — powiedział lider projektu Philippe Saadé.

Źródło: TechCrunch

var _paq = window._paq = window._paq || []; _paq.push(['trackPageView']); _paq.push(['enableLinkTracking']); (function() { var u='//mm.magnet.kiev.ua/'; _paq.push(['setTrackerUrl', u+'matomo.php']); _paq.push(['setSiteId', '2']); var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0]; g.async=true; g.src=u+'matomo.js'; s.parentNode.insertBefore(g,s); })();