Model sztucznej inteligencji Claude 3 firmy Anthropic pokonał GPT-4 w rankingu Chatbot Arena

Aktualizacja: 29.03.2024, 20:26

Obraz wygenerowany przy użyciu Microsoft Designer i DALL-E 2

Duży model językowy Claude 3 Opus firmy Anthropic po raz pierwszy przewyższył GPT-4 OpenAI w Chatbot Arena, popularnym rankingu crowdsourcingowym wykorzystywanym przez naukowców do oceny możliwości modeli językowych AI.

Co wiadomo

Niezależny badacz Simon Willison zauważył, że po raz pierwszy najlepsze dostępne modele, takie jak Opus pod względem złożoności i Haiku pod względem wydajności, pochodzą od dostawcy innego niż OpenAI.

Ranking chatbotów Chatbot Arena

Chatbot Arena jest zarządzana przez Large Model Systems Organisation (LMSYS ORG) i opiera się na subiektywnych ocenach użytkowników porównujących wyniki różnych modeli językowych. Takie podejście pomaga przezwyciężyć trudności w obiektywnej ocenie wydajności chatbotów AI.

Sukces Claude 3 pokazuje rosnącą konkurencję w dziedzinie modeli językowych AI. Niektórzy użytkownicy zastąpili już ChatGPT przez Claude 3 w swoich przepływach pracy, co może wpłynąć na udział OpenAI w rynku.

Oczekuje się jednak, że OpenAI wyda nowy duży model, następcę GPT-4 Turbo, w tym roku, prawdopodobnie latem. Prawdopodobnie doprowadzi to do dalszych zmian w rankingach Chatbot Arena w nadchodzących miesiącach i latach.

Badacze podkreślają znaczenie różnorodności wśród wiodących dostawców w tej dziedzinie, ponieważ pomaga ona technologiom modeli językowych AI ewoluować i poprawiać ich wydajność.

Źródło: Ars Technica