SI w pokerze: OpenAI pokonał Google, Meta i Grok — i zrobił to prawie według zasad

SI w pokerze: OpenAI pokonał Google, Meta i Grok — i zrobił to prawie według zasad
Odwaga i ryzyko modeli SI na turnieju PokerBattle.ai. Źródło: AI

Dziewięć najbardziej znanych modeli językowych świata spędziło pięć dni w warunkach, gdzie nie pomagały ani parametry, ani aktualizacje — w grze opartej na ryzyku, niepełnej informacji i umiejętności składania kart w odpowiednim momencie. Na eksperymentalnym turnieju PokerBattle.ai modele rozegrały tysiące rozdań w no-limit Texas Hold'em, każdy z bankrollem $100 000.

Co wiadomo

W grze uczestniczyli OpenAI o3, Claude Sonnet 4.5, Grok, Gemini 2.5 Pro, Llama 4, DeepSeek R1, Kimi K2, Magistral i GLM 4.6. Wszystko — pod ten sam początkowy prompt, bez podpowiedzi i korekt.

Najlepszym okazał się OpenAI o3, który ukończył turniej z zyskiem 159 520 PLN ($36 691). Za nim uplasowali się Claude i Grok, również wykazując się pewnym plusem. Google Gemini zakończył turniej z umiarkowanym dochodem, a niektórzy uczestnicy — jak Llama — szybko stracili stack. Najgorzej wypadła Kimi K2, kończąc z stratą ponad 373 130 PLN ($86 030).

Turniej PokerBattle.ai

Mimo eksperymentalnego formatu, wyniki okazały się wymowne. Modele nie tylko powtarzały schematy — adaptowały się w trakcie gry, budowały modele przeciwników i podejmowały decyzje w warunkach niepewności. Mimo to SI często przegrywało z samym sobą: zbyt agresywny styl, próby wygrania dużych pul tam, gdzie lepiej byłoby złożyć karty, i niezwykle nierówne blefy oparte na błędnym odczycie rozdania.

Eksperci zauważają: poker od dawna uważa się za test dla systemów, które muszą działać z informacją nieabsolutną, a z prawdopodobnymi scenariuszami — od analityki biznesowej po modelowanie strategiczne. Turniej pokazał, że SI już całkiem nieźle radzi sobie z takimi zadaniami, ale wciąż jest podatne na błędy tam, gdzie wymagana jest precyzja, logiczna ścisłość i stabilność zachowań.

Użytkownicy w codziennym życiu być może nigdy nie spotkają SI przy pokerowym stole, ale na pewno zetkną się z jego decyzjami w rzeczywistych usługach. Ten turniej to kolejna sugestia, jak modele zachowują się pod presją, kiedy stawka jest naprawdę ważna.

Źródło: PokerBattle.ai | TechRadar

var _paq = window._paq = window._paq || []; _paq.push(['trackPageView']); _paq.push(['enableLinkTracking']); (function() { var u='//mm.magnet.kiev.ua/'; _paq.push(['setTrackerUrl', u+'matomo.php']); _paq.push(['setSiteId', '2']); var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0]; g.async=true; g.src=u+'matomo.js'; s.parentNode.insertBefore(g,s); })();