Создатели бота, побившего HU LHE, ответили на вопросы пользователей

Не так давно учёные из университета Альберты заявили о том, что их бот сумел победить лимитный холдем. Их исследовательский проект был опубликован в научном журнале, а многие меинстримные средства массовой информации также осветили произошедшее (хотя многие достаточно неточно описали то, что именно этот бот умеет). Мы уже писали про это здесь.

На TwoPlusTwo появилась многостраничная дискуссия на тему этого бота, в которой появились разработчики. Стоит немного рассказать непосредственно про самого бота, прежде чем представить вам на суд ответы создателей Cepheus.

Вкратце:

Ограничен только лимитным холдемом на данный момент
Использует новый алгоритм «Regret minimization technique» (прямой пepевoд – «техника минимизации сожалений») для выбора наилучшей стратегии на каждом шагу игры
Скорость вычислений увеличилась благодаря новому алгоритму
Использует связку из 200 компьютеров с 24 ядрами 2.1Ghz AMD, 32 гигабайта оперативной памяти и жёстким диском в 1 терабайт
Алгоритм подтверждает некоторые базовые моменты «оптимальной» игры, включая преимущество позиции и агрессии/рейзов, в то время как опровергает некоторые вещи типа слишком сильной выборочности стартовых рук без позиции

Сыграйте против бота Cepheus или посмотрите на его решения в любой ситуации.

Когда произошёл прорыв в разработке?

«Привет всем! Это Майк Йохансон, один из авторов исследования. Сейчас мы нереально загружены общением с прессой, общением с людьми в твиттере и поддержкой вебсайта.

Эта работа является результатом долгих лет исследований, и мы всё время приближались к заветному результату. В прошлом году, наш бот проигрывал 1.3ББ/100 – это был максимум, который мог выиграть невероятно одаренный противник с великолепной контр-стратегией.

В октябре 2013 году, после некоторых моих комментариев на 2+2 мне написал Оскарри Таммелин. Мы с ним раньше работали, он изобрёл PureCFR алгоритм. Он рассказал нам о своём недавнем изобретении: CFR+ - новый алгоритм, занимающийся решением игр, который учится чудовищно быстро относительно обычного CFR. К тому же он предложил новую технику сжимания данных, позволивших нам 523 терабайта превратить в 11 терабайт.

Обе разработки Оскари были чудовищно важны для нас, поскольку открывали дверь к настоящему решению лимитного хедз-ап холдема. Сами подсчеты бота потребовали 4800 ядер и 70 дней!

В результате, против бота Cepheus'a можно выиграть с винрейтом меньше, чем 0,05BB/100. Даже если бы вы знали идеальную контр-стратегию и могли бы её безупречно исполнять, вам бы потребовалось 60 миллионов игр, чтобы иметь 95% уверенность в том, что вы выигрываете (учитываем дисперсию).

В итоге, лимитный холдем можно считать решенным. Наше решение не полностью идеально, но ближе к тому, что мог бы достичь человек за всю свою жизнь, играя в покер».

Мелкие моменты работы Cepheus’a

«Мы не можем сказать с абсолютной точностью, не совершит ли наш бот какую-то микроскопическую ошибку. Всегда будет присутствовать «шум», поскольку мы в целом решили HULHE, но сделали это не «превосходно».

Однако вы сами можете проверять все сценарии нашего бота по одному: выбрав специфическую руку, вышедшие карты на столе и ставки, можно спросить у Cepheus, что он будет делать. Мы сделали эту возможность намеренно медленной.

В прошлом мы немножко подгорели от встраивания в нашего бота специальных правил. Во времена PSOpti мы добавляли специфические модели поведения для бота, чтобы скорректировать его игру в некоторых ситуациях, где он творил странные вещи. Эта часть кода оставалась в боте в течение восьми лет. В какой-то момент мы вдруг вспомнили, что она до сих пор тут, и решили сделать тесты без этих специфических правил. В итоге мы обнаружили, что наши правила не были полностью корректны. Результаты улучшились в условиях отсутствия подобных правил.

После этого мы приняли решение дать возможность алгоритму работать самостоятельно. Сейчас мы можем гарантировать, что «странные» действия бота либо а) правильны, несмотря на наши ожидания; б) не стоят беспокойства о них».

Есть ли стратегии, бьющие Cepheus?

«Мы знаем только одну стратегию, которая способна «побить» Cepheus в плане заработка дeнeг: сам Cepheus. Это одно из свойства ГТО. Для игр с двумя игроками, стратегия каждого игрока должна быть наилучшим ответом на стратегию соперника. Не существует способа заработать против Cepheus больше, чем Cepheus заработает против вас.

Если говорить о какой-то специальной, точной стратегии, которая способна выиграть 1/1000 ББ в руку, то такой стратегии мы не знаем. Мы рассчитывали её по кусочкам для того, чтобы понять, как близко мы находимся ГТО, но в итоге выбросили её для уменьшения объема хранимой информации (и времени)».

О возможных хакерах

«Мы не боимся, что нас взломают.

Код, позволяющий решить игру, находится в открытом доступе. Вы можете скачать его прямо сейчас, запустить на своём компьютере с кучкой 6-терабайтовых дисков. Удачи, ждём вас через десять лет (если, конечно, у вас в распоряжении нет собственного исследовательского кластера с гигантской вычислительной мощностью). Это всегда был вопрос доступных ресурсов. Если игнорировать практичность, то эту игру можно было решить в 1950-х годах. Работа Коллера в 90-х годах сделала это занятие интересным. 2007 год и CFR сделали решением лимитного холдема занятием сложным, но не безумным. 2014 год просто ускорил все эти вещи, позволив решить HULHE быстрее.

Если бы кто-то попробовал украсть имеющиеся расчеты Cepheus’a, занимающие 11 терабайт, то ему потребовалось бы больше дня для завершения операции. Это большой файл».

Исчезнет ли лимитный холдем из-за бота?

«Как много покеристов будут играть против того, чьи действия занимают кучу времени? Как много столов на лимите 1500$/3000$ мы убиваем? А сколько сейчас активных столов 1$/2$? Примите во внимание, журнал «Science» требует того, чтобы мы в открытый доступ выкладывали все наши результаты. Были даже разговоры о том, чтобы отпустить в открытый доступ все 11 терабайт информации, связанной с каждой ситуацией.

В течение последних 20 лет мы старались минимизировать негативные последствия. По стандартам научных исследований мы и так относились очень щепетильно к раскрытию любой информации. Но наука движется вперёд. Заинтересованный человек уже сейчас может на своём компьютере запустить что-то намного сильнее, чем бот из матча 2008 года («человек против машины»), который уже был впереди людей».

Безлимитный холдем – следующая цель команды ассасинов Альберты

«Я планирую и дальше исследовать покер. Мы уже работали над лимитным холдемом на трёх человек, а также над хедз-ап безлимитным холдемом. Думаю, в этом направлении мы и будем двигаться».