Man vs Machine: Чем отличается игра против бота и человека

Больше половины пути последней битвы «Люди против покерного бота» уже пройдено, и результаты самых сильных профессиональных игроков в покер оставляют желать лучшего. Единственным из четырех игроков, ведущим на данный момент в схватке против покерного бота Libratus, остается Донг Ким. Его же товарищи по команде Джимми Чоу, Джейсон Лес и Даниэл Мак’Олэй уже в глубоком минусе.

Существует еще один покерный бот Slumbot, значительно уступающий Libratus. Вы можете испытать его по данной ссылке. Тем не менее, оба бота используют общий алгоритм, называемый контрфактуальной минимизацией сожаления, и тот же Slumbot намного сильнее большинства современных покерных ботов. Но в данной статье мы поговорим не о конкретных ботах, а о различиях в игре против бота и против человека.

Легко выйти вперед, трудно остаться впереди

Я начал неплохо против Slumbot с двузначным винрейтом за первые 2000 рук. Я надеялся сохранить этот результат, но скатился до минуса из-за нескольких куллеров, проигранных коинфлипов на префлопе и глупых коллов в больших банках. Если взглянуть на список лидеров против Slumbot, такая ситуация покажется типичной. Кажется, что его довольно легко победить на дистанции 1000 рук, если вам неплохо заходит, но мало кто остается в плюсе на 5000 рук и больше.

Другими словами, если вы не тру-гриндер, вам понадобится гораздо больший сэмпл рук, чем можно подумать, чтобы с точностью сказать, кто из двух игроков – лучший, и бот, учитывая, что он одновременно последователен в своей игре и всегда готов к ре-матчу – идеальный пример, чтобы убедиться в этом.

Эксплуатация неэксплуатируемого

Slumbot и ее конкуренты не пытаются корректировать свою игру в режиме реального времени. В них заложена наименее эксплуатируемая смешанная стратегия, и они просто следуют ей, не уделяя внимания тому, как играл оппонент в предыдущих раздачах. Конечно, они не всегда разыгрывают руку одинаково в одинаковых ситуациях, а выбирают из имеющихся у них вариантов с заложенными вероятностями.

Как ни странно, тот факт, что человек знает, что бот не приспосабливается, означает, что ему самому нет смысла играть по смешанной стратегии. Если вы думаете, что нашли ситуацию, в которой ваши блефы будут очень выгодными, вы можете блефовать в 100% случаев, не беспокоясь о том, что бот подстроится и станет чаще коллировать.

Другими словами, найти способы побить бота может быть очень трудно, но если или когда вы их найдете, вам можно не беспокоиться о том, что бот может заманить вас в ловушку.

Один большой лик

Однако в процессе разработки данных ботов имеется один серьезный недостаток. Полная свобода в выборе размеров ставок сделала бы задачу вычисления невозможной. Поэтому алгоритмы бота должны использовать лишь определенные категории ставок и интерпретировать их соответственно, например, округлять 29% или 31% банка до 30%.

Я испытал что-то подобное в начале игры против Slumbot с A-хай в ситуации, когда я ожидал, что у него будет много тузов хуже или королей. Я поставил очень тонкий вельюбет и был удивлен, получив колл от 8-хай. Суть в том, что моя ставка была настолько мала, что бот округлил её до 0%, посчитав эквивалентом чека.

Slumbot в первую очередь предназначен для того, чтобы соперничать с другими покерными ботами, поэтому, возможно, разработчики закрыли глаза на этот лик. В то же время, можно с уверенностью сказать, что Libratus не будет коллировать минбеты на ривере со всем вплоть до сильных рук. Но вполне вероятно, что даже у самого сильного бота может наступить разрыв шаблона, если ему придется реагировать на нестандартные размеры ставок, которые может легко понять и начать эксплуатировать не особо сообразительный человек.

Может быть, на самом деле вы просто везучая рыба

В покере есть одно распространенное мнение. Чем сильнее вы доминируете над оппонентом, тем больше он оправдывает ваши выигрыши удачей. У всех нас были случаи, когда игрок, не понимающий, почему мы разыграли руку определенным образом, называл нас рыбой.

Особенностью Slumbot является то, что помимо профита он показывает и «Baseline Earnings». Этот стат представляет собой разницу между вашим фактическим профитом и тем, сколько бы мог выиграть бот, если бы он играл с вашими картами на тех же самых бордах и ранаутах.

Возможно, вы бьете Slumbot 30бб/100 на определенном отрезке. Но ваши иллюзии о том, что вы играли хорошо, могут развеяться, если вы взглянете на Baseline Earnings и обнаружите там -40бб/100. Таким образом, если бы вы действительно играли хорошо, ваш профит, помноженный на удачу, составил бы 70бб/100, но когда дистанция сгладит выбросы дисперсии, окажется, что бот выигрывает со значительным отрывом.

Это заставляет задуматься, насколько ваши оппоненты были близки к реальности, называя вас тупым пертым фишом, которому просто повезло, что пришел такой ривер.

Когда ваш лучший учитель – ваш оппонент

Важно понимать, что такие боты строят свою стратегию на основе миллионов рук, сыгранных с самим собой. Это означает, что бот в конечном счете выбирает ту стратегию, на которую не нашел контр стратегии. Это, в свою очередь, значит, что, когда вы не знаете как играть, вы можете спросить себя, а что бы сделал бот на вашем месте. Конечно, копирование стратегий бота не даст вам незыблемого преимущества, но если вы применяете их правильно, как минимум, вы будете играть в ноль.

Игра против людей – уже совсем другое дело. Человеческие стратегии, как правило, не сбалансированы против них самих. Для человека в порядке вещей переблефовывать определенную руку на ривере или не достаточно часто коллировать. Таким образом, пытаясь сыграть так, как сыграл бы ваш оппонент, вы либо исполняете гениальный мув, либо оказываете себе медвежью услугу.

Эго сильно влияет на человеческую игру

Первое, что можно заметить, играя с ботом, это то, что он блефует реже, чем вы могли ожидать. Поиграв против него немного больше, вы поймете, что это не совсем верно. Он блефует достаточно часто. Чаще большинства людей на ранних улицах и значительно меньше на поздних улицах, а иногда ставит только один баррель.

Иногда у бота можно заметить классическую человеческую игру, например, блеф 4-бет на префлопе. И если следует колл, на большинстве текстур он будет сдаваться без попытки забрать банк. Вполне вероятны ситуации, когда вы прочекаете до ривера в 3- или 4-бет поте и заберете банк по А-хай или небольшой карманке, а еще чаще – когда вы поставите скромную ставку на терне после чека на флопе и заберете банк без сопротивления.

Это имеет смысл, если стратегия является идеальной (или близкой к идеальной), так как для людей свойственно идти до конца. Когда вы получаете колл на ваш блеф, обычно становится как-то не по себе и даже стыдно, если вы, в конце концов, доходите с блефом до шоудауна. Поэтому, получив колл на ранней улице, таким естественным становится желание продолжать баррелить, чтобы либо выдавить оппонента из банка, либо получить руку, которую не будет стыдно показать на шоудауне.

Анaлoгично мы чувствуем себя слабаками, когда у нас нет шоудаун эквити, хотя, мы, вполне вероятно, экономим кучу фишек, когда играем чеком вдогон 8-хай против оппонента, чей диапазон взвешен в сторону блеф кетчеров, что не свойственно боту. В целом, что касается Slumbot, складывается ощущение, что он может отказываться от маленьких банков, но часто играет большие и умеет правильно выбирать, когда их следует играть. Очевидно, что это тот аспект игры, в котором все мы испытываем большие трудности.

Тильт еще менее рационален, чем вы думаете

Можно подумать, что игра против безмолвного и бесчувственного противника не на реальные дeньги не будет заставлять вас тильтовать так, как обычный покер. Возможно, у некоторых и в мыслях не будет начать тильтовать, но не у всех. Разочарование настигло меня при игре против Slumbot, когда я начал коллировать его в ситуациях, в которых, как мне казалось, у него не могло быть сильной руки так часто. Это ужасная логика против человека и еще более ужасная против компьютера.

Эмоциональное состояние вашего оппонента может быть иллюзией

Конечно, это невозможно, но иногда казалось, что бот тильтует. Например, были случаи, когда я тащил слабое дро, доезжал, выигрывал большой банк, а в следующей раздаче Slumbot открывался до 5х. Играя против человека, естественно подумать, что такой большой оупен-рейз сигнализирует о том, что он расстроен, что только что потерял большой банк, и хочет либо быстро вернуть дeньги обратно, либо «не дать вам снова себя переехать».

Конечно, Slumbot открывался до 5х потому, что его стратегия говорила ему, что он должен рейзить так с определённой ругой какой-то процент случаев, и его генератор случайных чисел решил, что это именно тот случай. Вывод о том, что это была его реакция на произошедшее в предыдущей раздаче – иллюзия. Это заставляет задуматься о том, как часто мы делаем правильные выводы об эмоциональном состоянии наших оппонентов, и как часто мы допускаем ошибки, связывая их игру с предыдущей раздачей, а не с тем, что им тупо зашли тузы.

Люди слишком консервативны в выборе размеров ставок

Новичкам часто рекомендуют использовать одинаковый бет-сайзинг, чтобы не раздавать слишком много информации о своих руках. Более продвинутые игроки начинают регулировать сайзинги по ситуации независимо от силы руки, например, по текстуре борда или чтобы на ривере был подходящий банк для олл-ина.

На самом деле у вас может быть множество сайзингов для той или иной ситуации независимо от силы руки, до тех пор, пока все ваши диапазоны сбалансированы независимо друг от друга. То есть, вы можете ставить много с натсами и мало с маргинальными руками, до тех пор, пока вы балансируете натсы блефами и маргинальные руки натсами, чтобы вашим оппонентам всегда приходилось гадать между коллом и фолдом, и чтобы вы не слишком часто фолдили на рейзы в обоих случаях.

Это не так просто для людей, так как мы ставим много, чтобы сгенерировать побольше фолд эквити или из-за жадности, а мало, чтобы получить колл от плохих рук или потому что мы не хотим слишком много рисковать с блефами. Если разбить наш диапазон на несколько сайзингов, мы хотим, чтобы оппоненты лузовее (не путать с чаще) коллировали наши маленькие ставки и чаще фолдили или блеф-кетчили против больших.

Все это с трудом дается человеку, так как требует понимания того, как различные доли наших диапазонов противопоставляются различным долями диапазонов оппонентов, с чем легко справляется искусственный интеллект. Бот может и не думать о диапазонах, как это делаем мы, а использовать линии, которые доказали свою прибыльность на основе собственного опыта. Но помимо всего этого, пытаться понять логику бота и то, почему различный сайзинг может быть хорошей идеей в определенных ситуациях – прекрасная возможность сделать свою игру более изощренной.