Могут ли суперкомпьютеры изменить наш подход к изучению покера?

В 2015 году Исследовательской группой области компьютерных технологий университета города Альберта (UACPRG) в этом направлении был совершен монументальный прорыв, о котором было рассказано в статье журнала Science с громким названием «Лимитный холдем хэдз-ап решен». Что это достижение может означать для рядового игрока в покер? Как это событие изменит саму игру, подход к изучению покера игроками, и будут ли позже решены и другие разновидности и форматы игры?

В этой статье мы ответим на данные вопросы, а также поднимем и другие, связанные с упомянутым выше научным прорывом.

Серьезным изучением покера сегодня занимаются уже не только казино и онлайн покер-румы, и

в прошлом году произошло несколько интересных прорывов в области компьютерных программ, играющих в покер.

Суперкомпьютеры с лучшими электронными игроками в покер обрабатывают миллиарды раздач в секунду. Работа ученых, которые занимаются изучением игр с неполной информацией, имеет куда более широкий научный потенциал в области применения искусственного интеллекта для решения куда более важных и сложных задач.

После того как в 1997 году шахматный компьютер Deep Blue одолел гроссмейстера Гарри Каспарова, многих заинтересовал вопрос, сколько времени займет создание бота, который сможет решить покер.

Лимитный холдем хэдз-ап решен

«Мы заявляем, что решение игры в лимитный холдем один на один, по сути, наконец, найдено», говорится в отчете UACPRG. Что это означает?

Нил Берч, доктор философии университета Альберты, член UACPRG, и автор статьи в журнале Science, пояснил: «Заявляя о найденном решении покера, мы имеем в виду, что нам удалось найти равновесие Нэша: мы создали стратегию, которая максимизирует свою прибыльность в очном противостоянии сама с собой. Эта стратегия неэластична, т.е. она не адаптируется под особенности игры оппонента, но это очень особенная стратегия».

По сути, это означает, что ими было найдено идеальное согласно оптимальной теории игры решение лимитного хэдз-ап холдема, благодаря чему покерная программа на значительной дистанции гарантированно будет играть минимум в ноль, а более вероятно окажется в выигрыше.

В общем, этим ученым удалось создать электронного чемпиона мира по покеру под названием «Cepheus», который функционирует за счет создания собственной базы данных игровых ситуаций и поиска в ней оптимального решения каждой покерной задачи.

«Лимитный холдем хэдз-ап, наконец, решен», продолжает Берч. «Cepheus крайне приближен к равновесию Нэша. Можно даже оценить его практически полное совершенство: если вы будете знать его стратегию и будете играть идеально, в противостоянии с Cepheus в лучшем случае вы будете зарабатывать менее 0.001 большого блайнда за раздачу. Почему мы считаем такой выигрыш незначительным? Потому что одна раздача в покере не имеет никакого значения, поскольку порой вы будете выигрывать крупные банки, а порой терпеть незначительные потери, и человеческой жизни не хватит, чтобы дистанция вывела вас ровно на плюс в 0.001 большой блайнд за раздачу или вы сумели найти возможность обыграть Cepheus. Предыдущие боты не давали гарантию определенного винрейта в игре с идеальным оппонентом. Они были достаточно хороши, чтобы обыгрывать людей или играть приблизительно в ноль против других ботов, но, тем не менее, существовала вероятность того, что если бы игрок действовал против них правильно, он добился бы значительного винрейта».

Для создания Cepheus было использовано 200 компьютеров, которые 70 дней подряд без перерыва строили базу данных, размер которой составил более 11 терабайтов. Столкнувшись с необходимостью принимать решение, программа мгновенно рассматривает каждый из возможных вариантов, оценивая их эффективность с помощью базы данных. Программа не подстраивается под особенности отдельных оппонентов, а вместо этого имеет статичный подход к игре и действует в манере, которую невозможно эксплуатировать, независимо от того, какие подстройки сделает оппонент.

Почему же лучшие умы в области компьютерных технологий решили потратить столько времени на поиск решения лимитного хэдз-ап холдема?

Компьютерщики уже более десятилетия задаются вопросом игры своих искусственных созданий против человека, а покер во многом отличается от, скажем, тех же шахмат. Одно из главных отличий заключается в том, что покер является игрой, в которой участники не обладают полной информацией, а знают лишь свои карманные карты и общие карты стола. Именно эта особенность и сделала покер мишенью ученых области компьютерных технологий, пожелавших испытать способности своих машин в решении проблемы недостатка данных.

Когда компьютеры стали прилагать усилия к решению игр, главным вопросом стало количество возможных позиций в различных играх, совокупность которых называют «размером игры». Крестики-нолики, в которой существует 1000 позиций, была решена быстро. В лимитном холдеме 100 триллионов позиций, что, к удивлению, даже меньше чем в шашках, однако это вовсе не означает, что эта игра проще.

«Несмотря на меньший размер игры по сравнению с шашками, отсутствие полной информации в лимитном хэдз-ап холдеме делает эту игру более сложной для решения», было заявлено членами UACPRG в статье в Science.

Итак, UACPRG решила игру. Но что это означает для рядового игрока?

Стоит ли волноваться о возможности столкнуться с одной из программ при игре онлайн?

Некоторые из вас прямо сейчас могут спросить: «Не значит ли это, что я могу оказаться за столом с непобедимым ботом и даже не пойму этого?».

Скорее всего, нет. Даже если одно из детищ создателей покерных ботов и прорвется в онлайн покер-рум (а у покер-румов есть масса инструментов для обнаружения ботов еще на стадии их разработки), этот бот будет куда менее изощренным чем Cepheus.

«Даже если вы и повстречаетесь с ботом, ваш электронный оппонент не сможет решить игру. Это, скорее всего, будет лишь творение какого-нибудь программиста, который решит написать своей программе определенный алгоритм действий. Этот бот не будет полноценным», говорит Тим Рейфф, бывший игрок в покер, увлекающийся вопросами ботов, и создатель программы «Prelude», которая в 2014 году получила две награды AAAI (Ассоциация развития искусственного интеллекта) на ежегодном компьютерном конкурсе. «Лично я совершенно не опасаюсь возможности столкновения с ботом, и считаю, что остальным также не следует бояться. Хорошего бота вам не повстречать», продолжил Тим.

Кроме того, несмотря на то, что лимитный холдем с участием двух игроков, по сути, решен, ученые все еще далеки от решения более распространенной безлимитной разновидности этой игры, даже если говорить о хэдз-ап варианте.

Туомас Сэндхольм профессор факультета компьютерных технологий Университета Карнеги-Меллон, создал компьютерную программу под названием «Tartanian7», которая за вклад в решение безлимитного холдема хэдз-ап получила две награды на конкурсе AAAI. Этот бот сумел обыгрывать любого оппонента на статистически значимой дистанции. Туомас также считает, что игрокам не стоит опасаться возможности встретиться с ботом за виртуальным столом.

На фото Туомас Сэндхольм

«Некоторые из ботов, которые сегодня встречаются в интернете, принимали участие в конкурсе AAAI и показали себя с не лучшей стороны», завил Сэндхольм.

Одна из причин того, что ботов, встречающихся в настоящее время в сети нельзя назвать хорошими, заключается в том, что они были сделаны не лучшими учеными области компьютерных технологий и одновременно сильными теоретиками покера, которыми, к примеру, являются Сэндхольм и члены UACRPG, обладающие огромным опытом и доступом к невероятных масштабов компьютерным ресурсам.

Бот Сэндхольма создавался в манере «Cepheus», и единственной его целью было создание программы, которую невозможно было бы обыграть в безлимитный хэдз-ап холдем. Безлимитный холдем, безусловно, гораздо сложнее из-за возможности игроков совершать ставки различных размеров, чего нет в лимитной разновидности игры.

«Пока неизвестно, будет ли лучшая из программ, которая, кстати, создана нами, сильнее топовых покерных профессионалов», сказал Сэндхольм. «Лично я предполагаю, что будет, однако наблюдаемого сражения машины и человека пока не было».

Подобный матч однажды состоялся в 2007 году, когда профессиональные игроки Фил Лаак и Али Эслами сразились с предыдущим детищем университета города Альберта для лимитного холдема, которое носит имя «Polaris». Тогда победил человек, однако, годом спустя, усовершенствованная версия того же Polaris в подобном противостоянии одержала победу.

Примерно через восемь лет UACRPG, возглавляемой доктором профессором доктором Майклом Боулингом, наконец, удалось достичь того момента, когда они с уверенностью могли заявить, что создали программу, игра которой неотличима от идеальной. Тем не менее, похоже, что даже этого опыта не хватит, чтобы решить безлимитную хэдз-ап разновидность игры, поскольку в этом случае приходиться иметь дело с размером игры в 10 в 140 степени позиций.

Решения безлимитного холдема, даже если речь идет об игре один на один, придется ждать еще долго. И кстати, даже уже созданные великолепные боты бесполезны, если в игре участвует от трех и более игроков. День. Когда появится бот, достаточно компетентный для игры в безлимитный холдем не хэдз-ап, наступит еще очень и очень нескоро.

Смогу ли я использовать бота для того чтобы научиться играть более оптимально?

В последнее десятилетие подход к изучению покера значительно изменился, и с появлением таких продвинутых компьютерных программ это снова может произойти.

Несмотря на то, что многие учатся играть непосредственно за столом, или же читают одну или две книги по стратегии, в наше время у игроков есть доступ к куда более изощренным инструментам, в том числе к видео от лучших профессионалов (просматривая которые вы видите карманные карты автора и знакомитесь с его анализом ситуаций) и продвинутым инструментам сбора и анализа статистики, которые дают вам информацию о таких показателях как PFR% (процент рейзов на префлопе), VPIP% (процент добровольного вложения дeнeг в пот), и прочим.

Несмотря на то, что наблюдение за лучшими профессиональными игроками в действии является необходимым для улучшения своей игры, Сэндхольм считает, что в будущем эти самые лучшие профи будут учиться, играя против компьютерных программ вроде Tartanian7 и Cepheus, что, кстати, вы уже можете сделать бесплатно на вебсайте Cepheus Poker Project.

«Этот бот невообразимо много может рассказать людям о том, как следует играть в покер», сказал Сэндхольм о Tartanian7. «Его игра сильно отличается от игры человека. Люди просто учатся друг у друга тому, как играет другой человек, а не оптимальной игре. Tartanian7, напротив, никогда не видел игры человека в покер. Вместо этого он учитывает основные принципы того, как следует играть, и в итоге уровень его игры отличается от того, которого на данный момент смог достичь человек. Так что у ботов можно многому научиться».

Компьютерные программы выстраивают стратегию, основываясь исключительно на правилах игры. При выборе решения они не принимают во внимание опыт, полученный во время игры с человеком или другим ботом. Удивительно, но верное решение вытекает из самих правил покера. Обладая таким необычным подходом, боты изобрели новый способ играть в покер, который может многому научить человека.

«Люди могут многому научиться, наблюдая за игрой бота или же непосредственно сражаясь с машиной за покерным столом», говорит Сэндхольм. «Если бы я сам был игроком, именно так я и поступил бы: играл бы с ботом и учился бы у него. Так что из нашего бота получится отличный тренажер».

В статье в журнале Science члены UACRPG раскрыли некоторые стратегически концепции Cepheus, которые уже были признаны оптимальными многими игроками в покер, однако для доказательства верности этого мнения пока не хватает данных. К примеру, ученые говорят, что теперь они с уверенностью могут заявить, что «подсчеты их бота доказывают известную истину, что баттон во время игры дает преимущество над остальными участниками».

Лидер UACRPG доктор Боулинг в интервью The Verge, интернет-изданию о технологиях, заявил, что баттон дает игроку преимущество, равное 0.088 блайнда.

Когда Боулингу задали вопрос о том, будет ли каждый желающий быть конкурентоспособным среди элиты покера однажды вынужден учиться играть у ботов, профессор не стал скромничать.

«Считаю, что так оно и будет. Программы станут ядерным оружием покера. Вам ведь не хотелось бы оказаться вооруженным ножом в перестрелке».

Несмотря на то, что Сэндхольм свято верит в возможность использования покерных компьютерных программ для обучения, Рейфф относится к такой возможности более скептично.

«Учиться у ботов очень сложно. В качестве примера можно привести шахматы. Вы можете играть и вы можете иметь под рукой компьютер, который будет говорить вам, какой ход он считает лучшим, однако вам все же будет очень сложно чему-нибудь научиться, поскольку вы не будете знать, по каким причинам он считает данный шаг наиболее правильным, и вы не будете понимать, почему именно так вам следует сыграть», говорит Рейфф.

«В любое время вы можете зайти на сайт и посмотреть на игру Cepheus. Это даст вам информацию наподобие, как когда у вас A-J вы должны делать ставку на флопе в 6.4% случаев. Понять и самому использовать эту информацию, будет очень сложно. Думаю, что серьезный игрок должен попробовать лично посоперничать с технологией. Однако человек не сможет запомнить все эти проценты. Так что в улучшении мастерства вам это не поможет», продолжил Рейфф.

В общем, Рейфф выразил сомнение в том, что эти топовые боты со своими неадаптируемыми стратегиями могут быть наиболее полезным инструментом игрока, желающего максимизировать свои выигрыши.

«Бот Cepheus играет в соответствии с равновесием Нэша и совершенно не пытается эксплуатировать особенности игры оппонентов, а, по сути, занимается решением математических уравнений, что делает его игру непобедимой», сказал Рейфф. «Думаю, что такая игра для человека не подойдет. Человек скорее должен пытаться эксплуатировать особенности стратегии соперника. Суть покера не только в том, чтобы побеждать. Важно максимизировать преимущество над оппонентом».

Слова Рейффа подтверждают скептицизм Дэвида Склански, выраженный в интервью Bloomberg, в котором он заявил, что компьютер может просто обыграть плохого игрока, но такой сильный профессионал как он, просто уничтожит слабого оппонента.

Только время ответит на вопрос, станут ли покерные боты полезным для человека тренировочным инструментом.

Каковы перспективы применения преимуществ искусственного интеллекта в реальном мире?

Будучи сами по себе интересными, попытки ученых решить такие игры как покер и шахматы являются лишь началом пути, на котором компьютерные умы надеются добиться для искусственного интеллекта более широкого применения. Сложная, но контролируемая система покера является отличным полигоном для того чтобы узнать пределы алгоритма искусственного интеллекта, чтобы после использовать его в решении подобных возникающим в игре проблем людей в реальной жизни.

«Лимитный холдем хэдз-ап является отличным полем для упражнения в решении задач в условиях недостатка информации», говорит Берч. «Игры дают нам отличные примеры задач, поскольку правила строго прописаны, а степень удачности решения с легкостью можно оценить. Несмотря на то, что некоторые исследования, проведенные в последний десяток лет, были направлены исключительно на покер, большая их часть главным объектом изучения имела общие методы, просто применяемые и в системе покера. Методы и идеи, которые стали результатом исследования покера, могут быть применимы и в других сферах. К примеру, Кит Чен и Майк Боулинг, используя один из алгоритмов, проверенных на покере, пытаются создать медицинское исследование страдающих диабетом, которое поможет обнаружить наиболее оптимальный план лечения, который, в отличие от имеющихся методик, будет исключать отрицательную реакцию организма человека на лечение».

Решение игр с неполной информацией поставило перед учеными новые задачи, с которыми они не сталкивались, работая над играми с полной информацией. Берч подмечает: «В шахматах, чтобы найти лучшее решение, мне совершенно не нужно знать, как я оказался в подобном положении. Сама ситуация предоставляет мне всю необходимую информацию. В покере же, чтобы найти лучший вариант действия, при розыгрыше каждой руки мне нужно учитывать то, как оппонент действовал до того, как мы оказались в подобной ситуации, и чтобы найти верное для данного момента решения, я должен предугадать, каким будет правильное решение на следующей улице, а сделать это без информации о том, как соперник играл на предыдущем этапе раздачи, я не могу»

Несмотря на то, что члены UACRPG сумели решить лимитный холдем, они, как и другие ученые, все еще заинтересованы в покере как в объекте изучения.

«В покере все еще есть интересные проблемы, особенно для таких любознательных людей, как ученые. Однако покер это лишь переходный этап, а не конечный пункт», говорит Берч. «Что будет после покера? Можем вывeсти на новый уровень проект в помощь больным диабетом. Да и под прицелом немало других проблем. К примеру, проблемы служб безопасности. Майлинд Тамбе из Университета Южной Калифорнии с помощью знаний, полученных при изучении игр, пытается создать оптимальный график патрулирования для службы береговой охраны, и мы могли бы поучаствовать в этом и внести в решение этой задачи что-то новое. И, надеюсь, мы сможем сделать нечто совершенно новое, о чем пока даже не догадываемся, поскольку в покере еще много непознанного и потенциально полезного».

Так что покерные боты вроде Cepheus, Tartanian7 и Prelude могут не только вывeсти покер на новый уровень, но и стать значительным шагом для человечества.

Знакомьтесь с покерными мастерами с искусственным интеллектом

Существует несколько компьютерных программ, которые разрывают соперников за покерными столами. Хотя у каждой из них довольно интересное имя, возможно, вам будет трудно запомнить в чем же их отличия. Потому мы решили больше рассказать об упомянутых выше ботах.

Cepheus (2015 год)

Разновидность покера: Лимитный хэдз-ап холдем

Создатель: Исследовательская группа области компьютерных технологий университета города Альберта, возглавляемая доктором Майклом Боулингом

Достижения: Первый компьютер, который сумел решить игру неполной информации, а именно лимитный хэдз-ап холдем

Процесс создания: Согласно информации на вебсайте бота, он был создан игрой против самого себя. Каждая сыгранная раздача улучшала уровень игры программы, приближая ее к решению покера. Было использовано более четырех тысяч процессоров, и в общей сложности этот бот сыграл больше раздач, чем все человечество.

Tartanian7 (2014 год)

Разновидность покера: Безлимитный хэдз-ап холдем

Создатель: Профессор университета Карнеги-Меллон Турмас Сэндхольм и его ученики Ноам Браун и Сэм Ганцфрид

Достижения: Бот получил две награды AAAI (Ассоциация развития искусственного интеллекта) на ежегодном компьютерном конкурсе. Первая была выиграна в категории с названием «Общий банкролл», в рамках которой компьютерные программы играли друг против друга, и самый успешный бот собственно и признавался победителем. Второй категорией была «Игра на вылет». Боты играли друг против друга, и после каждого раунда программа, терявшая больше остальных виртуальных дeнeг, покидала соревнование.

Процесс создания: Сэндхольм сказал, что для создания этого бота ему и четырем ученикам пришлось заниматься данным проектом с 2005 года. В последний год они уделяли созданию покерной программы практически все время.

Prelude (2014 год)

Разновидность покера: Безлимитный хэдз-ап холдем

Создатель: Тим Рейфф

Достижения: Второе место в категории «Игра на вылет» и третье место в категории «Общий банкролл» на упомянутом выше конкурсе. На своем сайте Рейфф заявил, что доволен результатом, учитывая тот факт, что его детище было лишь хобби.

Процесс создания: Рейфф говорит, что его бот, по сути, является введенной в компьютер таблицей, состоящей из 25,5 возможных вероятностей, в соответствии с которой и принимаются решения. В процессе создания на поиск и внедрение нескольких решающих игру техник было потрачено огромное время, и перед выбором окончательных настроек были проведены сотни экспериментов.

Polaris (2007 год)

Разновидность покера: Лимитный хэдз-ап холдем

Создатель: Исследовательская группа области компьютерных технологий университета города Альберта

Достижения: Polaris известен как первый покерный бот, которому удалось справиться за покерным столом с человеком. Летом 2007 года Polaris провел четыре поединка продолжительностью в 500 раздач каждый против Фила Лаака и Али Эслами. При этом карты, которые доставались человеку в одном раунде, бот получал в другом. Бот сыграл вничью первый раунд, одержал победу во втором, и проиграл два оставшихся.

В 2008 году улучшенная версия программы Polaris в том же формате сыграла против шести профессиональных онлайн-игроков в лимитный холдем, одержала победы в трех из них, два проиграла, и один завершился ничьей. За 6,000 раздач Polaris выиграл 195 больших блайндов.