После того, как программа Google DeepMind AlphaGo в прошлом месяце смола победить чемпиона мира по Го из Кореи Ли Седоля со счетом 4-1, какие новые цели ставит для себя компания?
В своей статье двое научных сотрудников Университетского колледжа Лондона, один из которых также является сотрудником DeepMind и одним из главных разработчиков AlphaGo, предполагают, что следующим шагом компании будет попытка решить покер и, в отличие от Го, победа в этой области, скорее всего, будет приносить прибыль, как минимум, пока люди будут играть против бота.
Название статьи: «Обучение с подкреплением посредством игры с самой собой в играх с неполной информацией». Её авторы подробно описывают свои попытки научить компьютер играть в два вида покера: Leduc – самый простой вариант игры в покер, где в колоде всего шесть карт, и Техасский Холдем – самый популярный вариант покера в мире.
Используя тот же подход, который позволил AlphaGo победить чемпиона мира по Го, программа успешно обучила себя стратегии Холдема, которая «приблизилась к уровню профессиональных игроков в покер». В случае с Ледюк, который уже практически решен, программа приблизилась к равновесию Нэша – математически оптимальной игре.
Как и в случае с AlphaGo для обучения программы разработчики использовали технику под названием «Обучение с подкреплением». Она объединяет два различных метода обучения искусственного интеллекта: искусственная нейронная сеть и обучение с подкреплением. Первый метод обычно используется при доступности больших баз данных. Но в случаях, когда в наличии нет достаточно информации для обучения, в силу вступает обучение с подкреплением. Такое обучение подразумевает выполнение программой задач и обучение на собственных ошибках, в ходе которого программа оптимизирует собственное обучение. Разработчики программы называют такой алгоритм обучения «нейронная фиктивная игра с самой собой».
Не имея ранее запрограммированных знаний о покере, программе самостоятельно удалось изучить математически оптимальные стратегии. В некотором смысле, покер сложнее, чем Го благодаря отсутствию информации о том, что будет происходить в раздаче, и незнанию карт игроков. В то время как боты с относительной легкостью могут рассчитывать точные вероятности, они гораздо хуже понимают поведение своих оппонентов, чем люди.
По словам разработчика программы: «Основной особенностью является то, что алгоритм обучения программы весьма общий, и она изучает покер буквально с нуля, не имея каких-либо предварительных знаний об игре. Поэтому вполне возможно, что программу можно будет также применять и для решения других приоритетных проблем глобального масштаба».
Основным препятствием было то, что способы обучения с подкреплением ориентируются на взаимодействии с изолированным миром, когда стратегические области, как правило, имеют несколько агентов, которые взаимодействуют друг с другом, что создает более динамичную и, тем самым, сложную задачу.
Игры с неполной информацией мотивируют все глубже изучать тему обучения с подкреплением, которая использовалась в программе AlphaGo. Поскольку большинство реальных приложений требует принятия решений с неполной информацией, это тема всегда будет актуальной.
Математики любят покер, потому что он может моделировать ряд реальных ситуаций. К примеру, во время холодной войны для моделирования политических линий использовали неполную информацию и психологию игры. Сфера деятельности теории игр, после изучения таких игр, как покер, теперь расширилась до таких проблем, как изменение климата и соотношения полов в биологии.
Оригинал статьи: Could DeepMind try to conquer poker next?