Фреймворки Gymnasium + Stable-Baselines 3, VizDoom и платформа SMAC в геймдеве
RL (Reinforcement Learning) или же обучение с подкреплением — это удивительный подход к обучению искусственного интеллекта, который позволяет игровым персонажам или ботам учиться, исходя из собственного опыта. В основе обучения с подкреплением лежит принцип "trial and error" (проб и ошибок). RL-агент, или бот, помещается в определенную среду, например, в игровой уровень. Задачи у RL-агентов разные, но, если мы говорим о бота-противниках, то здесь цель одна — усложнить игроку путь. При этом усложнить умеренно, чтобы игрок мог с ним справиться. При этом же агент не имеет никакой информации о том, как это сделать, и должен учиться. И о том, как ему это делать, сегодня пойдет речь. В геймдеве обучение с подкреплением используется для создания умных ботов, способных принимать сложные решения и адаптироваться к действиям игрока. Например, в стратегических играх боты могут учиться эффективно использовать ресурсы, строить базы и вести войска в бой. В шутерах боты могут учиться эффективно использовать оружие, уклоняться от пуль и работать в команде. Обучение с подкреплением также используется для автоматического тестирования игр. Боты могут учиться проходить игровые уровни и находить баги и ошибки, которые не может найти человек.
https://habr.com/ru/articles/804579/