Skip to content

Applying reinforcement learning to multi-armed bandit problem

License

Notifications You must be signed in to change notification settings

nektonick/multi-armed-bandit

Repository files navigation

Multi-armed bandit

Applying reinforcement learning to the "multi-armed bandit" problem

Research steps

  1. Build a class for a multi-armed bandit model with N arms
  2. Create arm selection function according to the available probability distribution in the problem
  3. Create a random arm selection function
  4. Add reward for the selected turn
  5. Add a function for modifying the probability distribution after the reward for the turn has become known
  6. For each turn, enter the cost of a certain amount of resources available to the player

The purpose of research

  1. Demonstrate the change in the probability distribution of choosing the i-th arm with increasing turn number
  2. Demonstrate the dependence of the probability of choosing the "best" arm with increasing turn number
  3. Demonstrate the change in the agent's payoff over time

Многорукий бандит

Применение обучения с подкреплением в задаче многорукого бандита

План работы

  1. Построить класс для модели многорукого бандита с N ручками
  2. Ввести функцию выбора ручки согласно имеющемуся распределению вероятностей в задаче
  3. Ввести функцию случайного выбора ручки
  4. Ввести вознаграждение за выбранный ход
  5. Ввести функцию модификации распределения вероятностей после того, как стало известно вознаграждение за ход
  6. Для каждого хода ввести стоимость некоторого количества ресурсов, имеющихся у игрока

Цель работы

  1. Продемонстрировать изменение распределения вероятностей выбора i-й ручки с ростом номера хода
  2. Продемонстрировать зависимость вероятности выбора "лучшей" ручки с ростом номера хода
  3. Продемонстрировать изменение выигрыша агента со временем

Использованные материалы

Ход выполнения работы

Clang-format

To aply .clang-format to all C++ files use your IDE tools or the following command on linux:

find ./src -iname *.h -o -iname *.cpp | xargs clang-format -i

About

Applying reinforcement learning to multi-armed bandit problem

Topics

Resources

License

Stars

Watchers

Forks