ТЕОРИЯ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ – ПОПЫТКА МОДЕЛИРОВАНИЯ НА СТЫКЕ НЕЙРОНАУК И МАТЕМАТИКИ
В.Г.Редько (Институт прикладной математики им. М.В. Келдыша РАН)
План доклада
1. Концептуальные схемы А.Г. Клопфа. Концепция гедонистического (целеустремленного) нейрона.
2. Формальная модель гедонистического нейрона (по работам Р. Саттона и Э. Берто). Интерпретация условного рефлекса на основе этой модели.
3. Обучение с подкреплением. Формализация понятий "ситуация", "действие", "подкрепление", "долгосрочная оценка награды", "политика поведения".
4. Ключевой способ выработки политики поведения - метод временной разности.
5. Примеры обучения с подкреплением.
6. Обучение с планированием.
7. Приложения теории обучения с подкреплением.
8. Достоинства и недостатки теории обучения с подкреплением
Рекомендуемая литература:
1. Sutton R.S., Barto A.G. "Reinforcement Learning: An Introduction". MIT Press, 1998:
http://www-anw.cs.umass.edu/~rich/book/the-book.html
2. Публикации Ричарда Саттона и Эдрью Берто, представленные на их домашних страницах:
http://www-anw.cs.umass.edu/~rich/sutton.html
http://envy.cs.umass.edu/People/barto/barto.html
3. Материалы Воркшопа "Learning and Approximate Dynamic Programming", (Мексика, 2002; ряд статей Воркшопа посвящен развитию теории обучения с подкреплением):
http://ebrains.la.asu.edu/~nsfadp/proceedings.htm
http://ebrains.la.asu.edu/~nsfadp/
4. Подборка аннотаций статей, опубликованных в журнале "Adaptive Behavior" в 1993-1998 годах:
http://www.keldysh.ru/pages/BioCyber/Abstrs/ABSTRS.htm
5. Материалы Рабочего совещания "Проблемы адаптивного поведения и подходы к моделированию мышления" конференции "Нейроинформатика-2003":
http://wsni2003.narod.ru