МОЗГ

Междисциплинарный семинар Руководитель семинара — К.В. Анохин

Рубрики

Семинары




ТЕОРИЯ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ – ПОПЫТКА МОДЕЛИРОВАНИЯ НА СТЫКЕ НЕЙРОНАУК И МАТЕМАТИКИ



Главная » Семинары 2003 » ТЕОРИЯ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ – ПОПЫТКА МОДЕЛИРОВАНИЯ НА СТЫКЕ НЕЙРОНАУК И МАТЕМАТИКИ

Март 24, 2011

В.Г.Редько (Институт прикладной математики им. М.В. Келдыша РАН)

План доклада
1. Концептуальные схемы А.Г. Клопфа. Концепция гедонистического (целеустремленного) нейрона.
2. Формальная модель гедонистического нейрона (по работам Р. Саттона и Э. Берто). Интерпретация условного рефлекса на основе этой модели.
3. Обучение с подкреплением. Формализация понятий "ситуация", "действие", "подкрепление", "долгосрочная оценка награды", "политика поведения".
4. Ключевой способ выработки политики поведения - метод временной разности.
5. Примеры обучения с подкреплением.
6. Обучение с планированием.
7. Приложения теории обучения с подкреплением.
8. Достоинства и недостатки теории обучения с подкреплением

Рекомендуемая литература:

1. Sutton R.S., Barto A.G. "Reinforcement Learning: An Introduction". MIT Press, 1998:

http://www-anw.cs.umass.edu/~rich/book/the-book.html

2. Публикации Ричарда Саттона и Эдрью Берто, представленные на их домашних страницах:

http://www-anw.cs.umass.edu/~rich/sutton.html

http://envy.cs.umass.edu/People/barto/barto.html

3. Материалы Воркшопа "Learning and Approximate Dynamic Programming", (Мексика, 2002; ряд статей Воркшопа посвящен развитию теории обучения с подкреплением):

http://ebrains.la.asu.edu/~nsfadp/proceedings.htm

http://ebrains.la.asu.edu/~nsfadp/

4. Подборка аннотаций статей, опубликованных в журнале "Adaptive Behavior" в 1993-1998 годах:

http://www.keldysh.ru/pages/BioCyber/Abstrs/ABSTRS.htm

5. Материалы Рабочего совещания "Проблемы адаптивного поведения и подходы к моделированию мышления" конференции "Нейроинформатика-2003":

http://wsni2003.narod.ru

<<На главную