2. ЦЕЛЬ И ОЖИДАЕМЫЕ РЕЗУЛЬТАТЫ
принципы
обучения
теоретические
предпосылки
• эволюционная
эпистемология
• теория функциональных
систем
• нейродарвинизм
экспериментальные
предпосылки
• обучение в «плоских»
нейронных сетях
искусственный
интеллект
новые
нейробиологические
гипотезы
клеточные
нейроинтерфейсы с
обратной связью
5. СЕТИ ФУНКЦИОНАЛЬНЫХ СИСТЕМ
Результат
Действие
Элементарная ФС
Активируется в «проблемной»
ситуации
Предсказывает целевое
состояние
Деактивируется при
достижении результата
Предсказывает время
достижения результата
Результат получен,
действие не нужно.
Результат не получен за
ожидаемое время, действие
было неэффективно.
Активность
поддерживается
Сигнал о
неэффективности
действия
6. СЕТИ ФУНКЦИОНАЛЬНЫХ СИСТЕМ
Эффективность в задаче эволюционного синтеза контроллера
локомоции
перцептрон перцептрон,
с сохранением
активности,
задержки
одинаковые
перцептрон,
с сохранением
активности,
задержки
случайные
перцептрон,
с сохранением
активности,
задержки
мутируют
сеть ФС,
задержки
отсутствуют
сеть ФС
с задержками
Shirshova M., Burtsev M. Evolution of event and delay controlled neuronal network for locomotion //In proc.: Int’l Conf. Genetic and Evolutionary
Methods GEM’14. – С. 41-47, 2014.
7. СЕТИ ФУНКЦИОНАЛЬНЫХ СИСТЕМ
Общая структура сети функциональных систем (ФС)
агента
СРЕДА
АГЕНТ
МОТИВАЦИИ
(цели)
ВТОРИЧНЫЕ ФС
(обучение)
ПЕРВИЧНЫЕ ФС
(инстинкты)
8. СЕТИ ФУНКЦИОНАЛЬНЫХ СИСТЕМ
Обучение происходит за счет установления связи от
мотивации к действиям посредством добавления
вторичных ФС
9. СЕТИ ФУНКЦИОНАЛЬНЫХ СИСТЕМ
Обучение основано на
добавлении вторичных ФС
Если для данного
состояния не существует
вторичной ФС, то
случайным образом
выбирается первичная ФС
(элементарное действие).
Если неуправляемая
активация первичной ФС
привела в целевое
состояние или состояние
для которого существует
вторичная ФС, то в сеть
добавляется вторичная
ФС, детерминирующая
вызов успешного действия
в данном состоянии для
данной цели.
G
G
G
Случайный выбор
действий
Добавление
вторичной ФС
при достижении
целевого
состояния
Добавление
вторичной ФС
при достижении
состояния с уже
существующей
вторичной ФС
11. СЕТИ ФУНКЦИОНАЛЬНЫХ СИСТЕМ
Сравнение с обучением с подкреплением
Адаптация агента в нестационарной среде и конструкция
альтернативных цепочек действий
50 % одно из красных
ребер удалено в
каждом опыте
(переход не возможен,
среда нестационарная)
1111
1101 0111
0011
0001
0000
1001
1111
1101 0111
0011
0001
0000
1001
1111
1101 0111
0011
0001
0000
1001
или
Количество элементарных действий до цели в зависимости от
номера попытки. DS – предложенная модель; Q – алгоритм
обучения с подкреплением Q-learning при различных параметрах
фактора обучения (LF) и дисконтирующего фактора (DF).
12. СЕТИ ФУНКЦИОНАЛЬНЫХ СИСТЕМ
Для достижения результата в
условиях реальной среды
необходимо выполнить
последовательность действий
Обычно потенциально
существует несколько
альтернативных способов
достижения цели
Каждый раз, когда агент
реализует целенаправленное
поведение те или иные
способы достижения
результата могут быть
недоступны
Близкие постановки задачи
Canadian traveler problem
Stochastic Shortest Path Problem
with Recourse (R-SSPPR)
G
B B
S B
16. СЕТИ ФУНКЦИОНАЛЬНЫХ СИСТЕМ
Выводы
Модель успешно обучается генерировать цепочки
целенаправленных действий.
Сравнение модели динамических функциональных систем с
типичным представителем семейства алгоритмов обучения с
подкреплением показывает её преимущество в скорости обучения.
Эксперименты наглядно демонстрируют, что задачи, требующие
переключения между альтернативными поведенческими
стратегиями, и принципиально не решаемые обучением с
подкреплением, могут быть эффективно решены предложенной
моделью.
Планируемые исследования
Ускорение работы
Имплементация упрощенной версии алгоритма в виде сети правил
Исследование эффективности алгоритма в зависимости от
топологии в стохастических дискретных пространствах поиска с
одной целью. Исследование масштабируемости.
Исследование эффективности алгоритма в стохастических
дискретных пространствах поиска с множественными целями.
Модификация алгоритма для непрерывных пространств.
Исследование алгоритма в непрерывных пространствах поиска.
18. ПРЕДИКТОРНЫЕ НЕЙРОННЫЕ СЕТИ
Попытка формализовать и проверить несколько
различных гипотез, разработанных в рамках теории
функциональных систем.
Основные свойства модели
Предикторные нейронные сети осуществляют
распределенную оценку эффективности
целенаправленного поведения на нейрональном уровне.
Механизм обучения, основан на постепенном включении
новых функциональных групп нейронов, в случае если
текущее поведение не позволяет достичь адаптивного
результата.
Lakhman K., Burtsev M. Evolution, development and learning with predictor neural networks //In proc.: ALIFE 14: The Fourteenth Conference
on the Synthesis and Simulation of Living Systems. – Т. 14. – С. 457-464, 2014.
Lakhman K., Burtsev M. Neuroevolution results in emergence of short-term memory in multi-goal environment // Proceeding of the fifteenth
annual conference on Genetic and evolutionary computation conference GECCO ’13. New York, NY, USA: ACM, С. 703–710, 2013.
Лахман К.В., Бурцев М.С. Механизмы кратковременной памяти в целенаправленном поведении нейросетевых агентов //
Математическая биология и биоинформатика. 2013, T.8, №2, стр. 419-431.
Лахман К.В., Бурцев М.С. Формирование целенаправленного поведения на основе кратковременной памяти в эволюции
нейроморфных агентов // Сб. научных трудов Всероссийской научно-технической конференции “Нейроинформатика 2012″. М.:
НИЯУ МИФИ, стр. 134-143, 2012.
19. ПРЕДИКТОРНЫЕ НЕЙРОННЫЕ СЕТИ
Первичный системогенез
построение полной нейроморфной
сети;
изолированный от модельной среды
обсчет стохастической версии сети
отбор структурных элементов сети,
которые будут обеспечивать
первичный репертуар поведения
Вторичный системогенез
детекция рассогласования
специализированными нейронами
специализация молчащих нейронов из
пула с рассогласованными нейронами
20. ПРЕДИКТОРНЫЕ НЕЙРОННЫЕ СЕТИ
Цель – последовательность действий
1 1 0 01
1 i j m
1 1 0 00
1 0 0 01
1 1 1 01
25. ПРЕДИКТОРНЫЕ НЕЙРОННЫЕ СЕТИ
Предложена новая модель адаптивного поведения,
которая объединяет в себе этапы эволюции, развития и
обучения.
отбор нейрональных групп в процессе развития для построения
первичной структуры нейроконтроллера;
эволюция нейрональной анатомии, а не точной структуры связей
между нейронами, с целью поддержать разнообразие частей
сети для обучения в течение жизни;
распределенный механизм прогноза, который позволяет
детектировать рассогласование между ожидаемыми и
наблюдаемыми состояниями среды для начала обучения на
нейрональном уровне;
алгоритм обучения, который реализован посредством
специализации “молчащих” нейронов и осуществляет
неразрушающие модификации нейронной сети.
Исследована динамика врожденного и приобретенного
поведений в эволюции, динамика процесса обучения.
Исследование не завершено.
26. ЭВОЛЮЦИЯ НЕЙРОКОНТРОЛЛЕРА
• Действие – достижение зоны
определенного радиуса,
построенной вокруг центра куба
• Цель – определенная
последовательность кубов
разных цветов
• Посещение куба, не входящего в
целевую последовательность
приводит к недостижению цели
• Чем длиннее цель (чем больше
кубов в последовательности) –
тем выше награда за нее
Muratov S., Lakhman K., Burtsev M. Neuroevolution of sequential behavior in multi-goal navigation task //In proc.: ALIFE 14: The Fourteenth Conference on
the Synthesis and Simulation of Living Systems. – Т. 14. – С. 771-777, 2014.
Муратов С.Т., Лахман К.В., Бурцев М.С. Нейроэволюционный синтез контроллера мобильного робота в задаче генерации последовательностей
действий // Сб. научных трудов Всероссийской научно-технической конференции “Нейроинформатика 2014″. М.: НИЯУ МИФИ, стр. 117-127, 2014.
30. ЭВОЛЮЦИЯ НЕЙРОКОНТРОЛЛЕРА
Нейроэволюционный алгоритм с дупликацией
нейронов успешно работает и в средах,
смоделированных с учетом физических законов
Предложенный алгоритм позволяет находить
поведенческие последовательности в многоцелевой
среде
Найденное поведение устойчиво к изменению
начального положения робота и взаимоположения
кубов в пространстве
Преимущество нейроэволюционного алгоритма с
дупликацией нейронов по сравнению с алгоритмом с
фиксированной топологией возрастает с
усложнением задачи
32. НЕЙРОНАЛЬНЫЕ КУЛЬТУРЫ
Wagenaar, D. A, J. Pine, and S. M Potter. 2006. «An extremely rich repertoire of bursting patterns during the development of cortical cultures».
BMC neuroscience 7 (1): 11.
33. ОБУЧЕНИЕ НЕЙРОНАЛЬНОЙ КУЛЬТУРЫ
Shahaf, Goded, and Shimon Marom. 2001. «Learning in Networks of Cortical Neurons». J. Neurosci. 21 (22): 8782-8788.
Marom S., Shahaf G. Development, learning and memory in large random networks of cortical neurons: lessons beyond anatomy. // Quarterly reviews
of biophysics. 2002. № 35. С. 63–87.
34. ОБУЧЕНИЕ НЕЙРОНАЛЬНОЙ КУЛЬТУРЫ
Почему сеть обучается?
Гипотеза: Сеть в процессе развития формирует
«виртуальную» функциональную систему,
проявляющуюся в виде устойчивой аттракторной
динамики спонтанной активности
внешняя стимуляция нарушает последовательность
активаций нейронов в функциональной системе, это
приводит к не получению результата и обучению
предсказание 1: результат обучения не должен стираться
спонтанной активностью, т.к. при спонтанной активности обучения
не происходит
предсказание 2: в процессе развития спонтанной пачечной
активности должны формироваться фиксированные
последовательности активаций
37. ИССЛЕДОВАНИЕ РАЗВИТИЯ СПОНТАННОЙ АКТИВНОСТИ
Гистограмма (А) и карты расстояний (Б, В) между
векторами в евклидовом пространстве. Б)
исходные вектора, В) случайно перемешанные.
На гистограмме синий линией отмечены
исходные вектора, красной – случайно
перемешанные.
Гистограмма (А) и карты расстояний между
векторами, рассчитанных методом
корреляций Пирсона. Б) исходные вектора,
В) случайно перемешанные. На гистограмме
синий линией отмечены исходные вектора,
красной – случайно перемешанные.
38. ИССЛЕДОВАНИЕ РАЗВИТИЯ СПОНТАННОЙ АКТИВНОСТИ
номер пачечного события
номерпачечногособытия
Красные лини разделяют события, зарегистрированные в разные дни.
39. ИССЛЕДОВАНИЕ РАЗВИТИЯ СПОНТАННОЙ АКТИВНОСТИ
Кластеризацияметодом
ближайшегососеда.
Кластеризацияметодом
невзвешенногопопарногосреднего.
Кластеризацияметодом
дальнегососеда.
Кластеризацияметодом
взвешенногопопарного
среднего.
40. ИССЛЕДОВАНИЕ РАЗВИТИЯ СПОНТАННОЙ АКТИВНОСТИ
Растрограммы основных кластеров, найденных
методом дальнего соседа.
Растрограммы основных кластеров, найденных
методом взвешенного попарного среднего.
41. ИССЛЕДОВАНИЕ РАЗВИТИЯ СПОНТАННОЙ АКТИВНОСТИ
Выводы
Разработаны ПО и набор методов для анализа
многоканальной активности
выделение популяционных пачек
расчет схожести паттернов активаций
кластеризация паттернов по похожести
В развитии спонтанной активности нейросетей in vitro
формируется небольшое количество стереотипных
паттернов активации
Планы
Доработка методов
устранение ошибки определения начала пачки
подбор более информативных признаков
сравнение полных пачек
Набор статистики
Исследование эволюции паттернов (нарастает или
снижается сложность по мере развития культуры?)
43. МОДЕЛИРОВАНИЕ НЕЙРОННЫХ СЕТЕЙ IN VITRO
Модели нейрональной культуры
Основные параметры модели1:
Количество нейронов: N
Доля возбуждающих нейронов: R%
Доля ингибирующих нейронов: (1-R)%
Количество исходящих связей нейрона – распределено нормально в интервале (0, Kmax)
Задержки распространения спайков по связям – (0, Dmax)
Веса возбуждающих связей (0, x) мВ, веса ингибирующих связей (0, -x) мВ.
Сеть с пуассоновским синаптическим шумом
N = 5000
R = 70%
Kmax = 1000
Dmax = 15 мс
Веса связей: (0, 3) мВ
Шум: пуассоновская последовательность спайков, частота 400 Гц,
веса спайков: 4.3 мВ; 2.8, 0.8 мВ.
Gritsun TA, le Feber J, Stegenga J, Rutten WLC (2010) Network bursts in cortical cultures are best simulated using pacemaker neurons and adaptive
synapses. Biol Cybern 102:1–18
44. МОДЕЛИРОВАНИЕ НЕЙРОННЫХ СЕТЕЙ IN VITRO
Схемы получения численных характеристик пачечной активности. А — общая
длительность пачки (duration), длительность фаз увеличения (onset) и снижения (offset)
активности. Нижняя пунктирная линия — уровень фоновой активности. Б — тонкие
зеленые линии — отдельные пачки, выровненные по своим пиковым значениям
активности. Основная фаза отдельной пачки (толстая синяя линия) характеризуется
тремя параметрами: пиковой амплитудой (mFr – maximum firing rate), длительностью
нарастающей части (Rs – rising slope) и длительностью спадающей части (Fs – falling
slope).
45. МОДЕЛИРОВАНИЕ НЕЙРОННЫХ СЕТЕЙ IN VITRO
Усредненные профили пачек для модели сети с синаптическим шумом (А, Б, В) и для модели с
пейсмейкерами (Г, Д). пунктирная линия – среднее значение, сплошные линии – 7,5 и 92,5 перцентили. Б,
В, Д – профили пачек, полученных при моделировании в NEST, для модели сети с шумом, весом шумовых
спайков 4,3 мВ (Б) и весом шумовых спайков 2.8 мВ для активирующих нейронов и 0.8 мВ для тормозных
нейронов (В).
ссинаптическимшумомпейсмейкеры
46. МОДЕЛИРОВАНИЕ НЕЙРОННЫХ СЕТЕЙ IN VITRO
Модель синаптической пластичности
Модель пластичности STDP (spike-timing-dependent plasticity).
Закон изменения синаптического веса:
где параметры: α = 1.1, τ+ = τ- = 20 мс
47. МОДЕЛИРОВАНИЕ НЕЙРОННЫХ СЕТЕЙ IN VITRO
Спонтанная активность сетей с пластичными синапсами
СЕТИ С ПЛАСТИЧНЫМИ ВОЗБУЖДАЮЩИМИ СИНАПСАМИ
Сеть с входным шумом. Параметры модели те же, вес спайков входного шума: E = 2.8 мВ, I =
0.8 мВ.
Параметры модели STDP: α = 1.1, Wmax = 3.0 мВ, λ – различные значения
λ mFr, Гц Duration,
мс
Onset, мс Offset, мс Rs, мс Fs, мс
0,0002
4318,65
(2838,42)
36,36 (4,03) 9,55 (1,78) 10,11 (3,19)
10,58
(3,91)
17,01
(5,72)
0,0002
4575,49
(824,95)
38,23 (4,86) 12,7 (2,6) 11,11 (2,91) 11,5 (1,7)
13,65
(4,33)
0,0003
5772,91
(1786,98)
38,97 (3,41) 9,09 (1,03) 16,74 (5,37) 8,48 (3,42)
21,71
(4,23)
0,0003
4260,02
(2575,01)
43,72 (3,77)
11,83
(2,68)
15,9 (8,7)
12,93
(5,07)
20,36
(7,52)
0,0004
3563,78
(1655,92)
40,60 (6,29) 11,6 (2,6) 12,85 (5,51)
13,08
(4,24)
16,55
(4,77)
0,0004
5306,38
(2799,14)
44,14 (3,68)
11,51
(3,44)
16,45 (7,55)
12,21
(5,80)
21,84
(7,12)
0,0005
8386,83
(2501,41)
61,11 (8,98) 8,64 (3,72) 8,71 (5,99)
12,56
(5,50)
39,46
(12,18)
0,001
9994,47
(134,89)
62,54 (0,63) 6,60 (0,95) 7,82 (0,42)
11,13
(1,50)
41,81
(1,86)
Сеть с пейсмейкерами. Параметры модели те же.
Параметры модели STDP: α = 1.1, Wmax = 4.0 мВ, λ – различные значения.
49. МОДЕЛИРОВАНИЕ НЕЙРОННЫХ СЕТЕЙ IN VITRO
Модель связей малого мира
Замена модели связей со случайной величиной задержки
распространения спайка на модель «тесных» связей между
нейронами, время распространения спайка пропорционально
длине связи.
Слева вверху: распределение длительностей распространения
спайков по аксонам
Слева внизу: распределение межпачечных интервалов в модели
Справа внизу: распределения межпачечных интервалов культур
нейронов in vitro
λ =10– 8
50. МОДЕЛИРОВАНИЕ НЕЙРОННЫХ СЕТЕЙ IN VITRO
Выводы
Проведено масштабное исследование параметров модели
нейросети in vitro с синаптической пластичностью
воспроизведение параметров спонтанной активности,
наблюдаемых в эксперименте, вызывает сложности
подобрано значение интенсивности пластических перестроек и
топология сети, позволяющее приблизится к параметрам,
наблюдаемым в эксперименте
Планы
завершение подбора параметров
сопоставление характеристик спонтанной активности с
экспериментом
моделирование обучения в нейросети in vitro
сопоставление результатов обучения с экспериментом
52. ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ IN VITRO
Разработка специализированного ПО
Захват и анализ данных электрической активности
культуры
1. Фильтрация и анализ в режиме реального времени
2. Выделение определенных событий в активности
3. Графическая визуализация
4. Запись в БД или Файл
Реализация воздействия на культуру
1. Управление стимулятором
2. Подключение различных модулей «ClosedLoop» экспериментов
Поток данных 25.6 Мбит/с
Анализируются все возможные каналы без потери
производительности
В реальном времени:
Выделяются пачечные события
Подавляются артефакты стимуляции
Подавляются шумы и низкочастотные наводки
55. ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ IN VITRO
Примеры кривых обучения
0
20
40
60
80
100
120
1 2 3 4 5 6 7 8 9 10
времяреакции
номер итерации
0
50
100
150
200
250
1 2 3 4 5 6 7
времяреакции
номер итерации
стимулы
56. ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ IN VITRO
типичный вид кривой обучения статистика по 5 культурам
Le Feber, Joost, Jan Stegenga, and Wim L. C. Rutten. 2010. «The Effect of Slow Electrical Stimuli to Achieve Learning in Cultured Networks of Rat
Cortical Neurons». PLoS ONE 5 (1): e8871.
Стимуляция без
обратной связи
Обучение Тестирование
через 12 часов
58. ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ IN VITRO
Выводы
разработано ПО для стимуляции с обратной связью,
позволяющее реализовывать протоколы обучения
нейрональных культур
разработана методика реализации протокола обучения на
штатном ПО
проведены пилотные эксперименты по обучению культур
Планы
накопление статистики по обучению культур
упрощение и доработка протокола обучения
исследование изменения спонтанной пачечной активности
до, во время и после обучения
исследование динамики полного паттерна вызванной
пачки
60. ПОИСКИ С-FOS
ИГХ DIV17 гиппокамп
после низкочастотной
стимуляции одиночными
импульсами
в отсутствие
электрической
стимуляции
после
высокочастотной
стимуляции пачками
61. ПОИСКИ С-FOS
ИГХ DIV20 гиппокамп
после низкочастотной
стимуляции одиночными
импульсами
в отсутствие
электрической
стимуляции
после
высокочастотной
стимуляции пачками
62. ПОИСКИ С-FOS
Количественный анализ результатов ИГХ по трем
посадкам (15 культур по 10 полей зрения в каждой)
Суммарная интенсивность флуоресценции
свечения в местах нахождения клеток по зеленому
каналу (c-Fos) была нормализована на
интенсивность флуоресценции по синему каналу
(ядра), и среднее арифметическое рассчитано по
всем полям зрения.
Количество c-Fos+ клеток было
нормализовано на общее количество ядер, и
среднее арифметическое рассчитано по
всем полям зрения.
**
Звездочками отмечены достоверные различия с контрольной группой (** р = 0,0004, * р = 0,04).
*
*
63. ПОИСКИ С-FOS
Стимуляция культуры кортикальных нейронов, DIV 17
50mM KCl 20%FBS
Время после стимуляции, ч
0
50
100
150
200
250
0 3 7
Количествоклетоквмм2
0
5
10
15
20
25
30
0 3 7
Количествоклетоквмм2
До
стимуляции
Через 3 часа
после стимуляции
Время после стимуляции, ч
64. ПОИСКИ С-FOS
Кора, DIV 20, НЧС при нормальной спонтанной
активности
До стимуляции Через 2 часа после
стимуляции
65. ПОИСКИ С-FOS
Развитийная динамика
КоличествоEGFP-
положительныхклетокпо
всемматрицам,шт
13 культур из коры и гиппокампа
новорожденных мышей линии с B6.Cg-
Tg(Fos/EGFP)1-3Brth/J были высажены на
мультиэлектродные матрицы.
Гиппокампальные клетки светились
значительно ярче. Одна из высаженных
гиппокампальных культур давала
интенсивное свечение (более 10 клеток в
нескольких полях зрения) за сутки до
появления пачечной активности. Необходимо
отметить, что за сутки до фотографирования
данной культуре была заменена среда на
недостаточно прогретую. Эта же культура
интенсивнее светилась за сутки до
исчезновения электрической активности.
В двух из пяти гиппокампальных культур
наблюдалось слабое свечение (1-2 клетки в
одном из полей зрения) за сутки до
появления пачек в культурах.
67. ПОИСКИ С-FOS
Выводы
Химическая и электрическая стимуляция приводят к
индукции экспрессии c-Fos в первичной диссоциированной
культуре нейронов
Не удалось получить определенных результатов по
экспрессии c-Fos в процессе развития культуры
Стандартные матрицы не позволяют получить качество
имиджинга достаточное для уверенной регистрации
динамики c-Fos в культуре трансгенных мышей
70. ОБУЧЕНИЕ ПО ОТДЕЛЬНОЙ КЛЕТКЕ
Клетка №5
После стимуляции с нормализациейПосле стимуляции без нормализации
До стимуляции с нормализацией
До стимуляции без нормализации