Предложен метод оптимизации гиперпараметров разработанного нами алгоритма машинного обучения для экстраполяции результатов вариационных расчетов в квантовой механике. Метод позволяет достаточно быстро получить оптимальные значения гиперпараметров для обучения искусственных нейронных сетей. Показано, что отклонение значений некоторых гиперпараметров от оптимальных приводит к ухудшению предсказаний результатов экстраполяции.
Hyperparameter optimization in machine learning algorithm for extrapolations of variation calculations.pdf Введение Существенный прогресс в экспериментальных исследованиях последних лет стал причиной растущей потребности в создании новых методов описания атомных ядер. Особое место среди них занимают подходы ab initio, которые не используют никаких предположений и упрощений, основанных на тех или иных модельных представлениях. Модель оболочек без инертного кора (МОБИК) [1] представляется на данный момент одним из наиболее последовательных и перспективных среди ab initio подходов. В этом подходе, в отличие от стандартной модели оболочек, рассматриваются все возможные возбуждения нуклонов, удовлетворяющие принципу Паули. Результаты расчетов в МОБИК для заданного реалистического потенциала зависят от максимального числа осцилляторных квантов возбуждения Nmax и величины осцилляторной энергии ћΩ. При увеличении Nmax число базисных функций растет экспоненциально, что приводит к возможности проведения расчетов ядер с массовым числом A ≲ 20 только для Nmax ≲ 20 даже на суперкомпьютерах. В связи с этим важной и актуальной задачей является развитие методов экстраполяции результатов МОБИК на случай бесконечного базиса. Наряду с относительно простыми методами экстраполяции, такими как Extrapolation B [2], большое развитие получают методы экстраполяции, основанные на алгоритмах машинного обучения. Машинное обучение применяется в ядерной физике. Так, искусственные нейронные сети (ИНС) используются для описания масс [3] и зарядовых радиусов [4] ядер, определения энергий отделения протонов [5], идентификации прицельных параметров в столкновении тяжелых ионов [6-8], оценки периодов полураспада бета-радиоактивных ядер [9]. Также ИНС применяются в физике высоких энергий. Применение методов машинного обучения для экстраполяции расчетов МОБИК, проведенных с модельным потенциалом Daejeon16 [10] для ядра 6Li было реализовано в работе [11]. Однако предсказанные диапазоны лежат на 0.2 МэВ ниже теоретического значения, полученного с помощью Extrapolation B, и на 0.1 МэВ ниже экспериментального. В настоящей работе мы развиваем метод, предложенный в [11]. Особое внимание уделяется разработке такого алгоритма, который способен работать с малым количеством входных данных, что характерно для результатов МОБИК, но при этом обеспечивать достаточно хорошие результаты экстраполяций. Алгоритм метода апробируется на простой модельной задаче, вариационные расчеты в которой проводятся в пространстве осцилляторных функций, поэтому входными и выходными данными являются (Nmax, ћΩ) и энергия связанного состояния, как и в МОБИК. Методы машинного обучения перед началом работы требуют определения ряда так называемых гиперпараметров. Для достижения наилучших результатов работы алгоритма экстраполяции актуальным является вопрос их оптимизации. Решение этого вопроса также является целью нашей работы. Модельная задача Рассмотрим движение квантовой частицы с приведенной массой μ = 751 МэВ/c2 в поле сферически-симметричного потенциала Вудса - Саксона (1) с параметрами V0 = -30 МэВ, Vls = -20 МэВ•фм2, R = 3.08 фм, a = 0.53 фм. Эта модельная задача соответствует рассеянию нейтрона на α-частице в парциальной волне с орбитальным моментом l = 1 и с полным угловым моментом j = 1/2. В результате диагонализации матрицы гамильтониана (2) где TNN', VNN' - матричные элементы операторов кинетической и потенциальной энергии в обкладках осцилляторных функций (N = 2n+l - полное число осцилляторных квантов), получаем спектр собственных энергий Eλ. Параметрами задачи, как и в модели оболочек, являются осцилляторная энергия ћΩ и максимальное количество квантов возбуждения Nmax, характеризующее размер модельного пространства. Результаты вариационных расчетов энергии основного состояния Egs как функции осцилляторного параметра ћΩ в различных модельных пространствах Nmax = 4-10 с шагом по ћΩ в 1 МэВ представлены на рис. 1. Рис. 1. Результаты вариационных расчетов зависимости Egs(ћΩ) для разных значений Nmax. Сплошная горизонтальная линия соответствует точному значению энергии основного состояния В каждом модельном пространстве минимум зависимости Eλ(ћΩ) ассоциируется с энергией основного состояния ядра. Как видно из рис. 1, результаты вариационных расчетов сходятся к точному значению Egs = -3.5814 МэВ энергии основного состояния системы, полученного прямым интегрированием уравнения Шредингера. Отметим, что значения Egs слева от минимума ведут себя нерегулярно. Эмпирически было получено, что они ухудшают качество предсказаний результатов, полученных в машинном обучении. Поэтому ниже мы не используем результаты вариационных расчетов, расположенные слева от вертикальной штриховой черты на рис. 1. Машинное обучение При использовании методов машинного обучения ответ дается не из непосредственных вычислений, а с помощью модели, обученной на наборе схожих данных. Перед обучением все данные разделяются на тренировочную, валидационную и тестовую группы. Первая группа используется для непосредственного обучения ИНС и обычно составляет 70% от общего набора данных. Вторая и третья группы содержат в себе по 15% от общего количества данных. Валидационная группа необходима для улучшения качества обучения, а тренировочная - для проверки качества обучения после его завершения. ИНС состоит из входного слоя, содержащего входные параметры (в нашем случае Nmax, ћΩ), выходного (Egs) и промежуточных - скрытых - слоев. Каждый скрытый слой содержит определенное количество нейронов Nn. В общем случае число нейронов в каждом слое может быть разным, однако ниже мы используем архитектуру ИНС с одинаковым числом нейронов в каждом слое. Каждые два нейрона в соседних слоях соединены между собой весовыми коэффициентами ωij, где i, j - индексы нейронов. Сигнал, проходящий через нейрон каждого последующего слоя, равен сумме сигналов со всех нейронов предыдущего слоя, умноженных на соответствующие весовые коэффициенты: (3) Взвешенная сумма s преобразуется активирующей функцией σ, после чего поступает на нейроны следующего слоя. В нашем случае активирующая функция имеет вид . (4) Важно отметить, что последний из скрытых слоев имеет линейную активирующую функцию, что необходимо при решении задач экстраполяции. После однократного прохождения сигналов сквозь ИНС и получения предсказаний вычисляется функция потерь (loss-function). В нашем случае функцией потерь является среднеквадратичное отклонение этих предсказаний от истинных значений тестового набора. Весовые коэффициенты ωij изменяются с помощью специального алгоритма Adam [12]. Задача этого алгоритма - подобрать значения весовых коэффициентов ωij, минимизирующих функцию потерь. Величина, на которую изменяются весовые коэффициенты каждый раз, определяется скоростью обучения γ. Обновление набора коэффициентов ωij происходит каждый раз, когда сквозь ИНС проходит определенное количество данных, которое задается размером пакета BS (batch size). Обычно BS задается степенями двойки. После прохождения всего тренировочного набора данных проверяются предсказания ИНС на валидационном наборе. Процесс обучения итеративен, описанная выше операция повторяется множество раз. Каждое прохождение всего набора данных сквозь ИНС называется эпохой. Для улучшения предсказаний ИНС часто применяется затухание скорости обучения, при нем значение скорости обучения γn+1 в эпохе n+1 находится как (5) где n - номер текущей эпохи; d - параметр затухания. Совокупность всех параметров, которые не изменяются в процессе обучения и задаются перед его началом, называется гиперпараметрами [13]. В число гиперпараметров обычно включают количество эпох Nэпох, размер пакета BS, количество скрытых слоев Nl и число нейронов Nn в каждом из них, активирующие функции слоев, а также параметры оптимизатора, наиболее важными из которых для нас являются начальная скорость обучения γ0 и параметр затухания d. Процесс обучения и его успешность сильно зависят от гиперпараметров. Следовательно, одна из важнейших задач при обучении ИНС - подобрать такие гиперпараметры, при которых обучение будет проходить наилучшим образом. Некоторые из гиперпараметров можно зафиксировать. Так, при варьировании скорости обучения γ и размера пакета BS потребность менять количество эпох Nэпох отпадает, необходимо только задать этот параметр достаточно большим числом, например, 1000. Ниже мы будем исследовать зависимость предсказаний от гиперпараметров d, BS, Nn, Nl и γ0, которые являются наиболее значимыми для выбранного вида активирующей функции, функции потерь и используемого оптимизатора Adam [12]. Алгоритм экстраполяции Машинное обучение обычно не используется для задач экстраполяции с малым количеством данных. Однако алгоритм решения таких задач может быть построен на его основе. Оказывается, для таких задач подходит одновременное обучение множества ИНС. Ниже мы проводили одновременное обучение 400 ИНС. Предсказания одной ИНС включают в себя некоторую случайность, связанную с начальными значениями весовых коэффициентов. Чтобы избежать этой случайности в предсказаниях, обучается большое количество ИНС с одинаковыми гиперпараметрами, но с разными начальными значениями весовых коэффициентов. Очевидно, что не все обученные ИНС будут давать правильные предсказания, поэтому важно иметь критерии, позволяющие фильтровать заведомо неправильно обученные ИНС. В вариационных расчетах в квантовой механике и, в частности, в модели оболочек таким критерием является вариационный принцип для энергий связанных состояний, согласно которому энергия основного состояния Egs должна уменьшаться с увеличением Nmax при любом фиксированном значении ћΩ. После проведенной фильтрации на основе вариационного принципа, аналогично работе [11], отбираются 50 ИНС с наименьшим среднеквадратичным отклонением предсказанных значений от тестового набора. Эмпирически было замечено, что распределение количества ИНС, предсказывающих энергию в каждом интервале, близко к нормальному. Среднее значение этого распределения используется как значение, предсказываемое методом, Egs, а стандартное отклонение распределения σ сопоставляется с ошибкой предсказания метода ΔE. Описанный выше алгоритм был разработан с использованием открытой библиотеки Keras (URL: https://keras.io/ ) для языка Python. Оптимизация гиперпараметров Успешность обучения ИНС, а значит, и работа нашего алгоритма экстраполяции существенно зависят от значений гиперпараметров машинного обучения. Определение их оптимальных значений для каждой конкретной задачи является важным вопросом, однако универсального алгоритма для этого до сих пор не существует. Для нахождения оптимальных параметров необходимо задать критерий оптимальности или метрику. В нашем случае метрикой выбрано среднеквадратичное отклонение предсказаний ИНС от валидационного набора. Простейшими способами нахождения оптимальных параметров являются поиск по сетке и ручной поиск. В первом случае все пространство гиперпараметров разбивается на дискретный набор возможных значений, вычисляется значение метрики в каждой из точек этого пространства и находится точка с минимальным значением метрики. Гиперпараметры, соответствующие ей, будут считаться оптимальными для данного разбиения пространства гиперпараметров. При ручном поиске оптимальных гиперпараметров их подбор осуществляется человеком. Такой подход позволяет настроить параметры, опираясь на множество факторов, и исключает потребность в подборе метрики. Оба описанных выше метода требуют слишком много ресурсов для реализации. В первом случае - вычислительных, во втором - человеческих. При этом ни один из них не гарантирует максимальной точности нахождения оптимальных гиперпараметров и получения относительно одинаковых результатов для разных задач. Одним из лучших алгоритмов оптимизации гиперпараметров является TPE (Tree-structured Parzen Estimator, URL: https://optuna.org/), используемый нами в данной работе. Он строит вероятностную модель целевой функции и использует ее для выбора наиболее многообещающих гиперпараметров и последующей проверки их на истинной целевой функции. Данный алгоритм может использоваться для минимизации или максимизации любой функции, при этом рекомендуется делать минимум 200 шагов оптимизации для достижения наилучшей сходимости алгоритма. Выбор целевой функции - самый важный вопрос при применении подобных алгоритмов, необходимо выбрать ее так, чтобы минимизация целевой функции приводила к улучшению предсказаний и уменьшению их погрешности. Однако нельзя задавать целевую функцию как отклонение от желаемого (истинного) значения энергии, или как значение погрешности предсказаний, или как любую комбинацию этих двух функций, поскольку тогда происходит прямое вмешательство в работу алгоритма. Нами был проведен анализ множества возможных вариантов целевой функции, по итогам которого наилучшим было признано среднеквадратичное отклонение предсказаний ИНС от валидационного набора. Далее под оптимизацией гиперпараметров будет пониматься нахождение с помощью алгоритма TPE таких гиперпараметров, при которых данная целевая функция имеет наименьшее значение. Результаты Для решаемой задачи экстраполяции вариационных расчетов с помощью алгоритма TPE были найдены оптимальные значения гиперпараметров (таблица). В качестве входных данных использовались результаты вариационных расчетов с Nmax = 4-10 и ћΩ от минимума кривой Eλ(ћΩ) в каждом модельном пространстве до ћΩ = 30 МэВ. Всего набор данных состоит из 80 точек. Минимальное значение вариационной энергии в модельном пространстве Nmax = 10 составляет Eλ = -3.573 МэВ. Влияние изменения гиперпараметров от оптимальных значений на предсказания энергии связанного состояния Egs ± ΔE. Точное значение энергии связанного состояния модельной задачи Egs = -3.581 МэВ, предсказания с оптимальным набором параметров Egs ± ΔE = (-3.582±0.003) МэВ Параметр Оптимальные значения Увеличенные значения Egs±ΔE, МэВ Уменьшенные значения Egs±ΔE, МэВ d 10-6 10-5 -3.597±0.005 10-7 -3.584±0.003 BS 64 128 -3.585±0.004 32 -3.584±0.003 Nn 24 26 -3.587±0.003 22 -3.582±0.003 Nl 5 6 -3.575±0.003 4 -3.598±0.008 γ0 0.0136 0.0149 -3.585±0.004 0.0122 -3.580±0.003 На рис. 2 пунктирной горизонтальной линией показано значение Egs, полученное в расчетах с оптимальным набором гиперпараметров, заштрихованная область соответствует погрешности этого предсказания. Отметим, что точное значение энергии связанного состояния модельной задачи Рис. 2. Сравнение предсказаний энергии основного состояния, полученных с оптимальными и неоптимальными значениями гиперпараметров. Заштрихованная полоса с прерывистой линией представляет результат Egs±ΔE, полученный с оптимальными параметрами. Квадратики соответствуют предсказаниям с увеличенным значением соответствующего параметра, кружки - с уменьшенным. Сплошная линия - точное значение Egs попадает в интервал предсказанных значений. Квадратами обозначены предсказания алгоритма при увеличении соответствующих гиперпараметров в большую сторону, кружками - в меньшую; соответствующие вертикальные линии обозначают погрешность этих предсказаний. Из рис. 2 видно, что подобранные гиперпараметры действительно являются оптимальными и их изменение не улучшает предсказания алгоритма. Наибольшее влияние на результаты работы алгоритма оказывают увеличение параметра затухания d и изменение числа скрытых слоев Nl. Уменьшение количества скрытых слоев Nl с 5 до 4 меняет предсказания с (-3.582±0.003) МэВ на (-3.598±0.008) МэВ, увеличивая погрешность предсказаний почти в 3 раза, и при этом предсказываемая энергия даже с учетом увеличенной погрешности не захватывает точное значение. Увеличение параметра затухания d также приводит к существенному росту энергии и погрешности по абсолютной величине. Уменьшение числа скрытых слоев не приводит к увеличению погрешности, однако абсолютное значение энергии заметно уменьшается. Во всех перечисленных здесь случаях точное значение энергии связанного состояния находится далеко за пределами погрешности предсказания. Изменение гиперпараметров BS, γ0, Nl менее критично с точки зрения предсказаний. Заключение В заключении сформулируем основные результаты. На основе методов машинного обучения разработан алгоритм экстраполяции вариационных расчетов. На примере модельной задачи показано, что алгоритм предсказывает энергию основного состояния Egs ± ΔE с высокой точностью даже на основе небольшого количества входных данных. Этот факт важен с точки зрения возможности применения метода для уточнения предсказаний МОБИК, в которой проблема роста размерности модельного пространства стоит очень остро. Рассмотрен эффективный метод оптимизации гиперпараметров обучения искусственных нейронных сетей. Исследована зависимость результатов предсказаний энергии основного состояния и ее погрешности Egs ± ΔE от изменения гиперпараметров (числа скрытых слоев Nl, количества нейронов в каждом из них Nn, размера пакета BS, скорости обучения γ0, параметра затухания d). Показано, что для рассмотренной задачи наблюдается существенное ухудшение предсказаний алгоритма при изменении параметра затухания d и числа скрытых слоев Nl. Изменение значений остальных гиперпараметров меньше влияет на предсказания, однако это не гарантирует, что их изменение в других задачах также не окажет влияния на предсказания.
Barrett B.R., Navrátil P., Vary J.P. // Prog. Part. Nucl. Phys. - 2013. - V. 69(1). - P. 131-181.
Maris P., Vary J.P., Shirokov A.M. // Phys. Rev. C. - 2009. - V. 79. - P. 014308.
Athanassopoulos S., Mavrommatis E., Gernoth K., Clark J. // Nucl. Phys. A. - 2004. - V. 743. - P. 222.
Akkoyun S., Bayram T., Kara S.O., Sinan A. //j. Phys. G. - 2013. - V. 40. - P. 055106.
Athanassopoulos S., Mavrommatis E., Gernoth K.A., Clark J.W. // arXiv:0509075 [nuclth].
David C., Freslier M., Aichelin J. // Phys. Rev. C. - 1995. - V. 51. - P. 1453.
Bass S.A., Bischoff A., Maruhn J.A., et al. // Phys. Rev. C. - 1996. - V. 53. - P. 2358.
Haddad F. et al. // Phys. Rev. C. - 1997. - V. 55. - P. 1371.
Costiris N., Mavrommatis E., Gernoth K.A., Clark J.W. // arXiv:0701096 [nucl-th].
Shirokov A.M., Shin I.J., Kim Y., et al. // Phys. Lett. B. - 2016. - V. 761. - P. 87-91.
Negoita G.A., Vary J.P., Luecke G.R., et al. // Phys. Rev. C. - 2019. - V. 99. - P. 054308.
Kingma D., Ba J. // arXiv:1412.6980 [cs.LG].
Probst P., Boulesteix A., Bischl B. //j. Mach. Learn. Res. - 2019. - V. 20. - P. 1-32.