Использование логистической регрессии при выборе способа кардиоплегии | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2017. № 39. DOI: 10.17223/19988605/39/7

Использование логистической регрессии при выборе способа кардиоплегии

Описывается построение математических моделей вероятности летального исхода операции аортокоронарного шунтирования при различных способах кардиоплегии.

The use of logistic regression in choosing method of cardioplegia.pdf В настоящее время заболевания сердечно-сосудистой системы являются одной из остросоциальных проблем. По данным Всемирной организации здоровья, около половины смертей в результате сердечно-сосудистых заболеваний приходится на ишемическую болезнь сердца [1]. Инфаркт миокарда -это одна из форм ишемической болезни сердца, протекающая с развитием ишемического некроза участка миокарда, обусловленного абсолютной или относительной недостаточностью его кровоснабжения [1-3]. Существуют различные формы лечения ишемической болезни сердца. При обширном поражении сосудов сердца пациенту может быть показана операция аортокоронарного шунтирования. Аортокоро-нарное шунтирование - это хирургическое вмешательство, в результате которого восстанавливается кровоток сердца ниже места сужения сосуда. При данной хирургической манипуляции вокруг места сужения создают другой путь для кровотока к той части сердца, которая не снабжалась кровью. Комплекс мероприятий по защите сердца от ишемии во время операций аортокоронарного шунтирования, в условиях искусственного кровообращения для пациентов с ишемической болезнью сердца при остром инфаркте миокарда называется кардиоплегией. При подготовке к операции кардиохирург принимает решение по выбору способа кардиоплегии. В настоящее время распространены два способа: кровяная кардиоплегия и кардиоплегия раствором «Кустодиол». В данной работе исследуется задача выбора способа кардиоплегии и оценки благоприятного и неблагоприятного исхода операции методами математического моделирования. Задачи оценки риска оперативного вмешательства математическими методами при лечении ишемической болезни сердца встречаются в литературе на протяжении последних 20 лет достаточно часто. Например, в работе [4] исследуются различные методики анализа операционного риска операции аортокоронарного шунтирования. В [5] приводится пример применения классификации с использованием логических правил, сформированных с помощью методов интеллектуального анализа данных. Задача классификации с оценкой риска оперативного вмешательства в работах [6, 7] решалась при выборе способа завершения операции по поводу перитонита, применяя в качестве классифицирующего правила модель, полученную с использованием нейронных сетей. Для решения классификационных задач также могут применяться различные алгоритмы на основе деревьев решений [8]. 1. Исходные данные При планировании операции, а также выборе способа кардиоплегии врач основывается на параметрах состояния пациента. Параметрами состояния пациента являются результаты клинических исследований, показатели общего состояния пациента, взятые из документов пациента (пол, возраст), сведения, полученные в ходе устного опроса, например срок болевого синдрома или анамнез (табл. 1) [2, 3]. Т а б л и ц а 1 Показатели состояния пациента перед операцией аортокоронарного шунтирования № п/п Фактор (переменная) Обозначение Шкала измерения Единица измерения № п/п Фактор (переменная) Обозначение Шкала измерения Единица измерения 1 Возраст X1 Абс. год 16 Конечный диасто-лический объём X16 Абс. мм 2 Вес X2 Абс. кг 17 Конечный систолический объём X17 Абс. мм 3 Пол X3 Номинал. 18 Конечный диасто-лический размер X18 Абс. мм 4 Сахарный диабет X4 Номинал. 19 Конечный систолический размер X19 Абс. мм 5 Гипертоническая болезнь X5 Номинал. 20 Удельный объём X20 Абс. мл 6 Поражение брахио-цефального ствола X6 Номинал. 21 Среднее давление в легочной артерии X21 Абс. мм рт. ст. 7 Нарушения ритма сердца X7 Номинал. 22 Аортальный клапан: градиент давления X22 Абс. мм рт. ст. 8 Гипокинезы X8 Номинал. 23 Аортальный клапан: скорость кровотока X23 Абс. м/с 9 Проходимость левой коронарной артерии X9 Абс. % 24 Аортальный клапан:степень регургитации X24 Порядк. 10 Проходимость ветви тупого края X10 Абс. % 25 Митральный клапан: градиент давления X25 Абс. мм рт. ст. 11 Проходимость передней межжелудочковой ветви X11 Абс. % 26 Митральный клапан: скорость кровотока X26 Абс. м/с 12 Проходимость огибающей ветви X12 Абс. % 27 Митральный клапан:степень регургитации X27 Порядк. 13 Проходимость правой коронарной артерии X13 Абс. % 28 Срок болевого синдрома X28 Кол. дни 14 Проходимость задней межжелудочковой ветви X14 Абс. % 29 Тропонины I X29 Абс. нг/мл 15 Фракция выброса левого желудочка X15 Абс. 30 Тропонины T X30 Абс. нг/мл Данные в таблице представлены в разных шкалах: - абсолютная (в таблице обозначена «Кол.»). В этой шкале измерения проводятся в физических величинах. Например, переменная «возраст» измеряется в годах, переменная «вес» - в килограммах, переменная «аорторальный клапан: градиент давления» - в мм рт. ст. Некоторые величины могут быть выражены в так называемой дольной абсолютной шкале, фракция выброса измеряется в процентах; - номинальная - используется для регистрации самого низшего уровня измерений, например наличие или отсутствие какого-либо признака, пол и т.д.; - порядковая - переменная описывает признаки объектов, которые можно упорядочить, без возможности точного установления расстояния между ними [5]. На рис. 1 изображен процесс принятия решений кардиохирургом по выбору способа кардиопле-гии на основе анализа исходных данных. Рис. 1. Структурная схема принятия решения по выбору кардиоплегии При выборе способа кардиоплегии врач основывается на исходных данных и интуитивно учитывает исход операции, фактически оценивая риск благоприятного и неблагоприятного исхода. 2. Формирование задачи обучения по прецедентам Задачу выбора способа кардиоплегии сформулируем как задачу обучения по прецедентам [9, 10]. Задача формируется следующим образом. Пусть объекты описываются «-числовыми признаками fj. X^R, j = 1...«. Тогда пространство признаковых описаний объектов представляется как X = R". Пусть Z - конечное множество классов, под каждым из которых подразумевается определенный исход операции. В нашем случае классов всего два. благоприятный исход Z = -1 и неблагоприятный исход Z = +1. Пусть задана обучающая выборка пар «объект, ответ» (состояние пациента, исход операции). X™ = {(Х1, z,),...,{xm, )}. (1) В качестве математической модели исхода операции использовалась модель логистической регрессии, позволяющая определить вероятность попадания в один из классов. 1 (2) P =- < Х,в > 1 + exp Для двух классов Z = {-1,+1} в логистической регрессии строится линейный алгоритм классификации a:X^Z, который позволяет отнести объект к одному из двух классов: ( (3) Л XPf (x) -Р0 = sign(x,p) , V j=1 J где рг- - вес /-го признака, p0 - порог принятия решения, Р = (р0, р0,... Р„) - вектор весов, - скалярное произведение. Предполагается, что искусственно введен константный признак f0(x) = -1. Задача обучения линейного классификатора заключается в том, чтобы по выборке Xm настроить вектор весов в уравнении (2). Использование модели логистической регрессии позволяет определить значимые переменные и определить числовые коэффициенты при этих переменных. Работа проводится в два этапа. На первом этапе осуществляется отбор переменных в модель с помощью метода прямого отбора. Алгоритм отбора переменных следующий [9]. 1. Рассчитывается матрица коэффициентов корреляции переменных, описывающих состояние пациента X = R". Из списка всех возможных независимых переменных формируется выборка независимых переменных с коэффициентом корреляции выше порога, принимаемого равным 0,6. Коэффициент корреляции рассчитывается по формуле (4) a( x, Р) = sign M(x - mx)(y - m,) Р = - О x о,, где mx, m - математические ожидания x и y , а оx, о - их средние квадратические отклонения. 2. После того как переменная x, была выбрана, она добавляется в модель (2), в результате чего появляется уравнение, содержащее всего одну переменную: У, = Pj-Xj + в, о. (5) Полученное уравнение проверяется на адекватность при помощи функции правдоподобия -2log. Если адекватность модели не подтверждается, то выбирается другая переменная из сформированной выборки. Если адекватность уравнения подтверждается, то текущая переменная добавляется в модель. Таким образом, тестируются все переменные, отобранные из корреляционной матрицы. 3. Далее проводится последовательное исключение из модели переменных, удаление которых может привести к повышению адекватности модели. В случае, если такая переменная найдена, она удаляется из модели. Далее осуществляется переход к началу алгоритма прямого отбора переменных. На втором этапе определяются коэффициенты в модели логистической регрессии с помощью метода максимального правдоподобия. Использование вероятности отнесения к одному из классов Z в зависимости от X, P(Z\X) полностью определяет условное распределение по классам. Для дальнейших рассуждений удобно использовать логарифм функций правдоподобия в виду одинакового поведения их производных, а также в силу проекта от произведения их составляющих к сумме. Тогда для N наблюдений логарифмическая функция правдоподобия будет N 1(0) = £ log x.; в), (6) i =1 i где pz (X;в) = P(Z = k | X = xi ;в), в - вектор коэффициентов в модели. Подробно рассмотрим случай двух классов. Удобно кодировать классы Z, через ответ у,, где y, = 0, когда Z, = 0, и у, = 1, когда Z = 1. Пусть p1(x; 0) = p(x; 0) и p2(x; 0) = 1 - p(x; 0). В таком случае логарифмическое правдоподобие может быть записано следующим образом: N N *(Р) = £{у logp2(x,;Р) + (1 - у.)log(1 - p(x;Р))> = £{y,Prx, -log(1 + ^)}. (7) i=1 i=l Здесь в = {вю,в1}- Для максимизации правдоподобия приравняем производную к нулю: ^ = £x,(У, -p(x ;в)) = 0. (8) в i=1 Для нахождения значений коэффициентов в в формуле (6) используем алгоритм Ньютона-Рафсона, необходимым условием для которого является получение матрицы Гессе (Гессиан): I®=xxTp(x; в)(1 - p(x; в)). (9) Начиная с произвольного первого приближения в0, одна итерация методом Ньютона заключается в нахождении в'=в1- (Ц^ (10) где производные вычисляются на основании в0. Для вычислений удобно записать значения коэффициентов и Гессиан в виде матриц. Пусть y -значения вектора у; X - матрица, содержащая значения x,; p - вектор полученной вероятности i-го элемента p(x,.;в,), и W-N х N - диагональная матрица, содержащая элементы p(x,.;в')(1 -p(x,.;в')). Таким образом, получаем дв д2т = XT (y - p); (11) = -XT WX . (12) двдв Тогда значения для в'+1 следующей итерации будут равны el+r = в' + (XT WX)-1 XT (y - p) = (XT WX)-1 XT W(XP' + W-1(y - p)) = (XT WX)-1 XT Wg, (13) g = XP' + W-1(y - p). (14) Вектор g выражает связь между ответом (y) и каждый раз рассчитываемыми коэффициентами; он известен также как «скорректированный ответ». Этот алгоритм называется итерационно корректируемым методом наименьших квадратов (iteratively reweighted least squaresor IRLS), так как на каждом шаге уменьшает квадрат невязки. P' ^ argmin(g - XP)T W(g - XP). (15) P 3. Полученные результаты На основании данных, полученных в Сургутском окружном кардиологическом диспансере, с помощью численного алгоритма Ньютона-Рафсона были построены математические модели вероятности неблагоприятного исхода операции аортокоронарного шунтирования для каждого способа кардиопле-гии. 1. Логистическая регрессионная модель неблагоприятного исхода при кардиоплегии с помощью Кустодиол: P1z=1 (X) = [1 + exp(-21,009 • X5 - 0,021 • X9 +1,024 • X15 - 2,049 • X23 + 25,256)]-1. (16) 2. Логистическая регрессионная модель неблагоприятного исхода при кровяной кардиоплегии: P1z=1 (x) = [1 + exp(-18,841 • X5 + 0,847 • X18 - 0,923 • X2 -1,809 • X11 -1,124X10 +15,158)]-1. (17) Из тридцати исходных параметров, описывающих состояние пациента, представленных переменными из табл. 1, в модели (16) и (17) вошли не все. В модели исхода операции при кардиоплегии с помощью Кустодиол (16) отразились следующие параметры: X5 - наличие гипертонической болезни, X9 -проходимость левой коронарной артерии, Xi5 - объем фракции выброса, X23 - скорость кровотока через аортальный клапан. Модель исхода операции при кровяной кардиоплегии (17) включает следующие параметры: X5 - наличие гипертонической болезни, X11 - проходимость передней межжелудочковой ветви, X10 - проходимость ветви тупого края, X18 - конечный диастолический размер, X2 - масса тела. Следует заметить, что в модели (16) и (17) входят разные переменные, за исключением переменной X5, которая является самой существенной в обеих моделях. Высокие значения P5 говорят о превосходящем влиянии гипертонической болезни сердца на результат операции аортокоронарного шунтирования вне зависимости от выбранного способа кардиоплегии. Таким образом, показано, что применение того или иного способа кардиоплегии требует предварительного анализа различных параметров. 4. Правдоподобие и адекватность моделей Для проверки правдоподобия моделей, т.е. определения, насколько полученное теоретическое распределение соответствует экспериментальному, применялись логарифмическая функция правдоподобия f(p) = -2Ln(f(x,P)) и коэффициент детерминации R2 Кокса-Шнела: R 2 = 1 -{ L (M-pt) Г (18) 1 L (Mpun) J • ( ) где L - оценка вероятности; MIntercept - модель, дополненная данными для проверки; MPull - исходная модель. В табл. 2 представлены результаты расчета различных критериев правдоподобия моделей (16) и (17) по двум критериям. Значения коэффициента детерминации R2 выше 0,6 говорят об адекватной работе моделей на данных, не участвовавших в построении модели. Малые значения функции правдоподобия -2Ln(l(x,P)), также подтверждают высокое качество моделей (16) и (17) [5, 6]. Т а б л и ц а 2 Правдоподобие моделей вероятности неблагоприятного исхода Модель -2 log R2 P1z = 1 3,054 0,781 P2z = 1 20,479 0,684 Проверить адекватность полученных моделей можно с помощью метода перекрестной проверки аналитической модели cross-validation. Для такой проверки исходная выборка разделяется на K приблизительно равных блоков (обычно принимается K = 10). Процедура моделирования, описанная алгоритмом (2)-(15), проводится на данных, входящих в K-1 блоков. Построение модели начинается с исключения первого блока, который используется для проверки адекватности. Затем исключается второй блок и т.п. Аналогичным образом проводится проверка K раз на моделях, полученных последовательным исключением одного из блоков. Функция L(a( xi), z*) характеризует величину отличия значения, полученного с помощью алгоритма (2)-(15) от экспериментального значения z*: L(a(x,), z'i) = (zt - z')2, где z = a(x) - результат классификации алгоритма а; z*- реальное значение проверяющей выборки. Для классифицирующего алгоритма a:X^Z, сумма квадратов ошибок классификации, называемая в литературе функцией потерь, имеет следующий вид [6]: 1 т Q(a,Xm) =-YL(a(xt),z,),x, eXm,z, e Zm, (19) m x xi где Q(a, Xm) - функционал эмпирического риска модели. Результаты проверки адекватности моделей приведены в табл. 3. Т а б л и ц а 3 Значения функции потерь, полученные в результате перекрестной проверки на разных блоках Номер блока Модель 1 2 3 4 5 6 7 8 9 10 сумма Q(a, Xm ) дая Pz=1 0,009 0,017 0,009 0,000 0,009 0,009 0,018 0,009 0,018 0,000 0,090 Q(a, Xm ) для P2z=1 0,009 0,000 0,000 0,019 0,028 0,009 0,009 0,000 0,009 0,000 0,085 В табл. 3 в первой строке указаны номера блоков, последовательно исключаемые из процедуры математического моделирования по алгоритму (2)-(15), но участвовавшие в проверке адекватности. Во второй строке таблицы приводятся значения функционала потерь для модели P\z=\ - вероятности исхода операции аортокоронарного шунтирования при кардиоплегии Кустодилом. В третьей строке содержатся значения функционала потерь для модели P2z =i - вероятности исхода операции при использовании кровяной кардиоплегии. Считается, что чем ближе значения функционала потерь к 0,1, тем больше ошибок имеется в модели [6]. При использовании первого способа кардиоплегии в трех блоках: 2-, 7- и 9-м, при проверке было найдено по две ошибки классификации. В 1, 3, 5, 6, 8-м, блоках найдено по одной ошибке. В 4- и 10-м блоках ошибок классификации не найдено. Таким образом, в 92% случаев модель верно предсказывает вероятность исхода операции при кардиоплегии с помощью Кустодиол. Лучшие результаты классификации получены для модели P2z=1. При перекрестной проверке на блоках 4 и 5 оказалось соответственно две и три ошибки прогнозирования исхода. В блоках 1, 6 и 9 найдено по одной ошибке классификации. Модель (17) дает верный прогноз исхода в 96% случаев. Заключение Таким образом, получены математические модели исхода операции аортокоронарного шунтирования при остром инфаркте миокарда для двух способов кардиоплегии: кровяная кардиоплегия и кардио-плегия раствором «Кустадиол». Соответствие полученных моделей экспериментальной функции распределения оценивалось следующими показателями: логарифмической функцией правдоподобия и коэффициентом детерминации R2 Кокса-Шнелла. Значения коэффициента детерминации и логарифмической функции правдоподобия говорят о том, что полученные математические модели правдоподобны. Для проверки адекватности моделей проводилась перекрестная проверка c оценкой функционала риска. Значение функционала Q < 0,01 подтверждает адекватность результатов. Установлено, что наличие гипертонической болезни повышает операционный риск, что подтверждает опыт многолетней практики, описанный в работах Е.И. Чазова с коллегами в [2, 3]. Компьютерное исследование на моделях (16)-(17) показало, что применение того или иного способа защиты миокарда во время операции обусловлено влиянием различных параметров, описывающих состояние пациента до операции.

Ключевые слова

логистическая регрессия, прямой отбор переменных, поддержка принятия решений в медицине, logistic regression, forward selection, decision support in medicine

Авторы

ФИООрганизацияДополнительноE-mail
Микшина Виктория СтепановнаСургутский государственный университетпрофессор, кандидат технических наук, заведующая кафедрой информатики и вычислительной техникиmikshinavs@gmail.com
Павлов Сергей ИгоревичСургутский государственный университетаспирант кафедры информатики и вычислительной техникиsergey8991@mail.ru
Всего: 2

Ссылки

Информационный бюллетень №317 Январь 2015 г. URL: http://www.who.int/mediacentre/factsheets/fs317/ru/
Руководство по кардиологии : учеб. пособие : в 3 т. / под ред. Г.И. Сторожакова, А. А. Горбаченкова. 2008. Т. 1. 672 с.
Руководство по кардиологии : в 4 т. Т. 3: Заболевания сердечно-сосудистой системы (I) / под ред. Е.И. Чазова М. : Практика, 2014. 864 с.
Дюк В.А., Курапеев Д.И. Применение методов интеллектуального анализа данных для оценки риска оперативного вмеша тельства в кардиохирургии // Тр. СПИИРАН. 2009. Т. 9. C. 187-196.
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Second Edition. Springer, 2009.
Микшина В.С., Егоров А. А. Модель принятия решений хирурга // Вестник Новых медицинских технологий. 2011. Т. XVII, № 4. С. 287-290.
Микшина В.С., Дарвин В.В., Егоров А.А., Суровов В.А. Интеллектуальная информационная система поддержки принятия решений хирурга по выбору способа завершения операции // Современные проблемы науки и образования. 2011. № 5. URL: http://www.science-education.ru/99-4930
Ташкинов А.А., Вильдеман А.В., Бронников В.А. Применение метода деревьев классификации к прогнозированию уровня развития моторики у больных с нарушениями двигательных функций // Российский журнал биомеханики. 2008. Т. 12, № 4 (42). С. 84-95
Воронцов К.В. Курс лекций: Линейные методы классификации. 2009. URL: http://www.machinelearning.ru/wiki/images/6/68/ Voron-ML-Lin.pdf
Айвазян С.А. и др. Прикладная статистика: Основы моделирования и первичная обработка данных. М. : Финансы и статистика, 1983. 471 с.
 Использование логистической регрессии при выборе способа кардиоплегии | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2017. № 39. DOI: 10.17223/19988605/39/7

Использование логистической регрессии при выборе способа кардиоплегии | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2017. № 39. DOI: 10.17223/19988605/39/7