Использование бинарной логистической регрессии для оценки качества адаптивного теста | Вестн. Том. гос. ун-та. 2010. № 334.

Использование бинарной логистической регрессии для оценки качества адаптивного теста

Приводится обоснование использования метода бинарной логистической регрессии для оценки качества адаптивного теста; приведен пример адаптивного тестирования, рассчитаны вероятности получения правильных ответов тестируемыми на каждом уровне знания.

Use of binary logistical regress for estimation of quality of the adaptive test.pdf Адаптивный тест - это один из видов проверки зна-ний учащихся, предусматривающий изменение после-довательности выдачи вопросов в процессе прохожде-ния теста, учитывающий ответы тестируемого на пре-дыдущие вопросы для определения трудности после-дующих вопросов [1]. Адаптивность сочетается с принципом «алгоритма-цепочки»: предъявление зада-ний с систематическим изменением уровня трудности.Адаптивный тест как система обладает составом, цело-стностью и структурой. Тест состоит из заданий, правил их применения, оценок за выполнение каждого задания и ре-комендаций по интерпретации тестовых результатов. Сис-тема означает, что в тесте собраны такие задания, которые обладают системообразующими свойствами. Хотя любой тест состоит из тестовых заданий, последние представляют не совокупность произвольно объединенных заданий, а именно систему. Время выделяют в качестве другого сис-темообразующего фактора. Действительно, одно из сооб-ражений, положенных в основу создания адаптивных тес-тов, - иметь инструмент быстрого и относительно точного оценивания большого числа испытуемых. Требование эко-номии времени становится естественным в массовых про-цессах, каковым и стало образование. Одно из актуальных направлений современной организации тестового контро-ля - это индивидуализация контроля, приводящая к значи-тельной экономии времени тестирования. От времени тес-тирования существенно зависит качество результатов. Ка-ждый адаптивный тест имеет оптимальное время тестиро-вания, необходимое для получения точной оценки тести-руемого, уменьшение или превышение которого снижает качественные показатели теста.Эффективным можно назвать тест, который лучше, чем другие тесты, измеряет знания студентов интере-сующего уровня подготовленности, с меньшим числом заданий, качественнее, быстрее, дешевле, и все это - по возможности в комплексе [2]. С понятием «эффектив-ность» сопряжено и близкое к нему по содержанию понятие «оптимальность». Последнее трактуется как наилучшее из возможных вариантов, с точки зрения удовлетворения нескольким критериям, взятым пооче-редно или вместе. В определении эффективности теста учитываются два ключевых элемента: число заданий теста и уровень подготовленности студентов. Если из какого-либо теста с большим числом заданий сделать оптимальный выбор меньшего числа, то может образо-ваться система, не уступающая заметно по своим свой-ствам тесту со сравнительно большим числом заданий.106Тест с меньшим числом заданий в таком случае можно называть сравнительно более эффективным.Помимо этого, эффективность теста можно оценить с точки зрения соответствия уровня его трудности уровню подготовленности тестируемых в данный мо-мент студентов. Эту оценку в литературе нередко относят к валидности, имея в виду идею валидности теста, так сказать, по уровню. Легко понять практическую беспо-лезность того, чтобы давать слабым студентам трудные задания; большинство студентов, вероятнее всего, не су-меют правильно на них ответить. Так же обстоит дело и с легким тестом: его бесполезно (неэффективно) давать знающим студентам, потому что и здесь высока вероят-ность теперь уже правильных ответов, и потому практи-чески все испытуемые получат по тесту одинаково высо-кий балл. И в том и в другом случае испытуемые не будут различаться между собой. Измерение, таким образом, не состоится по причине несоответствия уровня трудности теста уровню подготовленности. Из этих соображений легко вывести, что самый эффективный тест - это тест, точно соответствующий по трудности заданий уровню подготовленности испытуемых.Эффективность теста зависит также и от принципа подбора заданий. Если подбирать задания для измере-ния на всем диапазоне изменения трудности, то снижа-ется точность измерения на отдельном участке. И на-оборот, если стремиться точно измерить знания испы-туемых, например среднего уровня подготовленности, то это потребует иметь больше заданий именно данно-го уровня трудности. Поэтому тест не может быть эф-фективным вообще, на всем диапазоне подготовленно-сти студентов. Он может быть более эффективен на одном уровне знаний и менее - на другом. Именно этот смысл вкладывается в понятие дифференциальной эф-фективности адаптивного теста.С помощью метода бинарной логистической рег-рессии можно исследовать зависимость дихотомиче-ских переменных от независимых переменных, имею-щих любой вид шкалы. Как правило, в случае с дихо-томическими переменными речь идёт о некотором со-бытии, которое может произойти или не произойти; бинарная логистическая регрессия в таком случае рас-считывает вероятность наступления события в зависи-мости от значений независимых переменных [3].Как известно, все регрессионные модели могут быть записаны в виде формулыY = F(x1, x2,…, xn).(1)Например, в множественной линейной регрессии предполагается, что зависимая переменная является линейной функцией независимых переменных, т.е.y = a + b1x1 + b2x2 +...+ bnxn ,(2)где x1 - значения независимых переменных, b1 - коэф-фициенты, расчёт которых является задачей бинарной логистической регрессии, а - некоторая константа.Можно ли ее использовать для задачи оценки веро-ятности исхода события? Да, можно, вычислив стан-дартные коэффициенты регрессии. Например, если рассматривается исход по ответу на тестовое задание, задается переменная y со значениями 1 и 0, где 1 озна-чает, что тестируемый правильно ответил на вопрос, а 0 - что неправильно. Однако здесь возникает проблема: множественная регрессия не «знает», что переменная отклика бинарна по своей природе. Это неизбежно приведет к модели с предсказываемыми значениями большими 1 и меньшими 0. Но такие значения не до-пустимы для первоначальной задачи. Таким образом, множественная регрессия просто игнорирует ограни-чения на диапазон значений для y.Для решения проблемы задача регрессии может быть сформулирована иначе: вместо предсказания бинарной переменной мы предсказываем непрерывную переменную со значениями на отрезке [0,1] при любых значениях независимых переменных. Это достигается применением следующего регрессионного уравнения (логит-преобразование):1 P = -y ,(3)1+eгде P - вероятность того, что произойдет интересую-щее событие; e - основание натуральных логарифмов 2,71…; y - стандартное уравнение регрессии [4].Если для P получится значение меньшее 0,5, то можно предположить, что событие не наступит; в про-тивном случае предполагается наступление события.Поясним необходимость преобразования. Предпо-ложим, что мы рассуждаем о нашей зависимой пере-менной в терминах основной вероятности P, лежащей между 0 и 1. Тогда преобразуем эту вероятность P:P' = loge (P / (1- P)) .(4)Это преобразование обычно называют логистическим или логит-преобразованием. Теоретически P' может при-нимать любое значение. Поскольку логистическое преоб-разование решает проблему об ограничении на 0-1 гра-ницы для первоначальной зависимой переменной (веро-ятности), то эти преобразованные значения можно ис-пользовать в обычном линейном регрессионном уравне-нии. А именно: если произвести логистическое преобра-зование обеих частей описанного выше уравнения, мы получим стандартную модель линейной регрессии [4].Существует несколько способов нахождения коэф-фициентов логистической регрессии. На практике час-то используют метод максимального правдоподобия.Нами предлагается использовать метод бинарной логистической регрессии для оценки вероятностей по-лучения правильного ответа на задание по каждому уровню знания как один из критериев качества адап-тивного теста, уменьшающий время его прохождения, число заданий и увеличивающий точность оценки.Предположим, что испытуемый начал тестирование с вопроса, соответствующего уровню 3, шаг контроль-ной точки равен 5, максимальное количество шагов тестирования равно 6, на первом шаге адаптации были получены следующие результаты (рис. 1, шаг 1; «+» отмечен правильный ответ, «-» - неправильный) (на основе метода, предложенного в (5)).^^^^ вопрос ypoBeiib--. сл ожн о crii(t)~-^1г34507810II121314151617131920Ru70,006-0.005+-_сн0,254++-+-0,433+"+-+0.672++1,0010,00шаг 1шаг 2шагЗ шаг4Рис. 1. Пример адаптивного теста«Промежуточные уровни знания» используются во избежание случайности ответов (как положительных, так и отрицательных). Поэтому под термином «проме-жуточные уровни знания» понимаем логическое рас-пределение уточняющих вопросов на оценки 3, 4, 5 (уровни знания соответственно равны 3, 5, 7).Используя программный продукт STATISTICA 6.0, были обработаны результаты тестирования каждого шага адаптации. Исходные данные приведены на рис. 2.Гипотеза H(0) предполагает, что тестируемый отве-тит на вопрос правильно (1).На первом шаге адаптации были получены следую-щие результаты логистической регрессии (см. рис. 3).Далее, согласно формуле 3, вычисляем вероятности (Р1) того, что тестируемый на данном шаге адаптации ответить правильно на вопрос соответствующего уров-ня сложности (см. рис. 4). Р0 - начальное значение -принимаем равным 0,5 на каждом уровне сложности. Рассчитываем коэффициент изменения вероятностиДР : ДР = Pi+1-Pi.(5)Согласно алгоритму, предложенному в [5], шагов адаптации должно быть не менее двух, поэтому тести-руемому предлагается продолжить тест далее (рис. 1, 2, шаг 2). На втором и третьем шаге адаптации были по-лучены следующие результаты логистической регрес-107сии (рис. 5, а, б) и рассчитаны вероятности (Р2, Р3, ДР) (рис. 4).На данных этапах тестирования р-уровень более 5%, следовательно, модели незначимы, поэтому про-должаем тестирование. Далее приведены результаты четвертого шага адаптации (см. рис. 6).Вычисляем вероятности (Р4, ДР) (см. рис. 7).Анализируем полученные результаты: р-уровень менее 5%, следовательно, модель значима; значение статистики хи-квадрат для разницы между текущей моделью и моделью, содержащей лишь свободный член, высоко значимо.шаг 1шаг 2шаг 3шаг 4НОМСр вопросаОтветУр сложности2143154065056"1470580490310121113120413131404150316121713181419052004Рис. 2. Исходные данные для моделирования логистической регрессииModel: Logistic regression (logit) N of0's:2 1's:3 (Spreadsheet2)Dep. var: Ответ Loss: Max likelihoodFinal loss: 1,386319092 Chi?(1)=3,9575 p= ,04667I92,90471EstimateOdds ratio (unit ch) Odds ratio (ranqe)Const. ВО У|>_сложности-18,57891 0,00000,00001Рис. 3. Результаты логистической регрессии 1-го шага адаптации тестаур_сложностиPoP1UPP2ДРP3ДР20,510,50,874384-0,1256160,822591111t -0,051793130,510,50,735649-0,2643510,650010069-0,08563940,510,50,52664-0,473360,426575933-0,100063850,50,5024820,002482a0,307857-0,1946250,229567712-0,078289660,5Э.12Е-0Э-0,50,1509750,15097530,106626531-0,044348870,58.24E-17-0,50,0663730,0663730,045625432-0,0207475P0,046670,14699 0,1071Chi-square3,95752,1034 2,5967Рис. 4. Рассчитанные вероятности наступления события «1» на 1-3-м шагах адаптацииN=15Model: Logistic regression (logit) N ofO Dep. var: Ответ Loss: Мак likelihood Final loss: 9,065524176 Chi?(1)=2,596; Const. ВО У|>_сложностиEstimate3,37413-0,9177191Odds ratio (unit ch)29,199020,399429^Odds ratio (range)0,025454N=10Model: Logistic regression (logit) N ofO's: Dep. var: Ответ Loss: Max likelihood Final loss: 5,379795618 Chi?(1)=2,1034 r. Const.BOУ|)_СЛОЖНОСТИEstimate3,78547-0.919622 ■Odds ratio (unit ch)44,056530,398670| Odds ratio (range)0,025261108Рис. 5. Результаты логистической регрессии 2-го (а) и 3-го (б) шагов адаптации тестаN=20Model: Logistic regression (logit) Dep. var: Ответ Loss: Max likelih Final loss: 11 ,224787155 Chi?(1)N of O's ood =5,276310 Vs:10 (4.sta) p=.02162 Const.ВО У|>_сложностиEstimate4,5255ВOdds ratio (unit oh)92.349280.30296Odds ratio (range)10.008421Рис. 6. Результаты логистической регрессии четвертого шага адаптации тестаур_сложностиP4ДР20,8938571710,0712660630,7191513960,0691413340,4377624430,0111865150,19142888-0,038138860,067153695-0,039472870,021420351-0,0242051p Chi-square0,0216239 5,276313-2*log(Likelihood)forthis model = 22,44957 intercept only: 27,72589Рис. 7. Рассчитанные вероятности наступления события «1» на 4-м шаге адаптацииOdds ratio: 6,0000Одним из критериев оценки качества логистической регрессии является отношение несогласия (Odds ratio) (рис. 8), полученное методом классификации наблюдений.Отношение несогласия вычисляется как отноше-ние произведения чисел правильно расклассифициро-ванных наблюдений к произведению чисел непра-вильно расклассифицированных. Отношение несогла-сия больше 1 показывает, что построенная классифи-кация лучше, чем если бы мы просто провели класси-фикацию наугад.Нами предлагается интерпретировать результаты клас-сификации наблюдений для установления количества уга-данных ответов и количества случайных ошибок (рис. 8).В рассматриваемом нами примере адаптивного тес-та четвертый шаг адаптации является заключительным.Pried.0Pried.1Percent0,000000В280,000001,0000004660,00000Согласно алгоритму, предложенному в [5], на дан-ном этапе тестируемый выходит на уровень знания 2 (коэффициент RLi = 1,00). Результаты логистической регрессии не противоречат этим данным: вероятность Р4 для уровня 2 максимальна, ДР - положительна, р-уровень более 5%, Odds ratio более 1.Далее переводим полученный результат в оценку (рис. 9).Из вышесказанного можно сделать вывод: метод би-нарной логистической регрессии рекомендуется применять для анализа качества адаптивного тестирования, при этом уменьшая время тестирования, число заданий и увеличивая точность оценки тестируемого; результаты моделирования показывают, что уровень сложности задания влияет на ус-пехи тестируемого в выполнении адаптивного теста.угадывание2случайная ошибка4Рис. 8. Отношение несогласияУр_знанняОценка756 5 44332 12Рис. 9. Шкала перевода уровня знания (уровня сложности) в оценку

Ключевые слова

logistical regress, quality estimation, adaptive test, логистическая регрессия, оценка качества, адаптивный тест

Авторы

ФИООрганизацияДополнительноE-mail
Жилина Елена ВикторовнаРостовский государственный экономический университет (г. Ростов-на-Дону)ассистент кафедры информационных технологийblack-2@mail.ru
Всего: 1

Ссылки

Жилина Е.В. Линейная модель адаптивного тестирования // Проблемы создания и использования информационных систем и технологий: Материалы III межрегион. конф. Ростов н/Д: РИНХ, 2009.
Иллюстрированный самоучитель по SPSS. Режим доступа: http://lib.qrz.ru/node/11329
Паклин Н. Логистическая регрессия и ROC-анализ - математический аппарат. Режим доступа: http://www.basegroup.ru/library/analisys/ regression/logistic
Тестология в России: модели и методы тестологии. Режим доступа: http://www.testor.ru
Тягунова Т.Н. Философия и концепция компьютерного тестирования. М.: МГУП, 2003. 246 с.
 Использование бинарной логистической регрессии для оценки качества адаптивного теста | Вестн. Том. гос. ун-та. 2010. № 334.

Использование бинарной логистической регрессии для оценки качества адаптивного теста | Вестн. Том. гос. ун-та. 2010. № 334.

Полнотекстовая версия