Известная модель тестирования Раша построена как игровая модель, в которой участники тестирования, выполняющие задания, и задания теста играют равноправную роль. Адекватность модели Раша подтверждена на примере шахматной классификации А. Эло. Дано «игровое» обоснование известного метода первичных баллов, метода оценивания латентных параметров тестирования по результатам наблюдения тестирования, который обладает наивысшей скоростью вычисления оценок.
RASCH’S MODEL AS A GAME MODEL.pdf Предпосылки возникновения модели Раша Перед тем, как рассматривать модель тестирования Раша [1, 2], хотелось бы поговорить о некоторых предпосылках возникновения этой модели. Эти предпосылки связаны с построением спортивных классификаций в таких видах спорта, как шахматы, большой теннис. В этих видах спорта принята не разовая оценка выступления спортсменов, а интегральная, по результатам прошедших состязаний. Остановимся на системе классификации на основе рейтинга. Оставим пока открытым вопрос о том, какие соображения учитываются при присвоении игрокам, входящим в классификацию, исходного рейтинга (исходного места в классификации). Предположим, что этот вопрос тем или иным способом решен. Рассмотрим встречу двух игроков. Обозначим оценки класса, т.е. рейтинги игроков через r(U) и r(V) соответственно. Введем в рассмотрение переменную величину t, характеризующую различие в классе игроков U и V. Величину t можно предположить зависящей, например, от отношения r(U)/r(V) рейтингов игроков U и V или же от их разности r(U) - r(V). В теории классификации шахматистов известна таблица, предложенная американским профессором А. Эло, по которой пересчитываются текущие рейтинги игроков. Она выглядит так, как показано в таблице. В этой таблице t - разность рейтингов; hб и hМ - проценты выигрыша шахматистов с большим и соответственно с меньшим рейтингом. Полная таблица приведена, например, в [4] и [5]. Данная таблица построена на богатом статистическом материале различных шахматных состязаний. Пересчет рейтинга после очередного состязания осуществлялся по формуле: rн =rст+ µ(N- Nож), rст - старый рейтинг участника соревнований, rн - новый рейтинг участника соревнований, N - число очков, фактически набранных участником, Nож - ожидаемое число очков, которое ему «полагается» в силу его квалификации, µ - коэффициент, равный числу, на которое возрастает рейтинг участника в случае, если он набирает на очко больше сверх ожидаемого количества (в системе Эло этот коэффициент равен 10). Ожидаемое количество Nож рассчитывается по формуле , где n -число участников однокругового турнира по шахматам, hk - проценты выигрыша данного участника у k-го шахматиста турнира. Можно построить математическую модель встречи двух шахматистов в одной партии, подтверждающую накопленный статистический опыт, выраженный в таблице Эло. Предположим, что отношение m/n среднего числа побед игрока U над игроком V к среднему числу его поражений в серии из N встреч находится в экспоненциальной зависимости от разности рейтингов игроков U и V. Итак, принимаем, что m/n = at, где a>1, t = r(U) - r(V). Отсюда получаем, что вероятность p(t) выигрыша игрока U у игрока V равна . Теперь вся проблема построения классификации сводится к выбору числового значения параметра a. Статистика шахматных турниров свидетельствует о том, что если один из соперников на один разряд (на одну ступень) в шахматной иерархии стоит выше другого, то первый выигрывает у второго в среднем 75 очков из 100 возможных, т.е. с вероятностью, равной 0,75. Если учесть, что в системе Эло различие между игроками, принадлежащими к двум соседним разрядам шахматной иерархии, составляет l = 200 единиц рейтинга, то получим следующее равенство для определения числа a: . Откуда находим, что a0 = 1,0055. Теперь имеем конкретную математическую модель встречи двух шахматистов, выраженную в формуле вероятности P выигрыша игрока U у V: . Если по этой формуле вычислить вероятности для различных значений t, то получим таблицу Эло (см. таблицу). Это совпадение говорит о том, что статистические данные подтверждают справедливость построенной математической модели шахматной игры. Модель Раша как модель игры Система игры в шахматы тесно связана с системой решения задания теста участником тестирования. Действительно, решение задания можно интерпретировать как состязание двух соперников с заданными рейтингами (см. ниже). Более того, теория тестирования (Раш Г., 1968-1970 гг.) развивалась параллельно с теорией шахматной классификации (Эло А., 1963-1970). Перейдем к изложению теории тестирования. Очевидно, что вероятность того, что участник тестирования с уровнем подготовленности s правильно решит определенное тестовое задание с уровнем трудности t, по крайней мере зависит от двух аргументов: P=P(s ,t). Эту функцию будем называть функцией успеха. Переменные s и t принято называть латентными (ненаблюдаемыми) параметрами, поскольку они призваны описывать некоторые скрытые характеристики участников тестирования и тестовых заданий. Можно заменить систему тестирования «участник - задание - решение» системой игры «участник 1 - участник 2 - игра», т.е. представить участника и задание полноправными участниками 1 и 2 соответственно некоторой парной игры (например, шахматы). Можно считать задание участником парной игры, который выигрывает (в случае неверного решения задания) или проигрывает (в случае верного решения задания) своему оппоненту. Можно определить уровень подготовленности участника следующим образом. Определение. Число t > 0 называется уровнем подготовленности участника, если для любых двух участников с уровнями подготовленности t1 и t2 соответственно выполняется соотношение , где P - вероятность выигрыша участника 1 у участника 2. Из этого определения вытекают следующие свойства: 1) , где m - число выигранных партий участника 1 у участника 2 в общей серии из N партий. Действительно, . 2) Игровой смысл параметра t: значение параметра t приближенно равно отношению числа выигранных партий у участника с уровнем подготовленности t=1 (стандартного участника) к числу проигранных партий этому участнику. 3) . Действительно, , где P1 - вероятность выигрыша у стандартного участника. Тогда свойство вытекает из графика зависимости t от P1 (рис. 1). 4) . 5) t1 = t2 тогда и только тогда, когда P = 0,5, t1 > t2 тогда и только тогда, когда P > 0,5, t1 < t2 тогда и только тогда, когда P < 0,5. Свойство 4 послужило основой для математической модели тестирования датского математика Георга Раша: . Далее датский математик решил изменить единицы измерения, заменив действительную полуось (0, ¥) на симметричную относительно 0 действительную ось (-¥; ¥). Для этого он использовал формулы перехода: . Новая единица измерения была названа логитом. Прежнюю единицу в силу игрового смысла параметра t предлагается назвать игровым логитом. Формула для функции успеха тоже изменилась: . Формулу (1) называют основной логистической моделью Раша. Вероятность успеха зависит, по существу, от одного параметра - разности (q - d), и поэтому эта модель является однопараметрической. При этом . . . Приведем рассуждения по поводу реального диапазона изменения единицы измерения логита. Исходя из практической целесообразности, вероятность наступления некоторого события вычисляется с точностью до 3 знаков после запятой. Поэтому вероятность, равную 0,9999, можно принять за вероятность достоверного события. Решая уравнение относительно величины (q - d), получим, что q - d = 9,21. Задача будет решена достоверно, если учащийся имеет максимально возможный уровень подготовленности q - dmax, а задание - минимально возможный уровень трудности d = dmin. Учитывая, что измерение уровней подготовленности и уровней трудности осуществляется на одной симметричной шкале логитов (dmin = - qmax), приходим к равенству: 2qmax= 9,21. Отсюда получаем qmax= 4,6, что позволяет считать, что значения латентных параметров реально меняются в пределах от -4,6 до 4,6. В работе [2] этот интервал расширен до интервала (-5; 5). Поэтому далее будем считать, что qmax= 5 и qmax [-qmax; qmax] . В силу этих рассуждений можно ввести в рассмотрение третью единицу измерения уровня подготовленности, более понятную с точки зрения пользователя, так называемый процентный логит. Связь между шкалой логитов и 100%-ной шкалой может быть осуществлена по формуле , (2) где q - уровень подготовленности по шкале логитов, T - уровень подготовленности по 100% -ной шкале (или тестовый балл), qmax= 5. Далее вероятность P как функция d при фиксированном значении уровня подготовленности q = q0 полностью описывает потенциальные возможности индивидуума с уровнем подготовленности q0 при выполнении заданий всевозможных трудностей d и потому называется характеристической функцией уровня подготовленности q0. Вероятность P как функция q при фиксированном значении d = d0 с той же полнотой характеризует возможности участников тестирования с различным уровнем подготовленности при решении задания трудности d0 и называется характеристической функцией трудности d0. Графики характеристических функций называются соответствующими характеристическими кривыми. В рамках логистической модели (1) абсциссы d = q0 на рис. 2 и q = d0 на рис. 3 являются корнями уравнений и соответственно и определяют точки перегиба характеристических кривых. Ординаты точек перегиба равны 0,5. Заметим, что характеристическая кривая уровня подготовленности q0 представляет собой стандартную характеристическую кривую уровня подготовленности 0, сдвинутую (без деформации) вдоль оси абсцисс на q0 единиц. Это означает увеличение (если q0>0) или уменьшение (если q0 d0 отличаются существенно. Поэтому параметр d принято называть дифференцирующей, или дискриминационной, способностью тестового задания. Двухпараметрическая модель (3) (латентные параметры q - d и d) носит имя Бирнбаума [3]. Понятно, что при d = 1 логистическая модель Бирнбаума совпадает с логистической однопараметрической моделью Раша (1). При d = 1,7 функция (3) хорошо аппроксимирует функцию распределения вероятностей нормального закона с нулевым математическим ожиданием и единичной дисперсией (см. [1-3]). А именно, если , то функция распределения этой случайной величины имеет вид . Если , тогда справедливо неравенство для любого Этот факт позволяет различные вычисления с логистической моделью интерпретировать, при необходимости, с позиции детально изученного нормального закона распределения вероятностей. Двухпараметрическая модель Бирнбаума имеет все основания для существования в теории тестирования, поскольку переход от шкалы игрового логита к шкале логитов может быть осуществлен при помощи логарифма по любому основанию, большему 1 (функция перехода должна быть возрастающей). Если осуществить такой переход, мы придем к исследованию двухпараметрической модели Бирнбаума. Модель (3) имеет право на существование хотя бы потому, что, как было показано выше, в шахматной классификации Эло использовалось основание a0 = 1,0055, а не a = e. Метод первичных баллов оценки латентных параметров тестирования Основным приложением математической модели Раша на данный момент остается электронное тестирование различных уровней: от проведения локальных олимпиад [6, 7] до Централизованного тестирования (ЦТ) и Единого государственного экзамена (ЕГЭ). Правда, в 2011-2013 гг. методика шкалирования, описанная, например, в приложении к приказу ФИПИ [8] (или на сайте официального информационного портала Единого государственного экзамена: http://ege.edu.ru/ru/main/scaling/), не использовала модель Раша. Эта методика будет исследована на предмет точности в следующих работах. Здесь же мы изложим основные положения методики, основанной на понятии уровня подготовленности участника тестирования. Эта методика в соответствующей литературе носит название метода первичных баллов, который имеет наивысшую скорость вычисления оценок. Предположим ниже, что: а) тест состоит из M заданий; б) все задания оцениваются целыми оценками, причем mj - максимальный балл при решении j-го задания; в) максимальное число набранных баллов при решении теста равно K, т.е. ; г) в тестировании принимают участие N участников тестирования. Опишем основные этапы этой методики. 1. Сбор и обработка результатов всех выпускников. 2. Определение общего количества баллов, набранных при решении каждого задания теста (c1...cM) и общего количества Ni человек, набравших конкретное количество первичных баллов i=0,…,K, при этом . 3. Оценивание латентных параметров тестирования (уровней подготовленности участников тестирования q0 ... qK и уровней трудности заданий d0 ... dK) на основании собранных данных при помощи метода первичных баллов (см. ниже) 4. Перевод значений подготовленности q0, . . . , qK, расположенных на шкале логитов, в тестовые баллы T0, ..., TK , расположенные на шкале процентных логитов, при помощи линейной функции по формуле (2). Причем пока всё перечисленное не будет сделано, можно утверждать только, что T0 = 0 и TK = 100. Основным шагом в этой цепочке, требующим теоретического обоснования, является шаг 3. Опишем метод первичных баллов. Согласно этому методу оценки , латентных параметров тестирования вычисляются по формулам: , причем , i = 1 ... K -1, , причем , j = 1, …, M. В качестве обоснования этих формул можно привести следующие рассуждения. Введем в нашу «игру» (экзамен) помимо стандартных «игроков»: абитуриенты, задания двух дополнительных «игроков»: «тест» и «средний игрок». Под «тестом» понимается совокупность всех заданий теста, при помощи которых данный «игрок» сражается с другими участниками данной «игры». Под «средним игроком» понимается совокупность всех абитуриентов, при помощи которых данный «игрок» сражается с другими участниками игры. Пусть qср - уровень подготовленности «среднего игрока» и dср - уровень подготовленности «теста». Тогда коэффициент K1 можно представить как отношение , где tтест - уровень подготовленности «теста», tср - уровень подготовленности «среднего игрока». Поэтому . Учитывая «нормальность» распределения уровня подготовленности абитуриента, причем, как правило, с нулевым математическим ожиданием, можно считать, что qср = 0. Поэтому получим желаемое равенство . Если последнее предположение неверно, то , где . Аналогичные рассуждения можно провести и для уровня трудности задания. А именно, коэффициент K2 можно представить как отношение , где tтест - уровень подготовленности «теста», tср - уровень подготовленности «среднего игрока». Поэтому . Учитывая «нормальность» распределения уровня трудности теста, причем, как правило, с нулевым математическим ожиданием, можно считать, что dтест = 0. Поэтому получим желаемое равенство . Если последнее предположение неверно, то , где . Основные результаты работы Итак, в данной работе получены следующие результаты: 1) Модель тестирования Раша построена как игровая модель, в которой участники тестирования, выполняющие задания, и задания теста играют равноправную роль. 2) Адекватность модели Раша действительности подтверждена на примере шахматной классификации А. Эло. 3) Обосновано введение двухпараметрической модели Бирнбаума на примере шахматной классификации. 4) Введены и рассмотрены различные шкалы измерения латентных параметров тестирования: шкалы игрового логита, обычного логита (логита) и процентного логита. 5) Приведено «игровое» обоснование известного метода первичных баллов, метода оценивания латентных параметров тестирования по результатам наблюдения тестирования, который обладает наивысшей скоростью вычисления оценок.
Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. - Copengagen Denmark: Danish Institute for Educational Research, 1968.
Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. - М., 2000. -169 с.
Birnbaum A. Some latent trait models and their use in inferring an examinee’s ability/ In Lord F.M. and Novick M.R. Statistical Theories of Mental Test Scores. - Reading MA: Addison-Wesley, 1968.
Гик Е.Я. Шахматы и математика. - М.: Наука, 1983 (Библиотека «Квант». - Вып. 24).
Садовский Л.Е., Садовский А.Л. Математика и спорт. - М.: Наука, Главная редакция физико-математической литературы, 1985 (Библиотека «Квант». - Вып. 44).
Карнаухов В.М. Электронное тестирование с двумя и более попытками для решения одного задания. - М.: ФГБОУ ВПО МГУП, 2011. - 172 с.
Карнаухов В.М. Математическая олимпиада на ЭВМ: теория, реализация, опыт. - М.: ФГБОУ ВПО МГУП, 2013. -
177 с.
Методика шкалирования результатов ЕГЭ в 2012 году: Приложение к приказу ФИПИ от 18 апреля 2012 г. - № 13-П.
Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. - Copengagen Denmark: Danish Institute for Educational Research, 1968.
Nejman Ju.M., Hlebnikov V.A. Vvedenie v teoriju modelirovanija i parametrizacii pedagogicheskih testov. - M., 2000. -169 s.
Birnbaum A. Some latent trait models and their use in inferring an examinee’s ability/ In Lord F.M. and Novick M.R. Statistical Theories of Mental Test Scores. - Reading MA: Addison-Wesley, 1968.
Gik E.Ja. Shahmaty i matematika. - M.: Nauka, 1983 (Biblioteka «Kvant». - Vyp. 24).
Sadovskij L.E., Sadovskij A.L. Matematika i sport. - M.: Nauka, Glavnaja redakcija fiziko-matematicheskoj literatury, 1985 (Biblioteka «Kvant». - Vyp. 44).
Karnauhov V.M. Jelektronnoe testirovanie s dvumja i bolee popytkami dlja reshenija odnogo zadanija. - M.: FGBOU VPO MGUP, 2011. - 172 s.
Karnauhov V.M. Matematicheskaja olimpiada na JeVM: teorija, realizacija, opyt. - M.: FGBOU VPO MGUP, 2013. - 177 s.
Metodika shkalirovanija rezul’tatov EGJe v 2012 godu: Prilozhenie k prikazu FIPI ot 18 aprelja 2012 g. - № 13-P.