Анализ профилей в тестах по математике
Разработанный по оригинальной методике тест по математике используется для оценки уровня и структуры знаний студентов. Авторская компьютерная программа генерирует индивидуальные варианты теста для каждого студента. По выбору преподавателя тестовые задания могут предлагаться в открытой или закрытой форме. При проведении тестирования одна группа испытуемых выполняла задания в открытой форме и две группы - в закрытой форме со списком из пяти вариантов ответов. Исследованы причины различия результатов тестирования с открытыми и закрытыми заданиями. На основе анализа результатов тестирования трех групп испытуемых изучаются статистические характеристики теста. Тестовые баллы учащихся подчиняются нормальному распределению. По результатам проведенного тестирования отдельно для каждой группы испытуемых построены шкалы сложности заданий. Проверена гипотеза о сохранении порядка в шкале сложности заданий при выполнении тестов в открытой и закрытой формах испытуемыми с различным уровнем знаний. Исследуются профили знаний студентов, построенные по результатам тестирования. Каждому профилю сопоставляется регулярность - число, характеризующее степень правильности профиля. Изучаются распределение регулярности, его статистические характеристики.
ANALISYS OF PATTERNS IN MATHEMATICAL TESTS.pdf Введение. В современной системе образования активно используется тестирование учащихся [1-3]. Прежде всего, с помощью тестов оценивают уровень знаний и умений испытуемого [4-7]. В теории тестирования успех выполнения теста определяется набранным тестовым баллом с возможными поправками на списывание и угадывание [8-11]. До настоящего времени наиболее актуальными являются вопросы как о методическом обосновании принципа составления теста по дисциплине или ее разделу, так и об адекватной оценке результата тестирования. Современная тестология базируется на математической модели Г. Раша, позволяющей проводить объективное измерение знаний, учитывая зависимость оценки результатов испытуемых от уровня трудности заданий [12-15]. Наряду с определением уровня знаний учащихся представляет интерес структура имеющихся знаний. В работе делается попытка найти некоторую универсальную характеристику результата тестирования, определяющую степень систематичности или фрагментарности знаний испытуемого. Понятие профиля теста введено в работах Гутмана [16-19]. При оценке тестовых заданий по двухбалльной шкале (1 - верный ответ, 0 - неверный ответ) результат выполнения теста каждым учащимся можно записать в виде последовательности нулей и единиц. Длина последовательности равна количеству заданий в тесте. Такая последовательность - двоичный код фиксированной длины - называется профилем испытуемого. Каждому профилю сопоставляется число, называемое регулярностью профиля. Данное число характеризует степень упорядоченности знаний учащегося. Упорядоченная структура знаний предполагает, что испытуемый правильно решает простые задачи до определенного уровня сложности и не может решить более сложные задачи. Если же учащийся верно решил несколько сложных задач, но не смог найти правильный ответ в легких заданиях, то структура его знаний фрагментарна. При этом следует отметить, что сложность и простота отдельных заданий определяются по результатам тестирования группы учащихся. Таким образом, величина регулярности профиля характеризует отклонение структуры знаний отдельного тестируемого от средних показателей выборки. По результатам двух тестов по различным разделам курса вузовской математики в работе строятся профили испытуемых и находятся их регулярности. Сравнение пар тестовых профилей каждого учащегося, полученных при выполнении двух тестов, позволяет сделать статистический вывод о непостоянстве структуры знаний испытуемых. Вводится понятие идеальных профилей, отвечающих имеющейся совокупности тестовых профилей. Показано, что идеальные и тестовые профили статистически близки. Выдвинута и доказана гипотеза о b-распределении регулярности тестовых и идеальных профилей с близкими значениями параметров распределения. Тесты по математике. Представление результатов тестирования. Для проведения тестирования и обработки его результатов коллективом преподавателей кафедры прикладной математики НИУ МГСУ разработаны банки тестовых заданий и специальная компьютерная программа, позволяющая оперативно генерировать уникальные индивидуальные варианты тестов по различным дисциплинам [20-23]. В ходе изучения дисциплины «Математический анализ» в течение первого семестра студентам первого курса Московского государственного строительного университета, обучающимся по направлениям бакалавриата «Экономика» и «Информатика и вычислительная техника», было предложено выполнить два теста по разделам «Введение в анализ» (далее - тест 1) и «Дифференциальное исчисление» (тест 2). Тест 1 состоит из 20 заданий по темам: пределы числовых последовательностей, пределы функций, раскрытие неопределенностей, бесконечно малые и бесконечно большие величины, непрерывность и точки разрыва функций. Тест 2 состоит из 21 задания по темам: производная сложной функции, производная параметрически заданной функции, дифференциал функции, уравнение касательной к графику функции, наклонные и вертикальные асимптоты, нахождение наибольшего и наименьшего значений функции на заданном отрезке, экстремумы и интервалы монотонности функции, нахождение точек перегиба, интервалов выпуклости и вогнутости функции. Все задания обоих тестов предлагались в открытой форме, т.е. без списка возможных вариантов ответа. Испытуемые должны были самостоятельно находить ответы тестовых заданий, не имея возможности угадать верный ответ из предложенного списка. Для анализа результатов тестирования были отобраны только те студенты, которые выполняли оба теста, их количество составило 123 человека. Результаты каждого тестирования занесены в отдельную таблицу Miсrosoft Excel в виде нулей и единиц: 0 - задача решена неверно, 1 - задача решена верно. Для каждого испытуемого был вычислен тестовый балл, xi - сумма набранных баллов при решении тестовых заданий. В обоих тестах для каждой пары тестовых заданий вычислялся коэффициент корреляции соответствующих столбцов таблицы. Для дальнейшего исследования результатов тестирования были оставлены только слабо коррелированные друг с другом задания: коэффициент корреляции каждого задания с другими принадлежит промежутку r Î [-0,2; 0,3]. По результатам анализа корреляционных матриц из теста по разделу «Введение в анализ» были удалены 2 задания, из теста по дифференциальному исчислению - 3 задания. При анализе результатов тестирования используются понятия сложности и простоты тестовых заданий. Под сложностью j-й задачи qj будем понимать отношение числа испытуемых, не решивших данную задачу, к общему числу испытуемых. И наоборот, простотой j-й задачи pj будем называть отношение числа испытуемых, решивших данную задачу, к общему числу испытуемых. Сложность и простота j-й задачи связаны соотношением pj + qj = 1. Самые простые задания, которые решили все испытуемые, т.е. для которых pj = 1, qj = 0, и самые сложные задачи, которые никто не решил, т.е. pj = 0, qj = 1, необходимо исключить, поскольку они не позволяют дифференцировать студентов по уровню знаний. В общем случае все числа pj и qj лежат в диапазоне от 0 до 1. В каждой таблице строки были упорядочены по убыванию тестовых баллов испытуемых, а столбцы - по возрастанию сложности заданий. После перестановки строк тестовый балл в первой строке стал наибольшим, а в последней строке - наименьшим. Перестановка столбцов привела к тому, что в первом столбце матрицы записаны результаты выполнения самого простого задания, а в последнем - самого сложного. Профиль испытуемого. Регулярность профиля. Под профилем испытуемого понимается индивидуальный результат выполнения теста, записанный в виде двоичного кода. В упорядоченной матрице результатов тестирования каждая строка является профилем определенного учащегося. Профиль представляет собой упорядоченную последовательность единиц и нулей, получаемых испытуемым за выполненные тестовые задания, расположенные в порядке возрастания сложности. Если эта последовательность имеет вид 11... 100...0, т.е. испытуемый верно ответил на легкие вопросы теста и неверно на сложные, то профиль называется правильным и ему присваивается значение, равное 0. Если же испытуемый правильно отвечает на трудные задания и неправильно на легкие, т.е. строка его баллов имеет вид 00... 011 ...1, то профиль называется инвертированным и ему присваивается значение, равное 1. Как правило, испытуемый выполняет и сложные, и простые задачи, и его профиль равен промежуточному значению между 0 и 1. Такому профилю сопоставляется неотрицательное число по формуле (1) где xi - тестовый балл испытуемого; pj - простота j-го задания; n - общее число заданий теста; Sij= {0, 1} - балл, полученный испытуемым за j-е задание. Число Ci, характеризующее степень отклонения профиля от правильного, называется регулярностью профиля. Согласно формуле (1) регулярность правильного профиля равна 0, а инвертированного - 1. Отметим, что формула (1) не позволяет определить регулярность для двух исключительных профилей 00...00 и 11...11, соответствующих всем неверным и всем верным ответам. Если в группе испытуемых имеются учащиеся, правильно выполнившие все тестовые задания или, наоборот, не получившие ни одного верного ответа, их результаты тестирования следует исключить из дальнейшего анализа. Для них тест является слишком простым либо слишком сложным. Профиль характеризует степень упорядоченности или, наоборот, степень фрагментарности знаний учащегося, но не их уровень знаний. Рассмотрим пример. Предположим, что слабо подготовленный испытуемый правильно решил только одно самое легкое задание и его профиль имеет вид 100...0, а хорошо подготовленный студент, верно решивший все задания, кроме самого сложного, имеет профиль 11...10. Тогда оба тестовых профиля являются правильными, т.е. оба студента имеют правильную структуру знаний по рассматриваемому разделу дисциплины. Аналогично инвертированный профиль будет как у испытуемого, правильно решившего только одно самое сложное задание (00...01), так и у учащегося, верно решившего все задания теста, кроме самого легкого (01...11). Наоборот, испытуемые, набравшие одинаковый тестовый балл, могут иметь профили различной регулярности, от правильного до инвертированного, например: 1100....00; 0110...00; 00110...0; 0...011. Результаты выполнения тестов представлены в табл. 1. Различие средних значений регулярности профилей в тестах, возможно, объясняется тем, что раздел «Пределы», по материалу которого составлен тест 1, не входит в программу средней школы, а часть раздела «Дифференциальное исчисление» (тест 2) студенты изучали в школе. Фрагментарный характер остаточных знаний по материалу теста 2 привел к увеличению регулярности профилей. Коэффициенты корреляции набранных баллов и регулярностей профилей отрицательны и равны -0,10 в тесте 1 и -0,30 в тесте 2, т.е. регулярность профилей незначительно снижается с ростом уровня знаний. Для двух тестов коэффициенты корреляции набранных баллов и регулярностей профилей равны 0,31 и 0,11 соответственно. Таким образом, в двух тестах наблюдается слабая связь набранных баллов и практическое отсутствие связи регулярности профилей. Можно предположить, что структура и степень фрагментарности знаний испытуемых слабо связаны с уровнем знаний и в значительной мере зависят от изучаемого раздела дисциплины. Идеальные профили. Введем понятие идеальных профилей. Сопоставим каждому проведенному тесту идеальный тест с тем же количеством тестовых заданий. Пусть вероятность выбора правильного ответа j-й задачи идеального теста равна простоте задания pj, т.е. совпадает с вероятностью выбора правильного ответа, найденной по выборке тестируемых студентов. Тогда вероятность выбора неправильного ответа j-й задачи идеального теста равна сложности задания qj проведенного теста. Предположим, что все тестовые задания идеального теста независимы, т.е. для каждого испытуемого результат решения произвольной задачи не зависит от того, верно или неверно решены другие тестовые задания. В этом случае вероятность появления произвольного результата тестирования - некоторой последовательности из нулей и единиц - равна произведению простоты (для 1) и сложности (для 0) отдельных тестовых заданий. Идеальными профилями назовем всевозможные строки длины n, состоящие из нулей и единиц, вероятность появления которых вычисляется по формуле , где Pj = pj, если j-е задание выполнено верно, и Pj = qj, если оно выполнено неверно. Поскольку тестовые задания оцениваются по двухбалльной шкале, то общее количество идеальных профилей равно 2n, где n - количество заданий в тесте. Используя выборочную простоту заданий, для каждой строки длины n можно вычислить регулярность идеального профиля по формуле (1). На рис. 1 сплошной заливкой показаны гистограммы распределения регулярностей профилей, полученных в ходе проведения тестирования, а заштрихованные столбцы задают гистограммы распределения регулярностей идеальных профилей. При этом для регулярностей профилей теста на вертикальной оси показана относительная частота попадания регулярностей в промежуток разбиения [xi; xi+1], а для регулярностей идеальных профилей - сумма вероятностей P профилей, принадлежащих промежутку разбиения [xi; xi+1] на горизонтальной оси. Ниже на рисунках указаны середины промежутков разбиения на горизонтальной оси. Проверка гипотезы о b-распределении регулярностей профилей. Авторами была выдвинута гипотеза о b-распределении регулярностей тестовых профилей. b-распределение - непрерывное двухпараметрическое семейство функций, которое используется в теории вероятностей и математической статистике для описания случайных величин, определенных на конечном интервале, так как обладает весьма высокой общностью и гибкостью. Частным случаем b-распределения являются такие часто используемые распределения, как распределение Фишера, равномерное, биномиальное, отрицательное биномиальное распределения, закон арксинуса. Кроме того, b-распределение используется и для описания, например, распределения величин субъективных вероятностей, полученных в ходе экспертного опроса [24]. Плотность вероятности b-распределения равна (2) где бета-функция B(a, b) задается формулой (3) Значения параметров b-распределения определяют форму кривой распределения вероятностей на отрезке [0,1]. Если оба параметра больше 1, то плотность вероятности равна нулю на концах отрезка. При увеличении параметра a график плотности наклоняется вправо относительно прямой x = 0,5, а при увеличении параметра b - влево. Оценки параметров b-распределения согласно методу моментов Пирсона были получены в ходе решения системы уравнений: (4) где m - математическое ожидание регулярностей профилей; d - дисперсия регулярностей профилей. Для первого теста они оказались равными a1 = 1,7, b1 = 1,5, для второго - a2 = 2,9, b2 = 9,5. На рис. 2 показаны гистограммы распределения регулярностей профилей для обоих тестов и теоретические кривые b-распределений, построенные для найденных параметров a и b. Гипотеза о b-распределении регулярностей профилей с найденными параметрами проверялась с помощью критерия c2 Пирсона. Расчетные и критические значения статистики для уровня значимости 0,05 приведены в табл. 2. Как следует из табл. 2, используемые статистические данные хорошо согласуются с гипотезой о b-распределе-нии регулярностей профилей тестируемых. Предположим, что распределение регулярностей идеальных профилей также является b-распределением. Вычислим математическое ожидание и дисперсию идеального теста и определим параметры b-распределения из системы уравнений (2). Для идеальных профилей первого теста получаем 1 = 1,9, 1 = 11,9, для второго - 2 = 3,3, 2 = 9,7. На рис. 3 показаны теоретические кривые b-распределений для регулярностей тестовых профилей (сплошная линия) и регулярностей идеальных профилей (пунктирная линия). Степень близости двух теоретических кривых была проверена с помощью критерия c2 Пирсона. Расчетные и критические значения статистики для уровня значимости 0,05 приведены в табл. 3. Таблица 3 показывает, что статистические данные проведенных тестирований хорошо согласуются с выдвинутой гипотезой о близости двух теоретических кривых для регулярностей тестовых и идеальных профилей. В табл. 4 приведены значения параметров b-распределения тестовых и идеальных профилей для двух тестов. Сравнение значений параметров распределений тестовых и идеальных профилей подтверждает высказанное выше предположение о большей фрагментарности знаний студентов по разделу «Дифференциальное исчисление», который частично изучался в школе до поступления в вуз. По сравнению с тестом 1 в тесте 2 параметр a увеличен, а параметр b уменьшен, что свидетельствует о сдвиге распределения регулярности профилей теста 2 в сторону больших значений. Заключение. Исследование профилей участников тестирования позволяет определить структуру знаний обучающихся по изучаемым разделам учебных дисциплин. По результатам анализа результатов тестирования преподавателю следует обратить особое внимание не только на слабо подготовленных студентов с малыми значениями тестового балла, но и на учащихся с большими значениями регулярности профилей, поскольку их знание предмета отличается высокой фрагментарностью. Введение нового понятия идеальных профилей позволяет аппроксимировать случайную выборку ограниченного числа профилей, полученных по результатам тестирования, полным набором всевозможных профилей теста с заданными вероятностями их появления. Это открывает широкие возможности для изучения распределения профилей методами математической статистики. В работе проверена статистическая гипотеза о b-распределении регулярностей тестовых и идеальных профилей. После проведения дополнительных исследований значения параметров b-распределения дают возможность делать вывод о зависимости или независимости заданий в тесте, анализировать систематичность усвоения знаний по тестируемому разделу и оценивать относительную сложность тестов по различным разделам учебной дисциплины. В заключение отметим, что анализ результатов тестирования следует использовать не только для определения уровня и структуры знаний учащихся, но также и для корректировки тестов по изучаемому материалу. Статистические характеристики тестов Тест Набранный тестовый балл Регулярность профиля Математическое ожидание Среднее квадратичное отклонение Математическое ожидание Среднее квадратичное отклонение 1 9,57 2,31 0,13 0,09 2 9,88 3,02 0,23 0,12 Таблица 2 Значения статистики c2 для регулярностей профилей Тест Критерий Пирсона 1 7,3 12,6 2 1,35 12,6 Таблица 3 Значения статистики c2 для теоретических кривых Тест Критерий Пирсона 1 0,001 12,6 2 0,003 12,6 Таблица 4 Параметры b-распределения тестовых и идеальных профилей № Название профиля Значение параметра a Значение параметра b 1 Тестовые профили, тест 1 1,7 11,5 2 Идеальные профили, тест 1 1,9 11,9 3 Тестовые профили, тест 2 2,9 9,5 4 Идеальные профили, тест 2 3,3 9,7
Ключевые слова
тест,
задания открытого и закрытого типа,
тестовый балл,
сложность задания,
профиль испытуемого,
test,
open and closed items,
test scores,
item complexity,
examinee’s patternАвторы
Кирьянова Л.В. | Национальный исследовательский Московский государственный строительный университет | | ludmilakirianova@yandex.ru |
Осипов Ю.В. | Национальный исследовательский Московский государственный строительный университет | | uri-osipov@mail.ru |
Сафина Г.Л. | Национальный исследовательский Московский государственный строительный университет | | minkinag@mail.ru |
Всего: 3
Ссылки
Аванесов В.С. Форма тестовых заданий. - М.: Центр тестирования, 2005. - 156 с.
Челышкова М.Б. Теория и практика конструирования педагогических тестов. - М.: Логос, 2002. - 432 с.
Андриенко А.В. Современная практика использования тестирования в России и за рубежом // Открытое и дистанционное образование. - 2013. - № 2 (50). - C. 78-83.
Майоров А.Н. Теория и практика создания тестов для системы образования. - М.: Интеллект-центр, 2001. - 296 с.
Карнаухов В.М. Статистическое моделирование интернет-экзамена, проводимого в рамках аттестации вуза // Открытое и дистанционное образование. - 2014. - № 1 (53). - C. 60-68.
Кузьмина Л.И., Осипов Ю.В. О тестировании студентов по «школьной» математике // Качество. Инновации. Образование. - 2014. - № 2. - C. 9-13.
Кузьмина Л.И., Осипов Ю.В. Новые технологии преподавания и «старые» дисциплины // Качество. Инновации. Образование. - 2013. - № 12. - C. 3-7.
Ким В.С. Тестирование учебных достижений. - Уссурийск: УГПИ, 2007. - 214 с.
Ким В.С. Коррекция тестовых баллов на угадывание // Педагогические измерения. - 2006. - № 4. - С. 47-55.
Кромер В.В. Еще раз о коррекции тестовых баллов // Педагогические измерения. - 2007. - № 1. - С. 89-94.
Кузьмина Л.И., Осипов Ю.В. Коррекция тестовых баллов с учетом отказов от угадывания // Alma-mater (Вестник высшей школы). - 2014. - № 12. - С. 85-91.
Rasch G. Probabilistic Models for Some Intelligence and Achievement Tests. Copenhagen: Danish Institute for Educational Research. Expanded edition 1983. - Chicago: MESA Press, 1960.
Rasch G. On specific objectivity: an attempt at formalising the request for generality and validity of scientific statements // Danish Yearbook Philos. - 1977. - Vol. 14. - P. 58-94.
Fisher W.P., Jr. The Central Theoretical Problem of the Social Sciences // Rasch Measurement Transactions. - 2014. - Vol. 28:2. - P. 1464-1466.
Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. - М., 2000. - 168 с.
Gutman L. A basis for analyzing test-retest reliability // Psychometrica. - 1945. - Vol. 10. - P. 255-282.
Guttman L.L. The problem of altitude and opinion measurement / S.A. Stouffer and others. (Eds.). Measurement and Prediction. - New York: Wiley, 1950.
Andrich D. An Elaboration of the Guttman scaling with Rasch models for measurement // Sociological Methodology. The Jossey-Bass Social and Behavioral Science Series. - 1985. - P. 33-80.
Linacre J.M. Disconnected Subsets, Guttman Patterns and Data Connectivity // Rasch Measurement Transactions. - 2013. - Vol. 27:2. - P. 1415-1457.
Сафина Г.Л., Осипов Ю.В., Керимова Д.Х., Красовская И.А. Полуавтоматическая система тестирования по математике // Открытое и дистанционное образование. - 2015. - № 2 (58). - С. 56-62.
Осипов Ю.В., Сафина Г.Л., Ветухновский Ф.Я. Моделирование тестов по математике // Открытое и дистанционное образование. - 2016. - № 3(63). - С. 69-74.
Горбунова Т.Н. Технология тестирования в процессе изучения информатики // Педагогика и просвещение. - 2017. - № 1. - С. 74-85.
Сафина Г.Л., Галагуз Ю.П. Анализ тестирования по математике // Вестник БГТУ им. В.Г. Шухова. - 2017. - № 5. - С. 160-163.
Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных: справочное изд. - М.: Финансы и статистика, 1983. - 471 с.