Построение функции ошибки для решения задачи идентификации алгоритма ранжирования
Предлагается функция ошибки для постановки задачи идентификации алгоритма ранжирования результатов текстового поиска. Приводится обоснование некорректности применения функций ошибки, используемых в задачах, где выходные значения принимают действительные значения. В качестве альтернативы предлагается функция ошибки, которая учитывает не абсолютное, а относительное изменение результатов ранжирования. Приводится частный случай постановки задачи идентификации, в которой результат ранжирования рассматривается как класс релевантности.
Construction of an error function for solving the text ranking identification problem.pdf Задача идентификации системы подразумевает построение модели, устанавливающей взаимосвязь между входными и выходными значениями данной системы, и в общем виде ставится следующим образом [1]. Пусть исходная система реализует неизвестное отображение F : DX ^ DY. Необходимо построить отображение MF : DX ^ DY таким образом, что MF(х) = F(х) для всех x G DX. В этом случае исходная система рассматривается как «чёрный ящик», для которого определены входы и выходы, однако неизвестны принципы его функционирования. Задача идентификации системы в терминах машинного обучения ставится следующим образом. Пусть исходная модель F реализует функцию вида F : DX ^ DY С Rm. Необходимо построить модель Mp : DX ^ DY С Rm, такую, что на заданном множестве примеров X = {xi : xi G DX, i = 1,... , N} E(F,Mf ,X) < e, где E - функция ошибки; e - заданная константа. В данной работе в качестве исследуемой системы рассматривается алгоритм ранжирования. В общем виде алгоритм ранжирования осуществляет отображение вида Fd (q,d) = rankD (f (q,d)), где D - рассматриваемая коллекция документов, а функция rank сопоставляет документу порядковый номер в списке документов коллекции, отсортированном по убыванию значения функции релевантности. Функция релевантности f получает на вход пару векторов (q,d), описывающих текстовый запрос и документ соответственно, и вычисляет числовую оценку релевантности r = f (q,d) G R. Ключевым отличием данной задачи идентификации алгоритма ранжирования от задачи построения ранжирующей функции является то, что выходные значения системы принимают ранговые значения. В настоящее время известно несколько работ, посвящённых решению задачи идентификации алгоритма ранжирования [2], однако в них нет чёткой постановки задачи. При постановке задачи идентификации необходимо решить две следующих подзадачи. Первая состоит в определении множества входных факторов. Задача подбора факторов, задающих значения компонент входных векторов q и d, обычно решается с помощью экспертной оценки, исходя из эмпирических соображений и априори известной информации. Итоговый набор значимых факторов может быть получен следующими методами: 1) Подбором всех возможных факторов и дальнейшим исключение малозначимых. Значимость фактора может быть определена с помощью корреляционного анализа зависимости между значениями фактора и результатами ранжирования. 2) Методом AdDel [3], суть которого состоит в последовательном добавлении факторов, улучшающих качество идентификации, и удалении факторов, негативно влияющих на качество идентификации. Вторая подзадача, решению которой посвящена данная работа, вытекает из свойств функции Fd , задающей частичный порядок на множестве пар векторов (q, d). Опишем эти свойства в виде леммы. Лемма 1. Если FD(q,d1) - FD(q,d2) = FD(q,d3) - FD(q, d4), то в общем случае fD(q,d1) - fD(q,d2) = fD(q,d3) - fD(q, d4). То есть если разность рангов документов одинакова для двух пар документов, из этого в общем случае не следует равенство разности значений функции релевантности. Верно и обратное утверждение: если fD(q,d1) - fD(q,
Ключевые слова
алгоритм ранжирования,
идентификация системы,
функция ошибки,
text ranking algorithm,
system identification,
error functionАвторы
Кожушко Оюна Алексеевна | Новосибирский государственный универститет | аспирантка | oyuna@mail.ru |
Всего: 1
Ссылки
Семенов А. Д., Артамонов Д. В., БрюхачевА.В. Идентификация систем управления. Учеб. пособие. Пенза: Изд-во Пенз. ун-та, 2003. 211с.
Материалы компании AlterTrader Research [Электронный ресурс]. http://www. altertrader.com/ - 21.04.2015.
Загоруйко Н. Г., Кутненко О. А. Методы распознавания, основанные на алгоритме AdDel // Сиб. журн. индустр. матем. 2004. Т. 7. №1. С. 39-47.
Воронцов К. В. Методы обучения ранжированию (Learning to rank). Курс лекций. [Электронный ресурс]. 2013. http://www.machinelearning.ru/wiki/images/8/89/ Voron-ML-Ranking-slides.pdf
Кожушко О. А., Тарков М. С. Использование иерархической временной памяти для идентификации системы ранжирования документов // Проблемы информатики. 2015. №1(26). С.47-54.