Оценка степени близости категорий текстов при решении задач классификации электронных документов | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2015. № 2(31).

Оценка степени близости категорий текстов при решении задач классификации электронных документов

Предлагается подход к оценке близости категорий текстов при решении задач классификации электронных документов на примере их отнесения к определенной возрастной аудитории. Введены понятия эквивалентности на множестве текстов и меры сходства категорий текстов. Приведен пример решения задачи классификации для взрослой и детской аудиторий.

The evaluation of the proximity of text categories for solving electronic documents classification tasks.pdf Работа посвящена вопросам автоматической классификации документов на естественном языке. Задача классификации неструктурированной текстовой информации актуальна в первую очередь для решения проблем оптимизации информационного поиска в сети Интернет и хранилищах электронных документов. Быстрое увеличение количества информационных ресурсов порождает необходимость усовершенствования механизмов классификации текстов и обусловливает потребность в разработке новых методов и алгоритмов для решения данного рода задач. При наличии обучающей выборки в существующих классификаторах, применяемых в различных информационных системах, используются методы машинного обучения, преимущественно основанные на байесовской модели и модели векторного пространства. В целях увеличения точности классификации текстов на естественном языке применяется оценка семантической близости текстов [1]. Одной из важных задач, решаемых при построении классификатора, является выбор классификационных признаков. При этом диапазон значений признаков может состоять как из двух значений, так и из конечного упорядоченного или неупорядоченного множества значений или бесконечного множества количественных значений [2-3]. Другой актуальной задачей, которой посвящено наше исследование, является не только отнесение данного текста к определенной категории, но и установление взаимосвязей между категориями. Также рассматривается задача классификации текстов на примере их отнесения к той или иной возрастной категории адресатов. Возможность классифицировать тексты по возрастным группам их адресатов позволяет, в первую очередь, улучшать релевантность информационного поиска, а также усовершенствовать механизмы исключения из результатов поиска нежелательных запросов, например, сайтов, контент которых рассчитан на пользователя иной возрастной категории. Задача относится к числу слабоформализуемых за счет сложности естественного языка и многообразия его коммуникативных форм, поиск путей ее решения требует построения адекватных математических моделей процесса классификации. Обсуждается подход к оценке степени близости категорий текстов, позволяющий оценить расстояние между рассматриваемыми категориями. В контексте решаемой задачи тексты, адресованные одной возрастной группе читателей, должны быть отнесены в процессе классификации к одной категории. Однако на практике задача не решается столь однозначно, и тексты для одной возрастной категории адресатов могут также считаться адресованными другим возрастным аудиториям в том случае, когда они условно соответствуют уровням их коммуникативного развития. Например, тексты, предназначенные «соседним» возрастным группам, часто имеют незначительные отличия, что позволяет говорить о сходстве между ними, а также дает повод с определенной долей уверенности отнести текст, принадлежащий первой категории, ко второй. Также можно говорить о том, что текст, адресованный младшей возрастной категории, понятен и более старшим читателям. Однако нельзя утверждать, что данный текст является в одинаковой степени интересным и информативным для представителей разных возрастных аудиторий, т.е. что он соответствует уровням коммуникативного развития обеих возрастных групп. Тогда в процессе классификации встает вопрос о величине различий между категориями текстов. Под возрастной категорией понимается та возрастная группа, для которой данный текст, во-первых, является понятным с точки зрения различных разделов языкознания (лексики, синтаксиса и т.д.), во-вторых, соответствует уровню ее коммуникативного развития, является информативными и представляет интерес для аудитории. Исходя из специфики поставленной задачи, особый интерес для исследования представляют работы, авторы которых извлекают из текста данные о его авторе или адресате. В ряде статей неоднократно рассматривались вопросы определения характеристик автора текста - его возраста, пола, типа личности и национальной принадлежности [4-6]. В [7] предлагается подход к применению методов распознавания адресанта текста для поиска записей террористической тематики в Интернете. В работах [8-10] рассматривается задача создания диалоговых систем, в контексте которой анализируются признаки, характеризующие текст с точки зрения его ориентации на различных адресатов. В [11] проведена классификация текстов по их автору с использованием потоковых методов классификации. Подход к классификации поисковых запросов на основании оценки близости терминов предлагается в статье [12]. В [13] вводится метрика для оценивания синтаксического сходства между сверхкороткими текстами. 1. Постановка задачи В [3] авторами был сформулирован подход к математическому моделированию задачи классификации. Отличие данного подхода от представленных ранее состоит в том, что он позволяет причислить текст к ряду пересекающихся категорий, однако дает возможность учесть то, что различия в уровнях коммуникативного развития представителей различных возрастных категорий не позволяют однозначно отнести текст из категории Ki в категорию K, где i < j < n . Пусть дан текст T и множество категорий K = {Ki,K2,...,Kn}. Необходимо найти подмножество K - категории, которым может принадлежать текст: T ~ KI, K = {Ki :T ~K}, где i = j\j2,...jm, 1

Ключевые слова

извлечение информации, классификация текстов, математическое моделирование, обработка естественного языка, information extraction, mathematical modeling, natural language processing, text classification

Авторы

ФИООрганизацияДополнительноE-mail
Глазкова Анна ВалерьевнаТюменский государственный университетаспирантка кафедры программного обеспеченияanya_kr@aol.com
Всего: 1

Ссылки

Нгуен Ба Нгок, Тузовский А. Ф. Классификация текстов на основе оценки семантической близости терминов // Известия Том ского политехнического университета. 2012. № 5(320). С. 43-48.
Колесникова С.И. Методы анализа информативности разнотипных признаков // Вестник Томского государственного универ ситета. Управление, вычислительная техника и информатика. 2009. № 1(6). С. 69-80.
Глазкова А.В., Захарова И.Г. Подход к моделированию задачи автоматической классификации текстов (на примере их отне сения к определенной возрастной аудитории) // Вестник ТюмГУ. 2014. № 7. C. 205-211.
Santosh K., Bansal R., Shekhar M., Varma V. Author Profiling: Predicting Age and Gender from Blogs // Notebook for PAN at CLEF. Singapore, 2013. P. 119-124. На графике (рис. 1) визуализированы значения признаков для текстов каждой категории, в целях удобства представления в каждой категории отображены по 30 текстов.
Гречников Е.А., Гусев Г.Г., Кустарев А.А., Райгородский А.М. Поиск неестественных текстов // Труды 11-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» -RCDL'2009. Петрозаводск, 2009. С. 306-308.
Nguyen D., Smith N., Rose C. Author Age Prediction from Text using Linear Regression // Proc. of ICASSP. New-York, 2011. P. 267-276.
Choi D., Ko B., Kim H., Kim P. Text Analysis for Detecting Terrorism-Related Articles on the Web // Journal of Network and Com puter Applications. 2013. V. 8, No. 5. C. 37-46.
Akker R. op den, Traum D. A comparison of addressee detection methods for multiparty conversations // Proc. of methods for multi party conversations. Amsterdam, 2009. P. 99-106.
Baba N., Huang H.-H., Nakano Y.I. Addressee identification for human-human-agent multiparty conversations in different proxemics // Proc. 4th Workshop on Eye Gaze in Intelligent Human Machine Interaction. Beijing, 2012.
Lee H., Stolcke A., Shriberg E. Using out-of-domain data for lexical addressee detection in human-human-computer dialog // Proc. North American ACL/Human Language Technology Conference. Atlanta, 2013. P. 215-219.
Ашуров М. Ф. Сравнение потоковых методов классификации текстов художественной литературы на основе сжатия информации и подсчета подстрок // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2014. № 4(29). С. 16-22.
Attenberg J., Suel T. Cleaning search results using term distance features // Proc. of AIRWeb. San Francisco, 2008. P. 21-24.
Oliva J., Serrano J., Castillo M., Iglesias A. A syntax-based measure for short-text semantic similarity // Journal of Network and Computer Applications. 2013. V. 8, No. 5. Р. 37-46.
Колесникова С.И. О подходах к оцениванию информативности признаков в тестовом распознавании // Известия Томского политехнического университета. 2006. № 8(309). С. 23-27.
Захарова И.Г., Пушкарев А.Н. Математическое обеспечение динамической интегрированной экспертной системы поддержки принятия решений в маркетинге // Вестник ТюмГУ. 2012. № 4. С. 151-155.
Luo Q., Chen E., Xiong H. A semantic term weighting scheme for text categorization // Expert Systems with Applications. 2011. No. 38. P. 12708-12716.
Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М. : Вильямс, 2011. 528 с.
Дунаев В.В. Об одной модели классификации // Научно-техническая информация. 1990. Сер. 2. № 3. С. 22-27.
Мангалова Е.С., Агафонов Е.Д. О проблеме выделения информативных признаков в задаче классификации текстовых документов // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 1(22). С. 96-103.
Качановский Ю.П., Коротков Е.А. Предобработка данных для обучения нейронной сети // Фундаментальные исследования. 2011. № 12-1. С. 117-120.
McLachlan G.J. Discriminant Analysis and Statistical Pattern Recognition. New Jersey : Wiley Interscience, 1992. 552 p.
«База данных метатекстовой разметки Национального корпуса русского языка (коллекция детской литературы)». 2014.
Глазкова А.В. Проверка информативности классификационных признаков в задаче автоматической классификации текстов на естественном языке // Открытые семантические технологии проектирования интеллектуальных систем (0STIS-2015) : материалы V Междунар. науч.-техн. конф. Минск, 2015. С. 541-544.
 Оценка степени близости категорий текстов при решении задач классификации электронных документов | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2015. № 2(31).

Оценка степени близости категорий текстов при решении задач классификации электронных документов | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2015. № 2(31).