The evaluation of the proximity of text categories for solving electronic documents classification tasks
The article deals with the problem of classification of texts by the example of their assignment to a particular age group of recipients. In practice, texts for one age category of recipients can also be considered as addressed to another age when they conditionally correspond to the levels of their communicative development. In this case, we can discuss the magnitude of the differences between text categories. In previous research authors have formulated an approach to mathematical modeling of the problem of classification. Suppose given a text T and a set of categories K = {K!,K
2,^,K
B}. Need to find a subset of K , i.e., a category, which may be associated with the text: T ~ Kj , Kj = {Kj : T ~ K }, where i = jij2,---j
m and 1 < i < n. So, the category Ki can be presented as K ={qK,wK}, j = й, where q
j is classification feature, w
j is a weight coefficient of classification feature, L is a total count of classification features. If the feature descriptions of the two texts are identical, we call these texts belonging to the same taxonomic rank, and then we have Т. = T- This is an equivalence relation because it satisfies the conditions of reflexive, symmetric, and transitive. Consequently, many texts can be divided into disjoint equivalence classes and one can construct factor set by the equivalence relation. Texts having an equivalence class are carriers of one of the feature descriptions, which allows us to consider they are equivalent. Converting the original set of texts in the factor set is the process of forming the contents of the classes of texts addressed to a specific age audience. In fact, as mentioned above, we are talking about a certain quantifying the differences between the categories of texts with no matching feature descriptions and belonging to different classes of equivalence: р(К,Kj ) = 0 о К = К1. Measure of proximity of categories may be defined as the Mahalanobis distance because the features of objects are statistically dependent and their relevance is determined by the weight coefficient s. Then, the distance between the categories of K
i and Kj represented as vectors characterizing their classification features к = (q
,q*,...,q
),
j = (q^ q^^ qK ^ are defined as р(( , Kj ) = V ( К - Kj )
A
cat QaU К - Kj ) , where A
cat is a matrix of weight coefficients, C
cat is a matrix of covariance, which is the matrix built by pairwise covariance of the elements in vectors К and Kj. Pairwise covariance of features values for vectors K
i and Kj is: cov ((, qi )=1 z(q
t - q
)(qKt - qi)), _к 1
к к 1
к where q
i = - Z (q
in ) , qj =
Z (qj
n ) are average values in the text samples, n = 1,.. .L. nt=1
nt=1 The proposed approach to the evaluation of the proximity of categories texts is implemented due to the development of the prototype of software system for automatic classification of texts in Russian based on age categories of recipients.
Keywords
извлечение информации,
классификация текстов,
математическое моделирование,
обработка естественного языка,
information extraction,
mathematical modeling,
natural language processing,
text classificationAuthors
Glazkova Anna V. | Tyumen State University | anya_kr@aol.com |
Всего: 1
References
Нгуен Ба Нгок, Тузовский А. Ф. Классификация текстов на основе оценки семантической близости терминов // Известия Том ского политехнического университета. 2012. № 5(320). С. 43-48.
Колесникова С.И. Методы анализа информативности разнотипных признаков // Вестник Томского государственного универ ситета. Управление, вычислительная техника и информатика. 2009. № 1(6). С. 69-80.
Глазкова А.В., Захарова И.Г. Подход к моделированию задачи автоматической классификации текстов (на примере их отне сения к определенной возрастной аудитории) // Вестник ТюмГУ. 2014. № 7. C. 205-211.
Santosh K., Bansal R., Shekhar M., Varma V. Author Profiling: Predicting Age and Gender from Blogs // Notebook for PAN at CLEF. Singapore, 2013. P. 119-124. На графике (рис. 1) визуализированы значения признаков для текстов каждой категории, в целях удобства представления в каждой категории отображены по 30 текстов.
Гречников Е.А., Гусев Г.Г., Кустарев А.А., Райгородский А.М. Поиск неестественных текстов // Труды 11-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» -RCDL'2009. Петрозаводск, 2009. С. 306-308.
Nguyen D., Smith N., Rose C. Author Age Prediction from Text using Linear Regression // Proc. of ICASSP. New-York, 2011. P. 267-276.
Choi D., Ko B., Kim H., Kim P. Text Analysis for Detecting Terrorism-Related Articles on the Web // Journal of Network and Com puter Applications. 2013. V. 8, No. 5. C. 37-46.
Akker R. op den, Traum D. A comparison of addressee detection methods for multiparty conversations // Proc. of methods for multi party conversations. Amsterdam, 2009. P. 99-106.
Baba N., Huang H.-H., Nakano Y.I. Addressee identification for human-human-agent multiparty conversations in different proxemics // Proc. 4th Workshop on Eye Gaze in Intelligent Human Machine Interaction. Beijing, 2012.
Lee H., Stolcke A., Shriberg E. Using out-of-domain data for lexical addressee detection in human-human-computer dialog // Proc. North American ACL/Human Language Technology Conference. Atlanta, 2013. P. 215-219.
Ашуров М. Ф. Сравнение потоковых методов классификации текстов художественной литературы на основе сжатия информации и подсчета подстрок // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2014. № 4(29). С. 16-22.
Attenberg J., Suel T. Cleaning search results using term distance features // Proc. of AIRWeb. San Francisco, 2008. P. 21-24.
Oliva J., Serrano J., Castillo M., Iglesias A. A syntax-based measure for short-text semantic similarity // Journal of Network and Computer Applications. 2013. V. 8, No. 5. Р. 37-46.
Колесникова С.И. О подходах к оцениванию информативности признаков в тестовом распознавании // Известия Томского политехнического университета. 2006. № 8(309). С. 23-27.
Захарова И.Г., Пушкарев А.Н. Математическое обеспечение динамической интегрированной экспертной системы поддержки принятия решений в маркетинге // Вестник ТюмГУ. 2012. № 4. С. 151-155.
Luo Q., Chen E., Xiong H. A semantic term weighting scheme for text categorization // Expert Systems with Applications. 2011. No. 38. P. 12708-12716.
Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М. : Вильямс, 2011. 528 с.
Дунаев В.В. Об одной модели классификации // Научно-техническая информация. 1990. Сер. 2. № 3. С. 22-27.
Мангалова Е.С., Агафонов Е.Д. О проблеме выделения информативных признаков в задаче классификации текстовых документов // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 1(22). С. 96-103.
Качановский Ю.П., Коротков Е.А. Предобработка данных для обучения нейронной сети // Фундаментальные исследования. 2011. № 12-1. С. 117-120.
McLachlan G.J. Discriminant Analysis and Statistical Pattern Recognition. New Jersey : Wiley Interscience, 1992. 552 p.
«База данных метатекстовой разметки Национального корпуса русского языка (коллекция детской литературы)». 2014.
Глазкова А.В. Проверка информативности классификационных признаков в задаче автоматической классификации текстов на естественном языке // Открытые семантические технологии проектирования интеллектуальных систем (0STIS-2015) : материалы V Междунар. науч.-техн. конф. Минск, 2015. С. 541-544.