Text classification stream-based R-measure approach using frequency of substring repetition
Stream-based approach of R-measure using frequency of substring repetition in text classification is offered. Comparative quality analysis of classificators based on the truncated R-measure using frequencies of test text substring repetition and without one is performed on a text set of Russian fiction of the 19 century and the 90 of 20 century. An accuracy of text classification is estimated by Van Rijsbergen's effectiveness measure known as F-measure. The fact that in case of genre mixing free into author's text classes accounting frequency of test text substring repetition in supertexts increases the classification accuracy is confirmed.
Keywords
потоковые методы классификации,
R-мера,
частота повторения подстрок,
качество классификации,
F-мера,
stream-based classification approach,
R-measure,
frequency of substring repetition,
classification accuracy,
F-measureAuthors
Ashurov Mikhail F. | Tomsk State University | ashurov.mf@gmail.com |
Poddubny Vasiliy V. | Tomsk State University | vvpoddubny@gmail.com |
Всего: 2
References
Шевелёв О,Г, Методы автоматической классификации текстов на естественном языке : учеб. пособие. Томск : ТМЛ-Пресс, 2007. 144 с.
Humnisett D,, Teahan W,J, Context-based methods for text categorization // Proceedings of the 27th Annual International ACM SIGIR Conference (SIGIR). The University of Sheffield. UK. 2004.
Ukkonen E. Constructing Suffix-trees On-Line in Linear Time // Algorithms, Software, Architecture: Information Processing. 1992. № 1(92). 484 p.
KaMainen J Sanders P. Simple linear work suffix array construction // ICALP 2003, LNCS 2719 / eds. by J.C.M. Baeten et al. 2003. P. 943-955.
Хмелёв Д.В. Классификация и разметка текстов с использованием методов сжатия данных. Краткое введение. 2003. URL: http://compression.graphicon.ru/download/articles/classif/intro.html
Khmelev D. К, Teahan WJ. Verification of text collections for text categorization and natural language processing // Technical Report AIIA 03.1. School of Informatics. University of Wales. Bangor. 2003.
Ашуров М.Ф; Поддубный В.В. Метод классификации текстов художественной литературы на основе R-меры // Новые ин формационные технологии в исследовании сложных структур : материалы Десятой рос. конф. с междунар. участием. Томск : Издательский Дом Томского государственного университета, 2014. С. 63-64.
Ашуров М.Ф. Сравнение потоковых методов классификации текстов художественной литературы на основе сжатия инфор мации и подсчета подстрок // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2014. № 4(29). С. 16-22.
Ашуров М.Ф., Поддубный В.В. Потоковый метод классификации текстов художественной литературы на основе С-меры // Информационные технологии и математическое моделирование (ИТММ-2013) : материалы XII Всерос. науч.-практ. конф. с междунар. участием им. А.Ф. Терпугова (29-30 ноября 2013 г.). Томск : Изд-во Том. ун-та, 2013. Ч. 2. С. 85-89.
Shevelyov O.G., Poddubnyj V.V. Complex investigation of texts with the system «StyleAnalyzer» // Text and Lanquage / ed. by P. Grzyber, E. Kelih, J. Macutek. Wien : Praesens Verlag, 2010. P. 207-212.
Van R'jsbergen C.J. Information Retrieval. London : Butterworths, 1979.