Оценка степени близости категорий текстов при решении задач классификации электронных документов
Предлагается подход к оценке близости категорий текстов при решении задач классификации электронных документов на примере их отнесения к определенной возрастной аудитории. Введены понятия эквивалентности на множестве текстов и меры сходства категорий текстов. Приведен пример решения задачи классификации для взрослой и детской аудиторий.
Скачать электронную версию публикации
Загружен, раз: 359
Ключевые слова
извлечение информации, классификация текстов, математическое моделирование, обработка естественного языка, information extraction, mathematical modeling, natural language processing, text classificationАвторы
ФИО | Организация | Дополнительно | |
Глазкова Анна Валерьевна | Тюменский государственный университет | аспирантка кафедры программного обеспечения | anya_kr@aol.com |
Ссылки
Нгуен Ба Нгок, Тузовский А. Ф. Классификация текстов на основе оценки семантической близости терминов // Известия Том ского политехнического университета. 2012. № 5(320). С. 43-48.
Колесникова С.И. Методы анализа информативности разнотипных признаков // Вестник Томского государственного универ ситета. Управление, вычислительная техника и информатика. 2009. № 1(6). С. 69-80.
Глазкова А.В., Захарова И.Г. Подход к моделированию задачи автоматической классификации текстов (на примере их отне сения к определенной возрастной аудитории) // Вестник ТюмГУ. 2014. № 7. C. 205-211.
Santosh K., Bansal R., Shekhar M., Varma V. Author Profiling: Predicting Age and Gender from Blogs // Notebook for PAN at CLEF. Singapore, 2013. P. 119-124. На графике (рис. 1) визуализированы значения признаков для текстов каждой категории, в целях удобства представления в каждой категории отображены по 30 текстов.
Гречников Е.А., Гусев Г.Г., Кустарев А.А., Райгородский А.М. Поиск неестественных текстов // Труды 11-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» -RCDL'2009. Петрозаводск, 2009. С. 306-308.
Nguyen D., Smith N., Rose C. Author Age Prediction from Text using Linear Regression // Proc. of ICASSP. New-York, 2011. P. 267-276.
Choi D., Ko B., Kim H., Kim P. Text Analysis for Detecting Terrorism-Related Articles on the Web // Journal of Network and Com puter Applications. 2013. V. 8, No. 5. C. 37-46.
Akker R. op den, Traum D. A comparison of addressee detection methods for multiparty conversations // Proc. of methods for multi party conversations. Amsterdam, 2009. P. 99-106.
Baba N., Huang H.-H., Nakano Y.I. Addressee identification for human-human-agent multiparty conversations in different proxemics // Proc. 4th Workshop on Eye Gaze in Intelligent Human Machine Interaction. Beijing, 2012.
Lee H., Stolcke A., Shriberg E. Using out-of-domain data for lexical addressee detection in human-human-computer dialog // Proc. North American ACL/Human Language Technology Conference. Atlanta, 2013. P. 215-219.
Ашуров М. Ф. Сравнение потоковых методов классификации текстов художественной литературы на основе сжатия информации и подсчета подстрок // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2014. № 4(29). С. 16-22.
Attenberg J., Suel T. Cleaning search results using term distance features // Proc. of AIRWeb. San Francisco, 2008. P. 21-24.
Oliva J., Serrano J., Castillo M., Iglesias A. A syntax-based measure for short-text semantic similarity // Journal of Network and Computer Applications. 2013. V. 8, No. 5. Р. 37-46.
Колесникова С.И. О подходах к оцениванию информативности признаков в тестовом распознавании // Известия Томского политехнического университета. 2006. № 8(309). С. 23-27.
Захарова И.Г., Пушкарев А.Н. Математическое обеспечение динамической интегрированной экспертной системы поддержки принятия решений в маркетинге // Вестник ТюмГУ. 2012. № 4. С. 151-155.
Luo Q., Chen E., Xiong H. A semantic term weighting scheme for text categorization // Expert Systems with Applications. 2011. No. 38. P. 12708-12716.
Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М. : Вильямс, 2011. 528 с.
Дунаев В.В. Об одной модели классификации // Научно-техническая информация. 1990. Сер. 2. № 3. С. 22-27.
Мангалова Е.С., Агафонов Е.Д. О проблеме выделения информативных признаков в задаче классификации текстовых документов // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 1(22). С. 96-103.
Качановский Ю.П., Коротков Е.А. Предобработка данных для обучения нейронной сети // Фундаментальные исследования. 2011. № 12-1. С. 117-120.
McLachlan G.J. Discriminant Analysis and Statistical Pattern Recognition. New Jersey : Wiley Interscience, 1992. 552 p.
«База данных метатекстовой разметки Национального корпуса русского языка (коллекция детской литературы)». 2014.
Глазкова А.В. Проверка информативности классификационных признаков в задаче автоматической классификации текстов на естественном языке // Открытые семантические технологии проектирования интеллектуальных систем (0STIS-2015) : материалы V Междунар. науч.-техн. конф. Минск, 2015. С. 541-544.

Оценка степени близости категорий текстов при решении задач классификации электронных документов | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2015. № 2(31).
Скачать полнотекстовую версию
Загружен, раз: 913