Возрастной рейтинг книжной продукции и уровень удобочитаемости: о взаимосвязи двух показателей | Текст. Книга. Книгоиздание. 2021. № 26. DOI: 10.17223/23062061/26/8

Возрастной рейтинг книжной продукции и уровень удобочитаемости: о взаимосвязи двух показателей

Рассмотрена взаимосвязь показателей, описывающих уровень сложности содержания книжной продукции, - возрастного рейтинга в соответствии с российской системой классификации контента и простоты понимания текста, рассчитанной на основе метрик удобочитаемости. Эксперименты по сравнению удобочитаемости текстов, имеющих разную возрастную маркировку, проводились на собранной автором коллекции фрагментов книг, имеющих издательскую метку возрастного рейтинга. Результаты говорят об адекватности подхода к оценке возрастного рейтинга книг с точки зрения определения возрастной группы предполагаемого читателя и о возможности использования значений метрик удобочитаемости в качестве признаков текста при решении задач компьютерной лингвистики.

Age Rating of Books and Readability: On the Correlation of Two Indices.pdf Одним из ключевых аспектов письменной коммуникации является фактор адресата, который предполагает учет автором текста аудитории, к которой он обращается в письменной речи. Адресатом может быть отдельный человек, группа лиц или общество в целом, и автор, ориентируясь на возможного читателя, осознанно или инстинктивно формирует текст, принимая во внимание особенности предполагаемой аудитории. В данной работе рассматривается взаимосвязь двух аспектов, связанных с проблемой определения потенциального адресата книги: удобочитаемости текста, т.е. его сложности, определенной на основании лингвистических характеристик, и возрастной категории, присвоенной 1 Результаты исследования были получены в рамках выполнения гранта Президента Российской Федерации для государственной поддержки молодых российских ученых - кандидатов наук, проект № МК-637.2020.9. А.В. Глазкова 130 книге с точки зрения безопасности содержащейся в ней информации. Автором выдвинута гипотеза о взаимосвязи возрастного рейтинга книги и показателей ее удобочитаемости. Для проверки данной гипотезы была собрана коллекция текстов, имеющих различный возрастной рейтинг. Тексты собранной коллекции оценены с помощью нескольких метрик удобочитаемости, а полученные результаты проанализированы. Выводы, сделанные в работе, представляют интерес с позиций обработки естественного языка, а конкретно ее раздела, занимающегося поиском неструктурированной информации в массивах данных, - информационного поиска. В настоящее время одной из малоизученных, но актуальных задач информационного поиска является классификация текстов на основе их вероятных адресатов. Инструменты решения данной задачи могут найти практическое применение в различных приложениях, в частности в рекомендательных системах и в электронных библиотеках. Существуют различные основания для классификации аудитории текста: по размеру, по гендеру, по профессиональному признаку и др. Особую важность имеет решение задачи возрастной классификации. Ее актуальность продиктована введением в Российской Федерации возрастных ограничений на книги и контент интернет-ресурсов, развитием систем электронного обучения и онлайн-библиотек. Кроме того, возможность классифицировать тексты по возрастным группам адресатов позитивно скажется на релевантности результатов информационного поиска, позволяя, в числе прочего, усовершенствовать механизмы исключения из найденной выборки нежелательных ресурсов (например, сайтов, содержание которых рассчитано на пользователя иной возрастной категории) [1]. Существует ряд работ, посвященных исследованию фактора адресата, в частности особенностей текстов, предназначенных читателям разных возрастов. В первую очередь это работы, выполненные уче-ными-лингвистами. Так, C. Nord подчеркивает, что автор с самого начала своей работы над текстом ориентируется на образ потенциального читателя и принимает во внимание черты предполагаемой целевой аудитории [2]. В работе И.А. Стернина [3] даны рекомендации по написанию текстов, предназначенных читателям, относящимся к определенным возрастным группам. Авторы статей [4-8] изучают степень влияния адресатов на различные типы текстов, например переводные тексты, детскую поэзию и другие. В работе [9] проведен подробный Возрастной рейтинг книжной продукции и уровень удобочитаемости 131 эмпирический анализ характеристик читателей на примере образовательного дискурса. Основываясь на упомянутых выше работах, можно сделать вывод о том, что любой текст содержит черты, определяющие образ его вероятного читателя. Таким образом, текст ориентируется на потенциальную аудиторию, в то время как читатель заинтересован в поиске текстов, релевантных его потребностям и уровню развития. Кроме того, содержание рассмотренных работ позволяет заключить, что на возрастную принадлежность текста влияет два основных фактора: 1) семантическое наполнение (тематика, лексика, средства художественной выразительности); 2) простота восприятия текста. К сожалению, в настоящее время нет завершенных научных исследований, посвященных определению возраста целевой аудитории текста с точки зрения обоих указанных факторов. Однако существует ряд методик, оценивающих уровень текста с позиций его лингвистической или тематической сложности. В частности, такими подходами являются классификация информационной продукции исходя из уровня безопасности содержащегося в ней контента и оценка удобочитаемости на основе учета количественных характеристик текста. При этом первый подход нацелен на ограничение доступа детей к потенциально вредоносной информации, в то время как второй направлен скорее на уровень образованности вероятного читателя, чем на его возраст. Поскольку исследования фактора адресата текста говорят об ориентации текста на определенную аудиторию, представляется логически обоснованным предположить, что разные подходы к определению уровня сложности текста порождают взаимосвязанные результаты. Исходя из этого предположения, далее будут рассмотрены особенности действующей на территории Российской Федерации системы возрастной классификации информационной продукции и нескольких распространенных метрик удобочитаемости. На примере коллекции книг, имеющих возрастной рейтинг издателя, будут оценены значения метрик удобочитаемости и проанализирована степень взаимосвязи результатов двух рассматриваемых подходов к оценке категорий аудитории текста. Принятые в разных странах системы возрастной классификации текстов (в том числе и современная российская система) основаны в первую очередь на безопасности содержащейся в них информации, А.В. Глазкова 132 т.е. на учете семантики текста. Присваивание возрастных категорий информационной продукции выполняется с помощью экспертной оценки, которая может быть весьма субъективной. Как правило, сопоставление метки возрастного рейтинга осуществляется издателем книги на основе ограничений, установленных Федеральным законом «О защите детей от информации, причиняющей вред их здоровью и развитию» от 29 декабря 2010 г. № 436-ФЗ [10]. Согласно закону № 436-ФЗ, классификация информационной продукции осуществляется на основе оценки следующих показателей: 1) ее тематика, жанр и художественное оформление; 2) особенности восприятия содержащейся в ней информации детьми определенной возрастной категории; 3) вероятность причинения содержащейся в ней информацией вреда здоровью и (или) развитию детей. При этом предусмотрены следующие метки возрастного рейтинга для информационной продукции: 1) разрешенная детям, не достигшим шести лет (0+); 2) разрешенная детям, достигшим шести лет (6+); 3) разрешенная детям, достигшим двенадцати лет (12+); 4) разрешенная детям, достигшим шестнадцати лет (16+); 5) запрещенная для детей (18+). Известны случаи, когда один и тот же текст в разных издательствах был маркирован разными метками возрастного рейтинга. Это может быть связано с особенностями восприятия текста книги и толкования разными экспертами тех или иных формулировок в законе, а также с различиями в художественном оформлении книг, выпускаемых разными издательствами. Несмотря на возможные разночтения, в целом система возрастного рейтинга информационной продукции весьма однозначно рекомендует текст определенной возрастной категории читателей. Метрики удобочитаемости появились в первой половине XX в. как инструмент для оценки уровня сложности учебных текстов в образовательных учреждениях [11]. Как правило, данные метрики используют количественные характеристики текста, такие как средняя длина предложений, среднее количество слов в предложениях и им подобные. Существует достаточно большое количество метрик удобочитаемости, наиболее распространенных среди них являются: Возрастной рейтинг книжной продукции и уровень удобочитаемости 133 - Индекс Флеша-Кинкейда [12], основная идея которого состоит в прямой зависимости между длиной предложений и слов в тексте и сложностью текста. Оригинальная метрика Флеша-Кинкейда выглядит следующим образом: Rf = 206,835 - 1,015 х ASL - 84,6 х ASW, (1) где ASL - средняя длина предложений, ASW- среднее количество слогов в словах. - Индекс Колмана-Лиау [13], использующий среднее количество букв в словах и среднее количество слов в предложениях: Rc = 0,0588 х L - 0,296 х S- 15,8, (2) где L - среднее количество букв на 100 слов, S - среднее количество предложений на 100 слов. - Автоматический индекс удобочитаемости (ARZ-индекс) [14], основанный на подсчете количества символов, слов и предложений в тексте. Результатом применения данной метрики является число, характеризующее номер класса в американской системе образования, ученикам которого будет понятен текст: „ „ characters „ words Ra = 4,71х-+ 0,5 х--21,43 , (3) words sentences где characters - количество буквенных символов и цифр, words - количество слов, sentences - количество предложений. - Индекс SMOG [15], идея которого заключается в том, что сложность текста в основном обусловлена сложностью используемых в нем слов. При этом «сложными» считаются слова, состоящие более чем из трех слогов: R = 1,043 х 30 х polysyllable + 3,1291, (4) sentences где polysyllable - количество сложных слов, sentences - количество предложений. - Формула Дейла-Челла [16] использует словарь лексических минимумов, состоящий из наиболее употребительных слов. Если слово не является словарным, оно считается сложным для восприятия: R„ = 0,1579 х d^ х 100 + 0,0496 х words , , (5) words sentences где difficult - количество сложных для восприятия слов, words - количество слов, sentences - количество предложений. А.В. Глазкова 134 Кроме упомянутых метрик, широко применяемыми подходами к определению удобочитаемости текста являются формулы Фарра-Дженкинса-Паттерсона, Фрая, Лоджа, индекс туманности (фог-индекс) и др. В зависимости от выбранной метрики результатом вычисления является рекомендуемый уровень образования читателя или количественное выражение степени сложности текста. Особенностью перечисленных метрик удобочитаемости является их ориентированность на английский язык, что обусловлено специфическими количественными характеристиками английского языка, учитывавшимися при их создании. При этом тексты, написанные на других языках, могут иметь другие количественные показатели. Так, в частности, в русском языке предложения в среднем содержат меньше слов, чем в английском, но при этом средняя длина русских слов превышает длину английских. Исходя из этого, коэффициенты в формулах для расчета удобочитаемости нуждаются в коррекции при использовании для текстов на каждом конкретном языке. Существует ряд работ российских ученых, посвященных адаптации метрик удобочитаемости для русского языка. Так, в работе И. Оборне-вой [17] предложены коэффициенты для формулы Флеша-Кинкейда, позволяющие более корректно использовать ее для оценки русскоязычных текстов. В рамках проекта [18] выполнена адаптация пяти распространенных формул удобочитаемости (индексов Флеша-Кин-кейда, Колмана-Лиау, SMOG, ARI-индекса и формулы Дейла-Челла) и реализован программный интерфейс приложения для автоматического анализа сложности текстов. В работе М. Солнышкиной и соавт. [19] предложен подход к определению сложности русских текстов на основе ряда синтаксических, лексических и количественных показателей. Эксперименты проводились на коллекции текстов, собранных в электронных библиотеках. В качестве материала для исследования послужили фрагменты текстов книг, имеющих маркировку в соответствии с российской системой возрастной классификации информационной продукции. Поскольку в соответствии с требованиями российского законодательства в сфере интеллектуальной собственности полные тексты книг в большинстве случаев не размещаются в свободном доступе в сети Интернет, в работе использовались ознакомительные фрагменты, которые публикуются в форме свободного контента. Как правило, размер ознакомительного фрагмента составляет 10% от пол- Возрастной рейтинг книжной продукции и уровень удобочитаемости 135 ного текста книги, что делает возможным расчет показателей удобочитаемости для рассматриваемых текстов. В табл. 1 представлены основные характеристики текстовой коллекции, оцениваемой в данной работе. Суммарный объем коллекции составил 5 516 текстов. Таблица 1 Параметры коллекции текстов Категория Количество текстов Средняя длина текстов (среднее количество слов) Среднее количество предложений 0+ 50 1 878,32 150,05 6+ 1 242 5 994,88 465,22 12+ 1 544 15 035,41 1 146,89 16+ 1 963 16 944,93 1 269,23 18+ 717 17 529,81 1 353,3 Категория 0+ представлена в коллекции текстами жанров «Детская проза» и «Детская поэзия». Категория 6+ - жанрами «Детская проза», «Классическая проза», «Современная проза», а также различными фантастическими, детективными и приключенческими жанрами («Детская фантастика», «Историческая фантастика», «Детективная фантастика», «Детские приключения», «Приключения», «Классические детективы» и т.д.). Жанровое разнообразие текстов категорий 12+ и 16+ примерно соответствует списку жанров текстов категории 6+. Дополнительно стоит отметить появление жанров «Зарубежные любовные романы» (категория 12+) и «Остросюжетные любовные романы» (категория 16+). В число текстов категории 18+ попали ознакомительные фрагменты произведений жанров «Классическая проза», «Современная проза», фантастических, детективных и приключенческих жанров, различных жанров, включающих в себя любовные романы, в том числе жанра «Эротическая литература». Стоит отметить, что ряд произведений детской прозы также относится к категории 18+ (в частности, некоторые подростковые романы). На материалах собранной коллекции текстов проведена оценка удобочитаемости книг, адресованных различным категориям читателей. Показатели удобочитаемости рассчитывались по пяти метрикам: индексу Флеша-Кинкейда, индексу Колмана-Лиау, Л^/-индексу, индексу SMOG и формуле Дейла-Челла. В работе использовались адаптация данных метрик для русского языка и программный интерфейс приложения, представленные в рамках проекта [18], а также язык про- А.В. Глазкова 136 граммирования Python 3.6. Результатом оценки текста является уровень образования, необходимый для его понимания, измеренный в годах обучения от 1 до бесконечности. В табл. 2 представлены показатели оценки удобочитаемости. Как видно из данных таблицы, значения различных метрик удобочитаемости показывают высокую взаимную корреляцию (близкую к 1; рис. 1). Подобная статистическая взаимосвязь между значениями метрик объясняется использованием зависимых количественных признаков для их расчета (например, длины слова в символах и слогах). Таблица 2 Рис. 1. Матрица корреляций между значениями разных индексов удобочитаемости Оценка удобочитаемости текстов Метрика 0+ 6+ 12+ 16+ 18+ Индекс Флеша-Кинкейда 4,81 (2,38) 6,53 (3,73) 11 (5,2) 10,99 (6,48) 7,15 (2,41) Индекс Колмана-Лиау 5,12 (2,48) 6,37 (3,64) 10,65 (4,53) 10,7 (5,65) 7,29 (2,12) ARZ-индекс 5,14 (2,53) 6,6 (3,73) 11,24 (5,14) 11,29 (6,32) 7,3 (23) Индекс SMOG 4,58 (1,47) 6,55 (2,5) 9,68 (3,42) 10,02 (4,75) 7,61 (1,81) Формула Дейла-Челла 4,15 (1,16) 5,97 (2,62) 9,55 (3,98) 9,6 (5,25) 6,79 (1,62) Возрастной рейтинг книжной продукции и уровень удобочитаемости 137 В каждой ячейке табл. 2 расположено среднее значение соответствующей метрики для текстов возрастной категории, указанной в названии столбца. В скобках после среднего значения метрики указано среднеквадратическое отклонение о, характеризующее меру разброса данного показателя удобочитаемости для всех текстов категории относительно среднего значения: ст = К*. - M )2 n -1 (6) где xi - значение метрики для i-го текста из возрастной категории, M -среднее значение метрики для возрастной категории, n - количество текстов, относящихся к возрастной категории. Полученные оценки удобочитаемости демонстрируют постепенное увеличение сложности текстов, начиная от категории 0+ и заканчивая категорией 16+ (рис. 2). При этом значительное увеличение сложности заметно при переходе от категории 6+ к категории 12+, т.е. между книгами, относимыми экспертами к литературе, подходящей для детей, и произведениями, запрещенными для детей младше 12 лет и рекомендованными подросткам. Рис. 2. Значения индексов удобочитаемости для текстов разных возрастных категорий Интересно отметить, что тексты книг, относящихся к категории 18+, имеют довольно низкие показатели сложности в соответствии с оцениваемыми величинами. Это говорит о том, что данные тексты, А.В. Глазкова 138 согласно значениям метрик удобочитаемости, требуют более низкого уровня образования читателя, чем тексты из категорий 12+ и 16+. Вероятно, это связано с жанровыми особенностями литературы, запрещенной для детей. Основываясь на результатах экспериментов, в большинстве случаев можно говорить о прямой зависимости между необходимым для понимания текста уровнем образования читателя, определенным с помощью метрик удобочитаемости, и возрастным рейтингом, присвоенным книге в соответствии с экспертной оценкой безопасности содержащейся в ней информации. Тексты, отнесенные экспертами к категории 18+, в среднем имеют более низкие оценки, что говорит о их более высокой удобочитаемости в сравнении с категориями 12+ и 16+. Полученные результаты в целом подтверждают гипотезу о взаимосвязи возрастного рейтинга текста и показателей его удобочитаемости. Кроме того, полученные величины показывают, что ориентация книги на определенную возрастную категорию читателей одновременно отображается в различных аспектах оценки сложности текста. Таким образом, можно сделать вывод о том, что экспертные метки книги в соответствии с системой возрастной классификации текстовой информационной продукции в основном отражают целевую возрастную аудиторию данной книги. Также результаты, полученные в работе, позволяют предположить, что значения метрик удобочитаемости могут быть использованы в качестве признаков в задаче автоматической классификации текстов по их возрастной аудитории и других сходных задачах информационного поиска.

Ключевые слова

компьютерная лингвистика, возрастная классификация информационной продукции, удобочитаемость, сложность текста, адресат художественного текста, русский язык, фактор адресата, корпус текстов, возрастные ограничения

Авторы

ФИООрганизацияДополнительноE-mail
Глазкова Анна ВалерьевнаТюменский государственный университеткандидат технических наук, старший преподаватель кафедры программного обеспеченияanna_glazkova@yahoo.com
Всего: 1

Ссылки

Глазкова А.В. Подход к проведению классификации текстов на основании возрастных групп их адресатов // Труды СПИИРАН. 2017. № 3 (52). С. 51-69.
Nord C. What do We Know About the Target-Text Receiver? // Investigating Translation: Selected papers from the 4th International Congress on Translation. Barcelona : Benjamins Translation Library, 2000. P. 195-212.
Стернин И.А. Фактор адресата в речевом воздействии // Вестник Воронежского государственного университета. Сер. Филология. Журналистика. 2004. № 1. С. 171-178.
Apfelthaler M. Stepping into others’ shoes: a cognitive perspective on target audience orientation in written translation // Monografias de Traducci on e Interpretacio. Valensia, 2014. P. 303-330. Возрастной рейтинг книжной продукции и уровень удобочитаемости 139
Сабурова Н.А., Кириченко А.В. Фактор адресата в детской дидактической поэзии // Язык и культура: вопросы современной филологии и методики обучения языкам в вузе : материалы науч.-практ. конф. Хабаровск : Тихоокеанский гос. ун-т, 2015. С. 261-270.
Ефремова Н.В. Фактор адресата - обязательный вектор дискурсивной деятельности адресанта медицинского текста // Филологические науки. Вопросы теории и практики. 2015. № 5-2 (47). С. 56-58.
Потапова Н.В., Каменева В.А. Возраст адресата - фактор, определяющий структурные, языковые и темпоральные особенности организации новостных гипотекстов // Политическая лингвистика. 2018. № 4 (70). С. 130-136.
Шабанова В.В. Концептуальная организация медиатекста и фактор адресата (на материале текстов национальной тематики) // Политический дискурс в парадигме научных исследований: материалы международной научно-практической конференции. Тюмень : ВекторБук, 2016. С. 92-98.
Щепилова А.В., Сулейманова О.А., Фомина М.А., Водяницкая А.А. Учет фактора адресата в современном образовательном дискурсе // Вестник Московского городского педагогического университета. Сер. Филология. Теория языка. Языковое образование. 2017. № 3 (27). С. 68-82.
О защите детей от информации, причиняющей вред их здоровью и развитию : федеральный закон № 436-ФЗ : [принят Гос. Думой 21.12.2010; одобрен Советом Федерации 24.12.2010]. URL: https://base.garant.ru/12181695/
Collins-Thompson K. Computational assessment of text readability: a survey of current and future research // ITL-International Journal of Applied Linguistics. 2014. Т 165, № 2. P 97-135.
Kincaid J.P. et al. Derivation of new readability formulas (automated readability index, fog count and Flesch reading ease formula) for navy enlisted personnel // Naval Technical Training Command Millington TN Research Branch. 1975. 49 p.
Coleman M., Liau T.L. A computer readability formula designed for machine scoring // Journal of Applied Psychology. 1975. № 2. P. 283.
Senter R.J., Smith E.A. Automated readability index. AMRL TR. 1967. 14 p.
McLaughlin G.H. SMOG grading-a new readability formula // Journal of reading. 1969. № 8. P 639-646.
Dale E., Chall J.S. A formula for predicting readability: Instructions // Educational Research Bulletin. 1948. Vol. 27. P 37-54.
Оборнева И.В. Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) : автореф. дис.. канд. пед. наук. М., 2006. 18 с.
Оценка читабельности текста. URL: http://readability.io/ (дата обращения: 18.09.2020).
Solnyshkina M., Ivanov V., Solovyev V. Readability Formula for Russian Texts: a Modified Version // Mexican International Conference on Artificial Intelligence. Cham : Springer, 2018. С. 132-145.
 Возрастной рейтинг книжной продукции и уровень удобочитаемости: о взаимосвязи двух показателей | Текст. Книга. Книгоиздание. 2021. № 26. DOI: 10.17223/23062061/26/8

Возрастной рейтинг книжной продукции и уровень удобочитаемости: о взаимосвязи двух показателей | Текст. Книга. Книгоиздание. 2021. № 26. DOI: 10.17223/23062061/26/8