Подход к преобразованию обучающей выборки для повышения качества генерации заголовков научных текстов
Предлагается подход к улучшению качества генерации заголовков, основанный на ранжировании примеров обучающей выборки в соответствии со значениями метрики ROUGE-1, вычисленных для текстов и заголовков, фильтрации данных и генерации искусственных обучающих примеров. Предложенный подход, протестированный на примере нейросетевой модели BART, показал улучшение качества генерации заголовков на материале двух англоязычных корпусов. Автор заявляет об отсутствии конфликта интересов.
Approach to transforming training data for improving the title generation performance for scientific texts.pdf Целью автоматического реферирования является создание (генерация) более краткой версии исходного текста [1]. Методы автоматического реферирования в целом подразделяются на извлекающие (extractive) и генерирующие (abstractive). Первые строят реферат на основании алгоритмов отбора наиболее важных частей исходного текста [2-3], в то время как вторые обобщают содержание оригинального текста, создавая совершенно новый документ [4-5]. Ввиду сложности создания качественного текста на естественном языке при помощи компьютерных средств, извлекающие методы в настоящее время имеют более широкое практическое применение. Однако в последние годы наблюдается рост интереса к генерирующим методам, потенциально имеющим более широкий круг возможностей и вариантов использования [6]. Оценка качества алгоритмов автоматического реферирования выполняется с помощью специально разработанных метрик схожести текстов. Одной из распространенных метрик является ROUGE-A (Recall-Oriented Understudy for Gisting Evaluation), которая оценивает схожесть как долю пересекающихся n-грамм двух текстов [7]. Соответственно, ROUGE-1 измеряет соответствие униграмм (отдельных слов или токенов), ROUGE-2 - биграмм (пар слов или токенов) и т.д. Другими распространенными метриками качества автоматического реферирования являются BERTScore [8], выражающая сходство текстов на основе их контекстуализированных представлений, BLEU [9], определяющая меру качества реферирования одновременно для нескольких размеров n-грамм и др. Лучшие результаты в области генерирующего автоматического реферирования в последние годы демонстрируют модели, основанные на применении нейросетевой архитектуры Transformer. В частности, к ним относятся BART [10], Pegasus [11], T5 [12], BertSumAbs [13]. Генерация заголовков является важной задачей автоматического реферирования. Автоматическая генерация заголовков позволяет сократить временные затраты на написание текстов и обеспечить создание заголовков, объективно отражающих содержание текста [14]. К настоящему моменту предложен ряд подходов к автоматическому созданию заголовков, эти работы выполнены в основном на материале новостных текстов [15-17]. Тем не менее исследование методологии генерации заголовков для других жанров также представляется актуальной задачей. В частности, инструменты генерации заголовков научных текстов, широко представленных в многочисленных электронных библиотеках, способны значительно ускорить систематизацию материалов научных электронных ресурсов. Кроме того, исследования подтвердили, что качество заголовка научного текста влияет на видимость работы научному сообществу и количество цитирований [18-19]. 100 Глазкова А.В. Подход к преобразованию обучающей выборки Заголовок не всегда точно отражает содержание текста. Так, в работе [20] отмечено, что новостные заголовки зачастую на соответствуют исходным текстам с точки зрения пересечения «-грамм. Это затрудняет применение алгоритмов машинного обучения, которым для создания качественной модели необходима репрезентативная обучающая выборка. Авторы предложили использовать нейросетевые модели, обученные для автоматического определения логической связи между текстами (Natural Language Inference; NLI), чтобы очистить обучающую выборку от новостных заголовков, не являющихся логическими следствиями исходного текста, и тем самым повысить качество моделей автоматического реферирования. В отличие от заголовков текстов новостных порталов, заголовки научных статей являются более абстрактными и реже представляют собой пересказ содержания текста в рамках одного предложения [21-22]. Авторы работ [23-24] подчеркивают, что многие заголовки научных статей информируют о смысле научного текста, уведенном в подтекст, и понимаются ретроспективно, после прочтения текстов. Таким образом, применение моделей NLI для аналогичной операции над научными текстами видится менее перспективным. В данной работе предлагается подход к повышению качества генерации заголовков для научных текстов, основанный на преобразованиях обучающих данных. Автор оценивает качество заголовков из обучающей выборки с помощью показателей полноты (recall) метрики ROUGE-1, рассчитанной для текстов заголовков и аннотаций научных статей. Полученные результаты показывают, какая доля слов заголовка получена из текста аннотации, т.е. насколько заголовок соответствует ее содержанию. Заголовки, имеющие низкий уровень соответствия, могут быть отсеяны (отфильтрованы) при обучении модели генерации заголовка. Так, «шумные» данные исключаются из процесса обучения. Также автор экспериментирует с генерацией искусственных обучающих примеров для отсеянных текстов. Результаты сравниваются с результатами модели, обученной на полном корпусе текстов (без фильтрации), и модели, обученной на заголовках, отобранных с помощью модели NLI. Эксперименты проведены на материале англоязычных корпусов с помощью модели BART для генерирующего реферирования текстов. 1. Текстовые корпуса Исследование проводилось на материале двух текстовых корпусов, содержащих заголовки научных статей и их аннотации. Корпус SciTLDR [25] включает в себя фрагменты англоязычных научных статей компьютерной и информационной тематики, собранные на открытой платформе OpenReview.org. Корпус arXiv представляет собой фрагмент датасета arXiv1, размещенного на платформе Kaggle. Он включает в себя фрагменты англоязычных препринтов, опубликованных в электронной библиотеке arXiv.org, относящиеся к следующим тематикам: статистика, биология, физика, экономика, компьютерные науки, математика. В качестве источника для генерации заголовков использованы тексты аннотаций научных статей. Основные статистические характеристики корпусов представлены в табл. 1. Таблица 1 Характеристики текстовых корпусов Характеристика SciTLDR arXiv Общий объем (количество пар заголовок-аннотация) 3 229 20 000 Объем обучающей выборки 1 992 16 000 Объем валидационной выборки 619 2 000 Объем тестовой выборки 618 2 000 Средняя длина аннотации (в словах) 172,38 130,69 Средняя длина заголовка (в словах) 8,74 10,14 Количество уникальных слов (в аннотациях) 6 997 15 200 Количество уникальных слов (в заголовках) 1 597 4 529 Доля новых слов (*) 20,34 22,01 1 https://www.kaggle.com/ComeU-University/arxiv 101 Информатика и программирование / Informatics and programming Для расчета доли новых слов (*) использовалась следующая формула: (i) обо- New words = - W \\ Wa\\ где Wt и Wa - множества уникальных слов для заголовков и аннотаций соответственно. В (1) значает мощность множества, знак \\ обозначает разность множеств. 2. Подход к преобразованию обучающей выборки Предлагаемый подход к фильтрации и генерации обучающих примеров состоит в применении следующих шагов. 1. Определить значения показателей полноты метрики ROUGE-1, вычисленной для пар заголовков и аннотаций из обучающей выборки D. Значение метрики ROUGE-1 относительно задачи автоматического реферирования характеризует степень сходства униграмм сгенерированного текста (в данном случае заголовка) и исходного текста (аннотации) и вычисляется по принципу нахождения U-меры: 2 х ROUGE-1 ( recall) х ROUGE-1 ( precision ) >1 =--2--1---1. ROUGE-1 = - (2) ROUGE-1 ( recall) + ROUGE-1 ( precision ) При этом значение показателей полноты (recall) метрики показывает, какая доля слов, присутствующих в заголовке, присутствует в тексте аннотации. количество совпадающих униграмм для заголовка и текста ^ . (3) количество униграмм заголовка Значение показателей точности (precision) метрики характеризует долю слов текста, присутствующих в заголовке. количество совпадающих униграмм для заголовка и текста ROUGE-1 ( recall) = ROUGE-1 (p recision ) = - (4) количество униграмм текста 2. Ранжировать примеры обучающей выборки в соответствии с попарными значениями ROUGE-1 (recall). 3. Отсеять примеры, имеющие значения ROUGE-1 (recall), меньшие порогового коэффициента k, т.е. такие пары аннотаций и заголовков, в которых заголовок характеризуется наименьшим содержанием слов, присутствующих в аннотации. Значение k находится в диапазоне [0; 1). 4. Обучить модель на фильтрованной обучающей выборке Dfiltered. С помощью обученной модели сгенерировать новые заголовки для примеров, которые были отфильтрованы, получив выборку Dgenerated размера, соответствующего размеру выборки D. 3. Эксперименты и результаты 3.1. Модель В качестве модели генерации заголовков использовалась BART-base, вариация модели BART для автоматического реферирования, комбинирующей в себе энкодер BERT (Bidirectional Encoder Representations from Transformers) [26] и декодер GPT-2 [27]. Модель имеет следующие характеристики: количество слоев - 12 (6 слоев энкодера и 6 слоев декодера), размер скрытого слоя - 768, количество параметров - 139 млн, стратегия декодирования - лучевой поиск (количество шагов - 5), кросс-энтропийная функция потерь. В рамках экспериментов каждая модель была обучена (fine-tuned) на обучающей выборке в течение 3 эпох с размером батча, равным 4, и максимальной длиной входной последовательности, равной 256 токенам. После каждой итерации обучения проводилась проверка модели на валидационной 102 Глазкова А.В. Подход к преобразованию обучающей выборки выборке. Лучшая модель оценивалась на тестовой выборке. Для реализации использовались библиотеки PyTorch [28] и Transformers [29]. 3.2. Преобразования обучающей выборки На начальном этапе проведения экспериментов для текстов обучающих выборок обоих корпусов были вычислены значения ROUGE-1 (recall) (п. 2, шаг 1). Как видно из данных, проиллюстрированных рис. 1, большая часть примеров в обучающих выборках обоих корпусов имеет значение метрики, большее либо равное 0,8 (более 64% примеров из корпуса SciTLDR и более 70% из arXiv). Превалирующей категорией при этом являются пары аннотаций и заголовков, для которых значение метрики равно или превышает 0,9 (40,4% и 47,7% соответственно). Это значит, что в большинстве случаев заголовок научного текста преимущественно состоит из слов, входящих в состав аннотации. Однако в случае обоих корпусов существует значительное количество примеров, значение ROUGE-1 (recall) для которых не превышает 0,5 (4,7% для SciTLDR и 5,2% для arXiv). Примеры с низким значением метрики можно рассматривать как «шумные» и попытаться улучшить качество модели автоматического реферирования, исключив их из процесса обучения. Рис. 1. Распределение значений показателей полноты ROUGE-1 для примеров обучающей выборки. Fig. 1. Distribution of recall-oriented ROUGE-1 values for the training set После ранжирования примеров обучающей выборки в соответствии со значениями ROUGE-1 (recall) (п. 2, шаг 2) для отсеивания обучающих примеров были выбраны значения к е [0,5; 1) с шагом 0,1 (п. 2, шаг 3). Меньшие значения к не оценивались, поскольку для используемых корпусов количество примеров, отсеиваемых при к < 0,4 достаточно мало (менее 3% от размера D). Размеры фильтрованной выборки Djutered для двух корпусов и различных значений к представлены в табл. 2. Т аблица 2 Размеры фильтрованной выборки Djutered (в скобках указана доля от размера исходной выборки) к SciTLDR arXiv 0,5 1 901 (95,4%) 15 164 (94,8%) 0,6 1 808 (90,8%) 14 292 (89,3%) 0,7 1 644 (82,5%) 13 267 (82,9%) 0,8 1 284 (64,5%) 11 261 (70,4%) 0,9 805 (40,4%) 7 636 (47,7%) Фильтрованная выборка Djutered использовалась для обучения модели генерации заголовков (п. 2, шаг 4). Далее с помощью обученной модели были сгенерированы искусственные заголовки для отсеянных примеров (п. 2, шаг 5). Была сформирована обучающая выборка Dgenerated, состоящая из примеров, входящих в выборку Djutered, и искусственных примеров. 103 Информатика и программирование / Informatics and programming 3.4. Результаты В табл. 3 сравниваются результаты моделей, обученных на разных типах обучающих выборок: 1) обучение на исходной выборке (D), базовая модель; 2) обучение на фильтрованной обучающей выборке (Djiitered) при различных значениях k; 3) обучение на выборке, состоящей из отфильтрованных и искусственных примеров (Dgenerated) при различных значениях k. Полученные результаты сравнены с результатами моделей, обученных на выборках, фильтрованных с помощью модели NLI. По аналогии с [20] в данной работе использовалась модель RoBERTa-large-mnli [30] для определения логической связи между двумя текстами, обученная на корпусе MultiNLI [31]. Для формирования фильтрованной выборки DNLI-fiitered были отсеяны примеры, в которых тексты заголовков не являются логически связанными с текстами аннотаций. Размер выборки DNLi-fiitered составил 1 047 текстов для SciTLDR и 8 705 текстов для arXiv. Далее по аналогии с Dgenerated была сформирована выборка DNLi-generated, включающая в себя фильтрованные и искусственные примеры. Сравнение качества генерации заголовков проводится с помощью четырех метрик: ROUGE-1, ROUGE-2, ROUGE-L (ROUGE-N, рассчитанная для наибольшей общей последовательности), BERTScore. Лучшие значения с точки зрения каждой метрики выделены полужирным шрифтом. Результаты, % Таблица 3 Корпус Обучающая выборка ROUGE-1 ROUGE-2 ROUGE-L BERTScore SciTLDR D 45,3 26,81 41,81 88,94 Djiitered (k = 0,5) 45,33 26,7 41,8 88,93 Djiitered (k = 0,6) 45,18 26,56 41,66 88,87 Djiitered (k = 0,7) 44,6 26,23 41,05 88,85 Djiitered (k = 0,8) 44,53 26,27 41,15 88,95 Djiitered (k = 0,9) 43,7 24,41 39,49 88,72 DNLI-jiitered 43,27 24,56 39,51 88,75 Dgenerated (k = 0,5) 45,25 26,8 41,78 88,92 Dgenerated (k = 0,6) 45,14 26,8 41,08 88,8 Dgenerated (k = 0,7) 45,36 26,79 42,2 88,97 Dgenerated (k = 0,8) 45,32 26,87 42,11 88,96 Dgenerated (k = 0,9) 44,01 25,17 39,56 88,83 DNLI-generated 44,05 25,44 40,87 88,77 arXiv D 42,35 23,4 38,3 87,83 Djiitered (k = 0,5) 42,3 23,42 38,3 87,82 Djiitered (k = 0,6) 42,85 24,13 38,41 87,88 Djiitered (k = 0,7) 43,1 24,25 39,19 87,91 Djiitered (k = 0,8) 43,14 24,22 39,24 87,94 Djiitered (k = 0,9) 42,14 22,88 37,99 87,78 DNLI-jiitered 42,25 23,08 38,03 87,81 Dgenerated (k = 0,5) 42,44 23,7 38,56 87,84 Dgenerated (k = 0,6) 42,57 23,88 39 87,84 Dgenerated (k = 0,7) 43,4 24,32 39,22 87,88 Dgenerated (k = 0,8) 43,44 24,31 39,25 87,95 Dgenerated (k = 0,9) 42,11 22,93 38,01 87,77 DNLI-generated 42,3 22,9 38,03 87,79 Обучение на выборке Djiitered для корпуса arXiv показало улучшение результатов в сравнении с базовой моделью при значениях k от 0,6 до 0,8. В остальных случаях качество сопоставимо с качеством базовой модели. Для SciTLDR качество постепенно снижается с уменьшением размера Djiitered. 104 Глазкова А.В. Подход к преобразованию обучающей выборки Обучение на выборке Dgenerated в большинстве случаев улучшило результаты на корпусе arXiv (лучшие результаты получены при k = 0,7 и k = 0,8). Для SciTLDR улучшение заметно также при k = 0,7 и k = 0,8. При этом при k = 0,9 качество всех моделей резко ухудшается. Модели, использующие фильтрацию данных с помощью NLI, не демонстрируют улучшения качества в сравнении с базовой моделью. Это подтверждает гипотезу о неэффективности такого подхода для научных текстов. Выявленные различия в результатах на двух корпусах обусловлены, вероятно, меньшим размером корпуса SciTLDR. Заключение В работе предложен подход к повышению качества генерации заголовков для научных текстов, использующий фильтрацию обучающей выборки на основе оценки показателей полноты метрики ROUGE-1 и генерации искусственных примеров. Тестирование подхода на материале двух текстовых корпусов показало его результативность и позволило выявить наиболее предпочтительные значения порогового коэффициента. Полученные результаты могут быть применены в системах автоматического реферирования и электронных научных библиотеках. Путями дальнейшего развития данного исследования являются, с одной стороны, автоматизация определения порогового коэффициента и, с другой стороны, тестирование предложенного подхода с помощью других моделей автоматического реферирования и на других корпусах (в том числе русскоязычных).
Ключевые слова
обработка естественного языка,
автоматическое реферирование,
BART,
анализ научных текстов,
генерация заголовковАвторы
Глазкова Анна Валерьевна | Тюменский государственный университет | кандидат технических наук, доцент кафедры программного обеспечения Института математики и компьютерных наук | a.v.glazkova@utmn.ru |
Всего: 1
Ссылки
El-Kassas W. S. et al. Automatic text summarization: a comprehensive survey // Expert Systems with Applications. 2021. V. 165. Art. 113679.
Nallapati R., Zhai F., Zhou B. Summarunner: A recurrent neural network based sequence model for extractive summarization of documents // Thirty-First AAAI Conference on Artificial Intelligence. 2017. P. 2101-2110.
Chen J., Zhuge H. Extractive summarization of documents with images based on multi-modal RNN // Future Generation Computer Systems. 2019. V. 99. P. 186-196.
Song S., Huang H., Ruan T. Abstractive text summarization using LSTM-CNN based deep learning // Multimedia Tools and Applications. 2019. V. 78 (1). P. 857-875.
Hanunggul P.M., Suyanto S. The impact of local attention in LSTM for abstractive text summarization // International Seminar on Research of Information Technology and Intelligent Systems (ISRITI). 2019. P. 54-57.
Allahyari M. et al. Text Summarization Techniques: a Brief Survey // International Journal of Advanced Computer Science and Applications (IJACSA). 2017. V. 8 (10). P. 397-405.
Lin C.Y. Rouge: A package for automatic evaluation of summaries // Text summarization branches out. Barcelona, 2004. P. 74-81.
Zhang T. et al. BERTScore: Evaluating Text Generation with BERT // International Conference on Learning Representations. 2020. URL: https://arxiv.org/pdf/1904.09675v1.pdf
Papineni K. et al. BLEU: a method for automatic evaluation of machine translation // Proc. of the 40th annual meeting of the Association for Computational Linguistics. 2002. P. 311-318.
Lewis M. et al. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension // Proc. of the 58th Annual Meeting of the Association for Computational Linguistics. 2020. P. 7871-7880.
Zhang J. et al. Pegasus: Pre-training with extracted gap-sentences for abstractive summarization // International Conference on Machine Learning. 2020. P. 11328-11339.
Raffel C. et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer // Journal of Machine Learning Research. 2020. V. 21. P. 1-67.
Liu Y., Lapata M. Text Summarization with Pretrained Encoders // Proc. of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. P. 3730-3740.
Shen S.Q. et al. Recent advances on neural headline generation // Journal of Computer Science and Technology. 2017. V. 32 (4). P. 768-784.
Zhang R. et al. Question headline generation for news articles // Proc. of the 27th ACM international conference on information and knowledge management. 2018. P. 617-626.
Gavrilov D., Kalaidin P., Malykh V. Self-attentive model for headline generation // European Conference on Information Retrieval. 2019. P. 87-93.
Bukhtiyarov A., Gusev I. Advances of Transformer-Based Models for News Headline Generation // Conference on Artificial Intelligence and Natural Language. 2020. P. 54-61.
Putra J.W.G., Khodra M.L. Automatic title generation in scientific articles for authorship assistance: a summarization approach // Journal of ICT Research and Applications. 2017. № 11 (3). P. 253-267.
Fox C.W., Bums C.S. The relationship between manuscript title structure and success: editorial decisions and citation performance for an ecological journal // Ecology and Evolution. 2015. № 5 (10). P. 1970-1980.
Matsumaru K., Takase S., Okazaki N. Improving Truthfulness of Headline Generation // Proc. of the 58th Annual Meeting of the Association for Computational Linguistics. 2020. P. 1335-1346.
Harmon J.E., Gross A.G. The structure of scientific titles // Journal of Technical Writing and Communication. 2009. V. 39 (4). P. 455-465.
Soler V. Writing titles in science: An exploratory study // English for specific purposes. 2007. V. 26 (1). P. 90-102.
Суворова С.А. Лексическая детерминированность заголовков научных статей // Ученые записки Крымского федерального университета им. В.И. Вернадского. Филологические науки. 2011. Т. 24, № 1-1. C. 163-166.
Филоненко Т.А. Аттрактивные заголовки в научной речи // Известия Самарского научного центра Российской академии наук. Социальные, гуманитарные, медико-биологические науки. 2008. Т. 10, № 6-2. С. 290-296.
Cachola I. et al. TLDR: Extreme Summarization of Scientific Documents // Proc. of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings. 2020. P. 4766-4777.
Devlin J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proc. of NAACL-HLT. 2019. P. 4171-4186.
Radford A. et al. Language models are unsupervised multitask learners // OpenAI blog. 2019. V. 1 (8). P. 9.
Paszke A. et al. Pytorch: An imperative style, high-performance deep learning library // Advances in Neural Information Processing Systems. 2019. V. 32. P. 8026-8037.
Wolf T. et al. Transformers: State-of-the-art natural language processing // Proc. of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2020. P. 38-45.
Liu Y. et al. Roberta: a robustly optimized bert pretraining approach // arXiv preprint arXiv:1907.11692. 2019.
Williams A., Nangia N., Bowman S. A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference // Proc. of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2018. V. 1: Long Papers. P. 1112-1122.