Атрибутивные коллокации в золотом стандарте сочетаемости русского языка и их представление в словарях и корпусах текстов | Вопросы лексикографии. 2021. № 21. DOI: 10.17223/22274200/21/2

Атрибутивные коллокации в золотом стандарте сочетаемости русского языка и их представление в словарях и корпусах текстов

Рассматривается явление ограниченной сочетаемости и ее представление в словарях и корпусах русского языка. Приведен обзор лексикографических проектов и проанализировано, как описаны устойчивые словосочетания в толковых и специализированных словарях, насколько их данные совпадают между собой. Также обсуждаются следующие вопросы: в какой степени словарные коллокации отражены в корпусах текстов (НКРЯ и ruTenTen), и есть ли зависимость между количеством словарей, в которых зафиксировано словосочетание, и его частотностью.

Attributive Collocations in the Gold Standard of Russian Collocability and Their Representation in Dictionaries and Corp.pdf Введение Изучению лексической сочетаемости при помощи статистических методов посвящено большое количество работ. В последнее время наблюдается бурное развитие разных подходов для извлечения кол-локаций, главным образом включающих использование данных о совместной встречаемости и лингвистические фильтры. Результаты автоматического извлечения коллокаций представлены списками n-грамм (обычно биграмм), сопровождающимися числовыми коэффициентами, в которых могут быть репрезентированы единицы разной степени устойчивости: фразеологизмы («бить баклуши»), неоднословные единицы («без сомнения»), устойчивые словосочетания («принять решение»), именованные сущности («Красная площадь»). На русскоязычном материале подобные исследования проводились разными авторами (см., например, [1-4]). В последнее время стали использоваться методы машинного обучения применительно к задаче 1 Исследование выполнено за счет гранта Российского научного фонда (проект № 19-78-00091). М.В. Хохлова 34 автоматического выявления словосочетаний [5]. Задача создания списка высокочастотных коллокаций при помощи автоматических методов на основе большого корпуса текстов ставилась в исследовании [6], результаты работы применялись к снятию семантической омонимии. В связи с развитием подобных методов возникают следующие вопросы: 1) каким образом можно проверить автоматически собранные данные и, следовательно, их оценить; 2) как можно оценить сами использованные методы. Соответственно, необходим некоторый золотой стандарт, который можно было бы применить как при проверке самих результатов, так при оценке работоспособности различных алгоритмов. Следовательно, существует потребность в ресурсах, которые содержали бы выверенные данные. При этом недостаточно использовать сведения только из одного источника (более того, вероятно, для русского языка пока не существует единого ресурса, в котором были бы собраны устойчивые словосочетания в большом объеме). Дополнительно упомянем некоторую сложность при использовании бумажных словарей [7], также рядом авторов отмечается несколько непоследовательный характер отбора и представления словарного материала [8, 9]. Проблема отбора словосочетаний является весьма важной в лексикографии, при этом не только для одноязычных словарей, и даже представляет собой «наиболее спорную и уязвимую часть практически каждого двуязычного словаря» [10. С. 61]. В работе [11] авторы указывают на сложность отбора примеров из корпуса, предлагая для данной задачи использовать списки коллокаций. Обзор проектов Информация о сочетаемости может быть представлена в традиционных (печатных, или «бумажных») словарях и в специализированных базах данных. Последние могут по своей сути также являться словарями с дополнительной информацией. Ниже мы остановимся на некоторых проектах, в которых с разной степенью проработанности дана информация о сочетаемости, при этом, безусловно, список ими не ограничивается. Необходимо сделать следующую оговорку: мы в большей степени хотели в него включить те современные проекты, которые или основываются на корпусном материале, или их данные получены при помощи автоматических методов. Тем не менее созда- Атрибутивные коллокации 35 ние полноценного обзора подобных проектов (ресурсов) является отдельной задачей. В основном работы, описывающие сочетаемость с использованием материала электронных корпусов текстов, на протяжении долгого времени затрагивали англоязычный материал. Комбинаторный словарь английского языка [12] был первой попыткой описать сочетаемость с помощью большого количества примеров. В нем описано более 75 тыс. словосочетаний и впервые разграничиваются лексические и грамматические коллокации. К первым относятся сочетания существительных, глаголов, прилагательных и наречий, в то время как вторая группа представлена словосочетаниями с предлогами. Словарь коллокаций «A Dictionary of English ^locations» [13] - это одно из первых лексикографических произведений, при составлении которого использовались методы корпусной лингвистики. В нем перечислены все (по мнению автора) коллокации, встречающиеся в Брауновском корпусе. Также можно отметить словарь “The Pattern Dictionary of English Verbs”, который базируется на методологии Corpus Pattern Analysis, предложенной П. Хэнксом [14], и включает семантикосинтаксические шаблоны глагольного управления с иллюстрациями (словосочетаниями и предложениями). В настоящий момент речь также идет об автоматических словарях коллокаций [15]. Русскоязычная лексикографическая традиция имеет богатую историю, однако существует не так много проектов, посвященных сочетаемости в русском языке и основывающихся на корпусном материале или созданных с использованием автоматических методов. Уникальным проектом является Толково-комбинаторный словарь современного русского языка [16], в котором устойчивая сочетаемость описана при помощи лексических функций. Словарь устойчивых глагольноименных словосочетаний русского языка [17] нацелен на изучающих русский язык и содержит 5 197 словосочетаний с 744 глаголами и 1 345 существительными, большинство из которых биграммы. Словарь коллокаций [18] был первым и единственным проектом, в название которого вынесено понятие, связанное с ограниченной сочетаемостью. В нем приводятся словосочетания для 512 заголовочных единиц, а также имеется англо-русский список ключевых слов. В Словаре сочетаемости слов русского языка [19] представлено 2 500 словарных статей для существительных, глаголов и прилагательных. Авторами делается различие между лексической и семантической сочетаемо- М.В. Хохлова 36 стью, а также дается определение синтаксической сочетаемости как некоторой валентностной рамки. Существует уникальный лексикографический проект под руководством Ю. Д. Апресяна по созданию активного словаря русского языка [20], который включает обширную информацию о сочетаемости, отраженную отдельно в словарных статьях. Материал отлично структурирован и включает сведения о синтаксических актантах, коллокациях и конструкциях. Тем не менее, поскольку словари по-разному отражают сочетаемость и покрывают примеры, так важно рассмотрение отличных друг от друга источников. Если говорить об электронных ресурсах, то для русского языка НКРЯ [21] предоставляет ряд инструментов (n-грамм поиск со статистической оценкой, списки устойчивых слов и словосочетаний, лексические графы), также на его основе были разработаны словари, в которых описана ограниченная сочетаемость. В словарь глагольной сочетаемости абстрактных существительных [22] вошли данные, полученные автоматически из синтаксически размеченного корпуса. В нем перечислена информация о более чем 10 000 словосочетаний следующих моделей: 1) N+V; 2) V+N; 3) V+ADJ+N. Авторами также используется аппарат лексических функций для выражения типовых смыслов. В словаре русской идиоматики [23] собраны сочетания со значением высокой интенсивности (наряду с другими он будет более подробно рассмотрен ниже). Среди остальных ресурсов для русского языка можно назвать FrameBank [24], который включает описание валентностных рамок для глаголов и конструкций. База данных «Collocations, Colligations, Constructions» [25] предоставляет информацию о сочетаемости на основе НКРЯ и корпуса ruWac [26], также упомянем семантический словарь «Lexicograph» [27]. Отдельно следует назвать систему КроссЛексика [9], в которой содержится 1,75 млн словосочетаний. В словаре также отражены семантические связи: синонимия, антонимия, гипонимия и меронимия. В качестве лексикографической основы авторами был рассмотрен ряд двуязычных словарей, а также Словарь русского языка в четырех томах (Малый академический словарь) [28]. Далее будут более подробно рассмотрены некоторые из упомянутых словарных источников. Постановка задачи В настоящий момент нами ведется работа над проектом, целью которого является объединение и представление как традиционно описанных Атрибутивные коллокации 37 устойчивых словосочетаний (в словарях, базах данных), так и тех, что были получены автоматически1. Иными словами, речь идет о создании золотого стандарта сочетаемости, дополненного информацией из корпусов текстов. Словосочетания сопровождаются отсылками к словарям, в которых они были зафиксированы, а также ссылками на корпусные источники. Как справедливо замечают некоторые авторы [23, 29], вопрос о разграничении словосочетаний разной степени связанности (если мы понимаем, что это свойство характерно в разной степени для всех словосочетаний) является до сих пор дискуссионным, поэтому «конкретные случаи идиоматической сочетаемости часто не получают однозначной квалификации, что отражается, в частности, в словарях» [23. С. 2]. Вопрос о том, какие словосочетания включать в компьютерный словарь, также обсуждается, например, в работе [30]. Сочетаемость лексической единицы вслед за [31] нами трактуется предельно широко: под ней понимается способность соединяться с другими единицами в речевой цепочке. Таким образом, нами будут рассматриваться словосочетания разной степени устойчивости. Например, по классификации [32]: идиомы («рабочая лошадь»), фразеологические словосочетания («телячий восторг»), речевые штампы («всего хорошего»), клише («минуту внимания»). Подобный подход к рассмотрению материала нам кажется оправданным, так как разные источники представляют данные разного рода. Соответственно, если бы мы ограничивались только одним типом, это привело бы к тому, что, во-первых, в базу данных попало бы лишь небольшое число примеров, во-вторых, ограниченное количество словосочетаний и их узконаправленность сделали бы подобный ресурс малопригодным для последующего сравнения данных золотого стандарта с автоматически полученными. Далее обсуждается та часть базы данных, в которую вошли материалы шести словарей (пяти печатных и одного электронного). В рамках нашего исследования поставлены две задачи. Во-первых, проанализировать, каким образом представлены устойчивые словосочетания в разных словарях, насколько они совпадают между собой. Во-вторых, исследовать, в какой степени коллокации определенного типа, которые отражены в словарях, могут быть найдены в корпусах текстов и, следовательно, проследить пересечение между «вручную» собранным материалом и современными корпусами. 1 База данных коллокаций доступна онлайн: https://collocations.spbu.ru М.В. Хохлова 38 Методика исследования Первоначальный этап выполнения проекта был связан с отбором соответствующих лексикографических источников и с исследованием того, как в них представлена сочетаемость. В данной статье мы ограничимся атрибутивными двухсловными словосочетаниями, построенными по модели «прилагательное / причастие + существительное» (например, заядлый охотник, каверзный вопрос, крепкая дружба и др.), уделяя внимание их лексической структуре и их представлению в словарях и корпусах текстов. Информация об ограниченной сочетаемости может быть найдена в толковых словарях, при этом не существует единой концепции описания данных, а также сами словосочетания могут быть рассмотрены с разной степенью подробности (просто перечислены в виде списка или при помощи полноценных словарных статей с соответствующим толкованием). Так, знак ромба указывает на устойчивые словосочетания в словаре и фразеологизмы в словаре МАС, в то время как в новом Большом академическом словаре русского языка (БАС) [33] для первых используется он же, а вторые вводятся при помощи знака тильды. По-разному представлены и сами словарные статьи: устойчивые словосочетания могут быть перечислены в зонах речений и цитат или выделяться иным образом. Существуют также иные словари, в которых представлены словосочетания, требующие отдельного описания. Некоторые из рассмотренных словарей были созданы для сту-дентов-иностранцев и являются специализированными - в них более широко и подробно (чем в толковых словарях) показаны устойчивые словосочетания. Таким образом, лексикографические источники, в которых может быть описана лексическая сочетаемость, представлены следующими типами: 1) толковые словари; 2) словари сочетаемости; 3) онлайн-словари и электронные базы данных1. В нашей статье мы рассмотрим 1 В случае русского языка и описания русскоязычного материала редко приходится говорить исключительно об онлайн-словарях (строго говоря, нам известны только словари Lingvo, а также некоторые другие иностранные проекты, ориентированные на языковые пары, включающие русский язык, например Оксфордские словари), так как сложно провести границу между ними и электронными базами данных. Таким образом, речь все же идет о списках словосочетаний, собранных в виде базы данных. Атрибутивные коллокации 39 следующие словари, которые были использованы в качестве источников при создании золотого стандарта атрибутивных словосочетаний: 1. Большой толковый словарь русского языка: А-Я / сост., гл. ред. канд. филол. наук С.А. Кузнецов. СПб. : Норинт, 1998. (БТС) [34]. 2. Словарь русского языка : в 4 т. / под ред. А.П. Евгеньевой. 4-е изд., стер. М. : Рус. яз., 1999. (МАС) [28]. 3. Борисова Е.Г. Слово в тексте. Словарь коллокаций (устойчивых сочетаний) русского языка с англо-русским словарем ключевых слов. М. : Филология, 1995 [18]. 4. Регинина К.В., Тюрина Г.П., Широкова Л.И. Устойчивые словосочетания русского языка : учеб. пос. для студентов-иностранцев / под ред. Л.И. Широковой. М., 1980 [35]. 5. Убин И. И. Словарь усилительных словосочетаний русского и английского языков. М. : Рус. яз., 1987 [36]. 6. Кустова Г.И. Словарь русской идиоматики. Сочетания слов со значением высокой степени. М., 2008. URL: http://dict.ruslang.ru/ magn.php [23]. Выше уже было отмечено, что словарные статьи отличаются как по своей структуре, так и по описанию лексической сочетаемости. Далее мы остановимся на принципах представления данных в лексикографических источниках, их особенностях и на их обработке, включающих формальные правила, которые были использованы для извлечения устойчивых выражений. Анализ словарных данных В России печатные словари широко распространены и являются, пожалуй, единственным типом словаря, а электронные словари (которые изначально разрабатываются для онлайн-доступа) занимают небольшую нишу1. Среди рассмотренных нами источников единственным электронным ресурсом является словарь русской идиоматики [23], в то время как остальные доступны только в бумажном виде. Извлечение данных из печатных словарей основывалось на структурных выделениях, принятых в словарных статьях. Отметим, что, как оказалось, в рассмотренных словарях (толковых и сочетаемости) зачастую содержится больше словосочетаний, чем то количество, ко- 1 Согласно опросу лексикографов Elexis, только около 20% реализуемых ими проектов будут доступны в печатном виде [37]. М.В. Хохлова 40 торое указывается в предисловии. Например, в Словаре усилительных словосочетаний русского и английского языков [36] указано, что он содержит 10 400 единиц, при этом нами было извлечено на начальном этапе 12 894 словосочетания. Толковые словари В ходе исследования были рассмотрены два толковых словаря (МАС и БТС). Малый академический словарь русского языка. При анализе словарных статей в МАС на начальном этапе мы обратились к их заромбовой части, так как именно в ней представлена информация об ограниченной сочетаемости (о фразеологических оборотах и об устойчивых сочетаниях) и она оформлена как отдельный раздел. На материале МАС было получено 11 210 словосочетаний для 5 955 заголовочных слов (таким образом, при общем словнике словаря около 80 тыс. слов фразеологическую часть содержат только 7% словарных статей). Так, при лексеме «качественный» знаком ромба были отмечены два словосочетания: качественный анализ и качественное прилагательное. В самой словарной статье также содержатся примеры, иллюстрирующие три значения заголовочного слова: качественные различия, качественный ремонт, качественные изменения. Химический термин «качественный анализ» приводится как пример для второго значения слова «анализ» («определение состава и свойств какого-л. вещества, исследование их») в соответствующей статье, но не выделяется специальным образом. То же самое справедливо для словарной статьи «прилагательный»: относительные прилагательные и качественные прилагательные приводятся как иллюстрации. Граница между свободными или частотными (воспроизводимыми в речи) словосочетаниями, которые используются как примеры, и устойчивыми сочетаниями или терминами в заромбовой части также не всегда четко проводится авторами словаря. Например, для «абстрактный» в качестве типичного словосочетания указано абстрактное понятие, в то время как абстрактное искусство приводится за ромбом. Большой толковый словарь русского языка. БТС является преемником двух основополагающих проектов в отечественной лексикографии - Большого и Малого академических словарей - и основывается на том же материале. Нами также была Атрибутивные коллокации 41 проанализирована заромбовая часть словарных статей, из которой было извлечено 8 205 словосочетаний. Авторы подчеркивают, что в данном разделе представлены фразеологизмы, в то время как «устойчивые словосочетания, сохраняющие ощутимую, ясную связь с каким-либо значением толкуемого слова, помещаются при данном значении в блоке иллюстрации» [34. С. 18]. Результаты показали, что не менее половины примеров совпадают с данными МАС. Например, абсолютный нуль, бросить свет, придержатъ язык. Можно также отметить, что ряд примеров являются устаревшими, книжными или сниженными по стилю. Например, панургово стадо, воровские грамоты, отставной козы барабанщик. Словари сочетаемости Как уже отмечалось выше, часть словарей, в которых представлена ограниченная сочетаемость, нацелена на иностранцев, изучающих русский язык. Этим объясняется специфика отбора материала и его отражение в источниках. Словарь усилительных словосочетаний русского и английского языков. В словаре [36] приводятся русские и английские усилительные словосочетания. Анализ, проведенный автором словаря, показал, что «усилительные словосочетания обладают высокой частотностью в обоих языках в самых разных текстах, особенно общественнополитических, где они встречаются в среднем через 80-100 слов» [36. С. 5]. Объем текстов составил 5 млн словоупотреблений для каждого языка. Словарь содержит прямую и реверсивную части, каждая из которых в свою очередь разделяется на русско- и англоязычную. Заглавным словом в прямом словаре является усиливаемое слово. Например, в словарной статье «экзамен»1 (см. рис. 1) приводятся следующие коллокаты: важный, ответственный, решающий, серьезный, сложный и др. Предусмотрены пометы для обозначения бранной, разговорной, устаревшей и другой лексики. 1 Далее нами будут по возможности рассмотрены словарные статьи для одних и тех же лексем из разных словарей, чтобы облегчить их сравнение. На рис. 1-3 сохранено представление словарных статей в печатных словарях, в том числе разбивка по строкам и выделение шрифтом. М.В. Хохлова 42 ЭКЗАМЕН, -а, м - examination 1 важный, ответственный, решающий, серьёзный, сложный, строгий, суровый, трудный, тяжёлый см. тж. экзаменовать, испытать, испытание, проверить, проверка Рис. 1. Словарная статья для лексемы «экзамен» в Словаре усилительных словосочетаний русского и английского языков В реверсивном словаре в качестве заглавных слов используются слова-усилители. В качестве синтагматических партнеров для прилагательного «твердый» перечислены следующие лексемы: вера, власть, воля, гарантия, дисциплина, знание и др. Нами были рассмотрены словосочетания из реверсивной русскоязычной части словаря, так как она является более полной по сравнению с прямой частью. Заглавное слово или словосочетание (т.е. слово-усилитель) указывается при помощи прописных букв и полужирного шрифта, в то время как через запятую списком приводятся слова, для усиления которых может быть использовано данное заглавное слово. Словарные статьи, обозначенные знаком //, были исключены из рассмотрения, так как указывают на синонимы для заголовочных слов (в реверсивной части они даны в обратном порядке), объединяющие в своем значении значение самого слова и слова-усилителя. Например, «//ГУЛЛИВЕР высокий»; «//ОБОЖАТЬ любить»; «//ЭРУДИЦИЯ знания». После проверки и удаления ошибок распознавания итоговый список составили 12 835 словосочетаний, из них 7 228 относятся к атрибутивным. Всего в атрибутивных словосочетаниях присутствуют 1 558 существительных и 717 прилагательных. Одному существительному соответствует в среднем 4,64 словосочетаний, в то время как на одно прилагательное приходится около 10 коллокаций. К наиболее частотным существительным относятся следующие: успех (41)1, тоска (38), борьба (38), сила (36), любовь (34), интерес (32), холод (30), мороз (30), ненависть (29), рост (27), радость (27), красота (27), ум (24), восторг (24), талант (23), победа (23) и значение (23). При 742 существительных (47,63%) указано только одно прилагательное, которое с ними сочетается. 209 прилагательных имеют только один коллокат-существи-тельное (т.е. 29,15% от всех прилагательных, зафиксированных в сло-1 Здесь и далее в скобках указывается число коллокаций с данной лексемой. Атрибутивные коллокации 43 варных статьях). В качестве наиболее частотных прилагательных можно указать следующие: большой (340), огромный (251), страшный (216), глубокий (209), полный (166), ужасный (154), сильный (131), колоссальный (100), поразительный (86), громадный (83), крупный (79), серьёзный (77) и широкий (71). Словарь коллокаций. Список, составленный на материале словаря коллокаций [18] содержит 3 290 словосочетаний. Коллокации приводятся в нем при помощи заглавных букв, дополнительно отмечена семантическая информация (см. рис. 2). ЭКЗАМЕН 1. ПРОВОДИТЬ/провести ЭКЗАМЕН какой/ по чему у кого. Экзамен проводил молодой преподаватель. ПРИНИМАТЬ/принять ЭКЗАМЕН какой/ по чему у кого ПРОФЕССОР принимал экзамен по философии. 2. СДАВАТЬ/сдать ЭКЗАМЕН какой/ по чему кому Он сдал все экзамены на пять. ДЕРЖАТЬ нет св пас ЭКЗАМЕН по чему Завтра он держит самый важный экзамен. 3. ЭКЗАМЕН ИДЕТ нет св по чему/ какой В институте или выпускные экзамены. ЭКЗАМЕН ПРОХОДИТ/ пройдет Экзамены прошли незаметно. 8.1. ВЫДЕРЖИВАТЬ/выдержать нет пас ЭКЗАМЕН какой/по чему Он выдержал экзамен и был принят. 9.1. ПРОВАЛИВАТЬСЯ/провалиться НА ЭКЗАМЕНЕ какой/по чему Школьник провалился на экзамене по математике. Рис. 2. Словарная статья для лексемы «экзамен» в Словаре коллокаций Цифры отражают один из 11 стандартных смыслов, являющихся модификациями лексических функций, а также их сочетания. Например, цифра 1 означает «действие или состояние главного (активного) участника ситуации» [18. С. 5] («проводить экзамен», «провести экзамен», «принимать экзамен», «принять экзамен»), в то время как цифра 2 передает «действие или состояние второстепенных участников ситуации» [18. С. 5] («сдавать экзамен», «сдать экзамен», «держать экзамен»). Для извлечения данных при обработке словаря так же, как и в случае словаря [36], использовались шрифтовые выделения. Итоговый перечень при рассмотрении видовых пар как отдельных записей составил 5 334 единицы. В него вошли как коллокации, которые приведены в словарных статьях заглавными буквами, так и те единицы, которые были выделены нами вручную на основе анализа М.В. Хохлова 44 иллюстративных примеров (в них коллокации не были отмечены специальным образом). Например, вероломное нападение, выпускной экзамен, производительность труда, согревающий компресс. Подобные словосочетания (всего 230 единиц) были дополнительно отмечены знаком * как содержащиеся в словаре, но при этом не указанные авторами как коллокации. Всего в словаре было найдено 606 атрибутивных словосочетаний, в которых представлено 271 существительное. Таким образом, в среднем на одно существительное приходится 2,24 словосочетаний. К существительным, имеющим от 6 до 10 словосочетаний, относятся следующие: положение (10), память (9), мысль (9), влияние (9), характер (8), интерес (8), обстановка (7), место (7), внимание (7), взгляд (7), отношение (6), образование (6), время (6), впечатление (6), вопрос (6) и борьба (6). 307 прилагательных образуют атрибутивные коллокации, при этом они имеют более ограниченную сочетаемость по сравнению с существительными. Одно прилагательное в среднем зафиксировано в двух словосочетаниях. К наиболее частотным из них относятся следующие: глубокий (31), высокий (27), острый (16), широкий (15), большой (14), тяжелый (13), полный (12) и низкий (12). Словарь устойчивых словосочетаний русского языка. Словарь устойчивых словосочетаний русского языка [35] предназначен для иностранных учащихся и содержит около 3 000 устойчивых словосочетаний. При описании данного класса единиц авторы ориентируются на фразеологические сочетания в понимании В.В. Виноградова [38] и фразеологические выражения в трактовке Н.М. Шанского [39]. Выбор тем был обусловлен программой по русскому языку для студентов-иностранцев, материалом послужили учебники и учебные пособия для студентов-иностранцев, а также газеты и научно-популярные журналы. Анализ показал, что примеры содержат большое количество устаревшей лексики (например, разрядка напряженности, трудящиеся массы)1, а также вхождение одних и тех же словосочетаний несколько раз в разных словарных статьях (например, при лексеме «видный» указано только одно словосочетание видное место, при этом дается отсылка к статье «место»). 1 Сами авторы указывали на тот факт, что в словаре присутствует большое количество составных наименований, отражающих явления действительности (общественная собственность, социалистическая собственность, идеологическая борьба и др.) [35. С. 13]. Атрибутивные коллокации 45 Устойчивые атрибутивные словосочетания представлены в словаре гнездовым способом при заголовочном слове - прилагательном (в большинстве случаев) или существительном (см. рис. 3). ЭКЗАМЕН О Держать экзамен. См. держать Идёт экзамен. См. идти Принимать экзамен. См. принимать. Проводить экзамен. См. проводить Сдавать экзамен. См. сдавать Рис. 3. Словарная статья для лексемы «экзамен» в Словаре устойчивых словосочетаний русского языка Иллюстративные примеры нами не рассматривались, так как синтагматические партнеры лексем достаточно полно представлены в самих словарных статьях. Всего было извлечено 608 атрибутивных словосочетаний, построенных по модели «прилагательное/причастие + существительное»1. В данном списке было зафиксировано 308 существительных. Одному существительному соответствует около двух словосочетаний. К наиболее частотным существительным относятся: сила (19), связь (16), вопрос (14), ролъ (12), движение (12), интерес (9), жизнь (9), место (8), задача (8), проблема (7), время (7) и борьба (7). В сводном списке словосочетаний зафиксировано 155 прилагательных, на каждое из которых приходится в среднем около четырех словосочетаний. К наиболее частотным прилагательным относятся следующие: глубокий (43), высокий (37), широкий (33), большой (24), яркий (15), серьёзный (13), острый (13), общественный (13), крупный (13), экономический (12), тяжёлый (12), полный (12), низкий (12), народный (12), политический (11), горячий (11) и общий (10). Словарь русской идиоматики. Словарь русской идиоматики [23] является наиболее современным из всех рассмотренных, при этом он доступен в электронном виде, что существенно облегчило его обработку. Словник основан на данных НКРЯ и бумажных словарей и включает широкий круг словосо- 1 В словаре также содержатся атрибутивные словосочетания, построенные по моделям: 1) «существительное + существительное в родительном падеже» (взрыв смеха, круг вопросов, дело мира); 2) «существительное + предлог + существительное в косвенном падеже» (право на самоопределение, борьба за мир, воля к борьбе). М.В. Хохлова 46 четаний: фразеологические единицы, коллокации, идиоматические выражения и семантически мотивированные свободные словосочетания. В словаре представлены сочетания слов со значением высокой степени и разных синтаксических моделей, например, крупный авторитет, полностью убедить, абсолютно верно, безумно трудно, удивительно смешной и др. В качестве степенных слов включены наречия и прилагательные. Из словаря было извлечено 10 150 записей, из них 6 935 составляют атрибутивные словосочетания. Всего в списке представлено 1 888 существительных, на каждое из которых в среднем приходится около четырех коллокаций. Наиболее частотные существительные в основном передают чувства: сила (56), успех (46), тоска (42), радость (35), любовь (31), страх (29), ненависть (29), красота (27), усилие (26), страсть (26), желание (26), восторг (26), ярость (25), холод (25), интерес (25) и боль (25). Всего 427 прилагательных, индекс составляет 16,24 словосочетания на одно прилагательное. То есть в данном словаре наиболее полно представлена сочетаемость, на одно прилагательное приходится максимальное число словосочетаний по сравнению с другими рассмотренными словарями. К наиболее частотным прилагательным относятся следующие: большой (342), великий (235), огромный (230), глубокий (197), настоящий (182), полный (165), сильный (152), крупный (143), высокий (131), значительный (120), абсолютный (113), страшный (110), колоссальный (99), необыкновенный (98), невероятный (91), поразительный (85), совершенный (80), исключительный (79), максимальный (69) и крайний (60). Объединение словарных данных Следующий этап работы заключался в том, чтобы объединить коллокации из разных словарей и проанализировать пересекающиеся данные (насколько нам известно, это первая попытка сравнить таким образом словарный материал). На начальной стадии было извлечено более 20 тыс. коллокаций1. Далее результаты были лемматизированы при помощи морфоанализатора MyStem [40]. Таблица 1 демонстрирует количество атрибутивных коллокаций, найденных в каждом источнике. Больше всего словосочетаний данного синтаксического типа 1 Данные словосочетания мы будем называть словарными коллокациями. Атрибутивные коллокации 47 было извлечено из словарей усилительных словосочетаний [36] и русской идиоматики [23]. Таблица 1 Количество извлеченных коллокаций по словарям Борисова, 1995 Кустова, 2008 Убин, 1987 МАС Регинина, Тюрина, Широкова, 1980 БТС 606 6935 7228 3278 608 1384 После фильтрации данных и удаления одинаковых записей начальный список был сведен к 15 101 единице. Далее было произведено сравнение словарей между собой (см. табл. 2). Анализ показал, что словари МАС и БТС демонстрируют минимальное пересечение со словарями сочетаемости. Например, объединенный список МАС и словаря [23] содержит более 10 тыс. позиций, и только 55 из них представлены в обоих источниках (менее 1% всего списка). Это можно объяснить тем, что в словаре русской идиоматики описаны коллокации со значением высокой степени, в то время как МАС ориентирован на всестороннее представление лексики в целом и также делает акцент на фразеологических единицах. Попарное сравнение словарей Таблица 2 Борисова, 1995 Кустова, 2008 Убин, 1987 МАС Регинина, Тюрина, Широкова, 1980 БТС Борисова, 1995 173 210 30 156 14 Кустова, 2008 3 465 55 154 11 Убин, 1987 45 199 15 МАС 29 745 Регинина, Тюрина, Широкова, 1980 3 БТС М.В. Хохлова 48 При попарном сравнении словарей следующие две пары показывают наибольшее совпадение: 1) словари усилительных словосочетаний [36] и русской идиоматики [23]; 2) МАС и БТС. Наибольшее пересечение коллокаций из первой пары словарей может быть объяснено значительным объемом извлеченных примеров по сравнению с другими словарями и, как следствие, наибольшим совпадением. В случае второй пары источников мы видим то, что уже наблюдали при предварительной обработке: согласно введению к БТС он был создан на материале МАС. Учитывая число выделенных коллокаций из БТС, объем пересечения оказывается около 54%. Нами была введена метрика под названием «словарный индекс» для того, чтобы обозначить количество словарей, в которых представлено то или иное словосочетание. Большие значения данного индекса предполагают, что коллокация воспроизводима в речи довольно часто и, следовательно, должна быть выучена (если мы говорим об изучающих русский язык). Теоретически, максимум равен количеству рассмотренных словарей, т.е. в нашем случае 6, но на практике максимальное число словарей, в которых коллокация была зафиксирована, оказалось равным 4. В табл. 3 дан обзор результатов. Словарный индекс Таблица 3 Словарный индекс Количество коллокаций 4 61 3 243 2 4 203 1 10 594 Тот факт, что ни одно из словосочетаний не представлено одновременно во всех словарях, может свидетельствовать о субъективности отбора примеров для словарей, а также об их недостаточном объ-еме1. Максимальное пересечение данных (51 из 61 словосочетания с данным словарным индексом, т.е. 83,61%) наблюдается между словарями коллокаций [18], русской идиоматики [23], усилительных слово- 1 Словари сочетаемости для других языков охватывают более обширный материал. Например, можно отметить Оксфордский словарь коллокаций для английского языка [41], который насчитывает 250 тыс. единиц, или словарь для немецкого языка [42], в котором приводится 192 тыс. словосочетаний. Атрибутивные коллокации 49 сочетаний [36] и устойчивых словосочетаний [35]. К этим коллокаци-ям относятся, например, сочетания с прилагательными глубокий (16) (глубокая благодарность, глубокий интерес, глубокое удовлетворение), острый (7) (острая борьба, острая дискуссия, острая полемика) и широкий (6) (широкий выбор, широкая известность, широкое сотрудничество). Как и ожидалось, наиболее многочисленной оказалась группа кол-локаций со словарным индексом 1. При этом данные словосочетания зафиксированы во всех шести словарях (см. табл. 4). Таблица 4 Количество уникальных словосочетаний в словарях Покказатель Борисова, 1995 Кустова, 2008 Убин, 1987 МАС Регинина, Тюрина, Широкова, 1980 БТС Количество словосочета ний 277 3316 3626 2445 296 634 Две трети от общего объема уникальных словосочетаний представлено в словаре русской идиоматики [23] и в словаре усилительных словосочетаний [36], что может быть объяснено их большим объемом, при этом МАС содержит наибольшее количество подобных коллокаций от общего объема словаря (74,59%). Анализ коллокаций Мы проанализировали ключевые слова и коллокаты (т.е. главные и зависимые единицы), которые присутствуют в объединенном списке. Ключевые слова. В целом коллокации содержат 3 606 существительных, из которых 1 550 (около 43%) встречаются только один раз, т.е. формируют только одну коллокацию. Оставшиеся существительные имеют от 2 до 97 коллокаций. Топ-50 включает те, которые отражают чувства и абстрактные понятия, например, сила (97), успех (59), борьба (55), тоска (54), любовь (49), интерес (46), дело (43), болезнь (42), радость (40), память (40), красота (38), значение (37), чувство (36), система (36), ненависть (36), ум (35), страсть (34), роль (34), холод (33), усилие (32). В словаре КроссЛексика иные существительные имеют М.В. Хохлова 50 наибольшее количество определений [9]: человек, лицо, работа, глаза, женщина, взгляд, вид, режим, голос. Для сравнения отметим, что среди примеров в системе КроссЛексика есть существительные, которые относятся к наиболее частотным по словарю [43]. В этом их отличие от собранных нами данных: последние в основном входят во вторую-четвертую сотню частотного списка. Коллокаты. Всего в список вошло 2 841 прилагательное, из них 1 551 (т.е. около 55%) является уникальным. Оставшиеся прилагательные принимают участие в разнообразных коллокациях, превышающих несколько сотен. Большая часть прилагательных, которые чаще всего являются определениями, имеют значение большой степени, интенсивности или размера. И тут это можно объяснить тем, что они представляют собой примеры из словаря [23]. Например, большой (461), огромный (309), великий (275), глубокий (265), страшный (260), сильный (217), полный (215), настоящий (184), высокий (183), ужасный (173), крупный (170), значительный (130), колоссальный (120), необыкновенный (119), абсолютный (116), широкий (99), поразительный (98), громадный (94), невероятный (91), тяжелый (89). Наблюдается совпадение с высокочастотными прилагательными, представленными в системе КроссЛексика и в частотном словаре русского языка [43]. Необходимо отметить, что в отличие от существительных прилагательные показывают большую вариативность при построении кол-локаций. В среднем на одно прилагательное приходится 5,3 коллока-ций, в то время как на одно существительное - 4,2 коллокаций. Сравнение с корпусами текстов Объединение словарных коллокаций из разных источников предполагает не только единый лексикографический формат, но и релевантность данных. При описании материала лексикографу необходимо выбрать те примеры, которые основаны на их репрезентативности в корпусах, покрытии в словарях и также пригодности для пользователей языка и их целей. В ходе исследования мы хотим проверить следующую гипотезу: большие частоты коллокаций в корпусе соответствуют высоким пок

Ключевые слова

коллокации, устойчивая сочетаемость, атрибутивные словосочетания, русский язык, словари, корпусы текстов, база данных

Авторы

ФИООрганизацияДополнительноE-mail
Хохлова Мария ВладимировнаСанкт-Петербургский государственный университетканд. филол. наук, доцент кафедры математической лингвистикиm.khokhlova@spbu.ru
Всего: 1

Ссылки

Хохлова М.В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы / под ред. А. Мустайоки, М.В. Копотева, Л.А. Бирюлина, Е.Ю. Протасовой. Хельсинки, 2008. С. 343-357.
Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Научно-техническая информация. Серия 2. Информационные процессы и системы. 2010. № 6. С. 30-40.
Pivovarova L., Kormacheva D., Kopotev M. Evaluation of collocation extraction methods for the Russian language // Quantitative Approaches to the Russian Language / ed. by M. Kopotev, O. Lyashevskaya, A. Mustajoki. London ; New York : Routledge, 2018. P. 137-157.
Khokhlova M. Similarity between the Association Measures: a Case Study of Noun Phrases // Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2018 / ed. by A. Horak, P. Rychly, A. Rambousek. Brno : Tribun EU, 2018. P. 21-27.
Enikeeva E., Mitrofanova O. Russian Collocation Extraction Based on Word Embeddings // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 31 мая -3 июня 2017 г.). Вып. 16 (23) : в 2 т. М. : Изд-во РГГУ, 2017. URL: http://www.dialog-21.ru/media/3908/enikeevaevmitrofanovaoa.pdf (дата обращения: 09.07.2021).
Кобрицов Б.П., Ляшевская О.Н., Шеманаева О.Ю. Снятие лексикосемантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка // Интернет-математика 2005. Автоматическая обработка веб-данных. М., 2005. С. 38-57.
Василисина А.А., Зарифян М.С., Казакова П.Н., Сударикова Е.А. Полисемия глаголов перемещения, движения и локализации (по результатам семантической разметки базы данных Активного словаря русского языка). URL: http://www.dialog-21.ru/media/3471/vasilisina.pdf (дата обращения: 09.07.2021).
Азарова И.В., Синопальникова А.А., Яворская М.В. Принципы построения wordnet-тезауруса RussNet // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции «Диалог 2004» (Верхневолжский, 2-7 июня 2004 г.). М., 2004. C. 542-547.
Большаков И.А. Кросс-Лексика - большой электронный словарь сочетаний и смысловых связей русских слов // Компьютерная лингвистика и интеллектуальные технологии : труды междунар. конф. «Диалог 2009». Вып. 8 (15). М. : РГГУ, 2009. С. 45-50.
Берков В.П. Двуязычная лексикография. 2-е изд. М. : АСТ, 2004. 236 с.
Atkins B. T.S., Rundell M. The Oxford Guide to Practical Lexicography. Oxford U.P, 2008. 554 p.
Benson M., Benson E., Ilson R. The BBI Combinatory Dictionary of English: A Guide to Word Combinations. Amsterdam, Philadelphia : John Benjamins, 1986. 462 p.
Kjellmer G. A dictionary of English collocations: based on the Brown corpus: in three volumes. Oxford ; New York : Clarendon Press: Oxford University Press, 1994. 2304 p.
Hanks P. Mapping meaning onto use: a Pattern Dictionary of English Verbs // Proceedings AACL 2008, Utah. 2008. URL: https://nlp.fi.muni.cz/projects/cpa/Pattern%20Dict%20Utah.ppt (дата обращения: 09.07.2021).
Pezik P. Graph-Based Analysis of Collocational Profiles // Phraseologie im Worterbuch und Korpus (Phraseology in Dictionaries and Corpora) / ed. by Vida Jesensek and Peter Grzybek. ZORA 97. Maribor ; Bielsko-Biala ; Budapest ; Kansas ; Praha : Filozofska fakuteta, 2014. P. 227-43.
Мельчук И.А., Жолковский А.К. и др. Толково-комбинаторный словарь современного русского языка. Опыты семантико-синтаксического описания русской лексики. Вена : Wiener Slavistischer Almanach, 1984. 992 с.
Дерибас В.М. Устойчивые глагольно-именные словосочетания русского языка. М. : Русский язык, 1983. 256 с.
Борисова Е.Г. Слово в тексте. Словарь коллокаций (устойчивых сочетаний) русского языка с англо-русским словарем ключевых слов. М. : Филология, 1995. 150 с.
Денисов П.Н., Морковкин В.В. Словарь сочетаемости слов русского языка. 3-е изд., испр. М. : АСТ, 2002. 688 с.
Апресян В.Ю., Апресян Ю.Д., Бабаева Е.Э., Богуславская О.Ю., Галактионова И.В., Гловинская М.Я., Иомдин Б.Л., Крылова Т.В., Левонтина И.Б., Птенцова А.В., Санников А.В., Урысон Е.В. Проспект активного словаря русского языка. URL: http://san.ruslang.ru/prospect_theory.pdf (дата обращения: 09.07.2021).
Национальный корпус русского языка. URL: http://ruscorpora.ru (дата обращения: 09.07.2021).
Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка. М., 2008. URL: http://dict.ruslang.ru/ abstr_noun.php.
Кустова Г.И. Словарь русской идиоматики. Сочетания слов со значением высокой степени. М., 2008. URL: http://dict.ruslang.ru/magn.php (дата обращения: 09.07.2021).
Lyashevskaya O. Bank of Russian Constructions and Valencies // Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC’10). Valletta, 2010. P. 1802-1805.
Kopotev M., Escoter L., Kormacheva D., Pierce M., Pivovarova L., Yangarber R. CoCoCo: Online Extraction of Russian Multiword Expressions // The 5th Workshop on Balto-Slavic Natural Language Processing (10-11 September 2015, Hissar, Bulgaria). Sofia : INCOMA Ltd, 2015. P. 43-45.
Sharoff S., Nivre J. The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25-29 мая 2011 г.). Вып. 10 (17). М. : РГГУ, 2011. С. 657-670.
База данных «Lexicograph». URL: http://lexicograph.ruslang.ru (дата обращения: 09.07.2021).
Словарь русского языка : в 4 т. / под ред. А.П. Евгеньевой. 4-е изд., стер. М. : Рус. яз., 1999.
Calzolari N., Fillmore Ch., Grishman R, Ide N., Lenci A., Macleod C., Zampolli A. Towards Best Practice for Multiword Expressions in Computational Lexicons // Proceedings of LREC - 2002. P. 1934-1940.
Лукашевич Н.В., Добров Б.В., Чуйко Д.С. Отбор словосочетаний для словаря системы автоматической обработки текстов // Компьютерная лингвистика и интеллектуальные технологии : труды международной конференции «Диалог-2008». М., 2008. С. 339-344.
Тестелец Я.Г. Введение в общий синтаксис. М. : РГГУ, 2001. 798 с.
Телия В.Н. Русская фразеология. Семантический, прагматический и лингвокультурологический аспекты. М. : Языки славянской культуры, 1996. 289 с.
Большой академический словарь русского языка % в 20 т. М. : Российская академия наук. Институт лингвистических исследований. Наука, 2004
Большой толковый словарь русского языка: А-Я / сост., гл. ред. С. А. Кузнецов. СПб. : Норинт, 1998. 1534 с.
Регинина К.В., Тюрина Г.П., Широкова Л.И. Устойчивые словосочетания русского языка : учеб. пособие для студентов-иностранцев / под ред. Л.И. Широковой. М. : Рус. яз., 1980. 296 с.
Убин И.И. Словарь усилительных словосочетаний русского и английского языков. М. : Рус. яз., 1987. 3об с.
Kallas J., Koeva S., Langemets M., Tiberius C., Kosem I. Lexicographic Practices in Europe: Results of the ELEXIS Survey on User Needs // Electronic lexicography in the 21st century. Proceedings of the eLex 2019 conference. 1-3 October 2019, Sintra, Portugal. Brno : Lexical Computing CZ, s.r.o., 2019. P. 519-536.
Виноградов В.В. Русский язык. М. : Высшая школа, 1972. 613 с.
Шанский Н.М. Фразеология современного русского языка : учеб. пособие для студ. филол. фактов. 3-е изд., испр. и доп. М. : Высшая школа, 1985. 160 с.
MyStem. URL: https://yandex.ru/dev/mystem/(дата обращения: 09.07.2021).
Oxford Collocations Dictionary for Students of English, 2nd edition / ed. by Colin Macintosh. Oxford : Oxford University Press, 2009. 992 p.
Quasthoff U. Worterbuch der Kollokationen im Deutschen. Berlin ; New York : Walter de Gruyter, 2011. 551 S.
Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М., 2009. URL: http://dict.ruslang.ru/freq.php (дата обращения: 09.07.2021).
Jakubicek M., Kilgarriff A., Kovar V., Rychly P., Suchomel V. The TenTen Corpus Family // Proceedings of the 7th International Corpus Linguistics Conference CL 2013, the United Kingdom, July 2013. Р. 125-127 (2013).
Sinclair J. Corpus and Text - Basic Principles // Developing Linguistic Corpora: a Guide to Good Practice. Oxford : Oxbow Books, 2005. Р. 1-16. URL: http://users.ox.ac.uk/~martinw/dlc/chapter1.htm (дата обращения: 09.07.2021).
 Атрибутивные коллокации в золотом стандарте сочетаемости русского языка и их представление в словарях и корпусах текстов | Вопросы лексикографии. 2021. № 21. DOI: 10.17223/22274200/21/2

Атрибутивные коллокации в золотом стандарте сочетаемости русского языка и их представление в словарях и корпусах текстов | Вопросы лексикографии. 2021. № 21. DOI: 10.17223/22274200/21/2