Structure of dictionary entries of a digital bilingual dictionary and its integration with the corpus | Voprosy leksikografii – Russian Journal of Lexicography. 2025. № 37. DOI: 10.17223/22274200/37/5

Structure of dictionary entries of a digital bilingual dictionary and its integration with the corpus

The article considers the problem of integrating a digital bilingual dictionary with a corpus of parallel texts on the example of the lexicographic information system (LGIS) being developed at the FRC CSC RAS. The relevance of this issue is due to the increased attention to the creation and updating of digital dictionaries based on corpus data both in Russia and abroad. In particular, on the 25th December 2024 the Russian Government issued Resolution No. 1892 "On the National Dictionary Fund", which set the task of automating the lexicographic activity in the Russian Federation. It involves converting existing paper dictionaries into digital format and a regular subsequent updating of these dictionaries. The aim of this article is to describe fields and methods that ensure the integration of a digital German-Russian dictionary with a text corpus in the framework of LGIS. To achieve this aim, a review of corpus-oriented lexicographic resources existing in Russia and abroad was conducted. The proposed approach to integration in LGIS was compared with integration solutions in similar resources. Six types of fields and three methods of integration were described, ensuring the connection of a dictionary entry with a corpus of parallel texts using the interface database. In the first version of LGIS, the links of a dictionary entry with a corpus are implemented in three zones of the dictionary entry, namely, in the zones of the headword, of description of its meanings, and of idioms. The material of the study comprises a German-Russian dictionary (about 40 000 dictionary entries) and parallel texts of the German-Russian subcorpus of the Russian National Corpus (about 18 million word usages). The methods of analysis, synthesis, and structuring of inherited lexicographic resources were used as a methodological base. The main result of the study is the description of six types of integration fields that provide a transit from the dictionary to the text corpus, in particular: (1) from the headword of the dictionary entry, (2) from the meaning of the focal language unit (in the first version of LGIS from the meanings of German modal verbs), (3) from the phraseme, (4) from the meanings of the phraseme, (5) from the idiom, and (6) from the meanings of the idiom. These links are implemented in three ways of integrating the digital dictionary with the corpus of texts: (1) through a search in the corpus by the lemma of the entry word, (2) through a table of annotated translation correspondences, and (3) using a search query for phraseme or idiom forms. The scientific novelty of the work lies in the categorization of fields and methods that ensure integration of the dictionary with the corpus. The author declares no conflicts of interests.

Keywords

lexicographic information system, digital dictionary, German, Russian, corpus, database, integration

Authors

NameOrganizationE-mail
Egorova Anna Yu.Federal Research Center "Computer Science and Control" of the Russian Academy of Sciencesanna.yu.egorova@yandex.ru
Всего: 1

References

Немецко-русский словарь актуальной лексики: около 50 000 лексических единиц / под общ. рук. Д.О. Добровольского. М. : Азбуковник, 2025 (в печати).
Большой немецко-русский словарь = Das Grosse Deutsch-Russische Woerter-buch: в 2 т. / сост. Е.И. Лепинг и др., под рук. О.И. Москальской. М. : Русский язык, 1980.
Новый большой немецко-русский словарь / под общ. рук. Д.О. Добровольского. В 3 т.: около 500 000 лексических единиц. М. : АСТ, Астрель, 20082010.
Duden. Das große Wörterbuch der deutschen Sprache in zehn Bänden. 3., völlig neu bearb. und erw. Aufl. Mannheim etc. : Dudenverl., 1999.
Duden online. URL: http://www.duden.de/ (дата обращения: 18.06.2025).
DWDS-Wörterbuch. URL: https://www.dwds.de/d/woerterbuecher (дата обраще-ния: 18.06.2025).
Добровольский Д.О., Кретов А.А., Шаров С.А. Корпус параллельных текстов // Научно-техническая информация. Сер. 2: Информационные процессы и системы. 2005. № 6. С. 16-27.
Добровольский Д.О. Корпусный подход к исследованию фразеологии: новые результаты по данным параллельных корпусов // Вестник Санкт-Петербургского университета. Язык и литература. 2020. Т. 17, вып. 3. С. 398-411.
Национальный корпус русского языка. URL: https://ruscorpora.ru/(дата обращения: 06.04.2025).
Кружков М.Г. Концепция построения надкорпусных баз данных // Системы и средства информатики. 2021. Т. 31, № 3. С. 101-112.
Постановление Правительства РФ от 25 декабря 2024 г. № 1892 «О Национальном словарном фонде». URL: http://govemment.ru/docs/53894/ (дата обращения: 06.04.2025).
Плунгян В.А., Рахилина Е.В. О цифровой лексикографии // Труды Института русского языка им. В.В. Виноградова. 2025. № 1 (43). С. 360-366.
Ольховская А.И. Корпуса на службе у лексикографии: применение корпусных технологий при составлении словарей // Русский язык за рубежом. 2023. № 1. С. 77-83.
Активный словарь русского языка / отв. ред. Ю.Д. Апресян. М. : Языки славянской культуры, 2014. Т. 1.408 с.
Толковый словарь русской разговорной речи. Вып. 1-4 / отв. ред. Л.П. Крысин. М. : Языки славянской культуры, 2014-2021.
Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М. : Азбуковник, 2009. 1087 с.
Collocations, Colligations, and Corpora (CoCoCo). URL: https://cosyco.ru/cococo/(дата обращения: 06.04.2025).
Ooi V.B.Y.Computer corpus lexicography. Edinburgh : Edinburgh University Press, 1998. 224 p.
Frankenberg-Garcia A., Rees G., Lew R. Slipping through the Cracks in e-Lexicography // International Journal of Lexicography. 2021. № 34 (2). P. 206-234.
Rees G. Using corpora to write dictionaries // The Routledge handbook of corpus linguistics / ed. by A. O’Keeffe, M. McCarthy. London; New York : Routledge, 2022. P. 387-404.
Zufferey S.Introduction a la linguistique de corpus. Collection : Sciences. ISTE Group, 2020. 252 p.
Добровольский Д.О., Зацман И.М. Модель извлечения знания из параллельных текстов лексикографической информационной системы // Информатика и её применения. 2024. Т. 18, вып. 3. С. 97-105.
Digitales Worterbuch der deutschen Sprache. URL: https://www.dwds.de (дата обращения: 06.04.2025).
Klein W., Geyken A. Das Digitale Worterbuch der Deutschen Sprache (DWDS) // Lexicographica. 2010. Vol. 26, № 2010. P. 79-96.
Geyken A., Wiegand F., Wurzner K.-M. On-the-fly Generation of Dictionary Articles for the DWDS Website // Electronic Lexicography in the 21 st Century. Proceedings of eLex 2017 conference / ed. by I. Kosem, C. Tiberius. Leiden, the Netherlands : Lexical Computing, 2017. P. 560-570.
Добровольский Д.О., Зацман И.М. Интеграция электронного словаря с текстами параллельного корпуса: новый теоретический подход // Системы и средства информатики. 2025. Т 35, вып. 1. С. 111-124.
Oxford English Dictionary. URL: https://www.oed.com/(дата обращения: 06.04.2025).
Полухина П.А. Oxford English Dictionary online: подготовка к третьему изданию словаря на примере Updates 2016 // Известия ВГПУ. 2018. № 8 (131). С. 136-144.
Merriam Webster Dictionary. URL: https://www.merriam-webster.com/(дата обращения: 06.04.2025).
Гончаров А.А., Добровольский Д.О., Зализняк А.А. База данных конструкций с немецкими модальными глаголами и их русских соответствий // Труды междунар. конф. «Корпусная лингвистика-2023». СПб. : Изд-во СПбГУ, 2024. С. 51-60.
 Structure of dictionary entries of a digital bilingual dictionary and its integration with the corpus | Voprosy leksikografii – Russian Journal of Lexicography. 2025. № 37. DOI: 10.17223/22274200/37/5

Structure of dictionary entries of a digital bilingual dictionary and its integration with the corpus | Voprosy leksikografii – Russian Journal of Lexicography. 2025. № 37. DOI: 10.17223/22274200/37/5

Download full-text version
Counter downloads: 18