From “Abarmo” to “Yashchichishko”: Creating the Lexicographic Component of the Tomsk Dialect Corpus | Voprosy leksikografii – Russian Journal of Lexicography. 2020. № 18. DOI: 10.17223/22274200/18/5

From “Abarmo” to “Yashchichishko”: Creating the Lexicographic Component of the Tomsk Dialect Corpus

One of the most important trends in modern dialectological science is creating new electronic resources. The article gives an overview of Russian resources of this kind. Among them dialectal corpora hold a special place. The author of the article focuses on the Tomsk Dialect Corpus, which today includes more than 1,700,000 tokens. This resource is unparalleled in Russian scientific practice. It is designed as a universal information retrieval system which includes three modules: 1) textual, 2) grammatical, 3) lexicographic. The aim of the lexicographic component is to provide definitions of dialect lexemes. To do this, it is proposed to use the Dictionary of Russian Old-Timers ’ Dialects of the Middle Part of the River Ob Basin (1964-1967) edited by V.V. Palagina and two supplements to it (1975, 1983-1986). The phases of the implementation of the lexicographic module into the Tomsk Dialect Corpus are described. The first phase was the automatic recognition of the above-mentioned paper dictionary. The second stage is editing the dictionary. The principles of editing the source material are determined by the fact that the lexicographic component is considered as part of a universal electronic system. Two basic editing principles are: the possibility to process a word automatically and the autonomous functioning of each dictionary entry. In accordance with them, the vocabulary and the structure of the dictionary entry were formed. At the stage of forming the vocabulary, some dictionary entries (for example, two-word ones) were discarded. The structure of the dictionary entry contains the main areas: headword, definition and contexts. One of the main editing tasks is to combine dictionary entries from different volumes of the dictionary into one. These words are marked either as homonyms, or as the meanings of one word. Examples of dictionary entries before and after editing are presented in the article. By now, about a half of the original vocabulary has been processed (letters from A to M, 12,450 entries). The final version of the electronic dictionary as part of the Tomsk Dialect Corpus is planned to be presented on the website of the Laboratory of General and Siberian Lexicography (http://losl.tsu.ru/) by June 2021. The prospects of the project include, firstly, the expansion of the vocabulary, and secondly, the implementation of search by dictionary labels (diminutives, augmentative, etc.) into the corpus. The presented solutions can be used in the development of other dialect corpora.

Download file
Counter downloads: 33

Keywords

digital dialectology, electronic dictionary, dialect corpus, Russian dialects of Siberia

Authors

NameOrganizationE-mail
Zemicheva Svetlana S.Tomsk State Universityoptysmith@gmail.com
Всего: 1

References

Земичева С.С., Иванцова Е.В. Диалектный корпус как новый ресурс областной лексикографии // Вестник Томского государственного университета. 2019. № 446. С. 15-22.
Блинова О.И. Проект «Словаря русских старожильческих говоров Среднего Приобья» // Вестник Томского государственного университета. Филология. 2014. № 4 (30). С. 17-26.
Словарь русских старожильческих говоров средней части бассейна р. Оби (Дополнение) / ред. О.И. Блинова, В.В. Палагина. Томск : Изд-во Том. ун-та, 1975. Ч. 1-2.
Среднеобский словарь: (Дополнение) / ред. В.В. Палагина. Томск : Изд-во Том. ун-та, 1983-1986. Ч. 1-2.
Словарь русских старожильческих говоров средней части бассейна р. Оби / ред. В.В. Палагина. Томск : Изд-во Том. ун-та, 1964-1967. Т. 1-3.
Юрина Е.А. Томский диалектный корпус: в начале пути // Вестник Томского государственного университета. Филология. 2011. № 2 (14). С. 58-63.
Томский диалектный корпус // Лаборатория общей и сибирской лексикографии НИ ТГУ. URL: http://losl.tsu.ru/corpus (дата обращения: 01.05.2020).
Иванцова Е.В. Томский диалектный корпус: обоснование концепции и перспективы развития // Вопросы лексикографии. 2017. № 11. С. 54-70.
Жданова Е.А. Лексикографический модуль лингвогеографической информационной системы «Диалект» // Лексический атлас русских народных говоров (материалы и исследования). СПб., 2013. С. 185-192. С.С. Земичева
Корпус вепсского языка. URL: http://vepsian.krc.karelia.ru/about/ (дата обращения: 20.05.2020).
Корпус удмуртского языка. URL: http://web-corpora.net/UdmurtCorpus/ search/index.php?interface_language=ru (дата обращения: 25.04.2020).
Bulgarian Dialectology as Living Tradition. URL: http://bulgariandialectology.org/ (access date: 05.03.2020).
Качинская И.Б., Сичинава Д.В. О Корпусе диалектных текстов в Национальном корпусе русского языка // Вопросы лексикографии. 2017. № 11. С. 71-85.
Электронный корпус хакасского языка. URL: http://khakas.altaica.ru (дата обращения: 20.05.2020).
Национальный корпус калмыцкого языка. URL: http://kalmcorpora.ru/dial (дата обращения: 20.05.2020).
Национальный корпус русского языка. URL: http://ruscorpora.ru/old/ (дата обращения: 20.05.2020).
Резанова З.И. Лингвистический корпус «Томский региональный текст»: типологически релевантные параметры сбалансированности и репрезентативности // Вестник Томского государственного университета. Филология. 2015. № 1 (33). С. 38-50.
Диалектный корпус // Региональная этнолингвистика. URL: https://ethnolex.ru/kubdk/ (дата обращения: 20.05.2020).
Демешкина Т.А. Векторы развития современной русской диалектологии // Актуальные проблемы обучения русскому языку : материалы Междунар. науч. конф. Брно, Чехия, 05-07 мая 2014 г. Брно, 2014. С. 268-278.
Диалектный подкорпус // Электронный текстовый корпус лингвокультуры Северного Приангарья. URL: http://angara.sfu-kras.ru/?page=dialect# (дата обращения: 12.04.2020).
Waldenfels R., Daniel M., Dobrushina N. Why Standard Orthography? Building the Ustya River Basin Corpus, an online corpus of a Russian dialect // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference “Dialogue”. Moscow, 2014. Is. 13. P. 270-278.
Corpus statistics // Malinino Corpus. URL: https://linghub.ru/malinino/ #!/corpus_statistics (дата обращения: 20.05.2020).
Corpus of Rogovatka dialect. URL: http://www.parasolcorpus.org/Rogovatka/ (дата обращения: 20.05.2020).
Basic stats // Даниэль М., Добрушина Н., Вальденфельс Р. Говор бассейна Устьи. Корпус севернорусской диалектной речи. Берн ; Москва, 2013-2018. URL: http://parasolcorpus.org/Pushkino/stats.php (дата обращения: 19.05.2020).
Диалектный корпус Национального корпуса русского языка. URL: http://www.ruscorpora.ru/search-dialect.html (дата обращения: 12.03.2020).
Крючкова О.Ю., Гольдин В.Е. Корпус русской диалектной речи: концепция и параметры оценки // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Бекасово, 25-29 мая 2011 г. М., 2011. Вып. 10 (17). С. 359-367.
Лингвогеографическая система «Диалект». URL: http://manuscripts.ru/ dl/dialekt.main (дата обращения: 02.03.2020). От абарма до ящичишка: разработка лексикографического компонента 111
База данных Среднеобского фольклора // Томский межрегиональный институт общественных наук. URL: http://mion.tsu.ru/srobannot (дата обращения: 02.03.2020).
Фундаментальная электронная библиотека «Русская литература и фольклор». URL: http://feb-web.ru/ (дата обращения: 12.03.2020).
База данных псковского фольклора // Научно-образовательная лаборатория региональных филологических исследований. URL: http://nocpskoviana.pskgu.ru/colloquial.php (дата обращения: 20.03.2020).
Szmrecsanyi B. Methods and Objectives in Contemporary Dialectology // Contemporary approaches to dialectology: The area of North, Northwest Russian and Belarusian vernaculars / eds. Ilja A. Serzant & Bjorn Wiemer. Bergen, 2014. Vol. 12. P. 8192.
Долганина А.А., Шевчик А.В. Русский диалекты: взгляд из Сибири. URL: https://pushkininstitute.ru/external_courses/260 (дата обращения: 09.04.2020).
Князев С., Моисеева Е., Шаульский Е. Фонетика русских диалектов. URL: http://dialect.philol.msu.ru/index.php (дата обращения: 12.03.2020).
Кукушкина И.С. Конвертация «Псковского областного словаря» в формат электронного словаря на базе DWS LINGVO CONTENT // Русский язык и литература в поликультурном коммуникативном пространстве : материалы Междунар. науч. конф. / отв. ред. Н.В. Большакова. Псков, 2012. С. 248-253.
Школьный диалектологический атлас: Язык русской деревни. URL: http://gramota.ru/book/village (дата обращения: 29.04.2020).
Даль В.И. Толковый словарь живаго великорускаго языка. URL: http://slovardalja.net/ (дата обращения: 29.04.2020).
Словарь русских народных говоров. URL: http://iling.spb.ru/vocabula/ smg/smg.html (дата обращения: 23.04.2020).
Архангельский областной словарь. URL: http://www.philol.msu.ru/ ~dialectology/dictionary/ (дата обращения: 29.04.2020).
Ссылки на сканированные версии некоторых русских диалектных словарей и исследований по диалектологии // Институт русского языка им. В.В. Виноградова Российской академии наук. URL: http://www.ruslang.ru/ dialectolog_centers_links (дата обращения: 10.05.2020).
Создание базы данных по русским диалектам и перспективы диалектометрических исследований / И.И. Исаев [и др.] // Вестник Российской академии наук. 2016. Т. 86, № 11. С. 972-977.
Кузнецова Е.В. Информационная система «Лексический атлас Волгоградской области»: научный материал в учебном процессе вуза // Лексический атлас русских народных говоров (материалы и исследования). СПб., 2013. С. 335-344.
Коконова А.Б. Фонотека архангельских говоров // Вестник Российского гуманитарного научного фонда. 2015. № 2 (79). С. 231-236.
Кульшарипова Р.Э., Ибрагимов Т.И. Электронная библиотека русских народных говоров Казанского университета: возможности применения, информационный потенциал // Международный журнал экспериментального образования. 2013. № 5. С. 95-96.
Качинская И.Б., Крылов С.А. Диалектная лексикография: электронная картотека «Архангельского областного словаря» // Диалог-2010. Компьютерная лингвистика и интеллектуальные технологии. М., 2010. Вып. 9 (16). С. 169-172. URL: http://www.dialog-21.ru/media/1652/27.pdf
Земичева С.С., Иванцова Е.В. Проект создания Томского диалектного корпуса в свете тенденций развития корпусной лингвистики // Сибирский филологический журнал. 2018. № 3. С. 192-205.
Качинская И.Б., Малышева А.В. Народная речь в Национальном корпусе русского языка // Русская речь. 2019. № 4. С. 103-118.
Жданова Е.А. Проект корпуса русских говоров Удмуртии // Интеллектуальные системы в производстве. 2016. № 4 (31). С. 137-141.
Крючкова О.Ю. Научные парадигмы в диалектологии и диалектологическая традиция в Саратовском университете // И.И. Срезневский и русское историческое языкознание: опыт и перспективы. 205-летию со дня рождения И.И. Срезневского : сб. ст. Междунар. науч.-практ. конф. Рязань, 2017. С. 299304.
 From <i>“Abarmo”</i> to “<i>Yashchichishko”</i>: Creating the Lexicographic Component of the Tomsk Dialect Corpus | Voprosy leksikografii – Russian Journal of Lexicography. 2020. № 18. DOI: 10.17223/22274200/18/5

From “Abarmo” to “Yashchichishko”: Creating the Lexicographic Component of the Tomsk Dialect Corpus | Voprosy leksikografii – Russian Journal of Lexicography. 2020. № 18. DOI: 10.17223/22274200/18/5

Download full-text version
Counter downloads: 153