От абарма до ящичишка: разработка лексикографического компонента Томского диалектного корпуса | Вопросы лексикографии. 2020. № 18. DOI: 10.17223/22274200/18/5

От абарма до ящичишка: разработка лексикографического компонента Томского диалектного корпуса

Предлагается проект интеграции опубликованного диалектного словаря с электронным корпусом текстов одного региона, не имеющий аналогов в российской научной практике. Описаны этапы работы, обоснованы принципы отбора единиц в словник и подходы к представлению материала с учётом цели лексикографического компонента корпуса и особенностей автоматической обработки слова. Приведены образцы словарных статей планируемого электронного ресурса.

From “Abarmo” to “Yashchichishko”: Creating the Lexicographic Component of the Tomsk Dialect Corpus.pdf Введение Одной из важнейших тенденций современной диалектологической науки является создание электронных ресурсов, на что уже неоднократно обращали внимание исследователи [1-4]. В электронную форму переводятся диалектные картотеки [5], фонотеки [6, 7], диалектологические атласы [8, 9]. Существуют электронные версии многих диалектных словарей. Часть изданий при этом представлена в свободном доступе в формате скан-версий печатных текстов: «Словарь русских народных говоров» [10], «Архангельский областной словарь» [11] и др. Коллекция оцифрованных диалектных словарей, включающая в том числе малотиражные, редкие лексикографические труды, представлена на сайте Института русского языка им. В.В. Виноградова РАН [12]. На материале наиболее известных, крупных словарей 1 Исследование выполнено за счёт гранта Российского научного фонда «Разработка электронных ресурсов для исследования народно-речевой культуры Среднего Приобья» (проект № 19-78-10015). От абарма до ящичишка: разработка лексикографического компонента 99 создаются также электронные базы данных. Так, размещена в интернете электронная версия словаря В.И. Даля [13], ведётся работа над созданием базы данных «Псковского областного словаря» [14]. Существуют мультимедийные учебные пособия по русской диалектологии, размещённые в сети Интернет: школьный диалектологический атлас «Язык русской деревни» [15], вузовский курс «Фонетика русских диалектов» [16], массовый открытый онлайн-курс «Русские диалекты: взгляд из Сибири» [17] и др. Подобные тенденции характерны не только для российской, но и для мировой науки в целом [1, 3, 18]. Разработка новых электронных источников позволяет поставить вопрос о формировании цифровой диалектологии как особого научного направления в русле digital humanities (цифровых гуманитарных технологий). К диалектологическим ресурсам примыкают фольклорные базы данных, как общероссийские, например фундаментальная электронная библиотека «Русская литература и фольклор» [19], так и локальные - база данных псковского фольклора [20], база данных среднеобского фольклора [21] и др. Создание любых подобных ресурсов имеет важное значение, так как позволяет сохранить языковые элементы традиционной народной культуры, стремительно уходящей в прошлое. В то же время необходимо отметить, что цифровые диалектологические источники весьма различны по своим техническим характеристикам. Думается, что их создание не должно не сводиться к простой оцифровке имеющихся материалов. С этой точки зрения особое место среди электронных диалектологических ресурсов занимают базы данных и корпуса. Их число пока относительно невелико. Так, на материале русских говоров Удмуртии создана лингвогеографическая система «Диалект», включающая возможности пословного поиска и визуализации лингвистических данных на карте [22]. С 2005 г. создаётся сводный диалектный подкорпус НКРЯ (285 281 слово) [23], имеющий многоуровневую разметку (центральное положение занимает морфологическая характеристика единиц со специальным маркированием диалектных особенностей). Существуют диалектные корпуса отдельных регионов. Впервые идея такого ресурса выдвинута создателями Саратовского диалектологического корпуса [24]. В настоящее время ряд морфологически размеченных диалектных корпусов, снабжённых аудиозаписями, создан лингвистами Высшей школы экономики - корпус бассейна реки Устья с материалами из Устьянского района Архангельской области, насчитывающий более миллиона словоупотреблений С.С. Земичева 100 [25, 26], корпус говора села Малинино Липецкой области (166 639 словоупотреблений) [27], корпус села Роговатка Белгородской области (114 600 словоупотреблений) [28]. Кроме того, начата работа над тематически размеченными корпусами - диалектным корпусом лингвокультуры Северного Приангарья (170 813 словоупотреблений) [29], Кубанским диалектным корпусом (без сведений об объёме) [30] и др. Краткий обзор подобных ресурсов позволяет сделать вывод, что большая часть из них находится на начальном этапе разработки, включает достаточно небольшое количество материала. При этом как российские, так и зарубежные исследователи указывают, что корпусное направление является одним из наиболее актуальных для современной диалектологии [2, 18, 31]. Добавим, что создание электронных корпусов и баз данных по русским говорам не только позволяет сохранить особый культурный пласт, но и вносит значимый вклад в развитие корпусной лингвистики в целом, так как пдаёт возможность восполнить лакуну, связанную с представлением устной речи в имеющихся корпусных проектах [32. С. 42]. Внедрение в корпус лексикографического модуля в целом является актуальной тенденцией. В основной части НКРЯ для каждого слова имеется ссылка на словарный агрегатор academic.ru, где можно посмотреть значение лексемы и получить некоторую другую дополнительную информацию (в данный момент эта опция доступна только в «старой версии» корпуса) [33]. Часто внедрение лексикографической составляющей сопряжено с переводом на другой язык. Так, в корпусах, создаваемых на материале различных языков народов России, нередко имеется перевод на русский и возможен поиск по русской словоформе. Таковы, в частности, корпус хакасского языка [34], корпус калмыкского языка [35], корпус вепсского языка [36], корпус удмуртского языка [37] и др. В диалектных корпусах дополнительные словарные компоненты, как правило, отсутствуют. Одним из немногих исключений является болгарский диалектный корпус [38], где каждому слову даётся перевод на русский и английский языки. Учёные отмечали, что интеграция диалектного корпуса со словарём - задача достаточно отдалённого будущего, если рассматривать русский язык в целом [39. С. 78]. В то же время на материале одного говора или группы говоров одного региона подобная задача выполнима1. 1 В частности, планировалось включение лексикографического модуля в лингвогеографическую систему «Диалект» [40], однако неясно, был ли этот проект осуществлён. От абарма до ящичишка: разработка лексикографического компонента 101 Томский диалектный корпус (далее ТДК) начал создаваться в 2010 г., когда была предложена общая концепция ресурса [41] и началась оцифровка экспедиционных материалов. Сегодня ТДК насчитывает более 1 млн 700 тыс. словоупотреблений. Осуществлена разметка и доступен поиск по экстралингвистическим параметрам, теме, типу текста, отдельному слову. Демо-версия корпуса представлена в открытом доступе [42], полная - доступна для зарегистрированных пользователей. Данный ресурс проектируется как универсальная информационнопоисковая система, включающая три модуля: 1) текстовый (доступ к целостным текстам и аудиозаписям, тематическая и жанровая разметка); 2) собственно корпусный (грамматическая разметка); 3) лексикографический. Настоящая статья посвящена описанию последнего. Идея интеграции ТДК с диалектным словарём впервые была предложена Е.В. Иванцовой [43]. Основная задача лексикографического компонента - выдача толкования собственно диалектных лексем, что обусловило обращение к дифференциальному толковому словарю для его интеграции в корпус. Объектом интеграции является «Словарь русских старожильческих говоров средней части бассейна р. Оби» под ред. В.В. Палагиной [44] и два дополнения к нему [45, 46] (далее для обозначения совокупности данных изданий используется аббревиатура СРСГ). Всего семитомник насчитывает 23 190 словарных статей. Ранее идея создания сводного словаря на базе СРСГ и других лексикографических трудов томских диалектологов (безотносительно к корпусу) выдвигалась О.И. Блиновой [47]. Реализация проекта интеграции корпуса и словаря предполагает следующие этапы: 1) сканирование, автоматическое распознавание бумажного словаря, выстраивание словарных статей в общем алфавитном порядке; 2) унификация подачи материалов: устранение неточностей автоматического распознавания текста, объединение словарных статей из разных томов; 3) создание компьютерной базы данных; 4) внедрение словарных статей в корпус; 5) добавление в корпус возможности поиска по словарным пометам. Остановимся подробнее на втором этапе работы как центральном с филологической точки зрения (остальные задачи по большей части технические). Подготовку материалов к внедрению в корпус осу- С.С. Земичева 102 ществляют старший научный сотрудник Лаборатории общей и сибирской лексикографии ТГУ С. С. Земичева и сотрудники кафедры русского языка Л.А. Иванова, М.М. Угрюмова. Основные принципы и подходы к обработке словарных статей определяются, во-первых, целью электронного ресурса, во-вторых, техническими ограничениями и требованиями. Общая цель лексикографического компонента корпуса - представить толкования диалектных лексем. По итогам реализации проекта предполагается, что пользователь сможет получить словарную статью на интересующее его слово в тексте (в виде гиперссылки или всплывающего окна). При этом внутри системы будет сначала происходить морфологическая обработка (переход от формы слова в тексте к начальной форме, которая затем ищется в электронном словаре). Таким образом, лексикографический компонент корпуса не самостоятелен, он отличается от традиционных словарей, в частности, тем, что в нём отсутствует алфавитное упорядочивание единиц (хотя оно используется в служебных целях на подготовительном этапе работы). Этот принцип обозначается как автономное функционирование отдельной словарной статьи. Технические ограничения связаны с тем, что распознавание происходит на уровне отдельного слова, а не оборота, чем обусловлено исключение из электронной версии части фразеологических единиц. 1. Состав словника. В СРСГ были включены «слова с диалектными корнями, семантическими, словообразовательными, акцентологическими и лексикализованными фонетическими особенностями фразеология, глаголы с особенностями управления и формообразовательными особенностями в исходной форме» [44. Т. 1. С. 4-5]. В дополнение к словарю были также включены (с некоторыми оговорками) заимствования из западноевропейских языков [45. Ч. 1. С. 3]. При обработке материалов словаря для внедрения в корпус возник ряд проблем. Проект лексикографического компонента в корпусе предполагает, что толкование слова будет выдаваться во всех текстах, включающих его. В связи с этим сложности вызвала, во-первых, подача неоднословных единиц. Из словника были исключены диалектные фразеологические и нефразеологические обороты, состоящие из общерусских слов (камушки считать ‘осматривать хозяйство жениха перед свадьбой’, от ветру качать ‘быть слабым’, в голову кидаться ‘пьянить’ и др.). В противном случае толкование выдавалось бы на каждое употребление соответствующего слова (камушки, считать, от, ветер, От абарма до ящичишка: разработка лексикографического компонента 103 качать и т.п.), что, на наш взгляд, излишне. Однако отметим, что исследователи диалектной фразеологии при необходимости смогут найти в корпусе примеры нужных им единиц, уточняя соответствующую семантику по опубликованным бумажным и электронным словарям. Фразеологический оборот, включающий диалектную лексему, даётся при ней, например: КОСМЫ'НИ, мн. Неодобр. Взлохмаченные волосы. - Космы'ни вон какие (Кем. Лен.-Куз. Шаб.). / Кем. (Лен.-Куз.). 0 ЗА КОСМЫ'НИ ЗАВЕ'ЯТЬ. Оттаскать за волосы. - Я хотел тебя за космы'ни завеять (Карг. Ил.). При этом в ряде случаев словарные статьи на фразеологические и нефразеологические сочетания, данные в исходной версии словаря на общерусскую единицу, были перенесены на другие буквы алфавита. Например, словарная статья КЛЕПЁШНЫЙ в исходной версии словаря имеет вид отсылочной: КЛЕПЁШНЫЙ, см. ДОСКА КЛЕПЁШНАЯ [45. Ч. 1. С. 197]. В итоговой версии она выглядит так: КЛЕПЁШНЫЙ, прил. Относящийся к клепцам (капкану на мелкого зверя). ДОСКА' КЛЕПЁШНАЯ. Ловушка на медведя, состоящая из доски, в которую вбиты металлические стержни с зазубринами. -Доска клепёшна. Зверь идёт травой, все четыре ноги всодит и сидит (Пар. Нест.). / Том. (Пар.). Во-вторых, специальной обработки потребовали слова, совпадающие с общерусскими по форме, но отличающиеся значением. Служебные единицы и глаголы, которые отличаются от литературного языка только сочетаемостью, исключались. Так, были исключены следующие словарные статьи: КЛАСТЬ в сочетании с сущ. огонь. Разжигать костёр. - Огонь клади, я карасей пойду добуду (Крив. Ник.). / Том. (Крив.) [44. Т. 2. С. 82]. КАК, союз. Чем. - Траву же косить легче, как хлеб (В.-Кет. Кет.)1 [44. Т. 2. С. 66] и др. Отметим, что корпус, проект которого включает и морфологическую разметку, в будущем позволит выявлять некоторые из подобных значений, если они являются грамматически обусловленными. Так, например, использование союза как со сравнительной семантикой можно будет найти по запросу «прилагательное в сравнительной степени» + «как». 1 Словарная статья приведена в сокращении. С.С. Земичева 104 В случае других единиц, совпадающих с общерусскими по форме и отличающихся семантически, решение о включении в лексикографический компонент корпуса принималось на основе критерия частотности. Хотя частотность является непостоянным параметром, опора на данный показатель может быть обоснована следующим образом. На сегодняшний день ТДК включает приблизительно 40% материалов, имеющихся в архиве, при этом на долю текстов, записанных в 1940-1990-е гг., приходится более 60% от общего количества словоупотреблений, уже внесённых в корпус. Пополнять ресурс планируется как материалами старых, так и новых экспедиций, но в целом увеличиваться будет доля новых текстов, где диалектная семантика чаще всего оказывается невостребованной. При проверке частотности возможны два варианта результатов. В первом случае более востребованным является общерусское значение, тогда единица исключается из словника. Так, были исключены такие слова, как аккура'тный ‘обладающий красивым телосложением’, которое употребляется в диалектном значении лишь 2 раза из 12; ка'дочка ‘ручка цепа’, насчитывающее 92 словоупотребления в корпусе в значении ‘небольшая кадка’ и 0 - в указанном диалектном значении. Во втором случае, если востребована только диалектная семантика, единицы сохранялись для корпусного представления словаря. Например, американка ‘1) сорт картофеля; 2) разновидность сохи’ (а не ‘жительница Америки’), вяз ‘гибкий прут, связывающий противоположные столбики у саней’ (а не ‘дерево семейства ильмовых’), кладь ‘продолговатый скирд хлеба, сена’ (а не ‘груз, поклажа’) и т.п. Третий тип единиц, которые были исключены из словника СРСГ, -лексемы, отличающиеся от литературного языка только грамматическими характеристиками (яблока, ж.). Семантических отличий в данном случае нет, толкование не требуется. Предполагается, что такие единицы будут обрабатываться с помощью модуля грамматической разметки, а не лексикографического компонента корпуса. По итогам обработки материалов первой части словаря (буквы А-М) с учётом вышеобозначенных принципов из 12 450 словарных статей СРСГ в итоговой версии осталось 9 324, т.е. объём материала сократился примерно на четверть. При этом основная часть исключённых словарных статей - неоднословные единицы и единицы, совпадающие по форме с общерусскими. От абарма до ящичишка: разработка лексикографического компонента 105 Вопрос о пополнении словника остаётся на данном этапе открытым. Как в архивных записях, так и в материалах новых экспедиций обнаруживаются некоторые диалектные единицы, отсутствующие в словнике СРСГ (что связано, в частности, с отбором в словарь лексики только старожильческих говоров) [24. С. 18-19]. Сбор и систематизация подобных единиц требуют специальной работы, однако принцип автономного существования словарной статьи в лексикографическом модуле ТДК предполагает, что пополнение словника возможно на любом из этапов, в том числе после завершения работы над основной частью словаря (так как не требуется выстраивать статьи в общем алфавитном порядке). 2. Структура словарной статьи. Словарная статья включает заглавное слово, его частеречную характеристику, экспрессивные и лексико-грамматические пометы, толкование, контексты, локальные пометы. Часть информации, имеющейся в СРСГ, при подготовке материалов к внедрению в корпус была удалена. Так, в исходной версии словаря каждое слово снабжалось дополнительными данными о словоизменении (в частности, для существительных указывались окончания в родительном падеже, для глаголов - окончания в формах первого лица единственного числа и второго лица единственного числа). Устранение этой информации объясняется тем, что грамматические характеристики каждой единицы будут полно представлены в морфологическом модуле корпуса. В некоторых случаях указание окончаний заменялось на маркирование части речи (вместо «ая, ое» -«прил.»). Кроме того, в томах 1-5 СРСГ в каждой словарной статье давались сведения о наличии диалектной единицы в словарных и несловарных источниках, известных к моменту публикации (словарь В.И. Даля, «Областной словарь колымского русского наречия» В.Г. Богораза, «Опыт областного великорусского словаря» и др.). Эти сведения опущены, так как более полная информация о бытовании слова на территории России на сегодняшний день дана в сводном «Словаре русских народных говоров», в связи с чем и редакторы СРСГ отказались от этой зоны словарной статьи в заключительных томах издания. Имеющиеся пометы, данные перед толкованием слова («многократное», «уменьшительное», «уничижительное» и др.), а также локальные пометы, указывающие перечень населённых пунктов, где встречается то или иное слово, сохранены. С.С. Земичева 106 Далее опишем этапы работы над электронным словарём в соответствии с зонами словарной статьи: заглавное слово, толкование, контексты. Заглавное слово. В соответствии со сложившейся лексикографической традицией сохранена подача заглавного слова прописными буквами, с указанием ударения. Такой подход удобен и для автоматической обработки, так как позволяет отделить зону заглавного слова от других зон словарной статьи. Варианты слова, как и в исходном издании, даются в разных словарных статьях (иначе их автоматическая обработка будет затруднена). Определённую проблему представляет собой написание диалектных единиц. Общий подход, обозначенный в предисловии к СРСГ, заключается в том, что для слов с ясной этимологией даётся единственный вариант написания. «Если этимология неясна, на слово, кроме основной статьи, даётся ссылочная: еман см. яман, бойдон см. байдон» [44. Т. 1. С. 5]. Для подобных диалектных единиц в разрабатываемой электронной версии словаря даются дублирующие словарные статьи, чтобы пользователь мог получить толкование лексемы независимо от варианта написания. Одной из центральных задач представления в корпусе многотомного словаря, издававшегося частями в течение достаточного длительного времени, стало упорядочивание словарных статей, данных на одно и то же слово в разных томах СРСГ. Совпадающие единицы давались в новой электронной версии либо как значения одного слова, либо как омонимы (если между ними нет семантической связи). Примером объединения разных значений полисеманта может служить слово ко 'ник. В СРСГ включены две словарных статьи: КО'НИК, а, м. Фольк. Ласкат. к конь. - Что, мой коник, сивогривый, вороной... (из песни) (Кож. Жур.). / Том. (Кож.). Даль. [45. Т. 1. С. 207]. КО'НИК, а, м. Скамья, имеющая вид ларя и используемая для спанья и хранения одежды. - Коник - кровать-то, одёжу куда класть. Мне всё родитель купил (Яшк. Полом.). Кроватей не было. Коники назывались. С одной стороны коник сделают до поперечнику, занавеску некуда повесить (Яшк. Полом.). [46. Ч. 1. С. 154]. Для представления в корпусе они объединены в одну: КО'НИК, м. 1. Фольк. Ласкат. к конь. - Что, мой коник, сивогривый, вороной... [из песни] (Кож. Жур.). / Том. (Кож.). 2. Скамья, имеющая От абарма до ящичишка: разработка лексикографического компонента 107 вид ларя и используемая для спанья и хранения одежды. - Коник - кровать-то, одёжу куда класть. Мне всё родитель купил (Яшк. Полом.). Кроватей не было. Коники назывались. С одной стороны коник сделают до поперечнику, занавеску некуда повесить (Яшк. Полом.). При формировании словарной статьи многозначной лексемы для определения порядка значений учитывалась, во-первых, семантика (от наиболее широкого значения - к частным, конкретным; переносные значения указываются после прямых), во-вторых, частотность (если два или более значений являются конкретными, неметафорическими, первым даётся более распространённое из них. Распространённость определяется как количество использований слова в том или ином значении в ТДК). Если между значениями совпадающих слов не обнаруживалось семантической связи, они давались как омонимы. Например, словарные статьи на слово косица в СРСГ имели следующий вид: КОСИ'ЦА, ы, ж. Висок. - Это брови, а это веки, норки, лоб, шшо-ки, санки передни и коренные, верхны и нижны, а это косица (В.-Кет. М. Яр). Сына у нас застрелили. В косицу прямо пуля попала (Кем. Лен.-Куз. Красн.). / Том. (В.-Кет.). Кем. (Лен.-Куз.). Опыт: Арханг. (Арханг., Мез.), Иркут., Перм., Якут. Кривошапкин. Молотилов. Ма-ляревский. Патканов и Зобнин. [44. Т. 2. С. 98]. КОСИ'ЦА, ы, ж. Женщина-косарь. - Я работала вно'го шибко. Летом сено косила, хлеб убирала. Шесть соток под руками выжать, ко-то'ры плохи' косицы, а нас человек семь хорошо косило (Юрг. Н.-Р.). [46. Ч. 1. С. 161]. Словарные статьи в корпусе даны как омонимы: КОСИ'ЦА1, ж. Висок. - Это брови, а это веки, норки, лоб, шшоки, санки передни и коренные, верхны и нижны, а это коси'ца (В.-Кет. М. Яр). Сына у нас застрелили. В коси'цу прямо пуля попала (Кем. Лен.-Куз. Красн.). / Том. (В.-Кет.). Кем. (Лен.-Куз.). КОСИ'ЦА2, ж. Женщина-косарь. - Я работала вно'го шибко. Летом сено косила, хлеб убирала. Шесть соток под руками выжать, кото'ры плохи' коси'цы, а нас человек семь хорошо косило (Юрг. Н.-Р.). На данный момент разграничения омонимичных значений не предусмотрено в связи с тем, что надёжные методики для решения подобного рода задач не разработаны. Таким образом, как и в случае с многозначными лексемами, пользователь будет видеть оба значения и иметь возможность самостоятельно определить нужное, опираясь С.С. Земичева 108 на контекст. В перспективе в части контекстов семантическая омонимия, как и грамматическая, возможно, будет снята вручную. Толкования. Принцип автономного существования словарной статьи требует замены отсылочных толкований на содержательные. Так, в СРСГ словарная статья имеет вид: БАЛМО'ШНЫЙ, ая, ое. См. ба'лмошный. - Соображенья не имеет, так балмошный (В.-Кет. Ат.). / Том. (В.-Кет.). [44. Т. 1. С. 25]. В корпусе с учётом толкования единицы БА'ЛМОШНЫЙ в [44] эта словарная статья будет представлена следующим образом: БАЛМО'ШНЫЙ, прил. Взбалмошный. - Соображенья не имеет, так балмо'шный (В.-Кет. Ат.). / Том. (В.-Кет.). В тех случаях, где толкование в СРСГ было дано в виде «Умень-шит.-ласкат. к ...», «Уничижит. к ...», «прил. к ...» и подобных в толковании приводилось и значение исходного слова. Так, в СРСГ имеется словарная статья, отсылающая к толкованию диалектного слова: КАНДЕ'ПОЧКА, и, ж. Уменьшит.-ласкат. к канде'пка. - Дырочку доспешь, кандепочку приткнёшь, она примёрзнет (Крив. Ник.). / Том. (Крив.) [44. Т. 2. С. 68]. В этом же томе слово «канде'пка» толкуется как «Колышек для укрепления сети самолова и др. снарядов на льду» [44. Т. 2. С. 68]. В электронном словаре толкование восстанавливается, итоговая словарная статья выглядит так: КАНДЕ'ПОЧКА, ж. Уменьшит.-ласкат. к канде'пка «колышек для укрепления сети самолова и др. снарядов на льду». - Дырочку до-спе'шь, канде'почку приткнёшь, она примёрзнет (Крив. Ник.). / Том. (Крив.). Контексты. Вопрос о том, приводить ли контексты из иллюстративной части СРСГ в словарных статьях планируемой электронной базы данных, был решён положительно. Разработчики руководствовались при этом двумя соображениями. Во-первых, такие иллюстрации помогают уточнить значение лексической единицы, особенно в ситуации наличия полисемии или омонимии. Во-вторых, некоторые из контекстов, вошедших в словарь, были утеряны и в основную часть корпуса не войдут. Пополнение словарных статей новыми контекстами не предусматривалось, так как выдача большого числа примеров использования слова является, с нашей точки зрения, задачей текстового модуля корпуса, а лексикографический компонент рассчитан на семантизацию диалектных единиц, От абарма до ящичишка: разработка лексикографического компонента 109 Таким образом, для добавления толкований лексем в диалектный корпус потребовалась выработка особого подхода к отбору материала и способам организации словарных статей. Принципы перевода материала в электронную форму для внедрения в корпус определяются тем, что лексикографический компонент рассматривается как часть универсальной электронной системы, при этом автоматическая обработка осуществляется на уровне отдельного слова, а каждая словарная статья функционирует как автономная. К настоящему моменту обработано около половины исходных материалов. Финальную версию электронного словаря как части Томского диалектного корпуса планируется представить к июню 2021 г. Внедрение лексикографического компонента в корпус значительно упростит и ускорит работу с диалектными текстами, а также сделает их понимание доступным широкому кругу лиц. К перспективам проделанной работы относятся, во-первых, расширение словника за счёт других опубликованных словарей и текстовых материалов [48]; во-вторых, внедрение в корпус поиска по единицам, имеющим те или иные словарные пометы («уменьшительно-ласкательное», «увеличительное», «женское» и др.). Представленные решения могут использоваться при разработке других диалектных корпусов.

Ключевые слова

цифровая диалектология, электронный словарь, диалектный корпус, русские говоры Сибири

Авторы

ФИООрганизацияДополнительноE-mail
Земичева Светлана СергеевнаТомский государственный университетканд. филол. наук, ст. науч. сотр. лаборатории общей и сибирской лексикографииoptysmith@gmail.com
Всего: 1

Ссылки

Земичева С.С., Иванцова Е.В. Диалектный корпус как новый ресурс областной лексикографии // Вестник Томского государственного университета. 2019. № 446. С. 15-22.
Блинова О.И. Проект «Словаря русских старожильческих говоров Среднего Приобья» // Вестник Томского государственного университета. Филология. 2014. № 4 (30). С. 17-26.
Словарь русских старожильческих говоров средней части бассейна р. Оби (Дополнение) / ред. О.И. Блинова, В.В. Палагина. Томск : Изд-во Том. ун-та, 1975. Ч. 1-2.
Среднеобский словарь: (Дополнение) / ред. В.В. Палагина. Томск : Изд-во Том. ун-та, 1983-1986. Ч. 1-2.
Словарь русских старожильческих говоров средней части бассейна р. Оби / ред. В.В. Палагина. Томск : Изд-во Том. ун-та, 1964-1967. Т. 1-3.
Юрина Е.А. Томский диалектный корпус: в начале пути // Вестник Томского государственного университета. Филология. 2011. № 2 (14). С. 58-63.
Томский диалектный корпус // Лаборатория общей и сибирской лексикографии НИ ТГУ. URL: http://losl.tsu.ru/corpus (дата обращения: 01.05.2020).
Иванцова Е.В. Томский диалектный корпус: обоснование концепции и перспективы развития // Вопросы лексикографии. 2017. № 11. С. 54-70.
Жданова Е.А. Лексикографический модуль лингвогеографической информационной системы «Диалект» // Лексический атлас русских народных говоров (материалы и исследования). СПб., 2013. С. 185-192. С.С. Земичева
Корпус вепсского языка. URL: http://vepsian.krc.karelia.ru/about/ (дата обращения: 20.05.2020).
Корпус удмуртского языка. URL: http://web-corpora.net/UdmurtCorpus/ search/index.php?interface_language=ru (дата обращения: 25.04.2020).
Bulgarian Dialectology as Living Tradition. URL: http://bulgariandialectology.org/ (access date: 05.03.2020).
Качинская И.Б., Сичинава Д.В. О Корпусе диалектных текстов в Национальном корпусе русского языка // Вопросы лексикографии. 2017. № 11. С. 71-85.
Электронный корпус хакасского языка. URL: http://khakas.altaica.ru (дата обращения: 20.05.2020).
Национальный корпус калмыцкого языка. URL: http://kalmcorpora.ru/dial (дата обращения: 20.05.2020).
Национальный корпус русского языка. URL: http://ruscorpora.ru/old/ (дата обращения: 20.05.2020).
Резанова З.И. Лингвистический корпус «Томский региональный текст»: типологически релевантные параметры сбалансированности и репрезентативности // Вестник Томского государственного университета. Филология. 2015. № 1 (33). С. 38-50.
Диалектный корпус // Региональная этнолингвистика. URL: https://ethnolex.ru/kubdk/ (дата обращения: 20.05.2020).
Демешкина Т.А. Векторы развития современной русской диалектологии // Актуальные проблемы обучения русскому языку : материалы Междунар. науч. конф. Брно, Чехия, 05-07 мая 2014 г. Брно, 2014. С. 268-278.
Диалектный подкорпус // Электронный текстовый корпус лингвокультуры Северного Приангарья. URL: http://angara.sfu-kras.ru/?page=dialect# (дата обращения: 12.04.2020).
Waldenfels R., Daniel M., Dobrushina N. Why Standard Orthography? Building the Ustya River Basin Corpus, an online corpus of a Russian dialect // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference “Dialogue”. Moscow, 2014. Is. 13. P. 270-278.
Corpus statistics // Malinino Corpus. URL: https://linghub.ru/malinino/ #!/corpus_statistics (дата обращения: 20.05.2020).
Corpus of Rogovatka dialect. URL: http://www.parasolcorpus.org/Rogovatka/ (дата обращения: 20.05.2020).
Basic stats // Даниэль М., Добрушина Н., Вальденфельс Р. Говор бассейна Устьи. Корпус севернорусской диалектной речи. Берн ; Москва, 2013-2018. URL: http://parasolcorpus.org/Pushkino/stats.php (дата обращения: 19.05.2020).
Диалектный корпус Национального корпуса русского языка. URL: http://www.ruscorpora.ru/search-dialect.html (дата обращения: 12.03.2020).
Крючкова О.Ю., Гольдин В.Е. Корпус русской диалектной речи: концепция и параметры оценки // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Бекасово, 25-29 мая 2011 г. М., 2011. Вып. 10 (17). С. 359-367.
Лингвогеографическая система «Диалект». URL: http://manuscripts.ru/ dl/dialekt.main (дата обращения: 02.03.2020). От абарма до ящичишка: разработка лексикографического компонента 111
База данных Среднеобского фольклора // Томский межрегиональный институт общественных наук. URL: http://mion.tsu.ru/srobannot (дата обращения: 02.03.2020).
Фундаментальная электронная библиотека «Русская литература и фольклор». URL: http://feb-web.ru/ (дата обращения: 12.03.2020).
База данных псковского фольклора // Научно-образовательная лаборатория региональных филологических исследований. URL: http://nocpskoviana.pskgu.ru/colloquial.php (дата обращения: 20.03.2020).
Szmrecsanyi B. Methods and Objectives in Contemporary Dialectology // Contemporary approaches to dialectology: The area of North, Northwest Russian and Belarusian vernaculars / eds. Ilja A. Serzant & Bjorn Wiemer. Bergen, 2014. Vol. 12. P. 8192.
Долганина А.А., Шевчик А.В. Русский диалекты: взгляд из Сибири. URL: https://pushkininstitute.ru/external_courses/260 (дата обращения: 09.04.2020).
Князев С., Моисеева Е., Шаульский Е. Фонетика русских диалектов. URL: http://dialect.philol.msu.ru/index.php (дата обращения: 12.03.2020).
Кукушкина И.С. Конвертация «Псковского областного словаря» в формат электронного словаря на базе DWS LINGVO CONTENT // Русский язык и литература в поликультурном коммуникативном пространстве : материалы Междунар. науч. конф. / отв. ред. Н.В. Большакова. Псков, 2012. С. 248-253.
Школьный диалектологический атлас: Язык русской деревни. URL: http://gramota.ru/book/village (дата обращения: 29.04.2020).
Даль В.И. Толковый словарь живаго великорускаго языка. URL: http://slovardalja.net/ (дата обращения: 29.04.2020).
Словарь русских народных говоров. URL: http://iling.spb.ru/vocabula/ smg/smg.html (дата обращения: 23.04.2020).
Архангельский областной словарь. URL: http://www.philol.msu.ru/ ~dialectology/dictionary/ (дата обращения: 29.04.2020).
Ссылки на сканированные версии некоторых русских диалектных словарей и исследований по диалектологии // Институт русского языка им. В.В. Виноградова Российской академии наук. URL: http://www.ruslang.ru/ dialectolog_centers_links (дата обращения: 10.05.2020).
Создание базы данных по русским диалектам и перспективы диалектометрических исследований / И.И. Исаев [и др.] // Вестник Российской академии наук. 2016. Т. 86, № 11. С. 972-977.
Кузнецова Е.В. Информационная система «Лексический атлас Волгоградской области»: научный материал в учебном процессе вуза // Лексический атлас русских народных говоров (материалы и исследования). СПб., 2013. С. 335-344.
Коконова А.Б. Фонотека архангельских говоров // Вестник Российского гуманитарного научного фонда. 2015. № 2 (79). С. 231-236.
Кульшарипова Р.Э., Ибрагимов Т.И. Электронная библиотека русских народных говоров Казанского университета: возможности применения, информационный потенциал // Международный журнал экспериментального образования. 2013. № 5. С. 95-96.
Качинская И.Б., Крылов С.А. Диалектная лексикография: электронная картотека «Архангельского областного словаря» // Диалог-2010. Компьютерная лингвистика и интеллектуальные технологии. М., 2010. Вып. 9 (16). С. 169-172. URL: http://www.dialog-21.ru/media/1652/27.pdf
Земичева С.С., Иванцова Е.В. Проект создания Томского диалектного корпуса в свете тенденций развития корпусной лингвистики // Сибирский филологический журнал. 2018. № 3. С. 192-205.
Качинская И.Б., Малышева А.В. Народная речь в Национальном корпусе русского языка // Русская речь. 2019. № 4. С. 103-118.
Жданова Е.А. Проект корпуса русских говоров Удмуртии // Интеллектуальные системы в производстве. 2016. № 4 (31). С. 137-141.
Крючкова О.Ю. Научные парадигмы в диалектологии и диалектологическая традиция в Саратовском университете // И.И. Срезневский и русское историческое языкознание: опыт и перспективы. 205-летию со дня рождения И.И. Срезневского : сб. ст. Междунар. науч.-практ. конф. Рязань, 2017. С. 299304.
 От <i>абарма </i>до <i>ящичишка</i>: разработка лексикографического компонента Томского диалектного корпуса | Вопросы лексикографии. 2020. № 18. DOI: 10.17223/22274200/18/5

От абарма до ящичишка: разработка лексикографического компонента Томского диалектного корпуса | Вопросы лексикографии. 2020. № 18. DOI: 10.17223/22274200/18/5