Представлена концепция диалектного корпуса, репрезентирующего речь русских диалектоносителей Сибири. Показано, что проект исследователей Томского государственного университета отражает общие тенденции развития мировой и российской корпусной лингвистики, в то же время отличаясь рядом параметров. Новизна разрабатываемого корпуса определяется объектом представления (говоры обширной территории Среднего Приобья), репрезентативностью (архив 70-летнего экспедиционного обследования около 400 сел региона), лексикоцентрической и текстоцентрической ориентацией, структурой ресурса, характером подачи и разметки материалов устной речи. Обосновываются принципы создания Томского диалектного корпуса и сферы его использования.
The project of Tomsk dialect corpus in keeping with trends of corpus linguistics development.pdf Корпусная лингвистика как за рубежом, так и в России относится к числу наиболее актуальных сфер научного поиска. Корпусные разработки, как и словари, становятся не только источником данных, но и одним из эффективных методов лингвистического исследования [Perkuhn, et al., 2012, p. 19]. В настоящее время мировой перечень лингвистических корпусов весьма обширен, они базируются на разном материале и предполагают решение разных задач. В то же время можно выявить некоторые закономерности и лакуны в рассматриваемойобласти науки. 1. Обзорсуществующих диалектных корпусов и их место среди других корпусных ресурсов В составе национальных корпусов преобладают письменные тексты: так, в Британском национальном корпусе (BNC) на долю устной речи приходится около 10 млн словоупотреблений, или 17,8 % от общего объема корпуса1. В Национальном корпусе русского языка (НКРЯ) объем устного корпуса также около 10 млн словоупотреблений, что составляет, однако, всего 2,8 % от его общего объема2. Из известных нам корпусов наиболее обширный материал устной речи включает корпус современного американского английского - 109 млн словоупотреблений, или 20 % всего корпуса3. Устная речь при этом понимается неоднозначно: для формирования и пополнения соответствующих подкорпусов используются прежде всего те тексты, которые уже представлены в расшифрованном и оцифрованном виде, в том числе записи теле-и радиопередач, стенограммы официальных мероприятий, переписка на интернет-форумах, фольклорные тексты, а также записи уроков, лекций, телефонных разговоров ит. п. Создаются также корпуса, представляющие региолекты отдельных территорий. В качестве примера можно назвать банк «Голоса Юга», являющийся составной частью Американского национального корпуса4, проект «Устная речь Финляндии: Разговорный язык в районе Хельсинки в 1972-1974 годах»5, корпус разговорной речи Парижа6 и др. В России на протяжении нескольких лет реализуется проект «Один речевой день», в рамках которого изучается речь жителей г. Санкт-Петербурга. По данным 2016 г. объем корпуса составлял более 1 200 часов звучания и около 1 млн словоупотреблений текстовых расшифровок [Русский язык повседневного общения, 2016, с. 14]. Создан также небольшой (около 40 минут звучания, 5 000 словоупотреблений) корпус «Рассказы сибиряков о жизни»7; существует проект Томского регионального корпуса [Резанова, 2015]; разрабатывается концепция звукового корпуса русской речи различных регионов России [Ерофееваи др., 2015]. Диалектные подкорпуса в большинстве известных европейских и американских корпусов отсутствуют. Лишь в некоторых из них, например в Чешском и Британском национальных корпусах, при репрезентации устной речи предусмотрена возможность поиска по территории, что позволяет изучать зональное варьированиеязыка. Создание диалектных корпусных ресурсов, таким образом, представляет со-бой актуальную задачу. Необходимость их разработки связана, думается, с поисками истоков национального самосознания, возрастающей потребностью современного человека в самоидентичности в условиях технизации, стандартизации, широкого распространения массовой культуры, приводящих к обезличиванию индивида. Корпусным исследованием диалектов занимаются лингвисты Германии, Испании, Португалии, Польши, Болгарии, Финляндии, Норвегии, Швеции, Грузии, Китая. Результатом их деятельности стало множество созданных баз данных и корпусов диалектной речи. Диалекты Британии были исследованы в этом аспекте одними из первых, работа велась параллельно в нескольких странах. Результаты реализации проекта британских ученых по исследованию английских диалек 1 http://www.natcorp.ox.ac.uk/corpus/index.xml?ID=numbers 2 http://www.ruscorpora.ru/corpora-stat.html 3 http://corpus.byu.edu/coca/help/texts.asp 4 http://newsouthvoices.uncc.edu/nsv 5 http://www.ling.helsinki.fi/uhlcs/readme-all/README-uralic-lgs.html#C34 6 http://cfpp2000.univ-paris3.fr/Corpus.html 7 http://www.spokencorpora.ru/showcorpus.py?dir=01life тов - «Survey of English Dialects» (SED) - представлены на сайте национальной библиотеки Великобритании в виде собрания аудиофайлов, снабженных коротким описанием8. Бо́льшая часть материала собрана по вопросникам в 50-60 гг. ХХ в. Всего представлено 287 интервью из разных регионов продолжительностью около пяти минут каждое. Есть возможность выбрать определенный регион или год записи. Достаточно репрезентативен Хельсинкский корпус британских диалектов, который строится на записях 70-80-х гг., сделанных учеными из Финляндии. Было обследовано 92 населенных пункта в шести районах страны, опрошено 237 информантов, зафиксировано 846 149 словоупотреблений9. В Германии создан Фрайбургский корпус английских диалектов. Работа над ним ведется с 2000 г., заявленный объем корпуса - 2,3 млн словоупотреблений, однако материалы не представлены в свободном доступе из-за ограничений авторского права10. Существует также корпус письменных и устных шотландских текстов11, где имеются возможности поиска по слову, доступа к полным текстам, прослушивания аудиозаписей. На материале немецкого языка созданы банк данных разговорного немецкого языка, включающий диалектный подкорпус12 и база данных баварских диалектов немецкого языка, объем которой оценивается создателями в диапазоне от 4 до 5 млн записей13. Проект «The Nordic Dialect Corpus»14 содержит материалы диалектов нескольких скандинавских языков - норвежского, шведского, датского, фарерского, исландского. Диалектные корпуса созданы также на материале других языков: испанского - «Corpus Oral y Sonoro del Español Rural»15, португальского - «The Syntax-oriented Corpus of Portuguese Dialects»16, болгарского - «Bulgarian Dialectology as Living Tradition»17, польского - «Dialekty i gwary polskie. Kompendium internetowe»18, грузинского19. В Китае, как указывают исследователи, наиболее активно изучается мандаринский диалект (Путунхуа), что связано с экстралингвистическими причинами, восприятием его как наиболее престижной разновидности китайского [Zu et al., 2002; Newman et al., 2008]. Современный мандаринский диалект китайского языка представлен в Ланкастерском корпусе, включающем письменные тексты20, и корпусах устной речи: «Chinese Annotated Spontaneous Speech Corpus» (CASS), «Lancaster Los Angeles Spoken Chinese Corpus» (LLSCC); существует также корпус диалекта Вэньчжоу - «Wenzhou Spoken Corpus» (WSC)21, разрабатывался проект мультидиалектного китайского корпуса [Zu et al., 2002]. Создано несколько диалектных корпусов русского языка. Лишь немногие из них включают материалы из разных регионов страны: диалектный подкорпус в составе НКРЯ22, электронная база данных по русским говорам23, акустическая 8 http://sounds.bl.uk/Accents-and-dialects/Survey-of-English-dialects 9 http://www.helsinki.fi/varieng/CoRD/corpora/Dialects/basic.html 10 http://www2.anglistik.uni-freiburg.de/institut/lskortmann/FRED/ 11 http://www.scottishcorpus.ac.uk/advanced-search/ 12 http://dgd.ids-mannheim.de/dgd/pragdb.dgd_extern.welcome 13 http://www.baydat.uni-wuerzburg.de:8080/cocoon/baydat/projektinfo_BayDat 14 http://www.tekstlab.uio.no/nota/scandiasyn/index.html 15 http://www.lllf.uam.es/coser/index.php 16 http://www.clul.ulisboa.pt/en/10-research/314-cordial-sin-corpus 17 http://bulgariandialectology.org/ 18 http://www.dialektologia.uw.edu.pl/ 19 http://www.corpora.co/#/ 20 http://www.lancaster.ac.uk/fass/projects/corpus/LCMC/ 21 http://ntuprojects.com/wenzhou/ 22 http://www.ruscorpora.ru/search-dialect.html 23 http://www.ruslang.ru/agens.php?id=krylov_dialect база данных «Русские регионы»24. Преобладают корпуса, созданные на материале конкретных регионов: корпус говоров р. Устья Архангельской области25, Кубанский диалектный корпус [Трегубова, 2015], Саратовский диалектологический корпус [Крючкова, 2007], вологодский мультимедийный корпус «Жизненный круг» [Задумина, 2004], электронный текстовый корпус лингвокультуры Северного Приангарья26. Теоретические проблемы создания диалектных корпусов связаны в первую очередь со спецификой языковой системы местных говоров, имеющей значительные отличия от других форм национального языка. Создание диалектного электронного корпуса, как отмечает Т. Н. Москвина, сопряжено с целым рядом сложностей, среди которых «системные языковые отличия от литературного языка; исключительно устный характер диалектной коммуникации, как следствие - невозможность опереться на письменные источники; вариативность на всех уровнях, затрудняющая идентификацию единиц в корпусе», а также «собственно диалектная лексика, не поддающаяся простому переводу на литературный язык» [Москвина, 2014]. Затрудняет процессы формирования областных корпусов также собирание материалов для них в условиях языковой среды, к которой, как правило, не принадлежат диалектологи, трудоемкость экспедиционного сбора и обработки полученных данных, необходимость введения дополнительных параметров структуры и разметки корпуса, нерелевантных для кодифицированного языка, имн. др. В связи с обозначенными сложностями опережающими темпами развивается корпусная лингвистика на материале литературной письменной речи; диалектных корпусов в большом семействе электронных баз данных значительно меньше, чем основанных на литературном материале; значительно меньше и их объем; ждут решения многие теоретические проблемы, возникающие в связи с их созданием. Специфика материалов, имеющихся в том или ином региональном центре, накладывает отпечаток на каждую базу данных, несмотря на стремление к унификации корпусной продукции. Научные интересы лингвистической школы, в рамках которой создается новый электронный ресурс, также требуют выработки собственного подхода для решения данной задачи. Разрабатываемая в Томском государственном университете концепция Томского диалектного корпуса (ТДК) вписывается в общий процесс развития корпусной лингвистики в целом и диалектных баз данных в частности, в то же время отличаясьотпоследних по рядупараметров. 2. КонцепцияТомского диалектного корпуса Новизна ТДКопределяетсянесколькимиобстоятельствами. 2.1. Регион. Развивающаяся корпусная лингвистика в России опирается в основном на диалектные материалы европейской части страны. Это касается и сводных корпусов (НКРЯ, «Русские регионы»), где говоры восточнее Урала представлены единичными текстами, и локально ограниченных (Саратовская обл., Псковскаяобл., Кубань, Удмуртия, Вологодскаяобл., Архангельская обл.). Существующие корпуса, созданные на материале сибирских говоров, пока весьма малы по объему. В частности, речь сибиряков отражена в уже упоминавшемся корпусе «Рассказы сибиряков о жизни»27. В 2017 г. создан электронный 24 http://rureg.hs-bochum.de 25 http://parasolcorpus.org/Pushkino/index.php 26 http://angara.sfu-kras.ru/?page=dialect# 27 http://www.spokencorpora.ru/showcorpus.py?dir=01life текстовый корпус лингвокультуры Северного Приангарья (202 текста, 60 тыс. словоупотреблений)28. ТДК является, таким образом, одним из первых опытов создания диалектного корпуса, в котором репрезентированы данные сибирских говоров. Его разработка вписывается в мультидисциплинарный проект изучения уникального природного и социокультурного ареала Сибири в исследовательском центре «Транссибирский научный путь»29. В ТДК представлена речь русских старожилов на территории средней части среднеобского бассейна. Это обширный регион, охватывающий села по течению рек Томи, Оби и их притоков, в границах современного административного деления относящиеся к Томской и центральным районам Кемеровской обл. [Русские говоры..., 1984, с. 5]. Русское население закрепляется здесь с ХVII в., после присоединения Западной Сибири к России - первоначально в нескольких острогах с приписанными к ним населенными пунктами, позднее распространяясь на близлежащие земли. Традиционная культура русского старожильческого населения Приобья, в том числе языковая, «представляет собой своеобразный феномен, сформировавшийся в особых природных условиях на основе тесного взаимодействия с автохтонными народами и потому значительно отличающийся от этнокультурного облика центральных районов России»30. Русские говоры Сибири являются вторичными, сложившимися в результате взаимного влияния речи старожилов и более поздних переселенцев - носителей русско-европейских материнских говоров с языком аборигенов края [Русские говоры..., 1984, с. 15]. 2.2. Источники и репрезентативность корпуса. Одним из основополагающих принципов создания любого корпуса является его репрезентативность, которая «гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений» [Захаров, 2005, с. 3]. Сведения о репрезентативности диалектных корпусов, представленные в общедоступных источниках, не всегда дают возможность сопоставить материал по объему, так как в одних случаях указывается количество часов записи, в других - количество текстов, в третьих - количество словоупотреблений. Параметрами репрезентативности диалектного корпуса, кроме объема материала, являются также число информантов, количество обследованных населенных пунктов, продолжительность временно́го периодаосуществления записей. Объем диалектных корпусов варьируется весьма сильно. Так, корпус бесермянского диалекта удмуртского языка насчитывает около 60 тыс. словоупотреблений31. Наиболее обширные диалектные корпуса из известных нам32 - база данных баварских диалектов немецкого языка (обследовано в общей сложности 1 613 баварских деревень, получено около 4 млн ответов на вопросники)33, корпус шотландских текстов, насчитывающий более 4,5 млн словоупотреблений34, и диалектный корпус скандинавских языков, содержащий около 2,8 млн слов из разговоров и интервью35. Объем около миллиона словоупотреблений можно, по-види-мому, считать средним для диалектного корпуса. Так, Грузинский диалектный 28 http://angara.sfu-kras.ru/?page=dialect# 29 http://tssw.ru 30 Зенько А. П. Русские старожилы СреднегоПриобья: на стыкекультур // Культурное наследие Югры: Электроннаяантология. URL: http://hmao.kaisa.ru/ object/1808928043?lc=ru 31 http://beserman.ru/corpus/search/?interface_language=ru 32 Если не брать в расчет web-корпуса, созданные на материалах, размещенных в Интернете. 33 http://www.baydat.uni-wuerzburg.de:8080/cocoon/baydat/projektinfo_BayDat 34 http://www.scottishcorpus.ac.uk/advanced-search/ 35 http://www.tekstlab.uio.no/nota/scandiasyn/index.html; см. также [Johannessen et al., 2012]. корпус насчитывает 1 871 459 слов, Эстонский диалектный корпус - 1 284 000 слов36, в Ланкастерско-лос-анджелесский корпус разговорного китайского входит 1 002 151 слово37. Хельсинкский корпус британских диалектов включает 1 008 641 словоупотреблений38. Диалектный подкорпус НКРЯ, судя по статистике, пока не отличается ни достаточным объемом (197 текстов, или около 200 000 словоупотреблений)39, ни пропорциональностью представления говоров разных территорий и типов. Складывается парадоксальная ситуация, при которой созданные корпуса отдельных территорий близки по объему к диалектному подкорпусу русского языка, цель которого - охватить территорию страны в целом. Так, корпус говоров р. Устья насчитывает более 800 000 словоупотреблений40. В отношении ТДК можно сказать, что корпус базируется на экспедиционных материалах 70-летнего изучения среднеобских говоров41, обследовании около 400 сел региона, архивных записях (1 300 тетрадей, 200 часов звучания), что позволяет считать его достаточно репрезентативным в плане охвата материала. На данный момент в корпус входит более 600 текстов, около 700 тыс. словоупотреблений. Основная часть материалов находится в закрытом доступе, в свободное пользование предоставлена демонстрационная версия корпуса42. Вместе с тем в связи с экстралингвистическими причинами строгой сбалансированностью представления материалов различных временных срезов, групп говоров (нарымские, прикетские, приобские, притомские, причулымские) и говоров отдельных сел ТДК не отличается. Следует отметить также, что в течение многих лет основной целью диалектологов было полевое исследование только русских старожильческих говоров региона, носителями которых являются потомки первых поселенцев. Речь диалектоносителей более поздних волн переселения фиксировалась в меньшей степени. Записанные тексты в основном представляют собой «полуаутентичные», «провоцируемые» тексты с заданной собирателями те-мой коммуникации и вкраплениями спонтанной речи, типичные для условий полевого сбораматериала. 2.3. Ориентация корпуса. Отражая этапы развития лингвистики в целом и диалектологии в частности, основная часть созданных диалектных корпусов ориентирована на представление системно-структурных особенностей местных говоров. Ряд диалектных корпусов (корпуса китайского языка, база данных баварских диалектов и др.) предназначен, прежде всего, для фонетических исследований. Основным видом разметки в большинстве случаев является морфологическая. Ярким примером такого подхода к репрезентации местных говоров является диалектный подкорпус НКРЯ. Его принципы базируются на последовательном сравнении русских диалектов с литературным языком - прежде всего в области морфологии и лексики; с этой целью разработана система маркеров, выделяющих грамматические и лексические территориальные отличия от кодифицированной языковой подсистемы [Летучий, 2005, с. 215]. После недавней частичной коррек 36 http://www.murre.ut.ee/estonian-dialect-corpus/ 37 http://www.lancaster.ac.uk/fass/projects/corpus/LLSCC/ 38 http://www.helsinki.fi/varieng/CoRD/corpora/Dialects/ 39 http://www.ruscorpora.ru/corpora-stat.html 40 http://parasolcorpus.org/Pushkino/stats.php 41 Систематические полевые выезды для собирания диалектного материала стали осу ществляться в Томском университете с 1946 г. [Томская диалектологическая школа, 2006, с. 16-20] и продолжаются по сей день. Недавно в распоряжение томских диалектологов поступили копии рукописных материалов экспедиций проф. А. Д. Григорьева, впервые осуществившего лингвистическое обследование этого региона в 1917-1922 г. 42 http://losl.tsu.ru/?q=corpus/demo тировки концепции этого ресурса появилась возможность обращения исследователя к полному тексту [Качинская, Сичинава, 2015]. Вместе с тем развитие науки о языке выдвигает перед областными корпусами новые задачи. Движение лингвистики в направлении от структурной к функциональной и когнитивной парадигмам вызывает необходимость изучения дискурсивных практик носителей языковой системы, исследования типов организации текста, отражения в них картины мира, мировосприятия и миропонимания homo loquens, выявления особенностей коммуникации в зависимости от социальной среды, условий общения и т. д. Активно анализируется метаязыковая рефлексия носителей языка, ставшая предметом перцептивной диалектологии [Anders еt al., 2010; Александров, 2013]. Усиливается внимание к проблеме языка и культуры, оформляются как самостоятельные области знания лингвокультурология и этнолингвистика. На рубеже ХХ-ХХI столетий формируется коммуникативная диалектология. В ней «вырабатывается новый подход к пониманию специфики диалекта, согласно которому своеобразие говора не сводится к его структурным особенностям в области фонетики, грамматики и лексики, а проявляется также в строении диалектных текстов, в соотношении различных жанров в составе диалектной коммуникации, в особых приемах раскрытия темы, в когнитивных особенностях диалектной речи, в особой картине мира, реализуемой в общении на диалекте» [Крючкова, 2007]. Все большее внимание (в том числе и в диалектной лексикографии) уделяется недифференциальному анализу местных говоров, общим принципом которого является изучение не только диалектных черт, но и общерусских элементов речи диалектоносителей, системных связей всех единиц лексикона. Эти новые веяния нашли отражение и в сфере создания новых электронных ресурсов. Диалектные корпуса, существующие как в России, так и за рубежом, имеют несколько иную ориентацию по сравнению с корпусами литературных текстов. В болгарском, эстонском, скандинавском, шотландском, португальском диалектных корпусах предусмотрены как поиск по слову, так и просмотр целостных текстов, а также прослушивание аудио. Диалектные корпуса испанского и польского языков представляют собой, по сути, библиотеки текстов: поиск по слову в них невозможен, но представлены целостные тексты и аудиофайлы. В других случаях (Грузинский диалектный корпус и др.) возможен только поиск по слову, не предусмотрено обращение к целостным текстам. В целом же текстоцентрическую направленность и мультимодальность (доступ к звуковым файлам, интерактивным картам, фотографиям) можно считать типичной для зарубежных диалектных корпусов. Создаваемый в России Саратовский диалектологический корпус ставит своей целью моделирование коммуникации в конкретных говорах, репрезентирующих специфику традиционной русской культуры сельского общения. Решение этой задачи осуществляется путем подачи текстов на широком культурном фоне, с привлечением исторических, географических, этнографических сведений, подробном комментировании упоминаемых в речи носителей говора событий, лиц, природных объектов, артефактов и т. п. [Крючкова, Гольдин, 2011]. Лингвокультурологическую направленность имеют также Электронный корпус диалектной культуры Кубани, отражающий тематически ориентированные фрагменты регионального дискурса («Обрядовая культура», «Традиционные верования», «Промысловая культура», «Бытовая культура» и др.) [Трегубова, 2015] и электронный текстовыйкорпус лингвокультуры Северного Приангарья43. Томский диалектный корпус также вписывается в новую лингвистическую проблематику. Он задуман с целью изучения своеобразия традиционной народно 43 http://angara.sfu-kras.ru/?page=dialect# речевой культуры, репрезентированной в дискурсивной практике носителей сибирских старожильских говоров Среднего Приобья. Эта направленность обусловлена как общими процессами развития науки о языке, в том числе корпусной лингвистики и диалектологии, так и сферой интересов исследователей томской диалектологической школы. Ориентация на текст как единицу представления диалектного дискурса дает возможность изучать тематику общения на диалекте, систему речевых жанров, метаязыкового сознания диалектоносителей, своеобразие проявлений речевой культуры, роли фольклора в повседневной речи сельчан, влияния интенционального дискурса на бытовую личностно-ориентированную сферу общения и др. Создаваемый текстоориентированный корпус одновременно можно охарактеризовать как лексикоориентированный. Несмотря на то, что в среднеобских говорах детально описаны все ярусы языковой системы, одним из центральных объектов анализа на протяжении всего периода их изучения является лексика. При этом от выявления собственно диалектных лексем и создания дифференциальных толковых словарей в 50-70-е гг. ХХ в. диалектологи перешли в 80-90-е гг. к описанию системных связей лексических единиц говора и составлению словарей полного типа, а в последние десятилетия - к лингвокультурологическому анализу диалектной концептосферы, реконструкции ментальных черт языковой личности диалектоносителя. Эти задачи также решаются с опорой прежде всего на лексические средства их выражения с учетом семантики, сочетаемостии контекста. 3. Представление материалов, структура ТДК и виды разметки Своеобразие имеющегося архива, формировавшегося диалектологами в течение многих десятилетий, связано с последовательным отражением на разных этапах экспедиционной работы различных форм сохранения устной речи в полевых условиях: от ручной блокнотной фиксации (в том числе в транскрибированном виде) до регистрирования связных текстов диалектоносителей на магнитной ленте и цифровых носителях. Сложная задача их унифицирования решается через оцифровку всех сохранившихся аудиоматериалов экспедиций прошлых лет и переведение в электронный набор всех видов экспедиционных записей. В целях единообразной подачи разнородных первичных данных в качестве базового способа представления звучащей речи принята орфографическая запись с передачей отдельных региональных особенностей. При этом предусмотрен доступ к первоисточникам: просмотр сканированных рукописных текстов (для ранних записей) или прослушивание имеющихся аудиофайлов (для поздних). В качестве базовой макроформы представления материала в корпусе избран текстовый файл, отражающий полный эпизод общения диалектоносителя с собирателем. Пользователям корпуса будут доступны как фрагменты текста, так и целостный файл. Текст представлен в традиционном для томской диалектологической школы орфографизированном виде, сохраняющем отличные от литературной нормы черты произношения и грамматики (долгие твердые шипящие, цоканье, стяженные формы глаголов и прилагательных и т. п.). Отсутствие транскрибированной расшифровки аудиозаписей компенсируется возможностью доступа к звуковым файлам. Отмечаются нераспознанные фрагменты звучащей речи, вопросы и реплики собирателей материала при диалогическом общении с информантами; даются комментарии диалектологов, способствующие пониманию ситуации и содержания текста. При наличии соответствующих материалов предполагается также дополнение текстовойчасти рисунками, фотографиями. Некоторые электронные базы данных (в частности, корпус грузинских диалектов) используют для расширения материала иллюстрации из опубликованных областных словарей [Беридзе, Надараиа, 2011]; вологодский корпус также включает тексты местной публицистики и беллетристики [Задумина, 2004]. Хотя среднеобский регион является одним из наиболее полно отраженных в диалектной лексикографии, такой способ пополнения ТДК не рассматривался: иллюстративные материалы словарей не отвечают принципу включения целостных, связных текстов. Вместе с тем идея связки корпус - словарь может быть реализована в другом виде. Планируется перевод опубликованных диалектных толковых словарей изучаемого региона в электронный формат, создание поисковой системы по этим словарям и ее привязка к текстовому корпусу. Это позволит в перспективе и решить задачу представления семантики областных слов в ТДК, и более эффективно использовать корпус для развития лексикографической базы (уточнение значения зафиксированных слов, пополнение иллюстративной части словарей, включение новых словарных статей). Таким образом, архитектоника корпуса, который на первом этапе разработки будет включать дешифрованные тексты, звуковые материалы и сканированные блокнотные записи, впоследствии дополнится лексикографическим разделом. Аналогичный подход представлен, например, в Болгарском диалектном корпусе, где имеется перевод на английский язык, и в диалектных корпусах, созданных на материале различных языков народов России, - например вепсского языка, где имеется перевод на русский. Принципы разметки в ТДК имеют как достаточно стандартные черты, так и нововведения. Каждый вводимый в корпус текст подвергается трем типам разметки: паспортной, тематическойиразметке по типу текста. Паспортная разметкаотражаетэкстралингвистическиеданныеовремени, месте и характере записи, языковой личности информанта. Она включает дату сбора материала, населенный пункт, основные (ФИО, пол, год рождения) и дополнительные (образование, род занятий, места длительного проживания, информация о родителях и предках) сведения о диалектоносителе, архивный номер тетради. Тематическая разметка в ТДК менее традиционна. Ее осуществление тесно связано с разработкой принципов тематического членения устной речи вообще и диалектной в том числе, представляющей собой сложную теоретическую задачу. Врамках корпуснойлингвистики она еще только начинает решаться. Существует точка зрения, что содержание включенных в корпус текстов не представляет интереса для лингвистов44. Однако представляется, что в свете новых задач коммуникативной диалектологии оно не менее важно, чем формальные параметры дискурса. Отмечается и значимость разнообразия тематики корпуса для семантических исследований [Москвина, 2014]. Наиболее простым способом представления отдельных тем диалектного дискурса является вычленение его фрагментов по принципу тематических блоков (как в лингвокультурологических кубанском и вологодском корпусах) или монотематического сборника (как, например, в электронной базе данных «Устные рассказы о Великой Отечественной войне»45); при этом отражение тем оказывается избирательным. Создатели НКРЯ опираются на общий для всех частей корпуса достаточно обобщенный список тем, исходя из тезиса о том, что в речи диалектоносителей «набор тем текстов мало отличается от литературного, но, естественно, гораздо более ограничен», а «диалектные тексты посвящены почти исключительно быту и обычаям» [Летучий, 2005, с. 230]. Это положение не может, на наш взгляд, рассматриваться как аксиома, а должно быть результатом анализа обширного материала народной речи. Кроме того, излишняя обобщенность выделения тем плохо соотносится с конкретностью мышления, характерной для диалектоносителей. Все включенныевнациональный корпусдиалектные тексты практически 44 http://www.ruscorpora.ru/corpora-intro.html 45 http://nocpskoviana.pskgu.ru/war.php монотематичны, поскольку представляют собой сегменты полевых записей. Саратовские исследователи в основном следуют перечню тем национального корпуса с целью унификации данных при последующем сопоставлении. Вместе с тем они делают большой шаг вперед, исходя из реальности политематичной коммуникации, и указывают при разметке весь перечень затронутых в тексте тем в виде списка [Гольдин, Крючкова, 2006]. Текстовая разметка ТДКотличаетсякакметодикой, так и выделенным в конечном итоге составом тем. В качестве общих принципов разметки среднеобского диалектного дискурса по составу тем можно назвать следующие: вычленение тематики текста осуществлялось в направлении от частного к общему; иерархическое структурирование тем не превышало трех уровней (макротема - частная тема - коммуникативно значимая подтема); номинации тем по возможности соотносились с лексиконом рядового говорящего; при разметке использовалось «мягкое» членение, допускающее частичное наложение границ вычленяемых текстов. Состав тем также оказался иным, чем в диалектном подкорпусе НКРЯ и Саратовском диалектном корпусе: выделено 16 макротем («Работа», «Быт», «Еда», «Природа», «Происшествия» и др.) и 64 темы более частного порядка; в состав макротемы «Работа», например, входят темы «Обработка почвы», «Выращивание растений», «Заготовка кормов», «Выращивание животных», «Лесозаготовка», «Охота», «Ловля рыбы», «Шишкобой», «Сбор дикоросов», «Обработка льна», «Женские работы по дому», «Мужские работы по дому», «Прочие работы»; как высокочастотная в теме «Женские работы по дому» вынесена подтема «Рукоделие»). Отдельно маркировались атематические фрагменты, не отвечающие признакам связного текста, а также ситуативные включения, отражающие специфику устной коммуникации. Кроме того, в ТДК введены виды разметки, которые пока не применяются в известных нам электронных базах данных. Получившая условное название «разметкапо типам текста» отражает: метатекстовые фрагменты - «вербализованные суждения о языке как результат осознания языковой действительности»[Ростова, 2000, с. 55]. Высказывания такого рода дают представление об отношении носителей говоров к своей речи, восприятии речи окружающих, значении диалектных слов, их системных связях и функциональных характеристиках (мотивированное/немо-тивированное, новое/устаревшее, узуальное/неузуальное для говора, нейтральное/сниженное ит. п.); целенаправленную беседу с информантом по вопросникам. В данном случае маркируются фрагменты дискурса, наиболее далекие от естественной коммуникации диалектоносителей, но дающие лингвисту ценные сведения о семантике и употреблении лексических единиц, которые трудно выявить за короткие сроки в экспедиционных условиях. В комментарии отмечается характер вопросника: «Вопросник по теме “Растения”, “Обряды», “Рельеф”», «Вопросник для выявлениямотивационных связейслов» ит. п.; диалог или полилог диалектоносителей. Это фрагменты дискурса, наиболееприближенные кестественной коммуникации жителейсела; наиболее частотные речевые жанры бытовой коммуникации: автобиографический рассказ, рассказы о других лицах, рассказ о случае, воспоминание; встречающиеся в текстах разновидности фольклорных жанров: песни, частушки, пословицы и поговорки, приметы. В настоящее время разработана концепция Томского диалектного корпуса, техническая документация и программное обеспечение к нему; создан электронный архив диалектных текстов, включающий сканированные ручные записи экспедиций 40-80-х гг. (более 1 000 единиц хранения), аудиотеку и видеотеку; переведенные в компьютерный набор экспедиционные записи в объеме около 2 млн словоупотреблений; начат вводтекстовв корпус и ихразметка. Новый ресурс может быть использован при изучении русских народных говоров Сибири, обеспечивая доступ научной общественности к разнообразным материалам диалектологических экспедиций в Среднем Приобье, облегчая для ис-следователя трудоемкие задачи выборки данных и их системного анализа. Результаты работы над проектом внедряются в учебный процесс (практика по коммуникативистике для студентов-филологов, научно-исследовательская деятельность при обучении бакалавров, магистров и аспирантов), будут способствовать совершенствованию существующих диалектных словарей и созданию новой лексикографической продукции. Думается также, что Томский диалектный корпус внесет свой посильный вклад в исследование феномена народной речи во всем многообразии ее свойств.
Zu Y., Chen Y., Zhang Y., Zhou L., Shen M., Huang J. A Super phonetic system and multi-dialect Chinese speech corpus for speech recognition // Proc. of Intern. Conf. on Spoken Language Processing. 2002. URL: http://www.colips.org/conferences/ iscslp2006/anthology/2002/Papers/048.PDF
Newman J., Lin J., Butler T., Zhang Е. The Wenzhou spoken corpus // Corpora. 2008. Vol. 2, iss. 1. P. 97-109. URL: http://dx.doi.org/10.3366/cor.2007.2.1.97
Perkuhn R., Keibel H., Kupietz M. Korpuslinguistik. Paderborn: Wilhelm Fink Verl., 2012. 144 p.
Anders C. A., Hundt M., Lasch A. Perceptual Dialectology. Neue Wege der Dialectologie. Berlin: Degruyter, 2010. 449 p.
Johannessen J. B., Priestley J., Hagen K., Nøklestad A., Lynum A. The Nordic dialect corpus // Proc. of the Eighth Intern. Conf. on Language resources and Evaluation. 2012. P. 3387-3392. URL: http://www.lrec-conf.org/proceedings/lrec2012/pdf/ 773_Paper.pdf
Трегубова Е. Н. Многоуровневая тематическая разметка как инструмент этнолингвистической репрезентации диалектного дискурса в электронном текстовом корпусе // Вестн. Том. гос. ун-та. Филология. 2015. № 1(33). С. 66-77.
Томская диалектологическая школа: Историографический очерк / Под ред. О. И. Блиновой. Томск: Изд-во Том. ун-та, 2006. 392 с.
Русский язык повседневного общения: особенности функционирования в разных социальных группах / Отв. ред. Н. В. Богданова-Бегларян. СПб.: Лайка, 2016. 244 с.
Русские говоры Среднего Приобья / Под ред. В. В. Палагиной. Ч. 1. Томск: Изд-во Том. ун-та, 1984. 208 с.
Ростова А. Н. Метатекст как форма экспликации метаязыкового сознания. Томск: Изд-во Том. ун-та, 2000. 193 с.
Резанова З. И. Лингвистический корпус «Томский региональный текст»: типологически релевантные параметры сбалансированности и репрезентативности // Вестн. Том. гос. ун-та. Филология. 2015. № 1(33). С. 38-50.
Летучий А. Б. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М., 2005. C. 215-233. URL: http://ruscorpora.ru/sbornik2005/13letuchy.pdf
Москвина Т. Н. Методы и подходы корпусной лингвистики в исследованиях семантики диалектной лексики // Современные проблемы науки и образования. 2014. № 6. URL: http://www.science-education.ru/ru/article/view?id=15784 (дата обращения 10.05.2017).
Крючкова О. Ю., Гольдин В. Е. Корпус русской диалектной речи: концепция и параметры оценки // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегод. междунар. конф. «Диалог», 25-29 мая 2011 г., Бекасово. Вып. 10(17). М., 2011. С. 359-367. URL: http://www.dialog-21.ru/media/ 1437/36.pdf
Крючкова О. Ю. Электронный корпус русской диалектной речи и принципы его разметки // Изв. Саратов. ун-та. Новая сер. Филология. Журналистика. 2007. Т. 7, вып. 1. С. 30-34. URL: http://sarteorlingv.narod.ru/dialekt/elektr_korpus.html
Качинская И. Б., Сичинава Д. В. Диалектный подкорпус сегодня // Тр. Ин-та рус. яз. им. В. В. Виноградова. Т. 6. М., 2015. С. 142-162.
Захаров В. П. Корпусная лингвистика: Учеб.-методич. пособие. СПб., 2005. 48 с.
Задумина П. Н. О некоторых особенностях создания мультимедийного корпуса региональных текстов // Молодые исследователи - регионам: Материалы междунар. науч. конф. Т. 3. Вологда, 2004. С. 194-196.
Ерофеева Е. В., Вардёй Б., Краузе М., Пост М. Звуковой корпус региональной русской речи как инструмент изучения региолектов и их оценки наивными носителями языка // Русский язык и литература в пространстве мировой культуры: Материалы XIII конгр. Междунар. ассоциации преподавателей рус. яз. и литературы (МАПРЯЛ), 13-20 сент. 2015 г., Гранада, Испания. СПб.: МАПРЯЛ; Гранада, 2015. Т. 2. С. 84-88.
Гольдин В. Е., Крючкова О. Ю. Тематическая разметка и тематический анализ диалектного текстового корпуса // Языковая личность - текст - дискурс: Теоретические и прикладные аспекты исследования: Материалы междунар. научн. конф.: В 2 ч. Ч. 1. Самара, 2006. С. 71-80.
Беридзе М. М., Надараиа Д. В. Словарь как текстовый компонент корпуса (Корпус грузинских диалектов) // Тр. междунар. конф. «Корпусная лингвистика 2011», 27-29 июня 2011 г., С.-Петербург. СПб., 2011. С. 92-97. URL: https:// events.spbu.ru/eventsContent/files/corpling/corpora2011/Beridze_92.pdf
Александров О. А. Диалектология восприятия: инновации в зарубежной лингвистике // Вестн. Иркут. гос. лингвистического ун-та. 2013. № 3(24). С. 52-58. URL: https://lib.mgpu.ru/materials/10/10912.pdf