В статье рассматривается реализуемый в томской диалектологической школе новый проект корпусного представления русских говоров Среднего Приобья. Обосновывается модификация первоначальной концепции корпуса. Освещаются общие установки его создания и ориентация электронного ресурса, определяющиеся современными задачами диалектологии, интересами томских диалектологов и характером имеющихся в их распоряжении материалов. Описаны принципы подачи и метаразметки диалектной базы данных, перспективы развития корпуса.
Tomsk Dialect Corpus: substantiation of the concept and prospects of development.pdf В современных научных исследованиях с каждым годом растет потребность в создании полноохватных, доступных и удобных для научного поиска электронных источников информации. Наряду с масштабными проектами национальных корпусов, ставящими цель репрезентативного представления всех типов дискурса того или иного языка, показателен и явно выраженный интерес лингвистов к проектам создания диалектных корпусов. Они созданы или создаются в Германии, Австрии, Испании, Китае, Португалии, Финляндии, Скандинавии, Польше, Литве, Грузии (см., например, CORDIAL-SIN; Helsinki corpus of English dialects; Freiburg English Dialect Corpus; The Nordic Dialect Corpus; Archiv fur gesprochenes Deutsch, Die bayerische Dialektdatenbank; LEXDIALGRAM и др.), на территории России - в научных центрах Москвы, Саратова, Казани, Славян-ска-на-Кубани, Вологды и ряда других городов (Диалектный под-корпус в составе Национального корпуса русского языка, Саратовский диалектологический корпус, Электронная библиотека русских народных говоров, Электронный корпус диалектной культуры Кубани и др.). Это явление закономерно отражает, с одной стороны, понимание значимости местных народных говоров как первооосно-вы национального языка и национальной ментальности, с другой -насущную потребность в получении эффективных инструментов работы с диалектными материалами, в большинстве случаев доступными очень ограниченному кругу пользователей. Создание диалектного корпуса входит в число актуальных проблем и для томской диалектологической школы, являющейся старейшим научным центром по изучению народно-речевой культуры Сибири. Значимость этого проекта определяется не только внутренними потребностями развития самой школы, связанными с необходимостью продуктивного использования экспедиционных и словарных данных в условиях интеграции гуманитарных и точных наук, но и важностью репрезентации сибирских материалов для научного сообщества. Хотя диалектологическая работа ведется во многих научных центрах Сибири (в их числе Тюмень, Омск, Новосибирск, Кемерово, Новокузнецк, Красноярск и др.), диалектные корпуса этих территорий пока не созданы; почти не представлены говоры Сибири и в региональном подкорпусе НКРЯ. Несмотря на то, что в Томском государственном университете внедрение достижений машинной лингвистики в сферу изучения народной речи было начато Г.А. Раковым еще в 80-90-е гг. прошлого века21, в силу многих обстоятельств вплотную к решению обозначенной задачи диалектологи подошли только сейчас. В 2010 г. Е.А. Юриной была сформулирована идея создания Томского диалектного корпуса (ТДК) и обозначены первые шаги работы над ним [1]. Началось сканирование архива полевых записей, вырабатывались принципы графической передачи устной речи и метаразметки диалектных текстов [2]. Однако общий замысел был очерчен очень эскизно и в дальнейшем работа по его реализации не была продолжена. В условиях углубленной работы с материалом и смены рабочей 1 группы первичные идеи проекта получили развитие и подверглись корректировке. Целью данной публикации является освещение выработанной на сегодняшний день общей концепции ТДК, обоснование его установок и внесенных изменений, характеристика принципов метаразметки: намечены также задачи развития нового корпуса в ближайшей и отдаленной перспективе. 1. Общая установка создания корпуса Частная, казалось бы, цель создания электронной базы данных одного из регионов связана с решением проблем, стоящих перед корпусной лингвистикой в целом. В идеале корпусное представление отдельных говоров должно быть максимально унифицировано для того, чтобы создаваемые в том или ином научном центре корпуса вливались в более общие, становясь подкорпусами национальных корпусов, а те, в свою очередь, соотносились между собой, давая материал для сопоставительных исследований. Вместе с тем думается, что интеграция ТДК в более крупные проекты, предполагавшаяся первоначально [1. С. 60], возможна только в достаточно отдаленной перспективе. Многочисленные факторы порождают различие концептуальных подходов к созданию таких продуктов. Среди этих факторов - и различия языковых подсистем, и имеющийся архив, на основе которого создается корпус, и первоочередные задачи, решение которых предполагается с опорой на новый ресурс. Созданные и создаваемые российские диалектные корпуса отражают это положение дел. Они очень разнородны по принципам представления собранных материалов: общей архитектонике корпуса, глубине разметки, поисковым возможностям и т.д. Программы работающих в данном направлении научных центров как в России, так и за рубежом слабо координируются. Очевидно, время для решения этой масштабной задачи еще не наступило; выработка единых принципов корпусной репрезентации диалектной речи - дело будущего22. Исходя из сказанного выше, концепция ТДК разрабатывается с учетом как ключевых направлений исследования народной речи томской диалектологической школы, коррелирующих с достижениями современной науки о языке, так и характера материалов, имеющихся в распоряжении диалектологов. 2. Ориентация корпуса Определяющей ключевые параметры концепции ТДК является его ориентация. В созданных и создаваемых диалектных корпусах отражаются общие процессы развития языкознания. Наряду с традиционной системно-структурной парадигмой на рубеже веков утверждается парадигма антропоцентрическая; при этом она не отменяет предшествующих, придавая современной лингвистике полипарадигмальный характер [4. С. 228]. Структурные закономерности языковых подсистем местных говоров репрезентируют корпусы с фонетической или грамматической ориентацией (например, Диалектный корпус мандаринского китайского языка или Хельсинкский диалектный корпус британского английского языка), реже - лексической (например, Корпус грузинских диалектов). Акцентируется при этом своеобразие диалектной фонетики, грамматики или лексики на фоне кодифицированного языка. Эта особенность присуща и диалектному подкорпусу НКРЯ, где выбрана «морфологически ориентированная стратегия» и основное внимание при разметке уделяется соотнесению областных словоизменительных форм с литературными [5. С. 215]. Типичной в таких случаях является выдача минимальных контекстов. В то же время в диалектных корпусах начинают находить отражение запросы, соотносимые с усилением антропоцентрического начала. Увеличивается число электронных баз данных, в которых возможен доступ к полным текстам. Наряду с библиотеками текстов (к ним фактически относятся, например, испанский и польский областные корпуса, среди отечественных - Электронная библиотека русских народных говоров), текстоцентрическая форма представления диалектных материалов появляется и в собственно корпусных продуктах (в их числе - болгарский, эстонский, скандинавский, шотландский, португальский корпуса). Показательным в этом отношении можно считать развитие концепции диалектного подкорпуса НКРЯ, в котором первоначально выдавались только фрагментарные контексты; недавно составителями было принято решение о возможности работы с целостными текстами по запросу диалектологов [6]. Разрабатываются проекты, имеющие лингвокультурологическую направленность: «Электронный корпус диалектной культуры Кубани» [7] и мультимедийный вологодский корпус текстов «Жизненный круг» [8]. Идеи формирующегося направления коммуникативной диалектологии находят воплощение в Саратовском диалектологическом корпусе ([9] и др.). Ориентацию ТДК можно определить как лексико- и текстоцен-трическую. Выдвижение в качестве основных объектов анализа лексикона и текста обусловлено и развитием диалектологии в целом, и интересами исследователей Томской диалектологической школы. Изучение среднеобских русских старожильческих говоров было начато с их поярусного (фонетического, грамматического, словообразовательного, лексического) системно-структурного описания, решения проблем типологизации и исторического генезиса (см. обобщающее представление этих итогов в работе [10]). На рубеже 70-80-х гг. ХХ в. произошел переход от описания различных тематических групп лексики к изучению лексических явлений (синонимии, антонимии, варьирования, мотивированности), выявлению специфики лексико-семантических категорий (образности, интенсивности и др.) и детальному анализу их функционирования на диалектном материале. Начинается исследование метаязыкового сознания диалектоносителей, организации диалектного высказывания и текста, системы речевых жанров и концептосферы народной речи. Параллельно с этим многоаспектным обследованием среднеобского диалектного массива на протяжении всего периода существования школы осуществлялась лексикографическая деятельность. Томскими диалектологами создано около 30 словарей разных типов - дифференциальных и недифференциальных, толковых и аспектных, прямых и обратных, представляющих группу говоров, говор одного села и идиолект отдельный языковой личности (см. обзор в работе [11]). Перемещение в фокус исследований функционального, тексто-центрического, когнитивного подходов к постижению сущности народно-речевой культуры закономерно вызвало необходимость обращения исследователей к диалектному дискурсу и тем его составляющим, которые позволяют ставить вопрос о специфике коммуникации сельского социума, мировидения и миропонимания диалекто-носителей, своеобразия языковой картины мира. Этими составляющими являются прежде всего различные виды текстовой организации дискурса (речевые жанры, метатексты / тексты спонтанной речи, монологическое / диалогическое общение, прецедентные высказывания и т.д.) и лексико-фразеологический слой языковой системы, также выступающий в качестве «когнитивного ключа» для постижения народной ментальности. Практика создания диалектных словарей тоже требует внимания как к единицам лексикона, так и к тексту, в котором реализуются семантика и функциональные свойства лексем. Таким образом, ориентация корпуса как тексто- и лексико-центрическая закономерна. 3. Принципы представления материалов Характер подачи и метаразметки материалов в создаваемом корпусе определяется особенностями данных, которыми располагают томские диалектологи, и задачами нового электронного ресурса. 3.1. Подача материалов Массив записей диалектной речи среднеобского региона, имеющийся в распоряжении ученых, формировался в течение столетия23. Это обстоятельство, несомненно, позволяет рассматривать созданный архив как ценный источник изучения системы сибирских говоров в диахронии, но вместе с тем создает сложности представления ресурсов, в различные периоды полученных в различавшихся условиями проведения экспедиций, характером применявшихся при записи средств, целями экспедиционного обследования территории, способами передачи звучащей речи. Наиболее ранние материалы 1920-1950-х гг. зафиксированы от руки, в транскрипции. Блокнотные записи 1960-1970-х гг. также ручные, но в них уже вырабатываются принципы полуорфографической передачи диалектных особенностей звучащей речи, принятые впоследствии в томской диалектологической школе. С конца 1970-х - начала 1980-х гг. в экспедициях начинают использоваться магнитофоны. Архив этого периода представляет собой рукописную расшифровку записей на магнитной ленте и отчасти ручные записи, которые еще встречаются в связи с недостаточной обеспеченностью техникой. Сами аудиоматериалы сохранились фрагментарно. Экспедиции последних лет, оснащенные техническими средствами нового поколения, позволили формировать фонотеку оцифрованных аудио- и видеофайлов (около 190 часов). Они расшифровываются сразу в виде электронного набора. Фотографии немногочисленны и также относятся главным образом к Новейшему времени. В рукописных тетрадях раннего периода имеются рисунки предметов народного быта, промысловых инструментов и т.п. Разнородность материала потребовала выработки принципов его единообразной подачи в корпусе. Все имеющиеся блокнотные записи переводятся сейчас в компьютерный набор; на начало 2017 г. это свыше 1,5 млн словоупотреблений. В качестве основной формы представления среднеобских говоров избран текст с орфографической передачей отдельных особенностей устной речи: твердых долгих шипящих (шшука, ташшыт), элементов цоканья (цясто), стяжения в формах прилагательных и глаголов (больша', хоро'ша; знат, понима'шь) и некот. др. «Полуорфографическая запись», утвердившаяся в начале 1960-х гг. при подготовке первого выпуска «Словаря русских старожильческих говоров средней части бассейна р. Оби» [12], последовательно проведена во всех словарных изданиях томских диалектологов; она же используется в иллюстративном материале научных публикаций24. Опора на этот принцип позволит унифицировать репрезентацию разнородного архива - от первых экспедиционных тетрадей до цифровых аудиозаписей последних лет. Избранный способ передачи звучащей диалектной речи можно считать универсальным для лексикологических, лингвокультурологических, дискурсивных и лексикографических исследований. Правила однотипного отражения на письме устной речи в целом уже были сформированы на первом этапе работы над корпусом [1. С. 60-61], хотя в них внесен ряд уточнений. Отказ от транскрипции отчасти восполняется возможностью обращения к имеющимся звуковым материалам; сохранившиеся кассетные и катушечные аудиозаписи предстоит перевести в цифровой формат. Предполагается также возможность доступа к дополняющим данные основного корпуса сканированным ручным записям, в том числе транскрибированным; их оцифровка (свыше 1000 единиц хранения) в основном уже завершена благодаря сотрудничеству с Научной библиотекой Томского государственного университета. В перспективе эти ресурсы могут составить единую систему. 3.2. Принципы метаразметки Принципы метаразметки новой базы данных сочетают традиционные и новые для диалектных корпусов особенности, они также определяются ориентированностью корпуса. За единицу метаразметки в данном корпусе принят текст, понимаемый как фрагмент диалектного дискурса, записанный от отдельного информанта и отличающийся признаками единства хронотопа (время, место записи) и условий фиксации речи. Разработаны основные виды метаразметки вводимых в корпус текстов: паспортная, тематическая и разметка по типу текста. Паспортная метаразметка включает экстралингвистические данные о введенном в корпус тексте. Ее параметрами являются указания на место и время произведенной записи, фамилию, имя и отчество информанта, его пол и год рождения, дополнительные данные о нем (при наличии таковых приводятся сведения о родителях, образовании, роде занятий, местах длительного проживания и др.), тип записи (от руки / с магнитной ленты / диктофона), наличие / отсутствие аудио- и видеофайлов, архивный номер тетради, на основе которой производился компьютерный набор; там, где это возможно, размещается фотография диалектоносителя. Метаразметка по обозначенным в речи темам важна для выявления специфики диалектного дискурса, «зон актуального внимания» сельского социума, изучения концептосферы народной речи; она может стать полезной и при выборке лексических единиц для диалектных словарей. Тематическая разметка присутствует в диалектном подкорпусе НКРЯ и Саратовском диалектологическом корпусе, однако методологические проблемы ее разработки по-прежнему являются актуальными для корпусной лингвистики. Существует мнение, что в диалектах «набор тем текстов мало отличается от литературного, но, естественно, гораздо более ограничен», а «диалектные тексты посвящены почти исключительно быту и обычаям» [5. С. 230], однако эти утверждения требуют проверки. Тематика диалектного дискурса еще только начинает изучаться [13, 14, 15]. Политематичность разговорной речи, с одной стороны, и достаточно высокая степень субъективности при интерпретации текста - с другой, осложняют процедуры выделения тем. Первоначально сформированный перечень размечаемых в Томском диалектном корпусе тем [1. С. 61] был существенно переработан. Тематическое членение текста осуществлялось исходя из следующих посылок: - вычленение тем среднеобского диалектного дискурса производится индуктивным путем, с опорой на реальную дискурсивную практику старожилов, а не на изначально составленную идеографическую схему; - выделение тем идет в направлении от частного к общему. Составление перечня тем, отражаемых в разметке корпуса, начиналось с обозначения частных тем. В формирующийся список включались те из них, которые регулярно повторялись в записях; на этом же основании выделялись и подтемы. Далее частные темы обобщались до макротем, например: «Дом и усадьба»; «Одежда и обувь»; «Домашние вещи»; «Покупки и продажа»; «Условия жизни» ^ БЫТ; - ни слишком обобщенное, ни слишком дробное выделение тем неудобно как при разметке, так и при пользовании материалами корпуса. В связи с этим единично встречающиеся частные темы не вносились в список и возводились к макротемам; углубление каждой темы не превышало трех уровней; - номинации тем по возможности соотносились с лексиконом рядового носителя языка. Несколько исключений составляют случаи, когда книжные слова не имеют лаконичных аналогов в народной речи (темы «Сбор дикоросов», «Экология», «Мораль», «Досуг», «Репрессии»); - упорядочение тем с логических позиций в составленном для корпуса перечне, как показал анализ, возможно лишь отчасти: многие темы пересекаются или синтетичны. В связи с этим список тем в корпусе дан по частотности: от наиболее частотных к редким; - тема выделяется не в отдельном высказывании, а во фрагментах текста, обладающих признаком связности; прочие относятся к атематическим фрагментам; - разметка опирается на принцип «мягкого» тематического членения зафиксированного речевого потока с возможностью частичного наложения границ вычленяемых текстов. Один фрагмент текста также может маркироваться как одновременно принадлежащий к нескольким темам. В настоящее время на основании предварительного анализа части набранных текстов список макротем насчитывает 16 пунктов; наиболее дробный перечень тем второго порядка выявлен в макротеме РАБОТА (13 подтем, обозначающих виды работ). При разработанности отдельных подтем выделялись темы 3-го уровня (так, в «Женских работах по дому» маркирована тематика «Рукоделие»). Некоторые макротемы (ОБРАЗОВАНИЕ, ТЕХНИКА, ТРАНСПОРТ и др.) не членились на более частные в силу их факультативности в дискурсе. Текстоцентрическая ориентированность Томского диалектного корпуса вызвала потребность в осуществлении нового типа разметки, отражающего характер организации текста в диалектном дискурсе. Он условно назван разметкой по типам текста. Поскольку текстовые особенности диалектного дискурса еще недостаточно хорошо изучены, в ТДК на данном этапе производится маркирование наиболее определенно выделяемых в речевом потоке типов текста, имеющих регулярные вербальные маркеры. В перечень данной разновидности разметки включены: а) указания на разновидности текста, различающиеся по степени спонтанности речевых проявлений: - диалоги между диалектоносителями - самая типичная для диалектной коммуникации форма речи, демонстрирующая непринужденное речевое общение представителей народно-речевой культуры25; - ситуативные вкрапления, возникающие при отклонениях от целенаправленной беседы на определенную тему с диалектологами. Вкрапления могут представлять собой обращение к собирателям (Что вам рассказать?; Кушайте, угощайтесь), вербально выраженные отвлечения от рассказа на какое-либо событие (Ой, внучка проснулась) либо развернутые рассказы информантов при изменении темы беседы по их инициативе; - метатексты как «вербализованные суждения о языке как результат осознания языковой действительности» [17. С. 55], встречающиеся и в спонтанной речи диалектоносителей, и при целенаправленном сборе материала, когда диалектологи в процессе общения с информантами эпизодически задают вопросы, касающиеся языка и речи; - ответы на вопросники, отражающие главным образом сбор материала для толковых диалектных словарей с целью уточнения семантики и особенностей употребления единиц словарного состава среднеобских говоров. В отличие от предыдущего типа текстов это не единичные, а серийные метатекстовые фрагменты, часто имеющие общую тематическую направленность («Названия растений», «Обряды» и т.д.). Два первых из перечисленных случаев представляют собой тексты, максимально близкие к естественной коммуникации, остальные - экспериментальные материалы. Вероятно, между теми и другими можно найти и разнообразные переходные случаи, но их выявление и типологизация - дело будущего; б) речевые жанры. В первоначальной концепции ТДК предполагалась полная разметка материалов в соответствии с типологией жанров по характеру интенции (информативные, императивные, ритуальные и оценочные); в каждом случае указывался также конкретный жанр (в группу информативных включены разные виды сообщений, предположение, объяснение, жалоба, предупреждение; императивных - просьба, распоряжение, поручение, приказ, предложение, совет; ритуальных - приветствие, прощание, извинение, благодарность, приглашение, угощение, пожелание; оценочных - похвала, осуждение, самооценка, оценка). Кроме того, были выделены биографический рассказ, сюжетный рассказ, описание, рассуждение, интервью, сказка, песня, частушка, пословица26 [1. С. 61-62]. В уточненной концепции принято решение отказаться от детального маркирования всех речевых жанров, поскольку оно является сложной задачей в связи с недостаточно разработанной теорией генристики и наличием множества жанровых образований с комбинаторными характеристиками. Размечаются наиболее частотные речевые жанры: - автобиографический рассказ, в свободной, неофициальной форме содержащий историю жизни информанта, рассказанную им самим; - воспоминание - речевой жанр, отражающий в монологическом нарративе повествование о событиях человеческой жизни в прошлом; - рассказы о других людях - вариант автобиографического рассказа с иным объектом повествования; - рассказ о случае - повествование о ярком, экстраординарном жизненном событии, пережитом лично информантом или его близкими. Разметке подлежали также значимые для народно-речевой культуры фольклорные жанры - вкрапления в устную бытовую речь частушек, сказок, примет, песен, пословиц, поговорок и др. В перспективе, возможно, будут размечены оценочные речевые жанры, дающие богатую информацию для исследования мировосприятия и миропонимания носителей традиционных говоров. Как и в случае тематического членения материала, используется «мягкая» разметка, допускающая отнесение того или иного текста более чем к одному типу (например, текст в речевом жанре «воспоминание» может быть маркирован также как «ситуативное вкрапление») и частичное наложение границ размечаемых текстов. Параметры лексической разметки практически не разработаны как в общих, так и в диалектных корпусах. В НКРЯ введена семантическая разметка [18], но поиск по ней пока осуществляется только для литературных текстов; другие лексические параметры (например, стилевая принадлежность лексем) не отражаются. Предоставление пользователям корпуса сведений о значениях областных слов, как отмечают И.Б. Качинская и Д.В. Сичинава, сдерживает отсутствие общедоступных электронных версий большинства диалектных словарей [6. С. 158]. Томичи располагают богатой словарной базой, репрезентирующей лексикон носителей говоров Среднего Прибья; сейчас начата работа по оцифровке опубликованных диалектных словарей. В ТДК в качестве первого шага на пути к лексической разметке планируется обеспечить возможность выдачи толкования значений нелитературных единиц, включенных в толковые дифференциальные средне-обские словари - трехтомный «Словарь русских старожильческих говоров средней части бассейна р. Оби» и четыре тома дополнений к нему (1964-1975 гг.). В дальнейшем, очевидно, необходимы расширение связки «корпус - словари» за счет отражения толкований из других словарных источников, введение функциональных характеристик лексем (устаревающее, новое, детское, грубое, бранное и др.) и апробация семантической разметки. Эта информация позволит использовать новый корпус как эффективный инструмент изучения диалектной лексики и создания новых лексикографических трудов. Концепция нового корпусного проекта опирается на итоги работы нескольких поколений ученых томской диалектологической школы, принимавших активное участие в сборе диалектных материалов, составлении областных словарей, разработке различных аспектов изучения речи сибирских старожилов. Их труд - основа разрабатываемого корпуса, его фундамент. Создание задуманного ТДК, в свою очередь, будет стимулировать экспедиционную работу, способствовать совершенствованию лексикографической продукции, развитию новых направлений исследования народно-речевой культуры, задавая вектор деятельности школы в будущем.
Юрина Е.А. Томский диалектный корпус: в начале пути // Вестн. Том. гос. унта. Филология. - 2011. - №2 (14). - С. 58-63. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000458543
Юрина Е.А., Толстова М.А. Проект диалектного корпуса старожильческих говоров Среднего Приобья // Русская устная речь: материалы междунар. науч. конф. «Баранниковские чтения. Устная речь: русская диалектная и разговорно-просторечная культура общения» и межвуз. совещания «Проблемы создания и использования диалектологических корпусов», Саратов, 15-17 ноября 2010 г. - Саратов, 2011. - С. 269-276.
Трегубова Е.Н., Емельянова М.В. Региональный лингвокультурологический корпус как электронный ресурс изучения народной аксиологии // Россия и славянский мир в контексте многополярности: материалы VII междунар. науч. конф., 69 августа 2010 г., Славянск-на-Кубани. - Ч. 2, разд. 2. - Славянск-на-Кубани, 2010. -С. 142-150. - URL: http://www.ethnolex.ru/2014-11-12-19-24-30/75-2014-10-09-20-33-55.html
Кубрякова Е.С. Эволюция лингвистических идей во второй половине ХХ века (опыт парадигмального анализа) // Язык и наука конца ХХ века. - М., 1995. - С. 144238.
Летучий А.Б. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка: 2003-2005: Результаты и перспективы. - М., 2005. -С.215-233.
Качинская И.Б., Сичинава Д.В. Диалектный подкорпус сегодня // Тр. Ин-та русского языка им. В.В. Виноградова РАН. - 2015. - № 6 (6). - С. 142-163.
Трегубова Е.Н. Многоуровневая тематическая разметка как инструмент этнолингвистической репрезентации диалектного дискурса в электронном текстовом корпусе // Вестн. Том. гос. ун-та. Филология. - 2015. - № 1 (33). - С. 66-77. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000502349
Задумина П.Н. О некоторых особенностях создания мультимедийного корпуса региональных текстов // Молодые исследователи - регионам: материалы между-нар. науч. конф. - 2004. - Т. 3. - С. 194-196. - URL: http:// sno.vstu.edu.ru/wp-content/uploads/2014/09/t-3.pdf
Крючкова О.Ю., Гольдин В.Е. Корпус русской диалектной речи: концепция и параметры оценки // Компьютерная лингвистика и интеллектуальные технологии: Тр. междунар. конф. «Диалог-2011». - С. 359-367. - URL: http://www.dialog-21.ru/digests/dialog2011/materials/html/36.htm
Русские говоры Среднего Приобья / ред. В.В. Палагина. - Томск: Изд-во Том. ун-та, 1985-1989. - Ч. 1. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000040233
Русские говоры Среднего Приобья / ред. В.В. Палагина. - Томск: Изд-во Том. ун-та, 1985-1989. - Ч. 2. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000109795
Томская диалектологическая школа: историографический очерк / под ред. О.И. Блиновой. Томск: Изд-во Том. ун-та, 2006. - 392 с. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000222288
Словарь русских старожильческих говоров средней части бассейна р. Оби / ред. В.В. Палагина. - Томск: Изд-во Том. ун-та, 1964. - Т. 1. - 143 с. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000131153
Гольдин В.Е., Крючкова О.Ю. Тематическая разметка и тематический анализ диалектного текстового корпуса // Языковая личность - текст - дискурс: теоретические и прикладные аспекты исследования: материалы междунар. науч. конф.: в 2 ч. -Ч. 1. - Самара, 2006. - С. 71-80.
Буранова А.И. Тематическая организация диалектной речи: квантитативный анализ // Изв. Сарат. гос. ун-та. - Нов. сер. - Сер. Филология и журналистика. -2012. - Т. 12, вып. 3. - С. 35-38.
Косицина Ю.В. Статико-динамическая модель тематической организации диалектного монологического текста: автореф. дис.. канд. филол. наук. - Кемерово, 2013. - 26 с.
Иванцова Е.В. Живая речь русских старожилов Сибири: сб. текстов. - Томск, 2007. - 104 с. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000241033
Ростова А.Н. Метатекст как форма экспликации метаязыкового сознания (на материале русских говоров Сибири). - Томск: Изд-во Том. ун-та, 2000. - 194 с.
Апресян Ю.Д., Богуславский И.М., Иомдин Б.Л. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка: 2003-2005: Результаты и перспективы. - М., 2005. - С. 193-214.