При помощи новейших методов компьютерной лингвистической географии решается теоретическая проблема кластеризации языковых и экстралингвистических данных и визуализируются объективные границы между близкородственными языками на лингвистических картах. Сгенерированные в ходе эксперимента пробные карты визуализируют кластеризацию рефлексов и резкость отграничения ареала их распространения от соседних, а также прямую корреляцию этих рефлексов с высотным расположением соответствующих населенных пунктов.
Methods of Digital Linguistic Geography in Research on the Borders Between Closely Related Languages (Dialects of Easter.pdf Введение Методы компьютерной лингвистической географии, разработанные к концу XX в. [1. S. 749-778], тогда же были применены к диалектам Восточной Сербии и Западной Болгарии [2], а результаты исследований вошли в синтетические труды по сербской и болгарской диалектологии (см. [3-5]) и общей ареальной лингвистике [6. S. 390-446]. Однако диалектометрических изысканий (в духе, например, [7, 8]) ни на материале данных приграничных южнославянских диалектов, ни на ином южнославянском материале в течение почти полутора десятилетий не предпринималось. Лишь в начале текущего столетия были осуществлены первые попытки верифицировать средствами математического анализа, в том числе и методами диалектометрии, традиционные диалектные классификации южнославянских языков - болгарского (см., например, [9]) и македонского [10]. Обзор двух последних и подобных им работ о языках Балканского полуострова, а также оценку их неоднозначных результатов см. в [11]. Цель предпринятого в настоящей статье исследования - впервые в славянской лингвистической географии применить новейшие компьютерные методы кластеризации и визуализации [12] к достоверным и количественно релевантным интралингвистическим и экстралингвистическим данным по 1 Исследование выполнено при финансовой поддержке гранта РФФИ 18-512-76002 ЭРА_а «Изучение дивергенции и конвергенции традиций Центральных Балкан: реализация и перцепция». Методы, компьютерной лингвогеографии 43 смежным диалектам двух близкородственных южнославянских языков, сербского и болгарского. Настоящее изыскание носит пилотный экспериментальный характер и отражает помимо прочего ход ряда новых автоматических и полуавтоматических подготовительных и вспомогательных лингвистических работ, которые еще не являются рутинными для языковедов вообще и диалектологов в частности не только в России, но и в странах Западной Европы и США. Задачи исследования состоят в корректной машинной конвертации имеющихся в нашем распоряжении аналоговых первичных данных в цифровой формат, в разработке цифрового инструментария обработки и кластеризации первичных данных и в генерировании пробных лингвистических карт. Гипотезой теоретического исследования является предположение о том, что в результате применения методов систематизации, анализа, синтеза и визуализации географической дистрибуции кластеров языковых и экстралингвистических данных станет возможной картографическая экспликация объективных границ между близкородственными языками, в частности между сербским и болгарским. Практическим результатом исследования станет преодоление относительного неудобства и несовершенства печатных лингвистических атласов, в частности очевидных ограничений, накладываемых самим их форматом. Это и невозможность масштабирования карт и добавления в них новой информации (от новых пунктов до новых языковых данных), и трудоемкость сопоставления символов на лингвистических картах с данными из прилагающихся таблиц, и неудобства ручного наложения сетки пунктов или фоновой физико-географической карты на карты лингвистические, и невозможность создания большого количества комбинированных и диалектометрических карт, и т.д. В целом такой формат лишен динамичности, и работа с ним представляется излишне трудоемкой и крайне ограниченной в плане интерактивности. Эти и подобные им практические проблемы решены в результате разработки нового цифрового лингвогеографического инструментария. Оцифровывание и дополнение первичных данных Первичные данн^іе для настоящего исследования, составляющие его электронную базу, были получены машинным оцифровыванием части материалов второго тома «Диалектологического атласа Восточной Сербии и Западной Болгарии (ДАВСЗБ)», содержащего вспомогательные и лингвистические карты [Sobolev 1998], а также дополнением этих материалов вручную новой релевантной экстралингвистической информацией. Работы проходили в два этапа, которые можно охарактеризовать как «общий» и «объектно-ориентированный». Каждый из двух этапов включает решение задач разных видов. Во-первых, это работы, необходимые для обеспечения материальной базы, не затрагивающие процесс дигитализации (например, нахождение координат пунктов, обработка, конвертация файлов, транслитерация текста и т.д.); во-вторых, это собственно оцифровывание материа- 44 Н.Г. Горлов, А.В. Кочановская, А.Н. Соболев лов ДАВСЗБ, OCR-распознавание (Optical Character Recognition) числовых и текстовых данных, в том числе таблиц; в-третьих, это регулярная контрольная сверка всех вносимых в базу сведений. Первый этап представляет собой обработку вспомогательных данных, необходимых в дальнейшем исследовании в полном объеме, а основным его итогом стала электронная карта-сетка всех пунктов ДАВСЗБ. В ходе работы были решены следующие задачи: 1. Составлена таблица с названиями пунктов: 1.1) таблица пунктов ДАВСЗБ оцифрована в формат Microsoft Office Excel; 1.2) данные перепроверены, неточности при распознавании текста устранены. 2. Проведены работы по установлению географических координат пунктов ДАВСЗБ: 2.1) проанализировано современное состояние населенных пунктов, включенных в атлас; 2.2) определены географические координатні всех современных населенных пунктов, вошедших в сетку; 2.3) таблица названий ойконимов дополнена: а) географическими координатами; б) сведениями об изменениях в названиях поселений (если они были переименованы) со ссылками на источник; в) сведениями об исчезновении или слиянии нескольких пунктов в один со ссылками на источник. 3. Первая электронная карта сетки пунктов: 3.1) сгенерирована; 3.2) перепроверена на наличие всех заявленн^іх пунктов; 3.3) сопоставлена в приложении Photoshop с картой-сканом из аналогового издания; 3.4) выявлен^!, классифицированы и устранены все случаи несовпадения в расположении пунктов на аналоговой и электронной картах. Для оцифровывания был использован постранично отсканированн^ій вариант издания ДАВСЗБ в формате Portable Document Format (PDF), который при помощи программы Universal Document Converter был переформатирован в архив отдельных изображений по количеству страниц в документе. Это, во-первых, сняло ограничения при работе с форматом PDF - изображения были переведены в графический формат Joint Photographic Experts Group (JPEG), а во-вторых, облегчило работу с раз-личн^іми перечнями пунктов, вошедших в ДАВСЗБ и помещенных в нем на разные страницах издания. Для сбора списка населенных пунктов в один файл фрагменты таблицах, занимающей в аналоговом издании несколько страниц, были собраны в базовом приложении Microsoft Paint в единое изображение JPEG, которое при помощи online-конвертера Online PDF Converter (https://online2pdf.com/convert-jpg-to-excel) было переоформлено в таблицу Microsoft Excel, где каждой строке издания соответствовала одна МетоДы компьютерной лингвогеографии 45 строка, а номер пункта, его название (а при наличии - и номера по «Болгарскому диалектологическому атласу») были разнесены по разным ячейкам. После конвертации в списке были обнаружены отдельные неточности, исправленные после перепроверки вручную: программой выборочно не распознавались графемы с диакритическими знаками (прописные и строчные s, с, z), а также слова и фрагменты слов, сочетавшие знаки разн^іх алфавитов (все ойконимы в ДАВСЗБ приведены в латинской транслитерации с добавлением знака ъ). Отформатированный и проверенный на отсутствие ошибок файл «Таблица населенных пунктов» стал базой для дальнейшей работы. Для составления электронной географической карты таблицу Excel необходимо было дополнить географическими координатами пунктов, которые определялись нами главным образом посредством сервиса GPS Coordinates Google Maps Based (www.gps-coordinates.net) и в отдельных случаях сервисами Bing Maps Microsoft Based (www.bing.com/maps) и Latitude and Longitude Finder (www.latlong.net). Для поиска координат пунктов ячейки таблицы, включающие кириллические знаки, были транслитерированы в кириллицу полностью. В случае неудачи при поиске названий в вариантах, приведенных в аналоговом издании или транслите-рированн^іх в кириллицу, они транслитерировались в упрощенную латиницу для поиска «на английском языке». Параллельно с поиском координат исследовалось современное состояние пунктов: отдельные поселения не присутствуют на общедоступных картах, поэтому поиск сведений о них велся через официальные сайты общин и округов и открытые источники (например www.dimovo.bg,www.dimitrovgrad.rs/cir/onama). Часто поиск производился визуально по самой электронной карте, поскольку поиск по названию не давал результатов. Именно такой способ применялся при работе с ойконимами-омонимами: так как на исследуемой местности встречаются поселения с одинаковыми названиями (например Буковец, Глава-новци, Голеш, Градиште, Извор и др.), а в таблице они приведены в том порядке, в котором обследовались, т.е. территориально-последовательно, было принято решение искать пункт на карте в окружении тех, рядом с которыми он фигурирует в таблице. В итоге в таблицу названий обследованных пунктов были добавленої данные по каждому из них - установленні координатні (широта и долгота помещены в отдельные ячейки), собраны сведения о слиянии пунктов в один (например, пп. № 305 и 306 объединена! в с. Люлин) или их исчезновении с картах (например, п. № 530 исчез с наполнением Завойского озера). По данным дополненной таблицах была сгенерирована первая электронная карта сетки пунктов, которая была перепроверена на наличие всех пунктов и отсутствие неточностей в названиях и номерах пунктов. Для оценки точности определения положения пунктов на карте было решено сопоставить карту издания ДАВСЗБ, существующую в формате JPEG, с электронной сеткой пунктов, нанесенной на план местности и преобразованной в формат Portable Network Graphics (PNG), как два изображения, для чего была выбрана про- 46 Н.Г. Горлов, А.В. Кочановская, А.Н. Соболев грамма Adobe Photoshop CC 2018. Для этого два файла открываются в программе как отдельные окна, посредством функций Слои > Создать дубликат слоя первое изображение дублируется внутри своего окна в два одинаковых слоя, один из которых перемещается в панель слоев в окне второго изображения. Таким образом, слой-дубликат карты-скана был перемещен к сгенерированной карте, разрешение и размер которой больше (8 МБ против 1,5 МБ), что снимало ряд технических трудностей с изменением размера общего файла в обратном случае. Файл «совмещенные картці» был преобразован в программе в смарт-объект, т.е. тип файлов в программах-иллюстраторах, допускающий редактирование растровых или графических изображений, помещенных в виде слоев. Была отрегулирована прозрачность слоев таким образом, что в смарт-объекте были четко видної знаки и номера пунктов. Задача состояла в том, чтобы изменить размер карты-скана, увеличив его до размеров сгенерированной картці так, чтобы они совпали по масштабу, чего нельзя было бы добиться, работая с бумажными носителями. При помощи функций Редактирование > Трансформирование > Масштабирование (Свободное трансформирование) меньший слой был перемещен и масштабирован до необходимых параметров. В результате совмещения карт и анализа положений пунктов был установлен ряд несовпадений (для менее 10% от количества пунктов), которым была присвоена следующая кодировка: - 0 - отсутствие пункта на сгенерированной карте (так помечались, например, второй пункт из двух, отсутствующий из-за слияния, или не найденн^ій на карте пункт в месте полагаемой дислокации из-за значительного сдвига или в результате совпадения его координат с другим); - 1 - сдвиг относительно оригинала (более ¾ несовпадений); - 2, 4 - наложение координат (совпадение) разных пунктов - для двух разных случаев, когда по неустановленн^ім причинам координатні пунктов совпали. Все случаи несовпадений были пересмотрены - координаты перепроверены по альтернативным источникам, а изменения внесены в итоговую таблицу, ставшую основной при разработке цифрового инструментария. ⅝'f. Xatne 374 375 Slaviae ILarnenica ILmpbc Boles' Dol Brajk'ovci Ixatovci Oulniovci Oorni Kγγ∣'cm1oI ViSOki Odorovxi v⅛ikovi∣a Smilovci Moinci PerwlaJ Protopopoxi Mugoi PeayLatrnide 43.143 825 43.135073 0 43.1308385 1 43.118502 43.122013 43.1166867 4 43.121378 43.1278923 43.1025 4 43.08S299 43.0873128 43.0876836 43.063610 43.055801 1 43.065310 Longirude_ 22.846424 22.892794 22.705330900000035 22.921622 22.868142 22.88487310000005 22 817856300000072 22.96545530000003 22.81639999999993 22.91494 22.845851100000004 22.88873060000003 22.787220 22.86176649999993 22 903600 С4 С5 Сб С8 С7 С9 ClO Cll С12 CU С14 С15 Cie CU Cia CnaiHfti, Cρ6ιga Височки Одсровци Мазгош, Cpfiuja ⅛t1κ∕7ww∣w.diπntfp⅝yad.rs7dr7o 731 806 950 834 http’/'www.dinulros^rad.rS'cir 756 763 1079 1253 ħnpy'W**n> .diιnirros⅛rad.ri'Cir Ъ7 352 733 949 797 734 ht^7''wsw,daiuBres^rad.ricir. 681 ⅞πm¾ ¾ππιl asteτgdeτπ gtopo30 731 805 952 аз5 754 766 1079 1265 736 Є51 732 960 807 734 679 740 S02 9Я 837 756 774 1073 1261 736 S54 729 961 313 73 S 673 758 871 903 885 768 785 1151 1175 785 876 753 950 794 719 693 Рис. 1. Основная таблица-сетка обследованн^іх пунктов (извлечение) начато оцифровывание собственно лингвистических карт ДАВСЗБ. При этом реходе второго, «объектно-ориентированного», этапа было шаются следующие задачи: Методы, компьютерной лингвогеографии 47 1. Изучение доступного программного обеспечения по электронному распознаванию текста с изображений и выбор оптимальной программы для дальнейшей работы. 2. Подготовка аналоговых материалов ДАВСЗБ для электронного распознавания. 3. Разработка единого алгоритма оцифровывания карты. 4. Оцифровывание перечней пунктов, входящих в состав каждой тематической карты, согласно единому алгоритму. 5. Составление электронных лингвистических карт. Первоначально для оптического распознавания текста и преобразования данных в другой формат была выбрана программа Open OCR Cuneiform 2007, при помощи которой были оцифрованы карты ДАВСЗБ № 3, 7 и 20. В печатном атласе карты, посвященные рефлексам *dj, *о, *ь, используя наборы геометрических фигур, визуализируют ареальную дистрибуцию лингвистических признаков, обозначенных как form1, form2 и т.д., в обследованн^іх населенных пунктах. В ходе работы с программой были выявлены ее существенные недостатки, в связи с чем был реализован переход к более современной ABBYY FineReader 14. Недостатки Cuneiform заключались, во-первых, в том, что программа не была способна к распознаванию таблиц, т.е. требовалось заранее обрезать изображение, перечень пунктов на котором дан в виде таблицы, в графическом редакторе по столбцам и лишь затем распознавать. Во-вторых, при распознавании текста программа порождала многочисленные ошибки типа 1 - !, 5 - 6, 2 - 3, 0 - 9, 7 - 1, 0 - О, 8 - В, пробел - нуль знака и т.д., что существенно затрудняло работу. В-третьих, в ней предполагается экспорт данн^іх только в формат Microsoft Word. В отличие от Cuneiform, ABBYY распознает таблиц^! и изображения, имеет опцию экспорта в необходимый нам Microsoft Excel и опцию редактирования, т.е. сверки с оригиналом в самой программе, где результаты исправлений используются для машинного обучения. Разумеется, эта программа также допускает ошибки, однако в гораздо меньшем количестве и меньшего числа типов. Нами были замечен^і только: 0 - 9, 5 - 6, нуль знака - точка - запятая. Подготовка материалов для данного этапа была осуществлена еще на первом этапе, когда посредством Universal Document Converter были получены страницы-изображения JPEG. Поскольку карты и перечни пунктов, нанесенных на них, дан^і стандартизованно, был разработан следующий алгоритм процесса оцифровывания: 1. В ABBYY: 1.1) «Открыть» > «Конвертация документов» > «Открыть в OCR-редакторе»; 1.2) провести сверку изображения и текстовых данных, представленных в разных частях окна программы, осуществить выверку опечаток и устранить их; 1.3) «Передать» документ, т.е. экспортировать его в формат Microsoft Excel. 48 Н.Г. Горлов, А.В. Кочановская, А.Н. Соболев 2. В Microsoft Excel (выполнять отдельно для каждой формы (form 1 / form 2 и т.д.), которая представлена в материалах к аналоговой карте ДАВСЗБ каждая отдельным столбцом): 2.1) разделить данн^іе одной строки на разные ячейки так, чтобы номера пунктов находились в отдельных ячейках: 2.1.1) выделить столбец, в котором, через запятые и / или пробелы или другие знаки табуляции записаны номера пунктов (как в издании ДАВСЗБ, где номера пунктов приведены подряд в один столбец по несколько в одной строке); 2.1.2) «Данные» > «Работа с данными» > «Текст по столбцам», указать формат «с разделителем», указать типы разделителей (точка, пробел, запятая) и отметить галочкой «считать последовательные разделители одним»; 2.1.3) ячейки всех столбцов перенести в один столбец и отсортировать по возрастанию. 2.2) отформатировать документ, вторично перепроверить данные; 2.3) сохранить с названием «карта № Х». Посредством разработанного единого алгоритма в будущем будет произведено оцифровывание всех лингвистических карт ДАВСЗБ. Цифровой инструментарий и пробные карты Цифровой лингвогеографический инструментарий и его функции разрабатывались на оцифрованном и дополненном материале ДАВСЗБ, представленном в виде таблиц, основная из которых, как изложено выше, содержит полный нумерованный список обследованных в исходном атласе населенных пунктов с координатами каждого из них, а также некоторую вторичную нелингвистическую информацию. Разработка ведется на языке программирования R в среде разработки RStudio [12]. Основная особенность данного языка - его расширяемость с помощью свободно разрабатываемых и распространяемых библиотек, обеспечивающих работу специфических функций - так называемых пакетов. Одним из таких пакетов, сыгравшим решающую роль в выборе языка и среды для данного проекта, является Leaflet, который предоставляет мощный инструментарий для разработки интерактивных цифровых карт. Географической «основой» для них служат базовые карты, составленные участниками некоммерческого веб-картографического сообщества OpenStreetMap. Нами было принято решение использовать в качестве «основы» для нашей собственной разработки карту, созданную сообществом OpenStreetMap Sweden. Первым этапом разработки стало написание скрипта на R, генерирующего карту и выводящего на нее данные из вышеупомянутой основной таблицы: каждый пункт был представлен на карте (в соответствии с его координатами) в виде круглого черного маркера, над которым был расположен его порядковый номер. Чуть позже скрипт был переработан таким образом, чтобы на карту выводились и другие данные из основной табли- МетоДы компьютерной лингвогеографии 49 цы: второстепенная нелингвистическая информация о каждом пункте хранилась во всплывающих полях, появлявшихся при нажатии на маркер, а возле самих маркеров находились не только их порядковые номера, но и их названия. На следующем этапе была поставлена цель создать инструмент поиска населенного пункта на сгенерированной карте, как по названию, так и по номеру. Возможности пакета Leaflet для решения этой задачи оказались недостаточными, в связи с чем было решено разработать отдельное приложение, которое объединяло бы в себе карту и поисковую систему. Для этого потребовался другой пакет языка R - Shiny, позволяющий создавать интерактивные веб-приложения. В результате было написано локальное веб-приложение, представлявшее из себя веб-страницу, на которой находилась сгенерированная интерактивная карта, а также, в виде двух отдельных панелей, поля поиска - по номерам населенных пунктов и по их названиям. При выборе того или иного пункта с помощью поисковика происходило автоматическое центрирование и приближение экстента карты к соответствующим координатам. Необходимо отметить, что, начав работу над данным проектом, мы были заинтересованы во внедрении в инструментарий не только уже имевшихся у нас лингвогеографических данных из печатных атласов, но и иной, новой информации, в том числе внелингвистического характера. Первым шагом в этом направлении и следующим этапом стала разработка отображения на генерируемой карте данных о высоте каждого пункта над уровнем моря. Источником таких данных послужила информация, собранная международным исследовательским проектом по созданию цифровой модели высот «Радиолокационная топографическая миссия шаттла» (SRTM), а конкретнее, набор данных SRTM3, в котором общая площадь произведенной радарной топографической съемки делится на квадраты 90×90 м. Был написан отдельный R-скрипт, импортировавший в основную таблицу с перечнем населенных пунктов из ДАВСЗБ информацию о высоте каждого из них над уровнем моря. После этого для наглядного представления высотных данных на карте мы условно разделили их на шесть диапазонов: - от 0 до 200 м над уровнем моря; - от 200 до 400 м; - от 400 до 600 м; - от 600 до 800 м; - от 800 до 1000 м; - более 1000 м над уровнем моря. Была создана шестичастная цветовая шкала, где каждый цвет соответствовал одному из выделенных диапазонов. Скрипт, генерирующий нашу карту, был переработан с учетом импорта перечисленной информации. В результате высотные данные были представлены на карте следующим образом: каждый круглый маркер, соответствующий населенному пункту из основной таблицы, был автоматически окрашен в один из цветов ше- 50 Н.Г. Горлов, А.В. Кочановская, А.Н. Соболев стичастной шкалы в соответствии с тем, в какой из выбранных шести диапазонов попадали указанные для этого пункта в таблице данные о его высоте над уровнем моря. Дополнительно эти непосредственные числовые данные были внедрены в вышеописанные всплывающие поля при каждом маркере. Кроме того, на «основу» карты был добавлен дополнительный слой теневой отмывки рельефа, созданный в рамках проекта OpenStreetMap. Следует также отметить, что на данной стадии (как и на всех последующих) при каждом маркере на карте сохранялся порядковый номер представляемого им населенного пункта, однако от выведения его названия возле маркера было решено отказаться в силу визуальной громоздкости такого представления. Следующим этапом разработки лингвогеографического инструмента стали опыты по имплементации собственно лингвистических данных. Составленные ранее на основе трех карт ДАВСЗБ (карты № 3, 7 и 20) три таблицы формата XLSX, каждая из которых содержала информацию о том, какие формы представлены в исходной сетке и в каких населенных пунктах (в соответствии с нумерацией из нашей исходной таблицы) они встречаются, были сведены в три сетки встречаемости форм. Для условного представления форм на созданной карте был выбран способ, аналогичный примененному в ДАВСЗБ: каждой форме (отражающей диалектный признак) соответствует условный знак, используемый в качестве маркера каждого пункта, в котором эта форма встречается. Для тех пунктов, где встречается более одной формы, был разработан особый маркер - черная точка, рядом с которой расположены два или более условных знака. Для пунктов, в которых не зафиксирована ни одна форма, также создан свой собственный маркер - черная окружность. Этот метод представления форм был внедрен в формирующий карту скрипт и отработан на таблице, содержащей данные из сетки карты № 3. Кроме того, разработанный метод представления форм был скомбинирован с описанным выше методом представления данных о высоте над уровнем моря. Таким образом, каждый условный знак при каждом населенном пункте на сгенерированной карте был автоматически окрашен в один из шести цветов в соответствии с имеющимися высотными данными об этом пункте. В настоящий момент ведется дополнительная работа над проверкой и уточнением сведений о высоте пп. над уровнем моря по традиционным источникам и над внесением необходимых коррективов. Комбинационная карта, представленная на рис. 2, совмещает лингвистическую и внелингвистическую информацию, а именно сведения о рефлексах *dj (например в лексемах-рефлексах прасл. *medja ‘межа') в об-следованн^іх пунктах (форма 1 - zd (mezda), форма 2 - dz (medza), форма 3 - z (meza), форма 4 - gj (megja)), с одной стороны, и данные о высоте пунктов над уровнем моря - с другой. Методы, компьютерной лингвогеографии 51 Данные о высотности пунктов (в метрах над уровнем моря): Условные обозначения встречающихся в пунктах форм*: • -форма 1 ■ - форма 2 ♦- форма 3 А- форма 4 О-нет данных ’Размер маркеров на карте увеличен для печатной Персии. Нумерация пунктов в печатной версии карты не приводится. Рис. 2. Комбинационная карта с лингвистической и внешнелингвистической информацией На момент написания статьи проводились также опыты по кластеризации и выводу на карту имеющейся у нас лингвистической информации в табличном формате различными комбинаторными методами. Так, был разработан метод градуированного представления межтабличной (и, соответственно, межсеточной) встречаемости форм в пунктах: каждый пункт на карте представлен круглым маркером, который окрашен в один из цветов из новой четырехчастной шкалы в соответствии с тем, в скольких из трех вышеупомянутых таблиц (соответствующих сеткам карт № 3, 7 и 20) содержится информация о том, что в этом пункте встречается какая-либо форма из трех, характерных для западноюжнославянского, в частности сербского, языкового ареала (т.е. *dj > dz, *о > и, *ь > эу. ни в одной, в одной из трех, в двух из трех, во всех трех таблицах. 52 Н.Г. Горлов, А.В. Кочановская, А.Н. Соболев Данные о встречаемости форм в пунктах*: В пункте не встречается одна форма из трёх таблиц в пункте встречаются формы из всех трёх таблиц в пункте встречаются формы из одной таблицы в пункте встречаются формы из двух таблиц *Раамер маркеров на карте увеличен для печатной Персии. Нумерация пунктов в печатной версии карты не приводится. Рис. 3. Комбинационная карта с разноплановой лингвистической информацией На этом материале сгенерирована комбинационная карта, представленная на рис. 3. В настоящий момент ведется дополнительная работа по автоматическому различению случаев полного отсутствия любых сведений из каких-либо пунктов от случаев отсутствия в этих пунктах именно искомых трех форм при возможном наличии других. МетоДы компьютерной лингвогеографии 53 Заключение и перспективы дальнейших исследований Полученные в ходе экспериментов результаты демонстрируют не только перспективность применения выбранных методов и возможность кластеризовать диалектные различительные признаки и внелингвистическую информацию, но и перспективы визуализации результатов на лингвогеографических картах. Сгенерированные экспериментальные карты демонстрируют кластеризацию рефлексов *dj > dz, *о > u, *ь > э и резкость отграничения ареала их распространения от соседних ареалов, а также их прямую корреляцию с высотным расположением соответствующих населенных пунктов в горном массиве Стара Планина по обе стороны государственной границы между Сербией и Болгарией. Рабочую гипотезу о возможности картографической экспликации объективных границ между близкородственными языками, в частности между сербским и болгарским, можно считать подтвержденной. К ближайшим перспективам исследования относятся полное оцифровывание карт ДАВСЗБ, дополнение основной карты-сетки пунктов новой информацией, включая новые пункты, расширение возможностей интерактивного взаимодействия с картой и внутренними лингвогеографическими данными (на уровне как самой карты, выводимой в веб-приложение, так и отдельно встраиваемых в это приложение инструментов), увеличение объема и разнообразия этих данных, изучение и совершенствование способов их представления (так, встречаемость форм в пунктах может быть отображена не только с помощью условных знаков, но и посредством изоглосс, цветовой заливки определенных областей и комбинации этих методов), а также оптимизация хранения этих данных, их редактирования и оперативного обращения к ним. В дальнейшем к уже имеющимся и к новым количественно релевантным надежным данным можно будет применить самые современные методы статистического анализа [13, 14], что позволит надежно верифицировать лингвогеографические наблюдения над разграничением близкородственных языков.
Makarova A.L., Sonnenhauser B., Vuković T. Corpus-based variation analysis in a Timok dialect. 34 p. manuscript.
Конер Д.В., Макарова А.Л., Соболев А.Н. Статистический метод языкового профилирования носителя диалекта (на материале восточносербского идиома села Берчиновац) // Вестник Томского государственного университета. Филология. 2019. № 58. C. 17-33.
R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL: https://www.R-project.org/
Русаков А.Ю., Морозова М.С. Количественные исследования балканских языков и диалектов: достижения и перспективы // Съпоставително езикознание. 2020. 19 p. In print.
Prokić J. Families and resemblances. PhD thesis. Groningen: s.n., 2010. (Groningen Dissertations in Linguistics 88). 196 p.
Dombrowski A. A Network Analysis of Macedonian Dialects (a Methodological Experiment). A paper presented at the 19th Biennial Conference on Balkan and South Slavic Linguistics, Literature and Folklore. April 25-27, 2014, University of Chicago, Illinois. 25 p.
Goebl H. Dialektometrie; Prinzipien und Methoden des Einsatzes der numerischen Taxonomie im Bereich der Dialektgeographie. Wien : Verlag der Österreichischen Akademie der Wissenschaften, 1982. 123 S.
Goebl H. Ansätze zu einer komputativen Dialektometrie // Dialektologie. 1. Halbband. Handbücher zur Sprach- und Kommunikationswissenschaft. Berlin : de Gruyter, 1982. S. 778-792.
Language and space. Language mapping. An international handbook of linguistic variation / eds. by A. Lameli, R. Kehrein, S. Rabanus. Berlin ; New York : de Gruyter, 2010. Pt 1. XXII, 668 S.
4. Български диалектен атлас / отг. ред. И. Кочев. Обобщаващ т. 1-3: Фонетика. Акцентология. Лексика. София : Труд, 2001. 538 с.
5. Български диалектен атлас / отг. ред. М. Тетовска-Троева. Обобщаващ т. 4: Морфология. София : Проф. Марин Дринов, 2016. 247 с.
Putschke W., Neumann R. Automatische Sprachkartographie // Dialektologie. 1. Halbband. Handbücher zur Sprach- und Kommunikationswissenschaft. Berlin : de Gruyter, 1982. S. 749-778.
2. Sobolev A.N. Sprachatlas Ostserbiens und Westbulgariens. Marburg, 1998. Bd. 2. 300 s.
3. Павле И. Целокупна дела. X/2. Расправе, студије, чланци. 2. О дијалектологији. Приредио Слободан Реметић. Сремски Карловци, Нови Сад : Издавачка књижарница Зорана Стојановића, 2018. 337 с.