В статье изложены результаты исследования, посвященного созданию параметров автоматизированной поисковой системы применительно к Словарю русских народных говоров.
The development of search settings for The Vocabulary of Russian National Dialects.pdf Активное развитие в последние десятилетия компьютерных технологий соз-дало ряд новых возможностей для оптимизации исследовательского и образова-тельного процессов. Компьютерные технологии и, в первую очередь, веб-технологии позволяют разрабатывать инструменты для решения задач исследова-тельского и прикладного характера в области лингвистики. Возможность опера-тивного доступа к различным видам информации, являющейся востребованной для проведения разнообразных исследовательских работ и быстрая ее обработка открывают новые возможности для ученых-филологов. И, если на сегодняшний день имеет место наличие разного рода корпусов, снабженных специализирован-ными поисковыми системами, основанных на собрании текстов, позволяющих вести работу с речевыми произведениями, то представленность в Сети лексико-графических источников, во-первых, не высокая и разобщенная, а, во-вторых, не создано до сих пор такого ресурса, который бы позволял извлекать информацию из большого количества словарей, а его поисковая система могла бы предостав-лять исследователю именно ту информацию, которая ему нужна, оперативно и в должном объеме. О том, что из себя должен представлять такой ресурс и в соответствии с ка-кими критериями должна быть разработана поисковая система, уже было нами описано, см.: [Саженин, 2011, с. 447]. На начальном этапе в качестве массива дан-ных мы определили материалы следующих лексикографических источников: [Крысин, 2000; Ожегов, 1997; Фасмер, 1986–1987, т. 1–4; Словарь русского языка, 1999]. Для выработки профессионально ориентированных параметров поисковой системы мы попытались определить, какие факторы должны обеспечить выбор таких параметров. В качестве основных факторов мы предложили содержатель-ный и целевой: то есть, во-первых, необходимо учесть, какую информацию может предоставить исследователю тот или иной лексикографический источник в зависимости от своего типа, структуры, содержания и целевой направленности, во-вторых, поиск информации зависит от цели, которую исследователь ставит перед собой в своей исследовательской работе. Проанализировав каждый из включен-ных в массив данных лексикографический источник, мы пришли к выводу, что некоторая информация представлена в словаре «открыто» – например, информа-цию о принадлежности языковой единицы к некому пласту лексики мы можем считать за счет системы помет, однако, существует иной тип информации, напри-мер, о способах токования слова, о типе лексического значения, который фор-мально не выражен, и тем не менее, исследователь, работая с определенной сло-варной статьей, такую информацию считывает в силу своих знаний, умений и навыков. Приняв во внимание такое положение дел, словарные статьи мы разметили в соответствии с типом информации, содержащейся в словарях открыто: система помет, язык-источник, сфера функционирования; а также в соответствии с типом информации, которая содержится в словарной статье, но не эксплицирована ка-ким-либо специальным способом: статус языка-донора (источник, посредник), вид лексики с точки зрения ее происхождения, принадлежность языковой едини-цы к тому или иному языковому объединению в соответствии с генеалогической классификацией языков, способ толкования лексического значения и др. Таким образом, система параметров поискового менеджера, например, для Толкового словаря иноязычных слов Л.П. Крысина выглядит следующим образом: 1) поиск по лемме (универсальный, применим ко всему массиву дан-ных); 2) поиск по языку-донору; 3) поиск по статусу языка-донора: (источник, посредник); 4) поиск по сфере функционирования. Так, для создания параметров поиска по языку-донору, мы выбираем языки, являющиеся, по мнению авторов словаря, источниками, например: немецкий, анг-лийский, французский, итальянский. Таким образом, параметр № 2 (поиск по языку-донору) будет условно со-держать четыре языка-донора для выбора, а так же будет возможность ограничить поиск по языку-донору с учетом параметра № 3 (поиск по статусу языка-донора), если в этом будет исследовательская необходимость. Иначе, если исследователю требуется сделать сплошную выборку слов, например, итальянского происхожде-ния, и при этом учесть статус данного языка (источник или посредник), то он сможет это сделать, поставив метку в соответствующие поля. Параметр № 4 (по-иск по сфере функционирования) будет содержать пятьдесят три сферы функцио-нирования, к которым принадлежат лексические единицы. В зависимости от целей исследования можно варьировать запросы, напри-мер, выбирая два и более языка, определяя их статус (источник или посредник), указывая сферу функционирования, к которой должны принадлежать нужные исследователю лексические единицы. Следующей задачей стало расширение массива данных за счет включения в него ряда других лексикографических источников и разработка параметров по-исковой системы для новой части массива данных в соответствии с теми же фак-торами. В данной статье мы планируем представить результаты анализа Словаря русских народных говоров [1965–1994, вып. 1–28] с точки зрения информации о языковой единице, которую словарь может предоставить исследователю в яв-ном или неявном виде, а также выстроить на основе полученных данных систему параметров поисковой системы. В явном виде, как правило, любой лексикографический источник представ-ляет информацию о принадлежности языковой единицы к определенной группе (частеречная принадлежность, категориальная принадлежность языковой едини-цы, сфера ее употребления, степень употребления и др.). Такого рода информация содержится в системе помет. Анализируемый словарь обладает следующей сис-темой помет: грамматические, семантические, исторические и описательные. Грамматические пометы указывают на принадлежность слова к части речи, на его грамматические значения и формы. Система этих помет и основание их примене-ния такие же, как и в семнадцатитомном «Словаре современного русского литера-турного языка» 1948 – 1965 гг. [Филин, 1965, с. 11]. К семантическим пометам составители относят перен. – переносное значение (или оттенок значения), которое стоит в явной связи с прямым значением; образ-ное употребление слова – в таких случаях авторы используют знак *. Еще одна функция помет в данном лексикографическом источнике – дать представление пользователю словаря о месте, занимаемом словом в диалектной лексике, о том, насколько широко употребляется слово в системе одного говора, о сфере употребления слова. Например, устар. – устарелое, фольклор. – фольк-лорное, «так говорили раньше», «это слово знали старики», редко – редкое, дет-ское – в детском языке и т. д. [Там же, с. 11]. Таким образом, основанием для определения параметров поисковой системы может стать система помет словаря. Иными словами, каждой словарной статье, каждой лемме будет присвоен соответствующий код или иначе – тэг, характери-зующий статью и лемму, как содержащие или не содержащие ту или иную поме-ту. В неявном виде материалы словаря могут так же нести достаточно широкий массив сведений о языковой единице. Например, в данный лексикографический источник включена диалектная лексика всех русских народных говоров XIX – XX вв. Диалектные слова по своему значению чрезвычайно разнообразны. Среди них имеются названия явлений живой и неживой природы, термины сельского хозяйства, скотоводства, охоты, рыболовства, всевозможных ремесел и занятий, бытовая лексика, слова с отвлеченными значениями и т. п. [Филин, 1965, c. 5]. Таким образом, следующим типом параметров поисковой системы может стать принадлежность языковой единицы к определенной сфере функционирования. Присвоение соответствующих кодов той или иной словарной статье и лемме бу-дет уже обусловлено не наличием каких-либо маркеров в тексте словарной статьи (грамматических или семантических помет), а осознаваемым специалистом фак-том принадлежности языковой единицы к определенной сфере ее бытования. Ав-томатизировать данный процесс полностью пока не представляется возможным. Иными словами, перед нами стоит два типа задач: аналитическая и практическая. Первая – на основании материалов словаря составить список сфер функциониро-вания лексики, представленной в словаре, вторая – присвоить леммам и словар-ным статьям необходимые коды-соответствия. Есть еще один тип информации, заключенный в самом диалектном слове, но никаким специальным образом не эксплицированный. Дело в том, что, формируя словник, авторы учитывали разные типы лексических диалектных отличий. Так, они включили собственно словарные диалектизмы, то есть, слова, корни которых отсутствуют в литературном языке (квóлый – слабый, больной; слова, образован-ные от общенародных корней, но имеющие иные аффиксы и особые диалектные значения (сузéм – большой массив леса на севере; слова с теми же корнями и зна-чениями, что и в литературном языке, но в ином аффиксальном оформлении (на-сдогнать – догнать; взгреметься – начать усиленно греметь); слова с такими осо-бенностями произношения, которые не являются элементами фонетических зако-номерностей и имеют «индивидуальный», лексикализованный характер (анбар – амбар); семантические диалектизмы, то есть слова, в своем оформлении ничем не отличающиеся от слов литературного языка, но имеющие в говорах особые зна-чения (руда – кровь, губы – грибы, виски – волосы); фразеологические диалек-тизмы (андроны едут, поехали – о чем-либо вздорном, о небылице и т. п.). [Там же, с. 6]. Таким образом, еще одной категорией параметров поисковой системы может стать тип диалектизмов: фонетические, грамматические, словообразова-тельные, собственно лексические, семантические, этнографические, а так же фра-зеологические. Подводя итог, можно сказать следующее: основанием для построения поис-ковой системы применительно к данному лексикографическому источнику могут быть: система помет (как грамматических, так и семантических); сфера функцио-нирования лексики, типы диалектизмов. В случае необходимости у исследователя будет возможность отбирать в кратчайшие сроки массив словарной информации, соответствующий его запросу.
Фасмер М. Этимологический словарь русского языка. М., 1986–1987. Т. 1–4.
Словарь русских народных говоров / Гл. ред. Ф.П. Филин; ред. Ф.П. Сороколетов; Ин-т русского языка, Словарный сектор АН СССР. Л., 1965. Вып. 1.
Словарь русских народных говоров / Гл. ред. Ф.П. Филин; ред. Ф.П. Сороколетов; Ин-т русского языка, Словарный сектор АН СССР. Л., 1965–1994. Вып. 1–28.
Словарь русского языка: В 4-х т. / Гл. ред. А.П. Евгеньева. М., 1999.
Саженин И.И. Словарный корпус как элемент оптимизации исследовательского и учебного процессов // Информатизация образования – 2011: Материалы Международной научно-практической конференции. Елец, 2011. Т. 1. С. 447–453.
Крысин Л.П.Толковый словарь иноязычных слов. М., 2000. Ожегов С.И.Толковый словарь русского языка. М., 1997.