Лингвистическая база данных отрицательно- оценочной лексики: концепция, структура, наполнение | Вестник Томского государственного университета. 2019. № 446. DOI: 10.17223/15617793/446/4

Лингвистическая база данных отрицательно- оценочной лексики: концепция, структура, наполнение

Приводится обзор существующих на данный момент лингвистических баз данных и выявляются основания для их классификации. Предлагается концепция разрабатываемой лингвистической базы данных отрицательно-оценочной лексики (имен существительных со значением номинации лица и группы лиц), описывается ее структура, демонстрируется ее наполнение на примере первого тома «Русского семантического словаря» под ред. Н.Ю. Шведовой (1998). Рассматриваются возможности ее применения в лингвистических исследованиях и других видах деятельности.

Linguistic Database of Negative Evaluative Lexis: Concept, Structure, Content.pdf Постановка проблемы При решении теоретических и прикладных задач в лингвистике может возникнуть необходимость обращения к нескольким лексикографическим источникам, например, при производстве лингвистической экспертизы, когда разнородность систем стилистических помет и расхождение в стилистической квалификации лексики в словарях современного русского языка приводят к снижению точности и объективности проводимых с опорой на них исследований [1]. Одним из решений указанной проблемы может стать применение технологии базы данных, позволяющей получать лексикографическую информацию из различных источников в сопоставлении. Актуальность данного исследования также обусловлена потребностью юридической лингвистики в специализированном инструменте - лексикографическом издании, пригодном для целей лингвистической экспертизы [2], и необходимостью совершенствования информационных технологий в практике производства лингвистической экспертизы [3] в связи с возрастающей ролью информационных технологий в гуманитарных исследованиях и отсутствием опыта применения таковых в данной области. Представление такого лексикографического продукта в виде базы данных позволит реализовать новый подход к проведению лингвистических экспертиз - с использованием средств автоматизации [4]. База данных (БД) - это «упорядоченная совокупность данных, предназначенных для хранения, накопления и обработки с помощью ЭВМ» [5. С. 96]. Под лингвистической БД (ЛБД), соответственно, понимается совокупность систематизированных лингвистических данных. Цель настоящей статьи заключается в описании концепции, структуры и наполнения ЛБД отрицательно-оценочной лексики, разрабатываемой для проведения лингвистических исследований, в частности, лингвистической экспертизы. Источниками данной ЛБД являются словари современного русского языка (конца XX - начала XXI в.), при отборе которых учитываются методические рекомендации по производству лингвистической экспертизы и практика применения словарей в качестве лексикографических источников для нее (по данным экспертных заключений). Наполнение разрабатываемой ЛБД представлено на примере первого тома «Русского семантического словаря» под ред. Н.Ю. Шведовой (1998) [6. Т. 1]. Материалом для исследования послужили имена существительные со значением номинации лица и группы лиц и отрицательно-оценочной семантикой, отобранные из указанного словаря методом сплошной выборки. Отбор материала проведен с опорой на идеографический, семантический, стилистический принципы. В исследовании также применен описательно-аналитический (общенаучный) метод с совокупностью его приемов. При разработке ЛБД использован метод концептуального проектирования, состоящий в определении параметров описания единиц информации и связей между ними в соответствии с задачами, для решения которых создается информационно-справочный ресурс. История вопроса Технология БД широко применяется в различных сферах, в том числе лингвистике, например, «в типологических и сравнительных, фонетических, лексических, грамматических исследованиях; лексикографии; семантических исследованиях, включая составление тезаурусов; в компьютерной лингвистике и для решения прикладных лингвистических задач (линг-водидактических, автоматизированного перевода, автоматического распознавания и синтеза речи)» [7. С. 26]. В работах Н.А. Мишанкиной рассматриваются проблемы, связанные с обработкой информации и созданием информационных систем на основе технологии БД в гуманитарной сфере и, в частности, с применением данной технологии в области филологических (лингвистических) исследований [7, 8]. Исследователь дает историческую справку о существующих БД и предлагает выделять ЛБД в отдельную категорию, подразделяя ее на два типа: полнотекстовые (содержащие полные тексты) и фактографические (содержащие лингвистические единицы различных языковых уровней). В качестве примера полнотекстовой ЛБД назовем разработанную коллективом Томского государственного университета (Н.А. Мишанкиной, И.В. Тубало-вой, Ю.А. Эмер) БД «Среднеобский фольклор» [8, 9]. Целью создания этой БД является объединение и представление ранее недоступного фольклорного материала народной культуры Сибири в доступном и удобном формате для различных исследований в области антропологии, этнографии, культурологии, лингвистики, истории сибирского региона. В эту БД входят фольклорные тексты на русском языке в различных жанрах, например частушки, загадки, пословицы, считалки, скороговорки. К первому типу ЛБД также можно отнести электронные библиотеки, текстовые коллекции и корпуса текстов, например, «Национальный корпус русского языка» (ruscorpora.ru), «Томский диалектный корпус» (http://losl.tsu.ru/?q=corpus/demo). Среди ЛБД второго типа по уровню описания в них языка можно выделить фонетические, морфологические, лексические и синтаксические ЛБД соответственно. ЛБД, в которых представлены лексические единицы, особенно активно применяются в лексикографической практике для составления как традиционных, так и электронных словарей. А.Н. Баранов сравнивает две технологии создания словаря (традиционную и компьютерную), отмечая явное преимущество последней: «Традиционная форма фиксации словарных данных - каталожная карточка, в которой указывается описываемое слово, пример употребления, источник примера, автор, а также различная дополнительная информация. Современные компьютерные технологии позволяют упростить процесс сбора и хранения лексикографической информации, используя вместо обычной картотеки базу данных, записи которой представляют собой аналог традиционной каталожной карточки» [10. С. 82]. Однако лексические ЛБД используются не только при создании новых словарей, но и применяются в различных лингвистических исследованиях, поскольку ЛБД как самостоятельный формат представления лексикографической информации обладает рядом преимуществ перед словарями: позволяет накапливать, хранить, систематизировать лингвистическую информацию и осуществлять быстрый поиск в ее пределах, а также имеет открытую структуру для внесения изменений, непрерывно происходящих в языковой системе [11]. Рассмотрим известные на данный момент проекты фактографических ЛБД, содержащих единицы лексического уровня и ориентированных на описание лексической семантики. БД «Звучание» (Н.А. Мишанкина, Томский государственный университет) включает глаголы, содержащие в своей семантике компонент «звук», отражает лексико-семантическое поле «Звучание» и предусматривает возможность пополнения аудио- или видеоматериалами, демонстрирующими тип звучания, его субъект и связанное с ним действие [7]. БД метафорической терминологии ориентирована на выявление универсальных метафорических моделей, отражающих концептуальные метафоры, являющиеся ключевыми для русского научного дискурса. Авторы (Н.А. Мишанкина, Е.А. Панасенко, Томский политехнический университет) указывают, что разрабатываемая БД может применяться для решения ряда частных задач, например, для выявления наиболее востребованных в терминообразовании лексических единиц национального языка. Материалом для создания этой БД послужили терминологические словари различных научных областей: биологии, геологии, информатики, лингвистики, медицины, психологии, социологии, философии, экологии. Общее количество проанализированных источников составило 65, а количество выявленных метафорических терминологических единиц - около 2 000. Центральной таблицей этой БД является «Лексическая единица», вспомогательными - «Метафорическая модель» и таблицы предметных областей, отражающие метафорическую терминологию конкретной предметной области [12]. Психолингвистическая БД (проект Томского государственного университета: З.И. Резановой, А.А. Миклашевского) используется для описания образно-перцептивного компонента языковой семантики и позволяет применять статистические методы для анализа слабоструктурированной семантической информации. Эта БД содержит полученную в ходе проведения психолингвистического эксперимента информацию о 506 как конкретных, так и абстрактных существительных, а именно об их связи с модально -стями восприятия (зрением, слухом, вкусовыми, обонятельными и осязательными ощущениями) и другую дополнительную информацию, например, о субъективном возрасте усвоения слова [13]. БД прагматически маркированной лексики разрабатывается коллективом Новосибирского государственного педагогического университета: Т.А. Три-польской, Е.Ю. Булыгиной, В.Д. Черняк (г. Санкт-Петербург), В.А. Ефремовым (г. Санкт-Петербург), М.А. Лаппо, Е.Г. Басалаевой, Л.Н. Храмцовой, И.И. Сажениным. Демонстрационная версия этой БД, включающая в себя около 400 единиц, доступна в интернете (spml.ipmip.nspu.ru). Согласно представленному в статьях [14, 15], описанию БД формально и содержательно делится на две части. В первой части представлены словарные статьи следующих классических и современных словарей русского языка: «Толковый словарь русского языка» под ред. Д.Н. Ушакова (1935-1940), «Словарь современного русского литературного языка» в 17 т. (1950-1965), «Словарь русского языка» в 4 т. под ред. А.П. Евгень-евой (1981-1984), «Толковый словарь русского языка» С.И. Ожегова и Н.Ю. Шведовой (1999), «Толковый словарь русского языка конца ХХ века. Языковые изменения» под ред. Г.Н. Скляревской (1998), «Большой толковый словарь русского языка» под ред. С.А. Кузнецова (1998). Вторая часть БД представляет собой словарные статьи «Словаря прагматически маркированной лексики», разработанного авторами-составителями проекта, и включает в себя толкование, иллюстративный материал и подробное описание прагматической зоны значения слова (эмоциональная оценка, идеологический, гендерный, социально-статусный, возрастной, национально-культурный компоненты) с опорой на материалы «Национального корпуса русского языка». Более подробно структура БД прагматически маркированной лексики описывается в работе [16], где также представлены принципы, лежащие в основе создаваемой БД, критерии отбора языковых единиц, их лексикографическая интерпретация, разработанная система помет, типизация лексикографического комментария. Здесь описывается поисковая система данной БД, при этом техническая сторона ее создания характеризуется в работе [17], в которой дается описание двух таблиц БД: первой, хранящей заголовки словарных статей, и второй, содержащей собственно тексты словарного описания. Словарная БД, фрагмент которой доступен в сети Интернет (ruslex-encode.ru), создается в Институте лингвистических исследований РАН (Е.В. Пуриц-кая, Д.И. Панков). В основе этой БД лежат данные из «Большого академического словаря русского языка» (2004-2014, издание продолжается), а также других академических словарей, из которых извлекаются функционально-стилистические, специальные, динамические пометы при словах с момента их первой фиксации. Словарная БД предназначена для предоставления справочной информации о стилистической характеристике лексики в ее историческом развитии [18]. Проведенный анализ позволяет сделать вывод о том, что каждая из рассмотренных ЛБД создается для решения конкретной исследовательской задачи, и следовательно, они различаются по ряду критериев, на основании чего можно выделить следующие подтипы ЛБД: - по типу лексических единиц, а именно по их ча-стеречной принадлежности: ЛБД, содержащие глаголы (БД «Звучание»), имена существительные (психолингвистическая БД, БД прагматически маркированной лексики), единицы нескольких частей речи (словарная БД); а также по их сфере употребления: ЛБД, содержащие специальную лексику (БД метафорической терминологии); - по аспекту описания лексической семантики: ЛБД, в которых описывается семантический компонент «звук» (БД «Звучание»), метафорическая семантика (БД метафорической терминологии), образно-перцептивный компонент (психолингвистическая БД), прагматический макрокомпонент (БД прагматически маркированной лексики), нормативно-стилистический компонент в динамическом аспекте (словарная БД); - по источнику данных: ЛБД, содержащие данные нескольких типов (БД «Звучание»), экспериментальные данные (психолингвистическая БД), словарные данные (БД метафорической терминологии, БД прагматически маркированной лексики, словарная БД); - по области применения: ЛБД, предназначенные для различных исследовательских целей (БД «Звучание», БД прагматически маркированной лексики), исследования терминологии (БД метафорической терминологии), психолингвистических исследований (психолингвистическая БД), применения в лексикографической практике (словарная БД). В рамках данного исследования также проведен поиск ЛБД, зарегистрированных в Федеральном институте промышленной собственности (new.fips.ru/ iiss), результаты которого свидетельствуют об отсутствии не только ЛБД отрицательно-оценочной лексики, но и специализированных ЛБД, предназначенных для целей лингвистической экспертизы. *** Таким образом, одним из продуктивных направлений на пересечении прикладной лингвистики и современной лексикографии является разработка ЛБД, применение которых позволяет как решать ряд новых, так и повышать эффективность решения традиционных для лингвистики задач. Использование технологии БД в лингвистических (и в целом - гуманитарных) исследованиях способствует не только удобному представлению материалов и их объединению в единую структуру, но и повышению эффективности работы с ними за счет возможности использования средств машинной обработки, а также открывает новые перспективы для дальнейших исследований на основе созданных БД или с их использованием. 1. Концепция лингвистической базы данных отрицательно-оценочной лексики. Представим разрабатываемую в рамках данного исследования фактографическую ЛБД, содержащую лексические единицы - «Лингвистическую базу данных отрицательно-оценочной лексики (имена существительные со значением номинации лица и группы лиц)» [19] (далее - ЛБД ООЛ), основные принципы проектирования которой описаны в [20]. ЛБД ООЛ представляет собой совокупность систематизированных лингвистических данных - лекси-ко-семантических единиц (ЛСЕ) и их параметров. Под ЛСЕ понимается лексическая единица в конкретном значении, а под ее параметрами - значимые семантические, стилистические и другие характеристики. ЛБД ООЛ разрабатывается для применения в практике лингвистической экспертизы, объектом которой являются конфликтные тексты трех видов: тексты-неудачи, тексты-манипуляторы, тексты-злоупотребления (в терминологии О.Н. Матвеевой [21]). Для текстов-злоупотреблений (собственно конфликтных текстов в узком смысле) характерно наличие оценочных лексических единиц, выражающих отрицательное отношение субъекта оценки к объекту оценки, которым, как правило, является лицо и группа лиц. Исходя из этого, на данный момент в ЛБД ООЛ включены ЛСЕ с отрицательно-оценочной семантикой, представляющие собой имена существительные (в том числе эквивалентные им единицы) со значением номинации лица и группы лиц. В фокусе данного исследования находятся имена существительные, поскольку, несмотря на то, что семантика оценки может быть выражена любой частью речи, именно существительные «характеризуют объект, выявляя основание оценки и делая оценочное суждение более категоричным: эмоциональные оценки непосредственно приписываются объекту, а не передаются через характеристику его действий или свойств. Глагол, например, относит оценочную характеристику к определенному временному промежутку, прилагательное переносит акцент с лица на его свойства» [22. С. 132]. В перспективе возможно ее пополнение ЛСЕ других частей речи (например, глаголами со значением действия и состояния лица, именами прилагательными со значением свойства и качества лица), а также ЛСЕ с другими семантическими компонентами, например, положительно-оценочным. В ЛБД ООЛ содержится семантическая и стилистическая (отрицательно-оценочная) информация о ЛСЕ, зафиксированная в толковании и при помощи стилистических помет (СП), извлеченная из лексикографических источников. Помимо словарных данных в ЛБД ООЛ содержится определенная на их основе информация о принадлежности ЛСЕ к тематическим группам и о возможности охарактеризовать форму негативной оценки, выраженной при помощи ЛСЕ, как неприличную. Одним из принципов составления ЛБД ООЛ является опора на авторитетные (в том числе отобранные с учетом методических рекомендаций и практики производства лингвистической экспертизы) лексикографические издания, поскольку именно этот вид источников признается наиболее надежным [23] и единственным легитимным [24] для применения в экспертной практике. На данный момент ЛБД ООЛ включает одно наименование лексикографического источника - толково-идеографический словарь современного русского литературного языка - первый том «Русского семантического словаря» (РСС) под ред. Н.Ю. Шведовой (1998). При этом представляется необходимым добавление в ЛБД ООЛ данных из словарей разных типов (об этом см., например, в [25, 26]). Также предполагается, что при достаточном обосновании в ЛБД ООЛ могут быть включены данные из источников другого вида, например, результаты экспериментальных исследований обыденного понимания неприличной формы. Отметим, что представление данных из нескольких источников в формате ЛБД позволяет при проведении лингвистических исследований (как теоретических, так и практических, в том числе при производстве лингвистической экспертизы) не только отображать информацию из каждого источника в более удобном (структурированном) для анализа виде, но и сопоставлять ее из нескольких, тем самым объективируя результаты исследований. ЛБД ООЛ планируется разместить в открытом доступе в интернете, возможно использование ЛБД ООЛ в виде компьютерной программы (приложения), а также подключение ЛБД ООЛ в качестве модуля к программам автоматической обработки текстов. На сайте и в программе (приложении) будут доступны два варианта работы пользователя с ЛБД ООЛ через удобный, интуитивно понятный интерфейс: поиск ЛСЕ в ЛБД ООЛ по введенному пользователем в поисковую строку заголовочному слову и поиск (сортировка, фильтрация, группировка) по выбранным пользователем параметрам, например, по алфавиту (по аналогии со словарем), тематическим группам, стилистическим пометам. Так, выбрав в качестве поискового параметра СП бран., пользователь получит список представленных в ЛБД ООЛ ЛСЕ, маркированных соответствующей СП. Особенность данной ЛБД заключается также в том, что она может быть применена для автоматизированного поиска отрицательно-оценочной лексики в конфликтных текстах [27], что особенно актуально для исследования текстов большого объема. Содержащиеся в ЛБД ООЛ данные представляют практический интерес в первую очередь для лингвистов-исследователей, изучающих языковые явления на материале конфликтных текстов, и лингвистов-экспертов. Например, ЛБД ООЛ может применяться как инструмент исследования при решении вопросов о негативной оценке лица и группы лиц по делам об оскорблении, оскорблении представителя власти, неуважении к суду, оскорблении чувств верующих (поскольку содержит информацию о возможности охарактеризовать форму негативной оценки, выраженной при помощи ЛСЕ, как неприличную), а также по делам о клевете, по делам, связанным с экстремистской деятельностью (поскольку содержит информацию о принадлежности ЛСЕ к тематическим группам) и др. Кроме того, ЛБД ООЛ может быть востребована как информационно-справочный ресурс не только специалистами и экспертами, но и следователями, прокурорами, судьями, адвокатами и др. *** Таким образом, в соответствии с подтипами ЛБД (выделенными выше при описании известных на данный момент проектов), ЛБД ООЛ можно охарактеризовать следующим образом: по типу лексических единиц, а именно по их частеречной принадлежности -ЛБД ООЛ содержит имена существительные; по аспекту описания лексической семантики - в ЛБД ООЛ описывается отрицательно-оценочный компонент; по источнику данных - ЛБД ООЛ содержит данные нескольких типов (словарные данные и определенную на их основе информацию: о тематических группах, к которым относятся ЛСЕ, и о возможности охарактеризовать форму выраженной при помощи ЛСЕ негативной оценки как неприличную); по области применения - ЛБД ООЛ предназначена для применения в лингвоэкспертной практике, а также может быть использована для различных исследовательских и практических целей. 2. Структура лингвистической базы данных отрицательно-оценочной лексики. «Для создания и ведения Б[аз] д[анных] (обновления, обеспечения доступа к ним по запросам и выдачи их пользователю)» [5. С. 96] используются специализированные программы - системы управления базами данных (СУБД). А.Н. Баранов отмечает, что в настоящее время нет СУБД, предназначенных для лингвистических целей, однако для них пригодны существующие, например, D-Base, ACCESS, FOX- Base, PARADOX [10. С. 82]. Настоящая ЛБД выполнена в реляционной СУБД Microsoft Access 2016, входящей в состав пакета Microsoft Office. Выбор данной программы обусловлен ее удобным графическим интерфейсом и наличием широкого спектра возможностей. БД состоят, как правило, из нескольких взаимосвязанных таблиц (например, БД метафорической терминологии включает в себя три таблицы: одну основную и две вспомогательные), в которых содержатся данные, распределенные по строкам (записям) и столбцам (полям). Каждая запись представляет собой совокупность значений нескольких полей, которые в зависимости от своей функции содержат данные разных типов, например, текстовые, числовые, гиперссылки, вложения. ЛБД ООЛ состоит из 11 таблиц данных: основная таблица семантико-стилистической характеристики отрицательно-оценочных слов в словаре, например, SemanticStylisticRSS для РСС, и 10 таблиц, относящихся к вспомогательным и обеспечивающих связность и целостность данных в основных таблицах: таблица лексикографических источников Dictionaries List; таблица отрицательно-оценочных лексических единиц All_Lexical_Units_List; таблица типов лексических единиц LexicalUnitsTypes; таблица отрицательно-оценочных СП StylisticLabelsList; таблица отрицательно-оценочных СП в словаре, например, StylisticLabelsRSS для РСС; таблица хронологических помет ChronoLabelsList; таблица типов лексического значения Mean Types List; таблица лексических классов LexicalClassesList; таблица тематических групп ThematicGroupsList; таблица характеристики формы негативной оценки как неприличной Indecent Form. При этом основные таблицы семантико-сти-листической характеристики отрицательно-оценочных слов в словаре и вспомогательные таблицы отрицательно-оценочных СП в словаре создаются для каждого последующего лексикографического источника, данные из которого включаются в ЛБД ООЛ, а такие таблицы, как DictionariesList, All_ Lexi-cal_Units_List, Lexical Units Types, Lexical_Classes_ List, Thematic Groups List, являются таблицами открытого типа, т.е. пополняются записями и полями при добавлении в ЛБД ООЛ новых данных, в том числе из других источников. По аналогии со словарем в ЛБД можно выделить макроструктуру, которая представляется в виде схемы данных, отображающей связи между таблицами, и микроструктуру - структуру каждой таблицы данных. Отметим, что для ЛБД, содержащих лексические единицы и извлеченную из лексикографических источников информацию о них, а также предназначенных для применения в лексикографической практике, характерна такая структура таблиц, которая соотносима со структурой словарной статьи. Так, например, в ЛБД ООЛ поле, содержащее ЛСЕ, соотносится с так называемой «левой частью» словарной статьи (зоной заглавного слова), а ряд других полей формирует так называемую «правую часть» словарной статьи (зоны помет, толкования, комментариев). На рис. 1 приведена схема данных (логическая модель), на которой представлены все таблицы ЛБД ООЛ и при помощи линий отображены связи между ними (связи идут от обозначенных как «1» полей к обозначенным как «да» полям), а также знаком «+» отмечены те поля, которые могут содержать более одного значения. Stylistic_Labels_List 5 No Stylisti c_Lab el_N a m е Stylisti c_Lab el_0 efi п iti о n DictionariesList 9 No Dictionary_Name Dictionary_Author Dictionary_Year_Published Dictionary_Type Dictionary_Eiiblio_Description Stylisti c_Labels_Table_Name Sem a nti c_Styli5ti c_Ta b I e_N a m e Sty 1 isti c_La bel s_RSS No Stylistic, Label_Name_Variant + Stylistic, Label_Name Chrono_Labeis_List 1 No Ch ro n o_La b el_N a m e_Va ri a nt Ch ro n o_La b el_N a m e Ch ro n o_La b el_D ef i n iti о n Mea n_Types_Li st V No Mea n_Typ e_N a m e_Va ri a nt Mean_Type_Name M ea n_Typ e_Def i n iti о n Lex i с a 1 _U n its_Ty pes § No Lexi ca l_Un its_Ty p e_N a m e Lexi ca l_Un its_Ty p e_Def i n iti о n Sem a nti c_Sty 1 i sti c_RSS 4 No Lexi ca l_Sem a nti c_U n it 0 Stylistic_Label Chrono_Label Mean_Type Definition 0 Link Comment Lexical_Class Thematic_Group lndecent_Form Page_Number Al l_Lexica l_U n its_Li st V No N eg ative_Eva 1 u ative_Lexi ca l_U n it Lexical_Unit_Type Lexi ca l_U n it_Def i n iti о n_N u m b e r Lexi ca l_Sem a nti c_U n it_RSS Lexi ca l_CIa s ses_Li st v No Lexical_Class_Name Lexi ca l_CI a s s_Def i n iti о n Th emati c_G rou ps_Li st No Th em ati c_G ro u p_N a m e Th em ati c_G ro u p_Def i n iti о n lndecent_Form V No 1 n d ecent_Fo rm_Potenti a l_N a m e Indecent Form Potential Definition Рис. 1. Схема данных ЛБД ООЛ В таблице Dictionaries_List зафиксирован список лексикографических источников, информация из которых включена в ЛБД ООЛ. Таблица All_Lexical_Units_List представляет собой сводный перечень всех лексических единиц с отрицательно-оценочной семантикой (на данный момент - со значением номинации лица и группы лиц) и их значений, зафиксированных во всех словарях-источниках и представленных отдельными записями в ЛБД ООЛ в качестве ЛСЕ. В таблице Lexical_Units_Types перечислены типы лексических единиц, например, имя существительное, устойчивое сочетание (фразеологическое выражение, идиома), поговорка, пословица. Таблица Stylistic_Labels_List создана в виде списка отрицательно-оценочных СП с приведением толкования их значения (подробнее об отборе СП, маркирующих отрицательно-оценочную семантику, см. в [1]). Кроме того в данную таблицу включены кванторы типа также, иногда, часто, чаще, теперь, сочетание СП с которыми уточняет стилистическую (в частности, отрицательно-оценочную) характеристику слов. В таблицах отрицательно-оценочных СП, формируемых для каждого словаря-источника ЛБД ООЛ, (например, в таблице Stylistic_Labels_RSS для РСС) приводятся отрицательно-оценочные СП в том виде, в котором они представлены в словарях-источниках, поскольку в них отмечается наличие разных вариантов условных обозначений одной и той же отрицательно-оценочной СП, а также встречаются комбинированные СП (например, образованные при помощи дефиса), СП в скобках, СП в сочетании с кванторами (подробнее об особенностях стилистической квалификации слов в словарях см. в [1]). Таблица Chrono_Labels_List содержит варианты хронологических помет, используемых для временной характеристики слов в словарях (подробнее об этом см., например, в [1]). В таблице Mean_Types_List содержится информация о типах лексического значения: прямом и переносном. Таблица Lexical_Classes_List отражает лексические классы, к которым относятся ЛСЕ, например, для ЛСЕ со значением номинации лица и группы лиц выделены следующие лексические классы: «Лицо», «Группа лиц», «Лицо и группа лиц». Таблица Thematic_Groups_List содержит список тематических групп, по которым распределены ЛСЕ с отрицательно-оценочной семантикой (на данный момент - со значением номинации лица и группы лиц). Данный список сформирован с опорой на выделенные в РСС лексико-семантические множества, подмножества, группы, подгруппы и ряды. Таблица Indecent_Form описывает возможность охарактеризовать форму негативной оценки (на данный момент - лица и группы лиц), выраженной при помощи ЛСЕ, как неприличную в трех вариантах: «можно», «вероятно», «нельзя», что определено на основании анализа зафиксированных в РСС СП при ЛСЕ. Семантико-стилистическая характеристика отрицательно-оценочных слов в словарях дается в основных таблицах ЛБД ООЛ, формируемых отдельно для каждого словаря-источника, (например, в таблице Semantic_Stylistic_RSS для РСС). В основных таблицах ЛБД ООЛ каждая запись соответствует ЛСЕ с набором ее параметров, а каждое поле - единице информации об этой ЛСЕ, ее параметру (например, толкованию, типу значения, лексическому классу). Каждая из таких таблиц имеет общую структуру и содержит следующие поля: No - порядковый номер записи в таблице; LexicalSemanticUnit - отрицательно-оценочная ЛСЕ; StylisticLabel - отрицательно-оценочная СП при ЛСЕ (выбирается, например, из таблицы StylisticLabelsRSS для РСС); Chro-noLabel - хронологическая помета при ЛСЕ (выбирается из таблицы Chrono Labels List); MeanType -тип значения ЛСЕ (выбирается из таблицы MeanTypesList); Definition - толкование ЛСЕ; Link -отсылка к семантически близкой, тождественной, равнозначной ЛСЕ (выбирается, например, из таблицы SemanticStylisticRSS для РСС); Comment - комментарий к толкованию ЛСЕ; LexicalClass - лексический класс, к которому отнесена ЛСЕ (выбирается из таблицы Lexical Classes List); ThematicGroup -тематическая группа, в которую включена ЛСЕ (выбирается из таблицы Thematic Groups List); Inde-centForm - информация о возможности или невозможности охарактеризовать форму негативной оценки, выраженной при помощи ЛСЕ, как неприличную (выбирается из таблицы IndecentForm); PageNumber -номер страницы словаря-источника, на которой расположена ЛСЕ. Отметим, что в поле Stylistic Label может быть выбрано несколько условных обозначений СП (с учетом их возможных вариантов, комбинаций, сочетаний, представленных в словаре), что связано с особенностями стилистической характеристики слов в словарях, когда при одном слове может насчитываться до пяти отрицательно-оценочных СП (подробнее об этом см. в [1]); а также в поле Link может быть внесено более одной семантически близкой или тождественной ЛСЕ, что обусловлено перечислением нескольких синонимов при синонимическом толковании слов в словарях-источниках. *** Таким образом, рассмотрена структура ЛБД ООЛ и описаны связи между формирующими ее таблицами, в частности, для Semantic Stylistic RSS как одной из основных таблиц семантико-стилистической характеристики слов в РСС и Stylistic Labels RSS, Chrono Labels List, Mean Types List, LexicalClasses List, Thematic Groups List, Indecent_ Form, предназначенных для ее наполнения, а также ряда других вспомогательных таблиц. 3. Наполнение лингвистической базы данных отрицательно-оценочной лексики. При заполнении основных таблиц данных ЛБД ООЛ - таблиц семантико-стилистической характеристики отрицательно-оценочных слов в словарях - из словарных статей лексикографических источников извлекаются следующие данные: отрицательно-оценочная ЛСЕ (на данный момент - со значением номинации лица и группы лиц); отрицательно-оценочная СП к ней при наличии; хронологическая помета к ней при наличии; семантическая помета к ней в случае переносного значения ЛСЕ; толкование значения ЛСЕ; в случае отсылочного и синонимического толкования из него выделяется семантически близкая, тождественная, равнозначная ЛСЕ; комментарий к толкованию при наличии. Помимо собственно словарных данных в ЛБД ООЛ вносится информация о лексическом классе, к которому относится ЛСЕ; тематической группе, в которую входит ЛСЕ; возможности охарактеризовать как неприличную форму негативной оценки, выраженной при помощи ЛСЕ; номере страницы лексикографического издания, на которой располагается словарная статья, посвященная ЛСЕ. Опишем наполнение данными одной из основных таблиц ЛБД ООЛ на примере первого тома РСС. Таблица Semantic_Stylistic_RSS содержит 1 737 записей, соответствующих 1 737 отобранным из РСС отрицательно-оценочным ЛСЕ со значением номинации лица и группы лиц и их параметрам, и имеет общую для всех основных таблиц ЛБД ООЛ структуру, которая представлена выше. Охарактеризуем наполнение каждого поля данной таблицы. В поле No указаны уникальные коды, являющиеся порядковыми номерами записей, а следовательно, и ЛСЕ, под которыми они внесены в данную таблицу с соблюдением идеографического принципа РСС: ЛСЕ сгруппированы по семантике и даны в алфавитном порядке в пределах каждой лексико-семантической группы. Код является идентификатором записи в пределах данной таблицы, следовательно, отдельные отрицательно-оценочные значения одного многозначного слова зафиксированы как самостоятельные ЛСЕ под разными кодами в следующих случаях: - отрицательно-оценочные значения многозначного слова даны в разных словарных статьях и отнесены к разным тематическим группам в РСС, например, для многозначного слова Быдло создано две записи: 1 765 Быдло (презр.) 'люди, бессловесно выполняющие для кого-н. тяжелую работу' и 1 829 Быдло (бран.) 'о людях из низших социальных слоев'2; - отрицательно-оценочные значения многозначного слова приведены в одной словарной статье в пределах одной тематической группы в РСС, например, для многозначного слова Сборище создано две записи: 1 749 Сборище (неодобр.) 'беспорядочное скопление людей' и 1 750 Сборище 'собрание людей (часто нелегальное)'; - в отрицательно-оценочном значении можно выделить две части, на что указывает употребление в толковании сочетания союзов «а также», например, для слова Кикимора (также бран.) 'человек, имеющий смешной и нелепый вид, а также некрасивая, непривлекательная женщина' создано две записи: 1 545 Кикимора (также бран.) 'человек, имеющий смешной и нелепый вид' и 1 546 Кикимора (также бран.) 'некрасивая, непривлекательная женщина'. Кроме того, в ЛБД ООЛ как самостоятельные ЛСЕ зафиксированы: - иллюстративные речения, которые получают стилистическую характеристику, отличную от характеристики заглавного слова, а также получают собственное толкование или развивают дополнительный (переносный) смысловой оттенок [6. С. XX], например, созданы такие записи: 1 812 Беззащитное существо (также ирон.) 'живая особь, человек или животное', 1 316 Бог наказал 'о том, у кого случилась неприятность, кому не повезло, как будто бы в наказание за какую-то его вину, провинность', 1 563 Падший ангел (также перен.) 'о грешнике'; - приведенные в так называемой заромбовой части словарной статьи устойчивые сочетания (фразеологические выражения и идиомы), «требующие собственного толкования и - в случае стилистического расхождения с заглавным словом - собственной стилистической характеристики» [6. С. XX], например, созданы такие записи: 7 Человек в футляре 'человек, который замкнулся в кругу своих узких интересов, боится всего нового (по названию рассказа А. Чехова)' и 483 Лиса Патрикеевна (пренебр.) 'то же, что Лиса'' (см. 482 Лиса 'хитрый и льстивый человек'); - «ближайшие производные слова, мотивированные данным словозначением» [6. С. XX], в случае их отличия от производящего слова в стилистической характеристике, например, для слова Жучок, производного от слова Жук (см. 467 Жук (неодобр.) 'ловкий человек, плут'), создана запись 468 Жучок (уменьш.-унич.) 'то же, что Жук', при этом производное слово представлено как новая ЛСЕ, для которой в поле Definition приведена идентифицирующая дефиниция «то же, что», а в поле Link указано производящее слово. Также в ЛБД ООЛ созданы отдельные записи в случае наличия в зоне заглавного слова двух вариантов одной ЛСЕ, когда: - оба варианта связаны союзом «и», например, для Неумеха и Неумёха создано две записи: 86 Неумеха (неодобр.) 'человек, к-рый ничего не умеет делать или делает все плохо' и 87 Неумёха 'то же, что Неумеха' -при этом второй вариант (после союза «и») представлен как новая ЛСЕ, для которой в поле Definition приведена идентифицирующая дефиниция «то же, что», а в поле Link указан первый вариант (перед союзом «и»); - второй вариант присоединен при помощи союза «или», например, для Фома неверный или неверующий создано две записи: 209 Фома неверный 'человек, к-рый упорно стоит на своем, не верит очевидному (по евангельской притче об апостоле Фоме, к-рый не хотел верить в воскресение Иисуса Христа до тех пор, пока не прикоснется к его ранам)' и 210 Фома неверующий 'то же, что Фома неверный - при этом второй вариант (после союза «или») представлен как новая ЛСЕ, для которой в поле Definition приведена идентифицирующая дефиниция «то же, что», а в поле Link указан первый вариант (перед союзом «или»); - второй вариант помещен в скобки, например, для Красна (красная) девица создано две записи: 128 Красна девица (ирон.) 'о чересчур скромном, застенчивом мужчине' и 129 Красная девица 'то же, что Красна девица' - при этом второй вариант (в скобках) так же представлен как новая ЛСЕ, для которой в поле Definition так же приведена идентифицирующая дефиниция «то же, что», а в поле Link так же указан первый вариант (без скобок). Наполнение поля Lexical_Semantic_ Unit составляет 1 737 ЛСЕ, отобранных из РСС. В выборку вошли имена существительные и эквивалентные им единицы со значением номинации лица и группы лиц с отрицательным компонентом в денотативном значении, например, 1 292 Противник 'враг, недруг', 1 220 Доносчик 'человек, к-рый доносит на кого-н., тайно обвиняет кого-н. перед властями, начальством', - и с отрицательно-оценочным коннотативным компонентом зн

Ключевые слова

лингвистическая база данных, имя существительное, отрицательно-оценочная лексика, стилистическая помета, словарь, юридическая лингвистика, лингвистическая экспертиза, linguistic database, noun, negative evaluative lexis, stylistic label, dictionary, juridical linguistics, linguistic expert examination

Авторы

ФИООрганизацияДополнительноE-mail
Кочергина Кристина СергеевнаТомский государственный университетаспирант кафедры русского языкаtinakochergina@gmail.com
Всего: 1

Ссылки

Кочергина К.С. Стилистические пометы в толковых словарях современного русского языка: сопоставительный анализ // Вопросы лекси кографии. 2017. № 11. С. 20-38.
Голев Н.Д. Юрислингвистический словарь инвективной лексики русского языка (к постановке проблемы) // Актуальные проблемы руси стики : материалы Международной конференции / отв. ред. Т.А. Демешкина. Томск : Изд-во Том. ун-та, 2003. Вып. 2, Ч. 1. С. 92-98.
Кусов Г.В. Выработка рекомендаций по совершенствованию информационных технологий в практике производства судебной лингви стической экспертизы // Теория и практика общественного развития. 2012. № 10. С. 321-326.
Кочергина К.С. Система интеллектуальной поддержки процедуры лингвистической экспертизы // Перспективы развития фундаменталь ных наук : тр. XII Междунар. конф. студ. и молодых ученых (Томск, 21-24 апреля 2015 г.). Томск : Изд-во Том. политехн. ун-та, 2015. С.1497-1499.
База данных // Большой энциклопедический словарь / под ред. А.М. Прохорова. М. : Сов. энциклопедия, 1993. С. 96.
Русский семантический словарь. Толковый словарь, систематизированный по классам слов и значений / под общей ред. Н.Ю. Шведовой. М. : Азбуковник, 1998. Т. 1 : Слова указующие (местоимения). Слова именующие: имена существительные (Все живое. Земля. Космос). 800 с.
Мишанкина Н.А. Базы данных в лингвистических исследованиях // Вопросы лексикографии. 2013. № 1 (3). С. 25-33.
Мишанкина Н.А. Базы данных в филологических исследованиях // Открытое и дистанционное образование. 2012. Т. 2. С. 35-40.
Мишанкина Н.А., Тубалова И.В., Эмер Ю.А. Филология и информатика : специфика электронного представления региональных фольк лорных текстов // Гуманитарная информатика : сб. ст. / под ред. Г.В. Можаевой. Томск: Изд-во Том. ун-та, 2004. Вып. I. С. 102-114.
Баранов А.Н. Введение в прикладную лингвистику : учеб. пособие. М. : Эдиториал УРСС, 2001. 360 с.
Кочергина К.С. Применение технологии базы данных в лингвистических исследованиях // Российская академическая лексикография: современное состояние и перспективы развития : сб. науч. ст. по материалам Междунар. науч. конф., посвященной 70-летию выхода первого тома академического «Словаря современного русского литературного языка» / отв. ред. О.Н. Крылова, С.А. Мызников, М.Н. Приемышева, Е.В. Пурицкая. СПб. : Нестор-История, 2018. С. 158-169.
Мишанкина Н.А., Панасенко Е.А. База данных метафорической терминологии : концептуальное проектирование // Вестник Новосибирского государственного педагогического университета. 2016. № 6 (34). С. 86-99.
Резанова З.И., Миклашевский А.А. Моделирование образно-перцептивного компонента языковой семантики при помощи психолингвистической базы данных // Вестник Томского государственного университета. Филология. 2016. № 5 (43). С. 71-92.
Булыгина Е.Ю., Трипольская Т.А. Национально-культурный компонент в семантике слова и способы его представления в базе данных прагматически маркированной лексики // Вопросы лексикографии. 2017. № 11. С. 5-19.
Булыгина Е.Ю., Трипольская Т.А. База данных прагматически маркированной лексики русского языка : материал, принципы описания, возможности использования // Вестник Новосибирского государственного педагогического университета. 2016. № 6 (34). С. 70-85.
Басалаева Е.Г. Прагматический макрокомпонент и способы его семантизации в электронной базе данных // Вестник Новосибирского государственного педагогического университета. 2016. № 6 (34). С. 112-125.
Саженин И.И. К вопросу о построении базы данных прагматически маркированной лексики // Вестник Новосибирского государственного педагогического университета. 2015. № 5 (27). С. 114-121.
Пурицкая Е.В., Панков Д.И. Нормативно-стилистическая характеристика лексики современного русского языка: возможности описания в словарной базе данных // Вопросы лексикографии. 2018. № 13. С. 23-43.
Свидетельство о государственной регистрации базы данных № 2018620042. Лингвистическая база данных отрицательно-оценочной лексики (имена существительные со значением номинации лица и группы лиц) / К.С. Кочергина. М. : Роспатент, 2018.
Кочергина К.С. Проектирование базы лингвистических данных (на материале оценочной лексики) // Материалы XIX Открытой конференции студентов-филологов (Санкт-Петербург, 18-22 апреля 2016 г.) / отв. ред. С.И. Монахов. СПб. : Изд-во СПбГУ, 2017. С. 170-174.
Матвеева О.Н. Функционирование конфликтных текстов в правовой сфере и особенности его лингвистического изучения (на материале текстов, вовлеченных в юридическую практику) : дис.. канд. филол. наук. Барнаул, 2004. 283 с.
Гибатова Г.Ф. Аксиология в языке // Вестник Оренбургского государственного университета. 2011. № 2 (121). С. 127-132.
Иваненко Г.С. Лексикография и лингвистическая экспертиза : перспективы взаимоотношений // Юрислингвистика. 2018. № 7-8. С. 98 118.
Голев Н.Д., Матвеева О.Н. Юрислингвистическая экспертиза : на стыке языка и права // Сибирский филологический журнал. 2003. № 1. С. 146-157.
Ефремов В.А. Словари субстандарта в лингвоэкспертной практике // Вестник Новосибирского государственного педагогического университета. 2015. № 2 (24). С. 41-49.
Стернин И.А. Основные принципы семантического анализа в лингвокриминалистической экспертизе текста // Вестник Кемеровского государственного университета. 2017. № 1 (69). С. 202-207.
Кочергина К.С. Автоматизация маркирования оценочной лексики в экспертных текстах // XVIII Международная конференция студентов-филологов СПбГУ (Санкт-Петербург, 6-11 апреля 2015 г.) : тез. докл. / отв. ред. Д.Н. Чердаков. СПб. : Филологический факультет СПбГУ, 2015. С. 247-248.
 Лингвистическая база данных отрицательно- оценочной лексики: концепция, структура, наполнение | Вестник Томского государственного университета. 2019. № 446. DOI: 10.17223/15617793/446/4

Лингвистическая база данных отрицательно- оценочной лексики: концепция, структура, наполнение | Вестник Томского государственного университета. 2019. № 446. DOI: 10.17223/15617793/446/4