Сетевая модель языкового тезауруса: особенности построения | Сибирский филологический журнал. 2016. № 3. DOI: 10.17223/18137083/56/19

Сетевая модель языкового тезауруса: особенности построения

Рассматриваются существующие модели тезауруса, или представленной в словах языковой системы знания о мире, большинство из которых являются семантическими сетями разных видов. При принятии в качестве основной единицы языкового тезауруса отдельного слова выстраиваются такие модели тезаурусной сети, в которых трудно восстанавливать синтагматические связи между словами, позволяющие изучать свойства тезауруса как коммуникативной системы. Приводятся основания выделения в качестве структурных единиц тезауруса устойчивых сочетаний слов, главным из которых является соответствие сочетания слов критериям знания как семиотического продукта, выделяемым в философских трудах. Раскрываются этапы построения сетевой модели языкового тезауруса на основе сочетаний слов. Основным преимуществом предлагаемой модели тезаурусной сети является то, что фрагменты данной сети можно соотнести с моделями сетей других типов, включая дефинициальные, ассоциативные, импликационные и нейронные сети.

Language thesaurus network: steps of modeling.pdf Понятие «тезаурус» имеет множество интерпретаций в различных отраслях науки, однако можно выделить и общие черты в его определении с точки зрения различных подходов: 1) это система, имеющая определенную организацию; 2) это «хранилище» информации, или знания; 3) это коммуникативное устройство, необходимое для взаимодействия с другими системами с целью обмена информацией, накопления новых знаний. Начиная с 1960-х гг. в рамках теории информации, информатики и кибернетики тезаурус рассматривается как система, необходимая для рецепции и обработки семантической информации [Шрейдер, 1963; 1975]. В настоящее время в работах по синергетике под тезаурусом понимается способная к саморазвитию система, служащая не только для обработки входящей информации, но и для генерирова ния новой информации [Чернавский, 2004, с. 20-21]. В гуманитарных исследованиях тезаурус трактуется как когнитивная система человека, являющаяся необходимым условием понимания и ориентации в мире [Луков Вал. А., Луков Вл. А., 2014]. В лингвистике тезаурусами называются словари идеографического или ассоциативного типа, а также присущая человеку система знания, связанная с языком. В последнем значении понятие «тезаурус» соотносится с понятием «картина мира» и получает особенно широкую интерпретацию в концепции Ю. Н. Караулова [Караулов, 1981; 1987]. Соответственно, имеется несколько моделей тезауруса, преобладающими из которых являются уровневые, или древовидные, модели. Однако с точки зрения структурной организации все они являются семантическими сетями различных типов, поэтому основной моделью тезаурусной системы следует признать сетевую. Семантическая сеть представляет собой модель определенной области знаний, состоящую из узлов (в качестве которых могут выступать понятия, процессы, явления) и соединений между ними. Так, классические тезаурусные словари (например, «Thesaurus of English Words and Phrases» П. Роже (1852) и созданные по его образцу современные тезаурусные словари) представляют собой древовидные семантические сети, называемые дефинициальными сетями, основным видом отношений в которых являются родовидовые отношения. Ассоциативные тезаурусы (например, «Русский ассоциативный словарь» (1994), «The Edinburgh Associative Thesaurus», разрабатываемый с 1970 г.) представляют собой сети, в которых далеко не всегда можно проследить логические отношения между узлами, но имеются механизмы перехода и присоединения. Модель тезауруса как языковой системы знания также может соотноситься с другими моделями семантических сетей, среди которых сети утверждений, импликационные и обучающиеся сети (типы семантических сетей, которые можно применять при моделировании отношений между словами языка, рассматриваются в работе J. F. Sowa [Sowa, 1992]). Поскольку тезаурус представляет собой сложную информационную систему, которая моделируется путем построения семантических сетей разного вида, имеется необходимостьсоздания обобщающей модели тезаурусной сети. Для создания такой модели необходимо изменить взгляд на сущность единицы тезауруса и более четко определить ее черты. Подчеркнем, что в данной работе на обсуждение выносятся принципы моделирования именно языкового тезауруса, т. е. такой информационной системы, которая строится на основе знаков языка и отношений между ними, а не на основе понятий, концептов, логических категорий, несомненно имеющих отношение к значению языковых знаков, но не являющихся собственноязыковыми сущностями. Вопрос о том, что следует признавать единицей языкового тезауруса, наиболее сложный, поскольку языковой знак представляет собой двустороннюю материально-идеальную сущность и при составлении тезаурусных словарей бывает очень трудно определить, имеем ли мы дело со словом, обладающим определенным значением, чрезвычайно зависимым от контекстов употребления этого слова, или абстрактным понятием (или концептом), не имеющим прямого отношения кконтекстам употреблениясоответствующего слова. Данная проблема подробно рассматривается Н. В. Лукашевич, которая четко формулирует «принцип независимости онтологии от естественного языка» [Лукашевич, 2011, c. 108]. Согласно данному принципу, информационно-поисковые тезаурусы должны представлять собой онтологии, т. е. системы, построенные на строгих логических отношениях между понятиями. Единицами словаря в таком случае являются не слова естественного языка, а термины, имеющие строго фиксированное значение, не всегда полностью соотносимое со значениями соответствующих слов естественного языка. Такие тезаурусы не являются собственно языковыми, поэтому для человека, привыкшего «упаковывать» свои знания в слова, использование такихтезаурусовможетвызывать трудности. Составители многих тезаурусных словарей (например, [Wordnet, 2015; Kirkpatrick, 1994; Баранов, 1995]), напротив, выстраивают систему отношений в тезаурусе, исходя из семантики слов языка, в результате чего получающиеся в разных словарях логические системы словесных отношений не совпадают, так как совокупность самих слов, включенных в словарь, диктует, какие будут выделены логические категории и как они будут соотнесены между собой. Соответственно, отдельные словари не могут претендовать на построение универсальной модели тезауруса какязыковойсистемы знаний. Вместе с тем и при построении строгих онтологий, и при подходе «от семантики слов» при составлении тезаурусов возникает одна большая проблема - трудно создать такую систему, в которой слова могли бы соединяться в последовательности, имеющие коммуникативную значимость. Иначе говоря, словари, построенные по принципу иерархии логических категорий, в какой-то мере удовлетворяют такой функции тезауруса, как хранилище информации, но не могут обеспечить функцию обмена информацией, необходимую для приращения и генерирования нового знания. В языковом отношении это значит, что тезаурусные словари древовидного типа не могут работать как системы, при помощи которых можно строить сочетания слов иосуществлять коммуникацию. Корень проблемы кроется в том, что если принимать в качестве основной семантической единицы языкового тезауруса слово, то необходимо выстраивать систему отношений, исходя из свойств этой единицы. Это делается путем обращения к значению слова, точнее, к его языковому воплощению - дефиниции. Дефиниция, или описание значения слова в словаре, как правило, предполагает наличие родового или видового понятия либо представляет собой синоним. Поэтому построенные на основе значений слов тезаурусные словари воссоздают систему родовидовых или синонимических отношений - семантическую сеть дефинициального типа. Однако связи между словами определяются не только значением слов, но и традицией их употребления носителями языка. Более того, значение слова формируется только в результате накопления знаний о множестве контекстов употребления данного слова в речи. Анализ контекстов слов по письменным текстам, как это делается, например, при составлении толковых словарей, показывает, что большинство из них представляют собой устойчивые, воспроизводимые в разных текстах сочетания слов. Мысль об устойчивости абсолютного большинства сочетаний слов высказывалась И. Е. Аничковым еще в середине ХХ в. [Аничков, 1997, c. 106]. Тот факт, что человеческое общение на языке осуществляется путем воспроизведения готовых «коммуникативных фрагментов», по своей языковой структуре представляющих собой сочетания слов, доказывается в концепции Б. М. Гаспарова [Гаспаров, 1996]. Проведенное нами исследование [Осокина, 2015] показывает, что не отдельное слово, а сочетание слов удовлетворяет статусу единицы языкового тезауруса, так как именно путем усвоения сочетаний слов происходит накопление знания и его закрепление в высказываниях на определенном языке. Данное положение находит точки соприкосновения с концепцией Вал. А. и Вл. А. Луковых, также подчеркивающих структурную сложность тезауруса и разрабатывающих понятие «тезаурусные конструкции», которые в определенном смысле можно сравнить с идиомами, или устойчивыми фразеологическими оборотами [Вал. А. Луков, Вл. А. Луков, 2005, c. 5]. Понимание того, что в языковом отношении единицы знания о мире могут соотноситься с устойчивыми выражениями и прецедентными высказываниями, имеется в работе Ю. Н. Караулова и Ю. Н. Филипповича [Караулов, Филиппович, 2009, c. 9-10]. Данные Русского ассоциативного словаря, в котором, по подсчетам Ю. Н. Караулова иН. Л. Чулкиной, 75 % реакций испытуемых являются «грамматикализованными», т. е. слово-стимул и слово-реакция представляют собой сочетание слов (например, ходить - в гости, говорит - о любви)[Караулов, Чулкина, 2008, c. 31-32], подтверждают важность исследования сочетаний слов как языковых единиц системы знания о мире. Устойчивое сочетание слов может на полном основании быть названо структурной единицей тезауруса не только потому, что в системе языкового тезауруса нет отдельных слов, а есть только слова в совокупности их связей, но и потому, что сочетание слов в полной мере соотносится с характеристиками знания, выделяемыми при анализе значения слова «знание» в философских словарях [Философский словарь, 1986; Философия, 2004; Касавин, 2009; Философский энциклопедический словарь, 2011], а именно: устойчивое сочетание слов представляет собой фиксированный семиотический продукт познавательной деятельности, отработанный в языковом опыте и закрепленный в памяти факт, имеющий социально-коммуникативную значимость. Итак, структурной единицей языкового тезауруса является устойчивое сочетание слов в широком понимании - основным критерием устойчивости выступает воспроизводимость сочетаний слов в текстах (высказываниях), созданных разными носителями языка. Семантическая слитность сочетаний слов не всегда является необходимым условием их устойчивости, хотя факт наличия семантической слитности в большинстве возможных на определенном языке сочетаний нельзя отрицать. Семантическая слитность сочетаний может являться и результатом употреблениясловвместе, ивзаимного влияния значенийслов друг на друга. Соответственно, под статус единицы тезауруса могут подходить любые в семантическом и грамматическом отношении сочетания слов: фразеологические единицы, клише, речевые стереотипы, формульные выражения и даже сочетания, называемые свободными, например пить чай или зеленая трава, так как все эти типы сочетаний характеризуются свойством воспроизводимости в речи и соответствуют перечисленным в предыдущем разделе признакам знания, т. е. функционируют какязыковые проявления знания. Столь разнородные сочетания слов невозможно объединить в сетевую структуру по семантическому признаку, поэтому стоит обратиться к поиску «внешних» критериев их объединения. Таким критерием является наличие в различных сочетаниях одинаковых слов, например зеленая трава, зеленый чай, зеленые годы, зеленая миля. Данные сочетания можно объединить в сетевую структуру, в которой узловым компонентом будет слово зеленый, а присоединенными компонентами - сочетающиеся сданным словом слова. Необходимо обратить особое внимание на то, что при построении тезаурусной сети такого типа первым этапом является отбор из существующих на определенном языке текстов воспроизводимых в них сочетаний слов. При анализе текстов небольших объемов это можно осуществлять методом аналитического чтения, анализ больших текстовых массивов можно проводить при помощи статистических методов корпусной лингвистики, а также используя статистические сервисы поисковых систем типа Google или Yandex. Объединение сочетаний в узловые структуры с одинаковыми словами является только вторым этапом конструирования сети. Поэтому, несмотря на то что узловыми элементами оказываются слова, нельзя считать отдельные слова основными структурными единицами данной сети. Неверно отождествлять представление об узлах сети с представлением об элементах системы. То, что в узлах конструируемой модели оказываются слова, еще не делает их структурными элементами тезауруса. Узел сети - это только позиция, из которой открываются выходы и входы в другие позиции. Соответственно, слово в такой структуре не обязательно должно рассматриваться как самостоятельный элемент системы тезауруса, хотя в описанных выше моделях так и есть. В нашей модели структурообразующий статус получают не слова с их определенными значениями, а имеющаяся между ними устойчивая связь, благодаря которой они воспроизводятсявместе, даже если семантическая связь между ними не очевидна. (Например, ребенку, только начинающему говорить, не очевидна семантическая связь между словами трава и зеленая. На вопрос Трава какая? он может ответить голубая или желтая не потому, что не видит цвет, а потому, что пока не понимает, почему то, что он видит, должно именоваться словом зеленая. Аналогично, понимая, насколько это возможно в раннем возрасте, семантическую близость между словами ходит и идет, он принимает как навязываемую сверху данность, что нужно говорить дождик идет, а не дождик ходит.) Таким образом, в приведенных выше примерах слова зеленая и миля объединяются в единую структуру не потому, что в их семантике есть схожие элементы, а потому, что данное сочетание, соотносящееся с наименованием произведения С. Кинга и квалифицирующееся как прецедентный текст, в настоящий момент воспроизводится во множестве текстов разных носителей языка, отображаемых в Google, в том числе и тех, в которых нет прямых отсылок к творчеству Стивена Кинга. Вместе с тем, если бы мы принимали в качестве единицы тезауруса слово зеленая и строили сетевую структуру, опираясь на семантику данного слова и вытекающие из его семантики синтагматические связи, переход от слова зеленая кслову миля вряд ли был бы возможен. Основной характеристикой предлагаемой сети является обратимость переходов от одного узла к другому и принципиальная открытость. Так, слово зеленый является узловым компонентом в составе перечисленных сочетаний, но может квалифицироваться и как присоединенный компонент в составе других сочетаний, например со словом чай (зеленый чай, цейлонский чай, пить чай). Еще одна важная черта данной сети состоит в том, что в нее могут быть включены практически все слова языка, включая имена собственные, неологизмы, сленг - все то, что обычно не входит в тезаурусные словари. В сети, построенной на основе устойчивых сочетаний слов, можно уловить практически все возможные типы семантических отношениий между словами, так как во многих текстах воспроизводятся не только сочетания на основе подчинительной связи, но и сочетания, в состав которых входят синонимы (голубой и бирюзовый), гиперонимы (собака бульдог), антонимы (холодное и горячее), так что семантические сети других типов оказываются растворенными в структуре такой сети и могут быть из нее выявлены при помощи лингвистического анализа. В частности, из такой сети можно выявить фрагменты сетей дефинициального типа, так как дефиниции также состоят из устойчивых сочетаний слов, воспроизводящихся в различных текстах; фрагменты ассоциативных сетей, поскольку языковые ассоциации, как указывалось выше, в большинстве своем представляют собой реакции синтагматического характера; фрагменты импликационных сетей, раскрывающих причинно-следственные связи, также зафиксированные в готовых сочетаниях слов (радуга после дождя, падает осенний лист), и фрагменты других семантических сетей. Например, в результате анализа текста «Обращения Президента Российской Федерации Владимира Путина по поводу вхождения Республики Крым и города Севастополь в состав РФ от 18.03.2014» была сконструирована тезаурусная сеть, фрагменты которой обнаруживают сходство с графическим изображением модели нейронной сети, являющейся сетью «обучающегося» типа (см. схему). В данной схеме слова Россия, народ, граждане и люди соединены потому, что в проанализированном тексте, а также во многих других текстах на русском языке Узлы «Россия - Украина - народ - люди - граждане» встречаются сочетания народ России, граждане России, люди России (аналогично народ Украины, граждане Украины, люди Украины), которые функционируют как самостоятельные языковые блоки информации. По классификации, представленной в упомянутой выше работе J. F. Sowa, рассматриваемая тезаурусная сеть может быть квалифицирована как семантическая сеть гибридного типа с тем принципиальным уточнением, что семантика не лежит в основе построения данной сети, а из нее выводится, как выводит ребенок семантику слов из того массива языковых высказываний, которые он воспринимает, учась говорить. Сетевая модель языкового тезауруса представляет собой сложный конструкт, вбирающий в себя структурные элементы семантических сетей разных видов, вероятно, с преобладанием механизмов присоединения и перехода, характерных для ассоциативных сетей и необходимых для осуществления функций понимания, воспроизведения и создания новой языковой информации. Дальнейшая разработка представленной модели имеет значительные перспективы как с точки зрения теоретического осмысления, поскольку имеет отношение к проблемам сетевого мышления и сетевого бытия современного человека, так и в прикладном аспекте, поскольку может применяться при усовершенствовании электронных тезаурусов и других языковых компьютерных приложений.

Скачать электронную версию публикации

Загружен, раз: 173

Ключевые слова

тезаурус, семантическая сеть, устойчивое сочетание слов, знание, языковая система знания о мире, thesaurus, semantic network, collocation, knowledge, language picture of the world

Авторы

ФИО	Организация	Дополнительно	E-mail
Осокина Светлана Анатольевна	Алтайский государственный университет; Российский университет дружбы народов		s.a.osokina2@yandex.ru

Всего: 1

Ссылки

Kirkpatrick B. The Oxford Paperback Thesaurus. Oxford Univ. Press, 1994. 909 p.

Sowa J. F. Semantic networks // Encyclopedia of Artificial Intelligence. 2nd ed. Wiley, 1992 (1st ed. Wiley, 1987). URL: http://www.jfsowa.com/pubs/semnet.htm (дата обращения 01.08.15).

Шрейдер Ю. А. Семиотические основы информатики (Лекции). М.: Ин-т повышения квалификации информационных работников, 1975. 80 с.

Шрейдер Ю. А. Об одной модели семантической теории информации // Проблемы кибернетики. М.: Наука, 1963. С. 233-240.

Философский словарь / Под. ред. И. Т. Фролова. М.: Политиздат, 1986. 590 с.

Философский энциклопедический словарь / Сост. Е. Ф. Губский и др. М.: Инфра-М, 2011. 570 с.

Чернавский Д. С. Синергетика и информация (динамическая теория информации). М.: Едиториал УРСС, 2004. 288 с.

Философия: Энцикл. слов. М.: Гадарики, 2004. 1072 с.

Осокина С. А. Основания лингвистической теории тезауруса: Дис. … д-ра филол. наук / Алт. гос. ун-т. Барнаул, 2015. 451 с.

Луков Вал. А., Луков Вл. А. Методология тезаурусного подхода: стратегия понимания // Знание. Понимание. Умение. 2014. № 1. С. 18-35.

Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М.: Изд-во Моск. ун-та, 2011. 512 с.

Луков Вал. А., Луков Вл. А. Тезаурусный анализ мировой культуры // Тезаурусный анализ мировой культуры: Сб. науч. тр. М.: Изд-во Моск. гуманитарного ун-та, 2005. Вып. 1. С. 3-15.

Касавин И. Т. Знание // Энциклопедия эпистемологии и философии науки. М.: Канон+: РООИ «Реабилитация», 2009. URL: http://enc-dic.com/enc_epist/ Znanie-116.html (дата обращения 23.08.2015).

Караулов Ю. Н., Чулкина Н. Л. Русская языковая личность. Интегративный аспект в условиях межкультурных коммуникаций: Учеб. пособие. М., 2008. URL: http://web-local.rudn.ru/web-local/uem/iop_pdf/192-Karaulov.pdf (дата обращения 25.08.2015).

Караулов Ю. Н., Филиппович Ю. Н. Лингвокультурное сознание русской языковой личности. Моделирование состояния и функционирования. М.: Азбуковник, 2009. 336 с.

Караулов Ю. Н. Русский язык и языковая личность. М.: Наука, 1987. 262 с.

Караулов Ю. Н. Лингвистическое конструирование и тезаурус литературного языка. М.: Наука, 1981. 368 с.

Аничков И. Е. Труды по языкознанию. СПб.: Наука, 1997. 512 с.

Баранов О. С. Идеографический словарь русского языка. М.: ЭТС, 1995. 820 с.

Гаспаров Б. М. Язык. Память. Образ. Лингвистика языкового существования. М.: НЛО, 1996. 352 с.