Рассматриваются проблемы, связанные с обработкой информации и созданием информационных систем в гуманитарной сфере на основе технологии баз данных. В частности, автор обращается к способам применения данной технологии в области филологических исследований.
DATABASE IN SOCIO-HUMANITARIAN RESEARCH.pdf Состояние современного мира может быть охарактеризовано как гиперинформационное. Период общественного развития со второй половины XX - начала XXI в. тесно связан с изменением представлений о роли информации в жизни как отдельного человека, так и общества в целом. Появление и активное развитие новых технологий обработки информации повлекло за собой кардинальное изменение ценностных ориентаций общества - информация как ресурс стала приобретать все большую значимость. Это, в свою очередь, привело к резкому увеличению информационных потоков и формированию банков информации. Необходимость хранения больших объемов информации привела к возникновению новой проблемы, связанной с ее организацией и систематизацией. Потребность в создании информационных систем связана с тем, что широкий доступ к необходимой исследователю информации позволяет осуществлять более результативные действия в самых разных областях, дает возможность эффективно управлять информационными потоками. Именно поэтому актуальной задачей становится разработка междисциплинарных методик, позволяющих осуществлять аналитическую обработку информации и поиск способов ее структурирования для эффективного хранения и обработки. Наиболее адекватными в этом аспекте представляются комплексные методики, позволяющие создавать базы данных (БД) - структурированные массивы данных, хранимые и управляемые с применением компьютерных технологий, используемые для создания и функционирования эффективных информационных систем [1, 3, 4, 10,11]. Предпосылками для разработки технологии и создания баз данных можно считать насущную необходимость в решении целого ряда значимых для гуманитарной сферы и в целом для науки задач.Первая из них - уже упомянутая выше необходимость создания информационных систем. И здесь базы данных помогут эффективно структурировать информацию, начиная от процедур первичного анализа информации до технологий организации информационных массивов большого объема.Вторая задача связана с повышением достоверности и эффективности социогуманитарных исследований, непосредственно зависящих от доступности научной информации (как первичной, в виде материала для анализа, так и вторичной - результата теоретического осмысления). Основа филологического исследования - накопленная эмпирическая информация об изучаемом объекте реального мира, при этом, чем масштабнее исследовательский проект, тем более объемным должен быть подлежащий обработке материал. Базы данных позволяют значительно упростить доступ к эмпирическим материалам, упростить процедуру систематизации и верификации. В частности, именно поэтому была актуализирована проблема создания филологических информационных ресурсов, так как эффективность реализации многих научных программ в этой области в значительной мере определяется степенью автоматизации обработки данных и организации доступа к ним. Эта проблема особенно заостряется в междисциплинарных исследованиях, где необходим синтез знаний и фактографического материала из различных областей [4. С. 125].В частности, для фиксации различных проявлений языковой системы возникла необходимость в создании лингвистических ресурсов, направленных на решение задач:- структурирования и первичного анализа эмпирического материала, начиная от фиксации единиц языковых уровней (грамматиконы, словари, фонетические базы данных) до фиксации целостных текстов, что позволяет, с одной стороны, дополнить и уточнить структурную модель языковой системы, а с другой - сформировать, во-первых, функциональную модель языковой системы и, во-вторых, лингвистические модели дискурсивных областей;- поиска новых способов его фиксации и сохранения, а также организации доступа к этим материалам; - поиска новых методов обработки материала для оптимизации исследования и получения новых результатов, и это непосредственно относится к статистическим методам обработки лингвистической информации, позволяющей сформировать вероятностную модель языка или отдельных дискурсов;- верификации результатов исследования за счет обращения к материалу большего объема. Например, Е.И. Ярославцева отмечает, что компьютерная база данных «Языки мира», представляющая собой универсальный грамматикон, может быть использована в лингвистической типологии для верификации гипотез о типологической близости языков [12. С. 356]; - структурирования теоретической лингвистической информации.Это привело к созданию информационных систем для аккумуляции, хранения и первичной обработки лингвистической информации, таких как словари, лингвистические корпусы и лингвистические базы данных.Цель настоящей работы - представить обзор разработанных к настоящему моменту филологических баз данных и рассмотреть перспективы их использования в научно-исследовательской и образовательной деятельности.60-е гг. ХХ в. - время, когда начинается разработка различных концепций компьютерного представления и обработки данных. К этому времени уже существовали развитые и разнообразные информационные системы: библиотеки, архивы. Поэтому автоматизация обслуживания информационных систем была в первую очередь востребована именно в этих областях. Позднее компьютерные базы и архивы стали создаваться и для конкретных исследовательских задач в разных областях филологии.В России разработка теоретических основ создания баз данных впервые была осуществлена в рамках программы ГАСНИТИ (разработка ИПС) и в рамках работы по Машинному фонду РЯ. Подобные системы были, как правило, закрытыми, т.е. ее дополнение и реорганизация требовали избыточного копирования данных и переделки программ обработки. Еще одна сложность, связанная с отсутствием универсальной концепции - различие в моделях баз данных, разрабатываемых в разных научных центрах. Эти различия вели к тому, что информационные системы не имели уникальных программ обработки, которые могли быть использованы в других системах. Однако значимым свойством для каждой информационной системы является возможность ее укрупнения за счет объединения с другими. Эта проблема стала еще более острой в 70-е гг. с появлением ЭВМ, позволяющими создание банков данных, аккумулирующих данные разных научных центров. Попытки решения привели к созданию новых способов организации информационных систем, реализующих принцип независимости данных от прикладных программ. Она и получила название базы данных. «Представление информации в виде баз данных позволило разработчикам реализовать ряд существенных преимуществ по сравнению с используемыми ранее информационными системами, имеющими файловую организацию данных. Так, в частности, появилась возможность использования одних и тех же данных одновременно для решения многих прикладных задач, а вследствие того, что отпала необходимость в их дублировании, была существенно сокращена избыточность в представлении информации» [1. С. 38].В настоящее время компьютерное представление информации в виде баз данных используется в самых разных областях языкознания и прикладной лингвистики: в типологической и сравнительной лингвистике, фонетических, лексических, грамматических исследованиях; лексикографии; семантических исследованиях, включая составление тезаурусов; в компьютерной лингвистике и для решения прикладных лингвистических задач (лингводидактических, автоматизированного перевода, автоматического распознавания и синтеза речи).В настоящий период развития этой технологии в гуманитарной сфере можно говорить о следующей типологии существующих баз данных.Среди гуманитарных баз данных можно выделить общегуманитарные базы, содержащие информацию, актуальную для многих наук гуманитарной сферы, и специализированные базы, ориентированные на определенную гуманитарную область. Предварительно следует все же оговорить, что разделение на общегуманитарные и специализированные базы представляется достаточно условным, так как информация, представленная в специализированных базах, вполне может быть использована для исследования в другой гуманитарной области. Но все же следует помнить о том, что создается специализированная БД специалистами одной области знания, при создании решаются узкоспециальные задачи, а способы представления также ориентированы на достижение узкоспециальных целей.Среди специализированных БД мы можем назвать исторические, лингвистические, культурологические базы данных и т.п. Исторические базы данных связаны с созданием и представлением массовых источников (например, БД архивных материалов по массовым репрессиям), исторических документов, фактов материальной культуры, представляющих интерес для историков (экспозиции электронных музеев, исторические архивы) и др. В филологии можно говорить о существовании следующих видов баз данных, как полнотекстовые базы, к которым могут быть отнесены собственно базы и корпусы текстов, например самый крупный в России «Национальный корпус русского языка» или «Компьютерный корпус текстов русских газет конца XX века», а также базы данных, в которых представлены целостные тексты, относящиеся к какой-либо дискурсивной сфере. Они могут представлять собой библиотеки электронных текстов, включающие как произведения художественной литературы, так и критические, исследовательские работы по их изучению. Подобные базы размещены на различных филологических сайтах (портал «Кирилл и Мефодий», интернет-версия журнала «Philologica», «Ruthenia», «Русская виртуальная библиотека»), а также могут представлять собой отдельный самостоятельный ресурс («Фундаментальная электронная библиотека: Русская литература и фольклор»). Примером такой базы данных может выступить база данных «Среднеобский фольклор» (http://mion.tsu.ru/song), созданная в рамках развития информационной системы «Межрегиональные исследования в общественных науках».Материалом для создания этой БД послужили записи текстов народной культуры жителей сибирского и алтайского регионов, в том числе Среднего Приобья, которые интенсивно велись в Томском государственном университете с 60-х гг. XX в. Записи проводились как в рамках научных экспедиций, так и в системе студенческих фольклорных практик. Архив записей хранится на филологическом факультете ТГУ в виде рукописных тетрадей. Материал в БД систематизируется по параметрам: жанровой принадлежности, территории бытования, дате фиксации, имени исполнителя (рис. 1). Рис. 1Уже первый параметр - жанровый состав - позволяет говорить о специфике сибирского фольклора, так как на исследованной территории полностью отсутствуют былины и исторические песни (по крайней мере, это можно сказать в отношении рассматриваемого периода - с 60-х гг. ХХ в. по настоящее время). Здесь представлен песенный фольклор (баллады, хороводные, протяжные и другие песни, романсы, песни литературного происхождения и частушки), загадки. Устная проза представлена жанровыми формами сказок и быличек. Среди сказок, в основном, встречаются бытовые (реже сказки о животных). Представлен бытовой обрядовый фольклор (описания свадебного обряда), тексты заговоров [7. С. 110].Единицей БД «Среднеобский фольклор» выступает отдельный текст, снабженный описанием по указанным параметрам (рис. 2).Рис. 2Кроме текстов, БД содержит фотоархив - уникальные фотоматериалы, сделанные во время записи фольклорных материалов (рис. 3).Рис. 3Подобные базы данных широко применяются в филологическом образовании, так как представляют целостные области функционирования различных текстов, что позволяет рассматривать их в дискурсивном аспекте. Например, описанная выше база данных «Среднеобский фольклор» позволяет получить доступ к специфичным в региональном и лингвокультурологическом плане текстам для осуществления их аналитической обработки, реконструкции этого фрагмента народной культуры, варианта национальной картины мира, сопоставления с подобными текстами другого региона и т.п.Вторая группа - собственно база данных - содержат информацию о лингвистических единицах различного рода. Например, «Хронологический морфемно-словообразовательный словарь русского языка», база данных по русским прилагательным «EDGE», база фонетических данных и др. Технология баз данных используется как в процессе создания традиционных словарей, так и для создания электронных словарей. Активно разрабатываются словарные базы данных специальной и терминологической лексики. Также можно назвать Международный компьютерный архив современного английского языка (International Computer Archive of Modern English - ICAME); Летний институт лингвистики США (SIL), где формируются базы данных по 850 языкам; Фонетический фонд русского языка, разработанный и пополняемый на кафедре фонетики, и Лаборатория экспериментальной фонетики СПбГУ [1]. При всем том исследовательская работа в этой области далека от завершения, так как объект лингвистики - язык - принципиально безграничен и многомерен в силу своих специфических свойств: •элементы языковой системы неоднородны и количественно необозримы; •языковой знак динамичен - в процессе функционирования происходит трансформация формальной и содержательной сторон, что влечет за собой порождение вариантов знака или новых элементов системы; •языковые структуры конструктивны, т.е. множество порождаемых высказываний, адаптированных для выражения самых сложных ментальных построений, потенциально бесконечно; •языковая деятельность тесно связана с коммуникативной и приспосабливается к выражению самых сложных коммуникативных смыслов; языковые структуры связаны с когнитивными процессами и в силу этого языковая семантика достаточно сложно формализуется. Каждое из названных свойств говорит, с одной стороны, о неограниченном информационном потенциале языковой системы, а с другой - о том, что эта информация необычайно сложно структурируется даже на уровне отдельных языковых элементов. Однако необходимость формализации лингвистической информации для решения прикладных задач ведет к актуализации исследований в этом направлении. Можно говорить о следующих перспективах использования лингвистических баз данных. Теоретические перспективы видятся в использовании технологии БД в лингвистических и, в частности, лингвокогнитивных исследованиях. Применение данной технологии в исследовании когнитивной деятельности связаны с изучением концептуализации действительности. И здесь на первый план выступают принципы представления информации в базах данных, принципы, лежащие в основе когнитивного моделирования данных, формирования «моделей-онтологий» - «комплексных разносторонне формализованных представлений предметной области…», представляющих «…синтез лингвистических, тезаурусных, понятийных, энциклопедических и процедурно-декларативных специальных знаний» [9. С. 53]. Базы данных, ориентированные на описание лексической семантики, позволяют получать данные о способах концептуализации действительности в том или ином языке, используемые в системах текстового анализа и машинного перевода, в лингводидактике и т.п. С другой стороны, в современных работах по моделированию БД [2, 4 - 6, 8 и др.] говорится о перспективах использования естественноязыковой категоризации в логико-лингвистическом концептуальном моделировании. Р.Ю. Кобрин указывает на то, что в настоящее время существует два подхода в создании банков данных: а) построение языковых моделей предметных областей; б) построение алгебро-логических баз данных. Однако в решении прикладных задач доминирует второй подход. Вместе с тем, автор указывает, что лингвистическое моделирование может выступать в качестве основы концептуального. В частности, такую задачу он решает на материале лингвистического анализа терминологии, устанавливая систему семантических отношений в рамках заданной области [5]. Попытки решения данной проблемы представлены и в работах А.Н. Баранова [2], А.С. Герда [4], С.Е. Никитиной [8].Подобный подход представляется перспективным в свете современных теорий концептуализации, в основе которых лежит антропный принцип, находящий последовательное отражение в естественном языке. Например, база данных русских зоонимов позволяет представить в структурированном виде концептуальную область «Зоология», специфичную для носителей русского языка. Подобная база данных может быть использована в образовательном процессе как лексикографический источник в преподавании курсов «Лексикография», «Лексикология», «Лингвокультурология», «Языковая картина мира», «Русский язык как иностранный» и др.Практическое значение лингвистических БД видится в решении задач: •автоматизированной обработки и синтеза устной речи (фонетические БД), письменной речи (морфологические БД); •информационного поиска (лексикографические БД). Проблемы терминологической эквивалентности (терминологические БД и тезаурусы) связаны с тем, что качество научной деятельности и научной коммуникации во многом определяется спецификой языковых единиц, фиксирующих эпистемологические модели знания. Базовой единицей концептуализации и структурирования научной области выступает термин, концептуальная система отражена в терминосистеме научной области. Одним из главных требований к терминологической единице является требование семантической стабильности. Но термины - это не только концептуальные, но и лингвистические единицы, и вне зависимости от предъявляемых к ним требований они попадают под действие общеязыковых законов. Семантика термина, как и семантика лексических единиц, подвержена действию закона асимметричного дуализма языкового знака, что проявляется как в образовании термина на основе лексико-семантического варьирования, так и в процессах метафоризации. За счет этого терминосистемы обладают определенной динамикой, кроме того, терминосистемы различных языков не являются симметричными, что влечет за собой проблему информационной однозначности в интерпретации термина. Терминологические базы данных и тезаурусы позволяют проводить эффективный сопоставительный анализ эпистемологических моделей, функционирующих в национальных культурах, находить адекватные эквиваленты и вырабатывать универсальные эпистемологические системы. Велика значимость терминологических БД для обучения в рамках определенной научной области, так как терминосистема, отраженная в БД, представляет собой концептуально-понятийную структуру предметной области.Таким образом, решение проблемы и концептуализации, и структурирования специализированных предметных областей может рассматриваться как актуальная задача, с одной стороны, прикладной, а с другой - когнитивной лингвистики, особенно в части разработки прикладных проектов. До настоящего времени не получили достаточного освещения проблемы метафоризации терминосистем, в частности, соотношения функционирования метафорических и неметафорических терминов, взаимодействие и взаимовлияние терминосистем различных научных дисциплин, внутридисциплинарная полисемия термина, а также принципы отбора лексико-семантических единиц при метафорическом терминообразовании. Применение технологии БД позволит выявить принципы формирования современных терминосистем в разных языках, тенденции их динамики и на этом основании выработать: принципы корректирования семантики терминов; принципы терминологического соотнесения при научном переводе.
Асиновский А.С., Архипова Е.А., Богданова Н.В. и др. Полевая лингвистическая практика: Учеб.-метод. комплекс сложной структуры. - Ч. 1. Теоретические основы и методика сбора лингвистических данных для представления их в речевом корпусе русского языка. - С
Баранов А.Н. Введение в прикладную лингвистику. - М., 2001.
Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: учеб. пособие. - М.: Гелиос АРВ, 2002. - 368 с.
Герд A.С. Прикладная лингвистика. СПб.: Изд-во С-.Петерб. ун-та, 2005.
Кобрин Р.Ю. Лингвистическое описание терминологии как база концептуального моделирования в информационных системах: автореф. дис. … д-ра филол. наук. - Л., 1989.
Марчук Ю.Н. Компьютерная лингвистика. - М.: АСТ: Восток - Запад, 2007.
Мишанкина Н.А., Тубалова И.В., Эмер Ю.А. Филология и информатика: специфика электронного представления региональных фольклорных текстов // Гуманитарная информатика: Сб. статей / Под ред. Г.В. Можаевой. - Томск: Изд-во Том. ун-та, 2004. - Вып. I. - С. 102
Никитина С.Е. Семантический анализ языка науки: на материале лингвистики. 2-е. изд. - М.: Книжный дом «ЛИБРОКОМ», 2010. - 146 с.
Рябцева Н.К. Язык и естественный интеллект / РАН. Ин-т языкознания. - М.: Academia, 2005. 640 с: библ. (Монографические исследования: лингвистика).
Советов Б.Я. Базы данных. - М.: Высш. шк. 2005. - 462, [1] с.
Хомоненко А.Д. Базы данных. - СПб.: Корона-Принт 2004. - 735 с.
Ярославцева Е.И. Грамматикон и база данных «Языки мира» // Scripta linguisticae applicatae. Проблемы прикладной лингвистики - 2001: Сб. статей. - М.: «Азбуковник», 2001. - С. 339-357.