О КОНСОЛИДАЦИИ ЭЛЕКТРОННЫХ БИБЛИОТЕЧНЫХ И ИНТЕРНЕТ-РЕСУРСОВ ДЛЯ ОБРАЗОВАТЕЛЬНЫХ И НАУЧНЫХ ЦЕЛЕЙ | Открытое и дистанционное образование. 2012. № 4 (48).

О КОНСОЛИДАЦИИ ЭЛЕКТРОННЫХ БИБЛИОТЕЧНЫХ И ИНТЕРНЕТ-РЕСУРСОВ ДЛЯ ОБРАЗОВАТЕЛЬНЫХ И НАУЧНЫХ ЦЕЛЕЙ

Рассматривается необходимость консолидации бумажных и цифровых изданий и предлагается концепция библиотечной образовательной Grid-сети, обеспечивающей агрегацию образовательных и научных ресурсов, размещенных как в традиционных библиотеках, так и в Интернете, с возможностью объединенного полнотекстового и тематического поиска информации. Сеть состоит из множества узлов, каждый из которых представляет собой отдельное рабочее место или организацию, размещающих информацию для публичного доступа. При этом соответствие электронных ресурсов библиотечным требованиям обеспечивается в автоматическом режиме.

ABOUT CONSOLIDATION OF ELECTRONIC LIBRARY AND INTERNET RESOURCES FOR EDUCATIONAL AND SCIENTIFIC PURPOSES.pdf Одним из критериев доступности образования является возможность получения всеми желающими учебных и методических материалов. Если еще несколько лет назад основным поставщиком литературы являлись библиотеки, то сегодня наблюдается тенденция размещения всех необходимых для обучения материалов в Интернете. Сегодня учащиеся все реже посещают традиционные библиотеки, предпочитая получать всю необходимую информацию не выходя из дома (что еще раз подчеркивает дистанционный характер обучения). Однако с ростом числа открытых образовательных и научных ресурсов, размещаемых в сети Интернет, возникает множество проблем, главные из которых связаны с типовым, принятым в библиотеках их сопровождением: описание, каталогизация, оценка обеспеченности, поиск (включая и тематический) требуемой учебной и научной литературы, ее консолидация и др.. Многочисленные образовательные порталы, практически не связанные между собой и не представляющие традиционного в библиотечном понимании сопровождения учебной и научной электронной литературы, как правило, не решают указанные проблемы, что явно не способствует полному и качественному методическому и ресурсному обеспечению современного образовательного процесса, в том числе и в дистанционной форме. Обычный полнотекстовый поиск в сети Интернет (да еще во множестве различных источников) не позволяет пользователю моментально найти требуемую литературу, а ведет к порождению огромных массивов псевдорелевантных данных, сложных для человеческого восприятия и консолидации. Для решения указанных проблем необходимо, прежде всего, рассмотреть наиболее популярные на данный момент источники электронной образовательной информации: 1) Электронные библиотеки, включая библиотеки открытых образовательных ресурсов. Каждая из них использует свою базу данных и, как правило, не формирует библиографическое описание предоставляемой литературы в общепринятых форматах (например, RusMarc), поэтому для поиска информации необходимо составлять как можно более полный список библиотек требуемой тематики. С целью более широкого охвата и повышения релевантности запросов с большими электронными библиотеками и издательствами работают такие специализированные поисковые системы, как Scirus, Google Scholar, Сигла; существует крупнейшая в мире база данных рефератов и цитирования Scopus (SciVerse Scopus) и др. Одно из преимуществ Scholar – просмотр для каждого найденного документа списка работ, в которых он цитировался, и индекса цитируемости. Основные недостатки – скупой тематический поиск при работе с англоязычной литературой, полное его отсутствие для других языков, а также возможность работы только с ограниченным фиксированным набором информационных ресурсов [1]. 2) Образовательные Web-порталы. Широкое движение они как средство сосредоточения образовательных электронных ресурсов (общих и специализированных) приобрели в 2001–2005 гг. в рамках реализации ФЦП РЕОИС и продолжают развиваться в настоящее время. Основные их проблемы: разобщенность, отсутствие реализации стандартизированных требований по структуре, навигации, возможностям поиска и т.п. Некоторым подходом к консолидации электронных образовательных ресурсов можно считать создание единого окна доступа к образовательным ресурсам [2]. Однако главным недостатком всего образовательного Web-портального строительства является полное отсутствие хоть какой-то консолидации с традиционными библиотеками, накапливающими, в том числе, и электронные образовательные ресурсы, это же в свою очередь ведет к невозможности создания единых систем поиска образовательного контента, что достаточно неудобно для конечного пользователя. 3) Неструктурированная область Интернета. Для того чтобы найти нужные данные, можно использовать известные поисковики Google, Яндекс, Yahoo, Рамблер и др. Но из-за огромного числа доступных веб-узлов поиск информации, размещенной на веб-страницах, является достаточно трудоемкой задачей. Часто авторские материалы размещаются в сети и не публикуются на бумажных носителях, тем самым исключается их библиотечное присутствие. Крупные библиотеки создают электронные каталоги, но для попадания в них материалов, размещенных в Интернете, необходимо удовлетворять строгим требованиям по составлению библиографического описания размещаемых документов (как правило, в формате Marc), что происходит крайне редко. Наиболее сложной задачей является консолидация уже существующих информационных ресурсов, которая может решаться по двум направлениям. Первое связано с разработкой механизма, который одновременно осуществляет поиск во множестве фиксированных систем (библиотечные системы, интернет-поисковики). Пример частичной реализации этого подхода – системы Electronic books database [3] и FB2Search.ru. Недостаток подобных решений заключается в неэффективности использования вычислительных ресурсов: непосредственное осуществление поиска и систематизация похожих или одинаковых документов – достаточно сложная задача, поскольку разные поисковые системы используют различные способы классификации и форматы отображения данных. Изменение способа хранения информации хотя бы в одной из библиотечных систем может повлечь сбой работы поискового механизма. Для обеспечения его непрерывной работоспособности необходимо постоянно отслеживать все изменения в источниках данных и оперативно выпускать обновления. Второе направление связано с индексированием данных, их структурированием по тематическим направлениям и формированием библиографических записей всех информационных ресурсов, которые изначально могут размещаться в различных источниках. Информация о тематике документов и файлы индексов должны находиться в едином хранилище (каталоге информационных ресурсов), что позволит легко реализовать возможности создания УМКД (учебно-методических комплексов дисциплин), а также обеспечит возможность полнотекстового и тематического поиска (полнотекстовый поиск по конкретным, достаточно узким областям знаний). Наиболее сложной задачей при реализации этого подхода является определение тематики огромного числа документов. В данной статье рассматривается второй подход, являющийся более универсальным. Поскольку ни одна отдельная организация не сможет справиться с описанием и размещением огромного количества цифровых информационных ресурсов, предлагается построить распределенную систему, основанную на принципах Grid-технологий, позволяющую размещать в ней информационные ресурсы всем желающим (с учетом определенных требований). Grid в информационном мире Grid-технологии направлены на создание географически распределенной вычислительной инфраструктуры, объединяющей ресурсы различных типов с коллективным доступом к ним в рамках виртуальных организаций, состоящих из предприятий и специалистов, совместно использующих эти общие ресурсы [4, 5]. Технологии Grid в настоящее время интенсивно развиваются. Ежегодно в мире проводится множество конференций (наиболее известная в России – международная конференция «Распределенные вычисления и грид-технологии в науке и образовании», очередная – 5-я была намечена на 16–21 июля 2012 г. в Дубне) [6], издается значительное количество учебной и научной литературы (см., например, [7, 8]). Различают 3 типа Grid: вычислительные, информационные (ресурсные), коллаборационные [9]. Сегодня технологии Grid широко используются для решения разнообразных задач в различных отраслях науки и практической экономики: моделирование физических, химических, математических процессов; анализ структур ДНК с целью разработки новых лекарственных препаратов; анализ космических излучений для поиска сигналов искусственного происхождения и др. Китай одним из первых совместно с фирмой IBM начал создавать Grid-научно-образовательные сети [10]. В настоящее время наметилась достаточно устойчивая тенденция создания национальных электронных библиотек, в том числе и в России, которые строятся с учетом принципов Grid-сетей и призваны максимально сосредоточивать (агрегировать) электронный контент по интересующим отраслям. Например, в Российской государственной библиотеке Grid используется для организации электронного хранилища с целью минимизации простаивания дискового пространства на существующих вычислительных мощностях и обеспечения надежности хранения данных с помощью метода динамической репликации [11]. Возможность использования Grid для распространения образовательных ресурсов, включая лекции, семинары, лабораторные работы, wiki-ресурсы и др., описана в [12]. Использование Grid-технологий применительно к созданию электронных библиотек (ресурсные Grid) основной своей задачей ставит привлечение как можно большего числа специалистов к формированию и размещению для долговременного целевого хранения имеющих научно-образовательное и прикладное значение интернет-ресурсов. При этом предполагается, что эти специалисты будут заниматься не только тематическим поиском таких ресурсов, но также и их автоматизированным описанием и индексированием для реализации возможности полнотекстового поиска. Развивая Grid-технологии, распределяющие не только вычислительные, но и человеческие ресурсы, становится возможным решить наиболее трудоемкую и актуальную задачу – определение тематики всех доступных цифровых документов и, следовательно, реализовать возможность тематического поиска, что позволит создать агрегаторы контента, аккумулирующие информационные ресурсы, находящиеся как в традиционных библиотеках, так и в сети Интернет. В качестве примера такого агрегатора можно рассматривать проект «Европеана» [13], целью которого является оцифрованное представление всех объектов культурного наследия: книг, рукописей, картин, кинофильмов, фотографий. Проект осуществляется в тесном сотрудничестве с ведущими музеями и библиотеками Европы. Пользователь на основе ресурсов агрегатора может найти интересующее его произведение искусства и получить по нему краткое описание и месторасположение оригинала. Поиск ведется по названию, стране, в которой хранится оригинал, дате создания объекта культурного наследия, типу оцифрованного документа (видеозапись, текст, аудио, видео). После ознакомления с кратким представлением найденного информационного ресурса (эрзац-ресурс) пользователь перенаправляется к непосредственному держателю этого ресурса для получения более полной информации. В настоящее время проект «Европеана» охватывает практически все страны Европы, включая Россию. Всего проект по данным на 2012 г. предоставляет доступ к более чем 20 млн документов, полученным из 32 стран. Основная особенность проекта «Европеана» в том, что наращивание его ресурсов происходит на основании договоров с основными держателями цифровых ресурсов, поэтому вся тяжесть подготовки исходных цифровых ресурсов лежит на их держателях. В настоящее время в России аналогичным масштабным проектом является совместный проект Минобрнауки РФ и ГПНТБ по разработке информационной системы доступа к электронным каталогам библиотек сферы образования и науки в рамках единого интернет-ресурса. Этот проект осуществляется в несколько этапов, будет охватывать не менее 750 вузов, полный ввод системы в эксплуатацию намечен на 2013 г. [14]. Концепция образовательной Grid-сети В настоящее время авторами ведется разработка Grid-системы, основной целью которой является обеспечение доступа к информации по принципу единого окна, предполагающего взаимодействие с любой цифровой информацией, находящейся как в библиотеках, так и на специализированных Web-порталах, а также в открытом Интернете. В настоящей статье изложены основные принципы работы Grid-сети. Детальное представление конкретных технических решений – тема для отдельного рассмотрения. Схема взаимодействия узлов для размещения и использования любых полнотекстовых документов в распределенной электронной библиотеке представлена на рис. 1. Рис. 1. Общая схема взаимодействия Концепция разрабатываемой авторами распределенной библиотечной образовательной системы строится на основании следующих положений: 1) Полные тексты документов хранятся в узлах Grid-сети, являющихся территориально распределенными клиентскими рабочими местами, имеющими выход в Интернет. Каждый узел Grid-сети направлен на сосредоточение определенной тематической информации (тематик может быть и несколько), часть из которой может быть задействована другими узлами. В этом случае наиболее актуальная информация дублируется на локальных ресурсах множества компьютеров и, следовательно, даже с отключением части узлов, остается доступной в сети. Данный подход позволяет экономить серверные ресурсы и обеспечивать более высокую скорость обмена информацией. 2) На узлах Grid-сети обеспечивается поиск интернет-документов, порождение требуемых библиографических записей, индексирование документов, а также их резервное долговременное хранение в виде полных текстов. Таким образом, узлы Grid-сети являются резервными держателями представляющих интерес документов. Затем полученные библиографические записи, а также список ссылок на полные тексты интернет-документов направляются в централизованное хранилище. Использование такого хранилища позволяет оперативно осуществлять поиск требуемых документов в образовательной сети без непосредственного поиска в Интернете и последовательного опроса узлов. Дополнительно появляются возможности централизованной каталогизации ценных документов сети Интернет (частичное решение проблемы выборочного архивирования Интернета), а также обмена библиографической информацией с уже существующими системами, находящимися в разных городах и организациях с целью расширения внешней аудитории по поиску интересующих документов. 3) Механизмы, обеспечивающие заинтересованность узлов Grid-сети в таком взаимодействии, могут быть достаточно разнообразны, начиная от некоторой материальной заинтересованности, обеспечиваемой, например, какими-либо программами, включая федеральные, направленными на организацию такого взаимодействия, и заканчивая механизмами, работающими по принципу непосредственного обмена «ты мне, я тебе», широко распространенному в файлобменных сетях, с начислением определенных бонусов. Внешний пользователь (получатель информации) после осуществления поиска в хранилище выбирает определенные документы для скачивания, которые предоставляются ему с ближайшего доступного в данный момент узла Grid-сети. При доступности источников полнотекстовых данных скачивание происходит по технологии p2p, в противном случае специальная серверная служба постоянно отслеживает их подключение, самостоятельно скачивает и отправляет получателю требуемые данные. 4) Узлам сети присваиваются определенные полномочия, например добавление новой информации определенных тематик (размещение информации в хранилище), её модификация, возможность блокировки определенных узлов с изъятием полученных от них данных и т.д. Также целесообразно для каждого узла разделять полномочия для документов разных областей знаний. 5) Составление библиографической записи найденного узлом Grid-сети документа, по возможности, должно осуществляться автоматически. В случае когда невозможно автоматически определить требуемые для библиографического описания данные, необходимо участие человека-сотрудника узла. Так, для текстового документа, размещенного в Интернете, в большинстве случаев возможно автоматически установить название документа, дату его создания (размещения), а в некоторых случаях автора и тематику по одному из библиотечных классификаторов (например, УДК). В случае же невозможности автоматического определения части этих характеристик документа (большей частью это относится к библиотечным классификаторам) эта задача ложится на сотрудника узла Grid-сети, размещающего документ в сети. Корректность определения всей библиографической информации проверяется модераторами соответствующего раздела области знаний при получении библиографического описания от узла Grid-сети, после чего описание записывается в хранилище. Следует отметить, что эта часть работы по распределенной каталогизации интернет-документов нуждается в более детальном рассмотрении. 6) В тематический справочник, кроме библиотечного классификатора, возможно добавление разделов, посвященных различным конкурсам и грантам, правилам приема для абитуриентов и т.д., а также списка образовательных учреждений, входящих в проект, что позволит конкретным учреждениям размещать различные положения и нормативные документы, а при поиске отделять эту информацию от учебных материалов. 7) Доступ к полнотекстовым документам может осуществляться различными способами: возможно отображение списка всех полнотекстовых документов каждого конкретного узла, формирование каталога с документами определенной тематики, полнотекстовый поиск по всему хранилищу или его части. 8) Целесообразным является предоставить возможность узлам прикреплять к документам отсканированные копии авторских согласий на размещение материалов, которые будут доступны всем желающим для ознакомления. 9) Каждый узел может самостоятельно группировать документы из различных источников по определенным признакам. Например, для размещения УМКД в системе достаточно добавить группу, содержащую рабочую учебную программу, методические указания и рекомендации. Список учебной литературы возможно сформировать из уже присутствующих в системе полнотекстовых документов и присоединить его к созданной группе. Таким образом, УМКД будет размещен не на одном узле, а рассредоточен по всей системе, в то же время это не будет видно обычному пользователю, который, выбрав УМКД для ознакомления, получит весь список доступных для скачивания материалов, независимо от того, где они физически находятся. Возможности описания документов, размещаемых в узлах Grid-сети, определяются в зависимости от их типа: 1) текстовые документы (статьи, книги, электронные таблицы), изначально хранящиеся на локальных ресурсах пользователей и в частных (личных) библиотеках, в большинстве случаев содержат библиографические выходные данные, которые могут быть использованы; 2) веб-ресурсы, отбираемые созданными узлами Grid-сети, в большинстве случаев явно не предоставляют информацию для формирования библиографических выходных данных, однако для таких документов возможно автоматически получать источник (URL), название документа, в некоторых случаях географическое расположение и дату создания ресурса с помощью перехвата адресной строки из окна браузера, а также (при использовании определенного программного обеспечения) частичного или даже (в отдельных случаях) полного определения кода библиотечного классификатора (кода УДК или др.); 30 ресурсы, не поддающиеся автоматической классификации: книги в формате djvu, отдельные изображения, аудио- и видеоинформация. Описание для подобных данных сотрудник узла должен формировать (заполнять поля) вручную; с целью исключения появления недостоверного описания их добавление разрешено только особо доверенным узлам с обязательным привлечением модератора. Для второго типа документов, в случае невозможности автоматической классификации, определение кода библиотечного классификатора самим узлом «вручную» в силу его узкой специализации может быть даже менее затратным по времени, чем для библиотекаря. В настоящее время множество современной образовательной литературы, включая УМКД, все еще хранится в библиотеках в бумажном виде. В то же время нарастает лавина электронных версий документов, которые в силу отсутствия требуемых выходных библиографических данных и необходимых инструментов пока не каталогизированы. С внедрением образовательной Grid-сети и объединением баз данных описательной информации с классическими библиотеками появится возможность одновременного её поиска в Интернете (в частности, на Web-порталах), в классических и электронных библиотеках. При этом будет возможен гибкий доступ к данным с помощью отбора документов практически по всем критериям, принятым в классических библиотеках, тем самым будет обеспечена возможность консолидации требуемых ресурсов, независимо от места их размещения, и возможность доступа к ним с позиций одного окна. Данную разработку можно рассматривать как своеобразное дополнение к проекту «Информационная система доступа к электронным каталогам библиотек сферы образования и науки в рамках единого интернет-ресурса», разрабатываемому ГПНТБ [14]. Но в отличие от этого проекта, где аналогично пректу «Европеана» «целью работы является создание информационной системы доступа к электронным каталогам библиотек сферы образования и науки в рамках единого интернет-ресурса на основе унифицированного сводного каталога библиотечных ресурсов и с обеспечением интеграции с главными системами национального библиотечно-информационного ресурса», в настоящей работе основной акцент делается на том, как обеспечить представление исходного цифрового ресурса, находящегося, по сути дела, где угодно, для обеспечения последующего эффективного доступа к нему с позиций единого окна, который в дальнейшем может быть осуществлен и с использованием указанного выше проекта.

Ключевые слова

Grid, консолидация ресурсов, поиск информации, электронные библиотеки, Grid, resources consolidation, information search, digital libraries

Авторы

ФИООрганизацияДополнительноE-mail
Олейников Б.В.Сибирский федеральный университет, г. Красноярск
Шалабай А.И.Сибирский федеральный университет, г. Красноярск
Всего: 2

Ссылки

Falagas M.E., Pitsouni E.I., Malietzis G.A., Pappas G. Comparison of PubMed, Scopus, Web of Science, and Google Scholar: Strengths and weaknesses // The FASEB Journal. – 2007. – № 22 (2). – Р. 338–342.
Единое окно доступа к образовательным ресурсам. – URL: http://window.edu.ru/
Electronic books database. – URL: http://www.ebdb.ru/
Иванников В.П. Облачные вычисления в образовании, науке и госсекторе // IV –Международная конференция «Распределенные вычисления и Грид-технологии в науке и образовании». – Дубна, 2010. – URL: http://grid2010.jinr.ru/
Интернет-портал по Grid-технологиям / Институт прикладной математики им. М.В. Келдыша РАН. – URL: http://gridclub.ru
V Международная конференция «Распределенные вычисления и Грид-технологии в науке и образовании». 16–21 июля 2012 г. – Дубна, 2012. – URL: http://grid2012.jinr.ru/index_rus.php
Пономаренко В.С., Листровой С.В., Минухин С.В., Знахур С.В. Методы и модели планирования ресурсов в GRID-системах. – М.: ИНЖЭК, 2008. – 408 с.
Higgins H.B. The Grid Book. – London; New York, 2009. – 312 p.
Типы GRID. – URL: http://book.itep.ru/4/7/grid.htm#0
IBM and China's Ministry of Education Launch 'China Grid'. – URL: http://www-1.ibm.com/grid/grid_press/pr_1013.shtml
Березовский П.С., Семячкин Д.А., Шорин О.Н. Применение технологий грида данных для организации электронного хранилища Российской государственной библиотеки // II Международная конференция «Распределенные вычисления и Грид-технологии в науке и образовании»
Каменщиков М.А. Сервисы GRID как объекты стандартизации // Журнал радиоэлектроники. – М.: Радиотехника. – 2002. – № 12. – С. 22–31.
Проект Europeana. – URL: http://europeana.eu
Шрайберг Я.Л. Информационная система доступа к электронным каталогам библиотек сферы образования и науки в рамках единого интернет-ресурса: новый федеральный проект Минобрнауки РФ // Всероссийская научно-практическая конференция «Фонды библиотек в цифрову
 О КОНСОЛИДАЦИИ ЭЛЕКТРОННЫХ БИБЛИОТЕЧНЫХ И ИНТЕРНЕТ-РЕСУРСОВ ДЛЯ ОБРАЗОВАТЕЛЬНЫХ И НАУЧНЫХ ЦЕЛЕЙ | Открытое и дистанционное образование. 2012. № 4 (48).

О КОНСОЛИДАЦИИ ЭЛЕКТРОННЫХ БИБЛИОТЕЧНЫХ И ИНТЕРНЕТ-РЕСУРСОВ ДЛЯ ОБРАЗОВАТЕЛЬНЫХ И НАУЧНЫХ ЦЕЛЕЙ | Открытое и дистанционное образование. 2012. № 4 (48).