Татья посвящена проблеме сохранения литературного наследия человечества в эпоху компьютерных технологий. В центре внимания находится феномен электронных библиотек: на примерах зарубежных и отечественных библиотечных проектов анализируются различные подходы к их созданию. Кроме того, значительное место уделено вопросам оцифровки литературного наследия, а также гипертекстовым возможностям, с помощью которых обогащается содержание переведенных в электронную форму литературных произведений.
Electronic representation of a text as a way of its storage and enrichment.pdf Для развития общества необходима фиксация информации в Форму литературных произведений. Ключевые слова: компьютерные технологии, электронная библиотека, оцифровка, гипертекст. сознании людей, но традиционные источники уже не успевают за скоростью увеличения объема новых знаний. Появление письменности сделало возможной опосредованную передачу знаний через пространство и время, книгопечатание многократно ускорило распространение фундаментального знания и образования. Однако по мере кумулятивного роста информационных массивов все более актуальной и сложной становилась проблема информационного поиска. Способы его ускорения изобретались на протяжении веков - это пагинация, указатели, системы библиотечной каталогизации, библиографические ресурсы и т.п., но во второй половине XX в. этих средств стало не хватать для адекватного функционирования современного постиндустриального общества. С появлением электронного текста информационные технологии претерпевают революционные изменения. «Компьютер высвободил текст из оков материальности, а Интернет и другие формы электронной коммуникации сняли пространственные ограничения на распространение информации» [1. С. 344]. Р. Шартье в книге «Письменная культура и общество» выделяет два типа библиотек. Первый тип - библиотеки, в которых физически хранятся тексты. Даже самые крупные из них отличаются скудностью и неполнотой охвата источников. Второй тип - библиотеки, в которых степень охвата источников достаточно велика. Они ограничиваются лишь ссылками на эти источники, но не имеют в своих фондах большей их части. Рассматривая современную научнотехническую революцию, Р. Шартье пишет: «Компьютерный текст впервые позволяет преодолеть. противоречие между мечтой об универсальной библиотеке, содержащей. все когда-либо написанные тексты. и неутешительной реальностью книжных собраний, которые, при всем своем богатстве, способны дать лишь частичное, неполное, ущербное представление об универсальном знании. Текст в своей электронной репрезентации, отделенный от прежних материальных оболочек и локализаций, оказывается доступен любому читателю. При условии, что все существующие тексты. будут оцифрованы. возникает возможность сделать все письменное наследие человечества доступным для всех» [2. С. 36]. Многие исследователи рассматривают Интернет как хранилище документов. Например, Л.В. Зимина называет Интернет «радикальной трансформацией версии архива» [3. С. 167]; по мнению Р.Г. Лейбова, Интернет «может быть представлен как постоянно пополняющаяся (но так же постоянно и драматически теряющая наполнение) база данных или библиотека» [4. С. 127]. Архив, база данных, библиотека - все эти термины в данных определениях выступают синонимами в самом общем своем смысле: как упорядоченное собрание документов. В Интернете могут храниться различные документы, однако первичное наполнение Сети - это именно текст. Библиотеки с древности выступают местом хранения книжных массивов. В результате развития компьютерных технологий этот принцип не поменялся: тексты также хранятся в библиотеках, но библиотеки стали иными - электронными. Именно они являются сегодня основным каналом для хранения и распространения оцифрованного литературного наследия. Электронные библиотеки - весьма специфический метод взаимодействия читателя и текста. Для того чтобы книга появилась в Сети, требуется набрать или отсканировать ее текст. Это делает не только владелец библиотеки (особенно если она очень большая), но и читатели, которые присылают тексты, достойные, по их мнению, представления в Сети. При этом связь читателя с текстом оказывается более глубокой, чем просто при чтении: он выполняет функции средневекового переписчика. Однако чем больше людей вовлечено в этот процесс, тем больше опасность, что среди современных «переписчиков» найдутся такие, которые, как и средневековые, будут оставлять свои пометки, вносить излишние исправления и вмешиваться в авторский текст. Отсюда возникает проблема качества наполнения электронных библиотек, их ценности - в первую очередь для научных исследований. Где грань между полноохватностью библиотеки и авторитетностью входящих в нее текстов? Как электронная библиотека может облегчить научно-исследовательскую работу с текстом? Качество наполнения электронных библиотек зависит от множества факторов: организаций, занимающихся их созданием, их целей и мотивов, способов оцифровки и т. д. Рассмотрим некоторые примеры создания электронных библиотек за рубежом и в России. В 1971 г. в США появился библиотечный проект Project «Gutenberg» (Проект «Гутенберг»), основанный сотрудником лаборатории исследования материалов университета Иллинойса Майклом Хартом. Сегодня он содержит более 45 тысяч оцифрованных текстов. В библиотеку попадают лишь произведения, срок действия авторских прав на которые уже истек. Таким образом, основной корпус текстов в проекте «Гутенберг» составляет классическая литература. В 2000 г. в рамках проекта «Гутенберг» был запущен сервис Distributed Proofreaders (англ. «распределённые корректоры»): волонтеры по всему миру сканируют текст, распознают его с помощью специального программного обеспечения, в результате чего получается текстовый документ, содержащий некоторое количество ошибок распознавания. После этого корректор сравнивает получившийся текст с отсканированным изображением, вносит необходимые правки и высылает готовую книгу. Проект «Гутенберг» - первый из крупных библиотечных проектов в англоязычном Интернете, но наиболее масштабным стал сервис Google Books (Google Книги), запущенный в 2004 г. Компания Google занималась оцифровкой книг, чтобы пользователи имели возможность полнотекстового поиска в Интернете. Однако организация проекта оказалась совершенно на ином уровне: если проект «Гутенберг» - результат труда сравнительно небольшого числа энтузиастов с ограниченными человеческими и технологическими ресурсами, то Google - крупная коммерческая компания, владеющая огромным капиталом и доступом к большому числу организаций во всем мире. Компания заключила договоры об оцифровке фондов с крупнейшими библиотеками США и рядом крупных издательств. Е. Горный, рассматривая этот сервис, отмечает, что «большинство книг было отсканировано с помощью камеры Elphel 323 со скоростью 1000 страниц в час. На конец 2010 г. в базе находилось более 15 миллионов книг, из них около миллиона - в общественном достоянии. Согласно подсчету Google в мире издано около 130 миллионов уникальных книг (не считая переизданий). Google заявил, что отсканирует их все к концу десятилетия» [1. С. 346]. К сожалению, в настоящее время внимание компании Google сосредоточено на других проектах. Сейчас сервис переживает период стагнации: на главной странице веб-сайта http://books.google.com/ стоит знак копирайта от 2012 г., статьи справочных разделов датируются также 2011-2012 гг., и очевидно, что прогнозы относительно оцифровки 130 миллионов книг к концу десятилетия вряд ли оправдаются. Однако официально о закрытии проекта объявлено не было, не исключено, что он еще переживет второе рождение. В России, как и во всем мире, в разработке электронных библиотек участвуют как отдельные энтузиасты, так и научноисследовательские и образовательные учреждения. «Разительное отличие российской ситуации с электронными библиотеками от западной. в том, что частные инициативы значительно превосходят по востребованности и социальной значимости федеральные и институциональные проекты. Следует отметить громадное количество любительских, некоммерческих электронных библиотек» [5. С. 177]. В 1994 г. появляется крупнейшая электронная библиотека Рунета - универсальная библиотека московского программиста Максима Мошкова. К 2000 г. она содержала около 28 тысяч текстов, тогда как проект «Гутенберг» тогда едва насчитывал три тысячи, несмотря на тридцатилетнюю историю. М. Мошков рассказывает о создании своей библиотеки так: «Я тренировался и изучал, как нужно делать интернет-сайты. Для того чтобы ими пользоваться, нужно было размещать какую-то информацию. Большого выбора у меня не было, поэтому решил опубликовать свою коллекцию электронных текстов, которую к тому времени успел собрать. Спустя какое-то время пользователи стали присылать мне книжки, и я стал размещать их в библиотеку» [6]. Л.В. Зимина объясняет успех данной библиотеки рядом причин: «литературоцентричностью» российского Интернета, специфическим отношением к интеллектуальной собственности и авторскому праву, некоммерческим характером Рунета, особенно в период его становления [3. С. 135]. Кроме того, появление и развитие Интернета в России совпало с этапом становления новой государственности и тяжелейшим экономическим кризисом. Книгоиздательская отрасль оказалась неподготовленной к условиям рынка, государственные издательства и книготорговые организации перешли в частные руки и пытались приспособиться к изменившимся условиям. Доступ книг в регионы существенно ограничился, и возможность знакомиться с текстами через Сеть была быстро оценена пользователями. Констатируя огромную социальную значимость некоммерческих электронных библиотек, Е. Горный и К. Вигурский все же отмечают ряд их недостатков по сравнению с профессиональными электронными библиотеками: - «стихийность формирования фондов, неясность принципов отбора; - случайность и неполнота собраний; - недостаточная текстологическая база: произвольные источники публикации, опечатки, отсутствие необходимой библиографической информации; отсутствие справочно-комментаторского аппарата; - технологическая примитивность: „слабая“ разметка документов (текст ASCII или простой HTML), минимальное количество сервисов для читателей» [5. С. 172]. К концу 1990-х гг. в сферу российских электронных библиотек приходят профессиональные филологи. Так, 1 декабря 1999 г. под руководством Е. Горного открывается «Русская виртуальная библиотека». Фрагмент описания на веб-сайте библиотеки: «Русская виртуальная библиотека (РВБ) - бесплатный научно-образовательный интернет-ресурс, рассчитанный на школьников, студентов, преподавателей и исследователей русской литературы. РВБ публикует произведения русской классики по авторитетным академическим изданиям с учетом школьной и вузовской программы. Тексты тщательно выверены и снабжены комментариями, которые облегчают и расширяют понимание литературных произведений» [7]. 1 июля 2002 г. под руководством К. Вигурского при Институте мировой литературы им. А.М. Горького (ИМЛИ РАН) открывается «Фундаментальная электронная библиотека „Русская литература и фольклор“». Фрагмент описания на веб-сайте библиотеки: «Фундаментальная электронная библиотека „Русская литература и фольклор“ (ФЭБ) - полнотекстовая информационная система по произведениям русской словесности, библиографии, научным исследованиям и историко-биографическим работам. Основное содержание ФЭБ представляется в электронных научных изданиях (ЭНИ), каждое из которых посвящено отдельному автору... жанру... или произведению... Особенности ФЭБ: точность представления и описания информации, системность формирования, развитые средства навигации и поиска» [8]. Е. Горный называет стимулом создания обеих библиотек следующую ситуацию: «. текстов было много, но они были разрознены, сделаны по случайным изданиям, в них содержалось много ошибок, отсутствовал справочный аппарат и т. д., то есть ими было невозможно пользоваться в филологической работе. Обеспечение системности, научности и точности электронных публикаций стало задачей этих проектов» [1. С. 349]. Помимо тщательной текстологической выверенности, которая может быть обеспечена в профессиональных электронных библиотеках, электронная публикация может значительно обогатить содержание традиционных произведений литературы. Возможности гипертекста и гиперссылок могут проявляться на разных уровнях: они позволяют облегчить навигацию между частями текста, между разными текстами, между текстом и элементами справочного аппарата; справочный аппарат может быть дополнен мультимедийной информацией. Наиболее полезными эти возможности оказываются в таких изданиях, для которых особенно важны целостность большого количества элементов, функциональность справочного аппарата и простота навигации, - собраниях сочинений. Традиционное «бумажное» научное собрание сочинений писателя - это ряд томов, содержащих творческое наследие писателя и разветвленный справочный аппарат. В работе филолога собрания сочинений необходимы, однако навигация по ним нередко оказывается сложной, неудобной и затратной по времени: тома состоят из большого количества страниц и имеют немалый вес, комментарии в научных собраниях сочинений, как правило, затекстовые, а в некоторых случаях исследуемый текст и нужные элементы справочного аппарата вообще оказываются в разных томах, не все из которых доступны в данный момент. Размещение всего наследия писателя вместе со всеми элементами справочного аппарата на одном веб-сайте снимает проблему доступа к тем или иным томам, а использование гиперссылок облегчает навигацию: в произведениях появляется интерактивное оглавление, представляющее собой «дерево» ссылок, а к комментариям и примечаниям можно перейти одним нажатием на значок сноски, размещенный в тексте, а затем так же быстро вернуться к нужному месту и продолжить чтение. Таким образом, текст в Интернете с помощью поисковых систем и ссылок «сразу же включается в широчайший интертекстуальный контекст» [9. С. 82]. Рассмотрим, например, электронное научное издание (ЭНИ) «Грибоедов», размещенное на сайте ФЭБ «Русская литература и фольклор» в разделе «Русская литература XIX века». В описании данного ЭНИ говорится о том, что оно решает три задачи: - «обеспечить ученых-филологов и преподавателей-русистов необходимым и достаточным минимумом материалов, позволяющим проводить научные изыскания, не прибегая к иным источникам информации; - снабдить пользователя удобными и надежными средствами ориентации, без которых немыслима работа с огромным (порядка 20 000 произведений) информационным массивом; - дать пользователю современный программный инструментарий» [10]. В составе ЭНИ содержатся наиболее авторитетные собрания сочинений А. С. Грибоедова (два полных трехтомных собрания сочинений и четыре однотомных собрания избранных сочинений), научные отдельные издания комедии «Горе от ума», а также публикации документов и писем, которые не вошли ни в одно собрание сочинений. Кроме того, в ЭНИ входит мемуарная литература, прижизненная критика, филологические, биографические и библиографические исследования жизни и творчества писателя. Специально для данного ЭНИ была подготовлена исчерпывающая библиография публикаций произведений Грибоедова с 1815 по 1997 г., а также библиография литературы о Грибоедове с 1803 по 1998 г. Все комментарии и примечания внутри текста приводятся в виде гиперссылок и открываются в новых окнах браузера. Совокупность текстов отображается в виде интерактивного оглавления, представляющего собой иерархическую систему - многоуровневое «дерево», которое в максимально свернутом виде включает в себя 11 разделов: 1. ЭНИ «Грибоедов»: описание издания. 2. Энциклопедические сведения о Грибоедове. 3. Произведения Грибоедова. 4. Литература о Грибоедове. 5. Каталоги выставок. 6. Библиография публикаций произведений Грибоедова. 7. Библиография литературы о Грибоедове. 8. Летопись жизни и творчества Грибоедова. 9. Грибоедов в музыке. 10. Словарь языка Грибоедова. 11. Указатели. Разделы 2-9 содержат основной текст ЭНИ, а разделы 1 и 10-11 содержат вспомогательные тексты, обеспечивающие функционирование справочного аппарата. Первый раздел описывает издание, его структуру и способы использования. В разделе 10 дается лексикографическое описание языка Грибоедова, представленное более чем в 12 тыс. словарных статей, каждая из которых содержит слово и примеры его употребления в произведениях писателя со ссылками на полные тексты. Например, словарная статья со словом «прислуживаться» содержит само это слово, сведения о том, что это инфинитив глагола несовершенного вида, строку «Служить бы рад, прислуживаться тошно» и гиперссылку, обозначенную как «ГоУ 2.2» (что расшифровывается как «Горе от ума», действие 2, явление 2). Нажатие на ссылку переводит пользователя к тому месту в тексте произведения, где расположена соответствующая строка. Раздел 11 содержит 4 указателя: произведений Грибоедова, писем Грибоедова, имен и иллюстраций. Все ключевые слова в указателях связаны гиперссылками с обозначаемыми ими текстами во всем массиве данных, что многократно ускоряет навигацию. Сложно переоценить значение подобного справочного аппарата в работе с творческим наследием писателя и удобство его использования. Разделы с основным текстом ЭНИ содержат электронные аналоги уже существующих «бумажных» изданий, обогащенные гиперссылками. Источники воспроизводятся с максимальной полнотой (основной текст, иллюстрации, служебные страницы), с сохранением структуры и пагинации оригинального издания, орфографии и пунктуации. Раздел «Грибоедов в музыке» включает отсканированные ноты трех вальсов, написанных Грибоедовым, и оперы М.М. Иванова «Горе от ума». Электронное издание в таком виде перестает быть просто оцифрованной копией текста: интегрируя разные семиотические системы, оно позволяет задать восприятию текста читателем новые векторы смыслообразования. Записей исполнения музыкальных произведений, связанных с Грибоедовым, в данном ЭНИ не обнаружено, хотя технически их внедрение вполне возможно (не исключено, что это связано с авторскими правами на фонограммы). В аннотации раздела «Русская литература XIX века» ФЭБ написано следующее: «ЭНИ „Грибоедов“ представлено в практически завершенном виде (насколько вообще могут быть завершены подобные проекты). Тем не менее работы по дальнейшему комплектованию будут продолжаться: в частности, предполагается представить в ЭНИ музыкальное творчество Грибоедова, а также пополнить библиографию» [11]. До появления электронного текста крупнейшим по составу видом издания считалось полное собрание сочинений, теперь же каждое ЭНИ из ФЭБ «Русская литература и фольклор» может содержать в себе несколько полных собраний сочинений, подготовленных в разные годы, а также ряд дополнительных материалов, в том числе мультимедийных. Учеными ИМЛИ РАН проведена (и продолжает проводиться) колоссальная работа по формированию фондов ФЭБ «Русская литература и фольклор». В этих фондах аккумулируется информация из множества изданий, рассредоточенных по различным библиотекам и архивам России и зарубежных стран, которые вряд ли способен объехать и изучить один исследователь. Теперь же практически вся информация о жизни и творчестве тех или иных писателей доступна ученым в любой точке мира. Остается лишь дождаться момента, когда подобные электронные библиотеки будут признаваться всем научным сообществом как авторитетные и равнозначные традиционным библиотекам, а развитие технологий позволит настолько надежно сохранять данные, что каждая ссылка в этих библиотеках будет работать корректно и диалоговые окна с ошибками, сообщающими о том, что файл не найден, появляться не будут. Таким образом, очевидно, что ориентация на качество текста возможна лишь в специализированной библиотеке, которой руководят специалисты в соответствующей отрасли, тогда как универсальность предполагает наличие абсолютно разнородных текстов - как по содержанию, так и по качеству. В погоне за полноохватностью нельзя забывать, что аккумуляция знаний - не единственная функция библиотеки. Она должна также обеспечивать эффективность и удобство пользования текстами. Вероятнее всего, если когда-то мечта о всемирной универсальной библиотеке, содержащей все письменное наследие человечества, осуществится, то она будет представлять собой не единую монолитную централизованную организацию, а многоуровневую иерархию, объединяющую профессиональные электронные библиотеки в различных отраслях знания.
Горный Е.А. Проблемы сохранения культурного наследия в эпоху цифрового текста // Филологические аспекты книгоиздания: сб. науч. ст. Вып. 2. Новосибирск: СИЦ НГПУ «Гаудеамус», 2012.
Шартье Р. Письменная культура и общество. М.: Новое изд-во, 2006.
Зимина Л.В. Современные издательские стратегии: от традиционного книгоиздания до сетевых технологий культурной памяти. М.: Наука, 2004.
Лейбов Р.Г. Экспертные сообщества в русском Интернете // Control + Shift: публичное и личное в русском Интернете: сб. ст. М.: НЛО, 2009.
Горный Е., Вигурский К. Развитие электронных библиотек: мировой и российский опыт, проблемы, перспективы // Интернет и российское общество. М.: Гендальф, 2002.
Максим Мошков: я один их самых читающих людей в стране: Интервью с М. Мошковым (25.04.2014) // Город+ [Электронный ресурс]. URL: http://www.gorod- plus.tv/blog/150.html (дата обращения: 27.04.2014).
Русская виртуальная библиотека: веб-сайт [Электронный ресурс]. Режим доступа: http://rvb.ru/ (дата обращения: 25.04.2014).
Фундаментальная электронная библиотека «Русская литература и фольклор»: веб-сайт [Электронный ресурс]. Режим доступа: http://feb-web.ru/ (дата обращения: 25.04.2014).
Рейтблат А.И. Комментарий в эпоху Интернета // Новое литературное обозрение. 2004. № 66.
ЭНИ «Грибоедов» // ФЭБ «Русская литература и фольклор [Электронный ресурс]. Режим доступа: http://feb-web.ru/feb/griboed/default.asp (дата обращения: 05.05.2014).
Русская литература XIX века: аннотация раздела // ФЭБ «Русская литература и фольклор [Электронный ресурс]. Режим доступа: http://feb-web.ru/feb/feb/c19.htm (дата обращения: 05.05.2014).