Как делается РВБ
1. Зачем нужна РВБ?
- Вопросы теории, истории и методологии построения электронных библиотек для научного использования освещены в статьях, ссылки на которые даются в конце текста. В этом тексте изложено, как, создавая Русскую виртуальную библиотеку, мы хотели избежать некоторых распространенных недостатков, в том числе следующих:
1. источник в электронных публикаций указан далеко не всегда, библиографические описания «хромают»;
2. нет номеров страниц;
3. не воспроизводится структура издания;
4. комментарии отсутствуют или недостаточны
- Целевая аудитория нашего проекта:
1. исследователи, преподаватели;
2. школьники, студенты, аспиранты;
3. и, наконец, все остальные любители русской литературы.
2. Критерии usability
и что делается, чтобы им соответствовать:
- «Надежность» издания
1. Должны использоваться авторитетные издания, они должны быть явным образом описаны.
2. Тексты любого автора в разных изданиях воспроизводятся по-разному, точнее, в разных изданиях воспроизводится а) разный корпус текстов и б) одни и те же тексты воспроизводятся по-разному. Существуют аргументированные версии разных прочтений. Все это должно отображаться и документироваться. В частности, для этого должны воспроизводиться сопроводительные материалы оригинальных печатных изданий (редакторские комментарии, примечания и т. д.).
- Должна воспроизводиться структура и пагинация оригинального печатного издания (это пока сделано не во всех электронных публикациях РВБ), а также расположение текста на странице. Типографская разметка (нумерация печатных листов, переносы и т. п.) не воспроизводится.
1. В традиционной издательской практике существует набор конвенций для отображения разных смысловых элементов текста, которые вполне воспроизводимы в электронном виде, и без всяких объяснений говорят читателю, что, например, предложение, стоящее перед текстом со сдвигом вправо и отделенное пустым местом от последующего тексты эпиграф, а предложение, поставленное со сдвигом вправо примерно на 30-40% поэтический кусок. Таким образом, макет должен воспроизводиться как на уровне эксплицитной логической разметки, так и на уровне визуального воспроизведения (презентации).
2. Последний момент неочевиден, например, вся идеология TEI построена на том, что необходимо воспроизводить логическую структуру, а презентация случайная манифестация этой субстанции, над которой и думать нечего. С другой стороны многочисленные тексты, оформленные при помощи разнообразных тегов HTML 3.2 (<blockquote>, <pre>, <table>, <p>, <br>, и их сочетаний), обходятся вообще без разметки внутренней структуры, что тоже недостаточно.
3. Формат представления должен быть неразрывно связан с форматом описания (метаформатом). Поэтому «просто текст» не подходит, эксплицитная логическая разметка в нем не применима, PDF не подходит по той же причине, аналогично HTML 3.2, Word и RTF не подходят, потому что в зависимости от установок разных пользователей (если они вообще пользуются этими форматами т.н. межплатформенность) тексты отображаются по-разному, к тому же, как и PDF, эти форматы не открытые и стандартизированные форматы типа TEI или HTML, а частные (proprietary) форматы, и что с ними сделают компании, которые их разрабатывают, неизвестно никому, конечно, скорее всего обратная совместимость будет поддерживаться, но как долго и в каком объеме, неизвестно. TEI в SGML и XML изводах пока не подходят потому, что несмотря на описание внутренней структуры, идеологически они являются форматами хранения, а для презентации порождаются форматы, указанные выше, т.е. в которых нет разметки внутренней структуры.
4. Пожалуй, именно поэтому и не прижилась в РВБ предлагавшаяся Б. Тоботрасом схема с использованием разметки TEI Lite.
5. Соответственно на сегодняшний день для меня единственным понятным и простым механизмом представления информации и описания ее внутренней структуры является HTML 4.0 (и его дальнейшие производные, в которых убраны теги для форматирования, но оставлены теги, описывающие структуру) в сочетании с языком презентации CSS 2.0, поскольку различные «правила» этого языка связываются именно с элементами логической разметки текста (классы и идентификаторы элементов структуры разделов (<div>), абзацев (<p>), промежутков (<span>). При этом отслеживается соблюдение некоторых простых правил, таких как: теги в одном регистре, теги не должны содержать синтаксических ошибок, т.е. наложения тегов не должно быть (<i><p></i></p>), все теги, за исключением тегов <br> и <hr> должны быть закрыты, даже если спецификация формата допускает использование только одного тега, нет разрывов слов картинками для обозначения символов, не входящих в используемую кодировку.
6. Любые версии XML-разметки легко порождаются из такой разметки HTML при помощи потоковых замен. Единственное требование, чтобы в соответствии с открывающим менялся и закрывающий тег. Xmarkup в частности придуман и для этого
7. Самый трудоемкий элемент корректорская читка текстов и логическая их разметка.
- Идеологически важный момент: воспроизводимая книга плод соавторства автора и издателя. Технически это означает, что комментарии и сопроводительные статьи, указатели, словари (глоссарии), должны воспроизводиться, а не выбрасываться на том основании, что Пушкин (например) их не писал, а писали специалисты для своего собственного употребления, ради чего и возиться не стоит, или что-то в этом же роде, и эти материалы (аппарат, одним словом) должны быть соединены ссылками с комментируемыми сегментами текста. Это тоже приходится делать отчасти вручную. Техническая информация (навигация) должна содержаться в логически отделенном фрагменте текста.
1. Текст созданная автором последовательность символов (слов), которая имеет начало и конец, может иметь внутреннее членение и может быть сколь угодно малого или большого размера, будь то двустрочная эпиграмма или многотомный роман, должен воспроизводиться единым файлом для того, чтобы поиск происходил в рамках текста, а не непонятно чего. Бывают накладки: если в структуре издания воспроизводятся тома, а текст настолько велик, что его приходится разбивать между томами. Тексты бывают велики (романы), приходится вводить разметку для того, чтобы пользователь получал осмысленные куски, а не стандартные куски, скажем в 30 килобайт, и на сервере запускать скрипт, который и выдает такие куски (главы или части большого текста, заданные автором).
2. В связи со всем этим приходится пользоваться файловой системой, где имена файла соответствуют номерам текстов в издании. В начале добавляется соответственное количество нулей (чтобы текст 10.htm всегда следовал за 09.htm).
3. Издания могут быть разделены (тома, разделы основных редакций и промежуточных, стихи, проза, драматургия и т. д.), и это разделение тоже необходимо воспроизводить в файловой системе.
- Поиск.
1. Сейчас работает Яндекс, в дальнейшем предполагается запуск серверной версии Табулятора (http://www.rvb.ru/soft/wt/wt.htm).
3. Как подготавливаются тексты (последние публикации)
- Тексты сканируются, экспортируются в MS Word, производится корректорская читка текстов и сопроводительных материалов, далее в MS Word-97 (8) производится перевод в формат HTML (в предыдущей версии, 95 (7) теги не закрывались, в последующей версии текст конвертируется в MS XML, в который вводится бездна презентационной информации, но логическая информация отсутствует, даже стили никак не вводятся).
- Вносится дополнительная разметка:
1. Если подготавливаемое издание включает много отдельных текстов с соответствующими комментариями, то между ними ставится абзац с неразрывным пробелом (Ctrl+Shift+Space), если включить показ непечатаемых символов, то это выглядит так: °¶
2. Перед номерами страниц ставится знак табуляции, для чего предварительно в меню параметры в закладке "редактирование" снимается галочка в окошке "Установка отступов клавишами TAB и Backspace", выглядит так:
→795¶
3. В начале абзацев, разорванных номером страницы, ставится пробел.
4. Во всех стихах концы строчек обозначаются символом разрыва строки (? ), а не конца абзаца ¶
5. Символом конца абзаца в стихах заканчиваются только строфы или стихотворные абзацы (в нестрофическом стихе группы строк, отделенные пустой строкой друг от друга)
- Текст чистится специальным шаблоном, удаляющим всю информацию о выравнивании, шрифтах, сдвигах и т.д. Что-то можно оставить, дело вкуса. Шаблон имеется, доступен.
- Большой текст при помощи Xmarkup'а (http://www.rvb.ru/soft/xmarkup/xmarkup_171.htm) режется на малые.
- После этого при помощи Xmarkup'а и утилит для потоковой замены производится замена этой разметки на содержательную (абзац + знак табуляции > <div class="page" id="pg###"> </div> и т.д.), как для текстов, так и для комментариев.
- Название отдельного текста и его автор проставляются в титул (<title>), и наносится разметка для автоматической генерации ссылок на сегменты комментария все тем же Xmarkup'ом.
- Для поэтических текстов вводится разметка стихотворного размера (пока вручную), его вариаций (если в разностопном ямбе встречаются четырех и шестистопные строки, то шестистопники сдвигаются влево; и т.п.).
- Повторяющимся элементам текста (стихотворным строкам, абзацам прозы и номерам страниц) приписываются уникальные идентификаторы для позиционирования ссылок.
- При необходимости расширяется и исправляется стилевой лист.
- Проверяется правильность ссылок и синтаксиса.
- Текст помещается на сервер, рассылается анонс, на начальной странице сервера публикуется «новость».
4. Перспективы
- Конечная цель:
1. Воспроизведение единого пространства русской литературы, связанного воедино массивом гиперссылок.
2. Интеграция со словарями языка отдельных авторов и словарями русского языка, исследовательскими работами.
3. Предполагается осуществлять поиск по категориям логической разметки с нацеливанием ссылок на уникальные идентификаторы элементов.
5. Ссылки
Е. Горный. Интернет и филология (Субъективные заметки к годовщине РВБ) // Русский Журнал, 01.12.2000.
http://www.zhurnal.ru/staff/gorny/texts/inter-phil.html
Е. Горный, К. Вигурский. Развитие электронных библиотек: мировой и российский опыт, проблемы, перспективы // Интернет и российское общество / Под ред. И. Семенова; Моск. Центр Карнеги. М.: Гендальф, 2002 http://www.zhurnal.ru/staff/gorny/texts/dlib.html
К.В. Вигурский, Е.А. Горный, И.А. Пильщиков. Фундаментальная электронная библиотека «Русская литература и фольклор»: Первые итоги. Задачи. Перспективы // Электронные библиотеки. 2002. Т. 5. Вып. 5.
http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2002/part5/VGP
К. В. Вигурский, И. А.Пильщиков. Филология и современные информационные технологии: (К постановке проблемы) // Известия РАН. Серия литературы и языка. 2003. Т. 62. № 2.
http://feb-web.ru/feb/feb/media/philo-info.htm
К. В. Вигурский, И. А.Пильщиков. Информатика и филология: (Проблемы и перспективы взаимодействия) // Электронные библиотеки. 2003. Т. 6. Вып. 3.
http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2003/part3/VP
Владимир Литвинов, технический редактор РВБ
Вопросы и комментарии приветствуются:
litvinov @ snezhinsk.ru
litvinov_vl @ mail.ru
|