ИНФОРМАЦИОННОЕ ОБЩЕСТВО И КУЛЬТУРА (электронный дайджест) |
||
Начавшееся в 80-х гг. XX в. массовое внедрение компьютерных технологий во все сферы человеческого общества стимулировало появление новых информационных технологий в библиотеке. Информационные технологии, появившись в библиотечном деле как вспомогательный инструмент для облегчения труда библиотекарей, постепенно стали использоваться как основной концептуальный механизм для оказания библиотечных услуг читателям и как главный инструмент, обеспечивающий оптимальное функционирование библиотечных служб. Можно утверждать, что использование средств вычислительной техники в библиотечном деле позволяет вывести обслуживание читателей на качественно иной, более высокий уровень. При этом у пользователей библиотеки появляются возможности, о которых несколько десятков лет назад можно было только мечтать.
Появление компьютера в библиотеке не могло не изменить форм и методов работы с читателями. Наряду с традиционными услугами, читателям стали доступны электронный каталог, современные поисковые системы, научные коллекции и базы данных полнотекстовых документов, ЭДД и т. п. Появились электронные книги (ЭК). При работе с электронной книгой читатель может воспользоваться всеми преимуществами компьютерных технологий: быстрый поиск и удобная навигация по всему тексту, очень быстрый инструментарий для цитирования и копирования фрагментов текста, система закладок, выбор размера шрифта для комфортабельной работы с документом, возможность получения твердой копии (распечатки фрагмента документа) и т. д. В силу вышеприведенных возможностей работы с текстом, многие читатели уже сейчас предпочитают электронную книгу бумажной.
Можно прогнозировать, что спрос на электронные книги со временем будет только расти. Технологии создания электронных книг могут сыграть немаловажную роль в сохранении научного и культурного наследия нашей страны, в использовании новых методов и форм обучения, а также помочь в решении глобальной проблемы экономии природных ресурсов. Нельзя не отметить, что с каждым годом содержание быстро увеличивающегося бумажного фонда библиотек требует затраты все больших средств, и уже сейчас экономически более целесообразным является хранение книг на машиночитаемых носителях информации.
Электронные книги могут создаваться либо как копия бумажного документа на машиночитаемом носителе информации, либо как оригинальный электронный документ, не имеющий печатного аналога. Существуют два основных пути при создании электронных книг — во время допечатной подготовки документа (получении оригинал-макета) и по уже готовому изданию. Первый путь наиболее приемлем в случае тесного контакта библиотеки с издательскими структурами, напр., в крупных научно-образовательных учреждениях при выпуске новых изданий. Второй путь может быть использован для создания электронной копии старой книги, когда по каким-либо причинам возможности получения оригинал-макета, не существует или это влечет большие финансовые издержки.
В случае использования оригинал-макета при создании электронной книги легко добиться точной передачи текста документа. Если используется второй путь создания ЭК, то получение идентичной оригиналу компьютерной копии может быть сопряжено с большими временными затратами, и поэтому, как правило, в этом случае содержимое документа передается с точностью до страницы, абзаца, строки и т. п. Точность передачи содержимого книги в последнем случае при использовании систем распознавания текста (OCR) существенно зависит от обучения-настройки таких систем и от качества отсканированных образов страниц бумажного документа. При использовании технологий OCR в процессе создания электронных книг всегда существует ненулевая вероятность искажения распознанных символов текста, поэтому для повышения качества машиночитаемого документа проводят процесс проверки, сопоставления распознанного текста с оригиналом. Как правило, этот процесс корректировки нельзя полностью автоматизировать, что в целом неблагоприятно сказывается на качестве получаемых документов, временных и материальных затратах на производство ЭК.
При создании ЭК одной из проблем является выбор форматов их хранения и (или) представления. На текущий момент существует несколько десятков промышленных «стандартных» форматов электронных документов, пригодных для электронных книг.
При выборе формата хранения ЭК необходимо учитывать такие факторы, как его распространенность; поддержку различных языков; наличие программного обеспечения для создания, редактирования и просмотра документов; удобство работы с этими программными средствами, как для пользователя-читателя, так и при создании документов; расширенные навигация по тексту и возможности поиска; универсальность; возможность свободного использования и открытость (бесплатность) формата для разработчиков; небольшой размер получаемых файлов; наличие программ-конверторов из распространенных форматов хранения; нетребовательность к вычислительным ресурсам при чтении; наличие возможности защиты содержимого документа от изменения.
Наиболее распространенными форматами для создания электронных книг в России можно считать PDF, DjVu, RTF, HTML, TXT, Microsoft LIT и DOC, RB, PDB, FB2. Причем, подавляющее большинство таких книг научно-технического характера или содержащих в тексте сложные графические иллюстрации представлены в форматах PDF и DjVu. Данное обстоятельство связано с тем, что соответствующие технологии распознавания текста в этом случае дают неудовлетворительный результат или для математических формул просто не работают. Проблема достоверности источника информации в этом случае решается с помощью представления книги в виде графических файлов-страниц или их частей, вложенных в некоторый файл-контейнер. Здесь получаем сразу несколько проблем, вытекающих из выбранного технического решения для хранения данных: большой объем полученного файла электронного документа, иногда десятки или сотни мегабайт, а значит практическую невозможность быстрой и надежной передачи таких объемов данных по медленным каналам связи; отсутствие возможностей полнотекстового поиска и копирования текста для цитирования с использованием стандартных механизмов обмена информацией; плохое масштабирование текста. Форматы PDF и DjVu на данный момент времени в наибольшей степени приспособлены для работы с такого рода источниками. На распространенность PDF положительно повлиял тот факт, что данный формат оказался достаточно хорошо поддержан производителями книгопечатного промышленного оборудования и интегрирован в технологический процесс производства книг.
Важной особенностью форматов PDF и DjVu является возможность одновременного хранения в своих документах графической и текстовой информации. В этом случае электронный документ состоит из нескольких слоев, инкапсулирующих в себе графику или текст. Представление документа как совокупности контейнеров графической и текстовой информации дает возможность решить проблему достоверности источника, получив ЭК, аутентичную бумажному экземпляру. В последнее время практика создания электронных документов, содержащих как графические образы страниц оригинала для гарантии достоверности приведенной информации, так и текстовой подложки для полнотекстового поиска, становится стандартной. В обоих форматах предусмотрена возможность навигации по тексту документа, по его содержанию-оглавлению и с помощью механизма перекрестных ссылок.
В случае, когда в электронном документе хранится относительно мало графической информации, размер получаемой электронной книги достаточно невелик — порядка нескольких сотен килобайт, как в случае DjVu, так и в случае PDF форматов. Тогда выбор формата хранения — дело предпочтений изготовителя ЭК. Но поскольку документы PDF лучше масштабируются на дисплее компьютера, программное обеспечение, используемое в работе с PDF документами, для читателя в целом более удобно, чем в случае с DjVu, то можно рекомендовать в качестве основного формата для текстовых документов — PDF. Этот же формат можно использовать в качестве базового формата хранения, если в документе присутствует графическая информация, представленная в каком-либо векторном формате, напр., WMF, EPS. В остальных случаях предпочтение, по всей видимости, надо отдать формату DjVu, т. к., при прочих равных возможностях, DjVu имеет преимущество по сжатию графических файлов перед PDF в несколько раз.
Нельзя обойти стороной тот факт, что все существующие сегодня форматы очень плохо приспособлены для создания электронных книг, содержащих полноцветные изображения, т. к. как размеры получаемых файлов при достаточно хорошем качестве цветных иллюстраций достигают сотен мегабайт. Такие тяжеловесные документы очень неудобны для просмотра даже на самых мощных современных персональных компьютерах, а их передача по существующим каналам связи может занять десятки часов. По всей видимости, проблема адаптации существующих (или разработки новых) форматов для создания электронных копий книг с полноцветными изображениями в недалеком будущем будет все еще актуальна.
Для перевода бумажных книг в машиночитаемую форму, как правило, используется сканирование книги-оригинала. Сканирование — процесс перевода графического изображения с бумажного носителя в электронную форму, напр., в форматах TIFF, JPEG, GIF, BMP. Сканирование — одна из важнейших составляющих технологического процесса создания электронного документа из книги на бумажной основе. Качество создаваемых ЭК прямо пропорционально качеству полученных при сканировании страниц оригинала графических файлов. В течение последних десяти лет технологии сканирования вышли на качественно более высокий технологический уровень, что, в свою очередь, сделало возможным их широкое использование в различных отраслях человеческой деятельности. Появилась удобная и быстрая возможность получения копий изображений с практически произвольным востребованным разрешением сканирования, как в черно-белом режиме, так и в цветном или сером с оттенками режимах. Естественно, открывающимися при использовании технологий сканирования возможностями не могли не воспользоваться при создании ЭК. Однако, при сканировании книг на бумажном носителе были выявлены некоторые проблемы, затрудняющие процесс получения качественных изображений страниц книги. Среди них:
1. Проблема выбора разрешения сканирования: устанавливаемое значение оптической разрешающей способности сканера, измеряемое в количестве точек на дюйм (dpi), для каждого конкретного экземпляра книги зависит от нескольких факторов: качества печати текста, белизны бумаги, контрастности текста относительно фона страницы, отражательной способности листа в целом (наличие бликов), используемого размера шрифта и т. д. Как правило, для получения приемлемых результатов рекомендуется устанавливать разрешение сканирования в 300 dpi, а еще лучше в 600 dpi. При ориентации на использование при сканировании относительно недорогих «непрофессиональных» сканеров время, затрачиваемое на сканирование одного разворота книги с разрешением не менее 300 dpi в черно-белом режиме, может превышать 1 минуту. Иногда, из-за плохого качества бумаги, приходится производить сканирование не в черно-белом режиме, а в режиме серого с оттенками, что только увеличивает время сканирования разворота. Получаемые в этом случае файлы имеют размер несколько десятков мегабайт, поэтому для их хранения необходимо использовать графические форматы, основанные на алгоритмах сжатия данных, напр., TIFF.
2. Проблема черной полосы: для ускорения создания ЭК целесообразно производить сканирование книги не постранично, а в разворот. В этом случае существенно сокращается общее время сканирования, за счет меньшего числа перелистывания листов книги и количества проходов головки сканера над ними. В силу неплотного прилегания поверхности книжного разворота к стеклу сканера, полученный графический образ будет содержать различные дефекты изображений. Одним из таких дефектов является широкая черная полоса посредине графического изображения разворота. Такие изображения плохо сжимаются, и поэтому их приходится дополнительно обрабатывать для уменьшения площади черной полосы или полного ее удаления. На настоящий момент времени процесс удаления черной полосы состоит из трех частей: предварительной ручной настройки оператором параметров удаления, автоматического (полуавтоматического) удаления данного дефекта, контроля полученных результатов. Заметим, что в случае сканирования за один проход не разворота книги, а только страницы, в общем случае дефект черной полосы также остается. Избавиться от черной полосы можно, напр., при расшивке книги, что далеко не всегда приемлемо по многим соображениям.
3. По тем же самым причинам, в силу которых появляется черная полоса, при сканировании книг проявляется и еще один дефект — геометрические искажения. Применительно к тексту это выглядит как эффект искривления строк. Полученный в результате сканирования образ страницы или разворота содержит в себе часть строк, расположенных не строго параллельно друг другу, а под углом, или, более того, плавно изогнутых вдоль некоторой кривой. Из-за искривления строк применение систем распознавания текста становится проблематичным, т. к. в этом случае качество распознанного материала оказывается очень низким. Для получения лучших результатов работы системы OCR требуется предварительная обработка графических файлов, которая в некоторых случаях оказывается достаточно трудоемкой и требует участия оператора. На текущий момент удовлетворительного решения проблемы искривления строк не предложено, т. к. существующие алгоритмы коррекции такого рода искажений не позволяют добиться хороших результатов в автоматическом режиме работы.
4. Проблема желтой бумаги: при обработке ветхих изданий (или книг, напечатанных на некачественной бумаге) стандартные установки для параметров сканирования не дают возможности получить качественные графические образы страниц оригинала, пригодные для непосредственной обработки системой оптического распознавания текста, т. к. в этом случае «желтый» цвет страницы передается либо как черный при черно-белом режиме сканирования, что практически делает невозможным непосредственное применение систем OCR, либо как некоторый оттенок серого, на фоне которого шрифт текста страницы плохо различим. При использовании полноцветных режимов сканирования не удается получить графические образы документов, пригодные без дальнейшей предварительной обработки для достаточно надежного распознавания системой OCR. В этом случае размер получаемых полноцветных образов страниц сверху ограничен только размерами доступной для хранения изображений памяти. Использование, как правило, ручной настройки на каждый сканируемый лист замедляет процесс сканирования, не позволяет получить удовлетворительные результаты и в случае присутствия дефекта желтой бумаги. В идеальном варианте оператор должен подобрать параметры сканирования т. о., чтобы получить графический образ страницы документа без видимых артефактов изображения при минимальных настройках цветности и разрешении 300 или может быть 600 dpi. Однако такой вариант не всегда реализуется на практике, и поэтому в этом случае рекомендуется проводить сканирование в режиме серого с оттенками при разрешении 300 dpi или более, а после применять специальные алгоритмы фильтрации, улучшающие качество полученного изображения. Программы, реализующие такого рода алгоритмы, для получения более приемлемых результатов своей работы требуют ручной настройки. В системах OCR в последнее время наметился прогресс в распознавании текста из графических файлов, сохраненных не в черно-белом режиме, но в целом по этому поводу можно констатировать, что процесс доработок еще не окончен.
Проблемы «цветных» книг: разработанные технологии создания электронных документов, связанные со сканированием первичного материала, достаточно адаптированы к «черно-белым» книгам, но очень плохо приспособлены к полноцветным (true color, rgb color и т. п.) изданиям, т. к. текущие технологии распознавания текста слабо применимы к цветным образам страниц оригинала, а хранение такого рода графической информации достаточно накладно по объемам занимаемой памяти. Используемые при этом форматы хранения данных, напр., PDF и DjVu в полной мере показывают данную проблему. Электронные книги в таких случаях занимают на порядок больше дискового пространства, и работа с ними, с точки зрения пользователя, неудобна, т. к. фактически представляет из себя работу только с графикой, а не с текстом.
Несмотря на все ухищрения, применяемые в процессе сканирования оригиналов книг, для получения удовлетворительных результатов при создании ЭК требуется проводить дополнительную обработку отсканированных изображений. В процессе доводки полученных макетов листов устраняются имеющиеся дефекты изображений и производится их подгонка под некоторый шаблон. После чего проводятся распознавание текста, иногда его последующая корректировка, создание полнотекстового образа для поиска, помещение текста и графики в создаваемый электронный документ, с соответствующей привязкой текстовой информации к графике, создание навигационного слоя и т. д. Для этого используется достаточно разнообразное программное обеспечение — утилиты для чистки, разрезания, нумерации, сжатия графических файлов, распознавания и коррекции текста, проверки орфографии, помещения в контейнерный файл, занесения служебной информации в создаваемый документ, получения некоторой статистической (служебной) информации, требуемой для каталогизации электронного документа. Сюда можно включить программы, с помощью которых производится добавление электронной книги в электронную коллекцию или цифровую библиотеку. К сожалению, это многообразие программ не связано между собой в единый программный комплекс, который позволил бы осуществлять достаточно простую массовую, и, может быть, автоматическую обработку книг. Нельзя не отметить следующий факт, что стоимость такого набора «кубиков» программного обеспечения составляет тысячи долларов, при практическом отсутствии стандартизации на интерфейс в данных программах и требуемой высокой квалификации технического персонала для работы с ним. Отсутствие государственного стандарта на электронную книгу не добавляет оптимизма при создании ЭК.
В перспективе можно надеяться на появление новых компактных, мощных форматов хранения (или адаптацию уже существующих), пригодных для эффективного использования при создании ЭК, на качественную поддержку в этих форматах работы с полноцветными книгами, на разработку комплекса доступного (дешевого) программного обеспечения для процесса оцифровки, на возникновение государственной программы поддержки оцифровки книжного фонда библиотек, на координацию усилий энтузиастов в создании ЭК, на появление стандартных типовых решений по реализации электронных библиотек и новых дешевых сканеров, максимально приспособленных для работы с книгами, и мн. др. Что из этого реализуется на практике? Время покажет. Будем оптимистами!