ИНФОРМАЦИОННОЕ ОБЩЕСТВО И КУЛЬТУРА
(электронный дайджест)
Выпуск № 10/2001 [1]

М.В. Кулагина, А.С. Лопатенко
НАУЧНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ЭЛЕКТРОННЫЕ БИБЛИОТЕКИ. ПОТРЕБНОСТЬ В ИНТЕГРАЦИИ

Обзор
 
В работе [1] приведен детальный анализ проектов по созданию Научных Информационных Систем (НИС) в Европе и США. В этой же работе дано определение термина Научной Информационной Системы.
 
Современные НИС в основном предназначены для работы следующих категорий пользователей:
 
• Ученые (поиск возможных партнеров, оборудования, вычислительных мощностей, финансирования проектов, научных результатов);
 
• Преподаватели, учителя, студенты (передача последних научных данных в образовательный процесс);
 
• Директора институтов, аналитики, консультанты (управление наукой, статистическая отчетность о последних достижениях, роли институтов, ученых в научном процессе);
 
• Эксперты, финансисты, финансирующие организации (отчетность по проектам, дают ли ожидаемые научные результаты);
 
• Руководители научных проектов (Координация научных исследований, поиск возможных партнеров, фондов);
 
• Инвесторы, промышленность (поиск технологий, экспертов, способных оценить технологии);
 
• Публика, налогоплательщики, журналисты (просмотр информации).
 
Эти категории пользователей и их потребности определяют: основные виды информационных ресурсов, с которыми работают НИС (отчеты о проделанной работе, результатах проекта, персональная информация, публикации, организации, проекты, научные результаты, технологии, патенты, программы фондов, экспертные оценки, информационные ресурсы, электронные библиотеки, веб-сайты, списки рассылки), базы данных, вычислительные ресурсы, нормативные и другие документы, образовательные и музейные ресурсы); основные виды информационных услуг, предоставляемых научными информационными системами.
 
Также категории пользователей и их потребности определяют основные виды сервисов, которые предоставляют НИС: повторное использование научных разработок, методологий, технологий, поиск информации, распространение информации (target delivery), службы уведомления, организация горизонтальных связей между организациями, организация вертикальных связей, архивное хранение информации, обучение, выражение запросов, интересов как исследователей, так и пользователей научных знаний, аналитические службы.
 
Анализ требований к CRIS по управлению наукой проанализирован в [1,2,3]. В этой работе также описаны типы деятельности, информационные потребности в управлении наукой и виды ресурсов, с которыми должна работать CRIS для управленцев и аналитиков и финансовых фондов. Анализ управленческой деятельности в науке, приведенный в работе [2] показал, что управленческую деятельность с точки зрения НИС можно разделить на несколько типов деятельности. Там же и в [1] приведены основные характеристики этих видов деятельности
 
В работе [5] приведены требования к CRIS для распространения технологий, организации программ и работы фондов. Отмечена важность CRIS систем для организации совместной работы ученых по проектам, для поддержки информационной работы фондов. Описан жизненный базисный цикл научных программ и информационные потребности участников каждого участка цикла.
 
В портале CORDIS [6] для исследователей выделены основные виды использования научных порталов:
 
• Доступ к актуальной информации о достижениях в науке;
 
• Идентификация финансирующих организаций для исследования и создания технологий;
 
• Поиск партнеров для организации научной деятельности;
 
• Формирование научных коллективов, возможно состоящих из множества распределенных групп
 
• Экспорт технологий и результатов для дополнительных, выгод;
 
• Использование созданных технологий для сохранения финансов и времени.
 
Системы CRIS предназначены не только для доступа непосредственно к информационным ресурсам науки, но и (согласно формулировкам проекта ERGO[7]) для:
 
• упрощения доступа к национальным службам научной и технической информации;
 
• идентификации главных существующих источников научной информации и оценки возможностей доступа к потенциальному использованию этих источников (хотелось бы отметить важность этого требования);
 
• развития сетевых мостов и инструментов позволяющих доступ на гармоничной основе к этим источникам.
 
Об основных требованиях к CRIS для кооперации в науке и технологиях, развития инновационной деятельности излагается в работе [8].
 
Требования к CRIS
 
В работах [9,10, 11, 12, 1, 13 ] представлены общие требования к системам CRIS, к типам и структуре информационных ресурсов, поддерживаемых ими, и к процессам работы с этими информационными ресурсами.
 
Авторы работ [14, 15] сформулировали требования для систем, работающих с научными документами, статьями и др.
 
Суммируя все упомянутые работы, можно вывести набор наиболее общих требований к НИС.
 
1. Охват всех уместных информационных ресурсов. Для сбора информации необходимо создать процедуры ввода данных. Возможные варианты ввода данных:
 
• интерактивным вводом данных пользователями,
 
• сбором данных в сети посредством специализированных сетевых "пауков".
 
• путем обмена данными с другой CRIS системой,
 
• интеграцией CRIS с другими информационными системами. Примеры такой интеграции: разработанная Norwegian Research Council CRIS, в которую информация поступает из документальной системы FORSKDOC Норвежской библиотечной национальной системы BIBSYS[16j; интеграция CRIS ИСИР РАН с Системой Управления Документами Ученых Секретарей].
 
В ряде работ [23, 18] отмечается, что большинство CRIS не смогут охватить всю информацию в одной центральной базе данных. Предполагается, что НИС кроме задач поиска информации в своей БД будут искать информацию и в других системах, а также служить порталами, позволяющими выяснить, где же искать информацию, если нет в данной системе.
 
2. Релевантность документов. При автоматическом сборе информации в сети Интернет возможно накопление информации нерелевантной или мало релевантной для данной CRIS. Эта проблема может решаться следующими способами:
 
• созданием подробных форматов представления метаданных о ресурсах и сильно структурированных справочников для тематической классификации ресурсов, требованием от создателей веб страниц четко и точно следовать форматам метаданных и вкладывать описания метаданных на веб-с границы. Проблематично требовать от пользователей записи в их веб страницы мегаданных в каком-либо формате, это требует дополнительной работы и знакомства с форматами метаданных. Способ решить эту проблему: создание профессиональных веб страниц или мета описаний интерактивными средствами [19];
 
• разделением всех информационных ресурсов на собранные экспертами /пользователями "пауком", и указанием степени достоверности информации в зависимости от ее источника, как это делается, например, в Social Science Index Gateway;
 
• точным указанием поисковым средствам пространства поиска и анализа информации, а также критериев качественности собранной информации;
 
• введением соответствующих потребностям пользователей схем классификации ресурсов и классификации экспертами ресурсов согласно этим схемам.
 
3. Актуальность, полнота, достоверность происхождения документов. Проблемы актуальности и полноты решаются способами аналогичными способам проблемы решения охвата документов. Проблема достоверности происхождения информации решается:
 
• для интерактивного ввода - ограничением ввода только аутентифицированными пользователями;
 
• для автоматизированных систем сбора их веб - путем ограничения области действия, собирающего информацию "паука";
 
• для ввода интеграцией с другими системами -путем установления точных фильтров на импортируемые информационные ресурсы;
 
• для всех систем - проверкой и классификацией введенной информации.
 
4. Наличие интеллектуальных служб обслуживания запросов пользователя. Службы обслуживания запросов пользователей должны поддерживать поиск по атрибутам с поддержкой полнотекстового поиска, просмотр ресурсов по категориям. В ряде проектов определено, что службы поиска должны поддерживать семантический поиск.
 
Кроме того, к CRIS, работающим со многими типами информационных ресурсов предъявляются следующие требования.
 
5. Поддержка не централизованных архитектур информационных систем. Это требование является необходимым условием для полноты, аутентичности и актуальности информации. Опыт эксплуатации CRIS показал, что трудно реализуемо, во многих случаях даже невозможно, создание централизованных научных систем, которые охватывают научную информацию в какой-то области науки, или в какой-то стране. Опыт создания таких систем завершился удачно лишь в Дании и Исландии.
 
Пример неудачи - опыт создания центрального регистра в Финляндии в 1989 году[20]. Этот регистр должен был хранить информацию об исследованиях в 20 университетах Финляндии. Вскоре стало ясно, что создание такого регистра невыполнимая задача и в 1992 году в Министерстве Образования была создана группа для оказания помощи университетам по созданию самостоятельных регистров. В 1994 году этот опыт позволил не рекомендовать создание централизованных регистров научной информации. Был сделан вывод, что каждый университет должен создавать собственный регистр научной информации. О необходимости поддержки распределенных архитектур в библиотечных научных системах сказано в работе [21]. Учеными Hale University сделаны и апробированы предложения по созданию административных и технических механизмов создания таких виртуальных распределенных научных библиотек.
 
6. Структурированность информационного пространства. Для поддержки сложных функций поиска, классификации информации недостаточно хранить только полнотекстовые описания. Необходимо:
 
7. Предоставление информации пользователю в виде, выбранном пользователем.
 
8. Историчность информации. Научная информация специфична достаточно коротким временем жизни и актуальности. Для многих типов информационных ресурсов важно хранить описание жизненного цикла этих ресурсов и иметь возможность восстановить состояние ресурса на любой момент времени.
 
9. Поддержка различных уровней абстракции для представления информации [22].
 
Отмечено, что эффективность Интернет для НИС не является прямым следствием количества доступной информации, или даже ее качества, но является прямым следствием скорости и точности подбора информации на запросы исследователей. учитывая их ограничения по времени и компетентности по работе с информационными системами. Поддержка различных уровней абстракции при представлении информации позволяет ускорять поиск информации пользователем без потерь в качестве поиска.
 
НИС должны поддерживать множество уровней абстракции от кратких описаний для максимального быстрого поиска, до очень подробных описаний информационных объектов.
 
10. Архив. Выше было отмечено, что большая часть научной информации быстро устаревает. Но существуют информационные ресурсы, которые могут быть доступны длительное время. К таковым, например, относятся документы, имеющие длительную юридическую силу, патенты или мультимедийная информация об исторических событиях, которая может быть востребована через любой период времени. Кроме того, научные отчеты институтов, речи ученых могут также иметь огромную историческую ценность, становясь только еще ценнее со временем. Поэтому системы должны поддерживать возможность длительного хранения информационных ресурсов с возможностью восстановления их.
 
В условиях работы в распределенной среде к CRIS предъявляются требования:
 
• Поддержки принятых стандартов метаданных для экспорта и импорта данных:
 
• Поддержки протоколов обмена информации с другими информационными системами;
 
• Возможности проверки, экспертизы приходящей информации;
 
• Поддержки возможности ссылки на внутренние ресурсы как в интерфейсах пользователей, так и на системном уровне.
 
Отмечено, что "CRIS более не будет концепцией базы данных, а поисковым механизмом с веб презентацией. Результаты поиска и сбора информация не приведут к созданию новой базы данных, а - к ссылочной системе"[23]. То есть, по мнению авторитетного эксперта в области CRIS Adamczak, главный путь развития CRIS - научные порталы или информационные шлюзы. В работе [23] указаны аналогичные требования к аналогичным информационным системам, которые предъявляются в работе Европейского проекта DESIRE[24].
 
"Информационные шлюзы - контролируемые информационные службы, имеющие следующие характеристики:
 
• on-line служба, которая предоставляет доступ к многочисленным ссылкам на другие сайты и документы:
 
• выбор ресурсов в интеллектуальном процессе, согласно опубликованным количественным и тематическим критериям;
 
• интеллектуально произведенные описания содержимого ресурсов, в диапазоне от короткой аннотации до обзора:
 
• интеллектуально созданная структура или схема для навигации в пространстве ресурсов;
 
• по крайней мере, частично созданные метаданные для описания ресурсов". Важно отметить, что одним из свойств научных информационных ресурсов является их слабая может быть структурированность, либо сильная зависимость структуры от источника или потребителя информации (неоднородность ресурсов). Проблемы, которые порождает такая неоднородность, и методы их решения обсуждаются в [25, 26].
 
Для некоторых областей исследований также представляется важным, чтобы научная информационная система предоставляла вычислительные возможности. Отметим только, что такие потребности встречаются редко, используются в очень специализированных CRIS. Но в последнее время все чаще публикуются вычислительные ресурсы и. по-видимому, вскоре потребуется создать стандарты на описания таковых типов ресурсов.
 
Научными сообществами создаются сети, объединяющие цифровые библиотеки, файловые хранилища, веб серверы с научно значимой информацией. <...>
 
CRIS и электронные библиотеки
 
Выше были перечислены основные требования к НИС. Могут ли НИС рассматриваться как вид электронных библиотек или это самостоятельный, нереализуемый технологиями электронных библиотек вид информационных систем. Для того, чтобы найти ответ на вопрос мы выделили три ключевых по нашему мнению задачи в реализации НИС и рассмотрели их с точки зрения электронных библиотек.
 
Распределенность
 
1. Во многих случаях не удастся охватить полную информацию в какой-то области науки в одной централизованной системе в силу того, что, ученые не желают тратить время и силы на ввод информации в (возможно, многие) информационные системы;
 
2. Руководство институтов и университетов не желает публиковать информацию (или всю информацию) из своих баз данных в других информационных системах;
 
3. Подходы к представлению информации о каких-то объектах могут быть совершенно различны в различных научных сообществах, информация распределена среди различных сообществ и трудно выполнимо или невозможно составить информационную модель и интерфейсы, удовлетворяющие всех. Проблема создания полной картины информации не хранимой в одной системе давно является объектов изучения в сообществе электронных библиотек и решена в некоторых случаях. Используются методы:
 
• интеграции в одну систему данных, опубликованных в других системах, может быть сведением моделей информации систем к минимальной канонической модели, обменом данных между системами посредством общих протоколов[28, 17, 29];
 
• создания посредников - консолидирующих данные информационных систем [30, 31];
 
• создания порталов - библиотек, предоставляющих информацию о местонахождении данных[32, 14].
 
Множественные описания
 
Так как различные виды пользователей в науке зачастую работают различными методами с данными и с различным представлением одних и тех же данных, необходимо иметь возможность ассоциации с информационными ресурсами множества типов метаданных, описывающих их. Причем зачастую на стадии создания системы неясно, как же пользователи буду работать с этими данными. Например, в проекте ИСИР РАН создана Система Управления Инновационными Разработками РФФИ. Изначально она создавалась как система доступа к информации о научных проектах, и проекты в ней описывались с точки зрения их научного содержания. В ходе эксплуатации системы выяснилось, что кроме научного содержания проектов необходимо описывать еще и их правовую защищенность. То есть НИС должны позволять вводить новые типы метаданных и использовать их для описания данных в системе. На данный момент среди анализированных авторами CRIS [1] не было отмечено систем с такими возможностями. В сообществе электронных библиотек созданы такие системы или концепции [33,работы по созданию ЭБ на базе RDF].
 
В настоящий момент авторами разрабатывается и тестируется концепция создания НИС на основе Semantic Web технологий.
 
Семантика
 
Различные НИС могут хранить данные различных типов, но между тем все эти данные могут представлять интерес для определенных запросов пользователей. Например, данные научных отчетов о проектах РФФИ. Данные публикаций БЕН РАН, описания проектов в ИСИР РАН описывают разные типы объектов. Но для пользователя, желающего получить информацию о последних достижениях ученых России эти данные, могут быть интересны, и рассматриваться в рамках одного запроса. Необходимо иметь возможности представления семантики типов информационных ресурсов, атрибутов, мега данных. Работы по созданию такого рода систем ведутся в сообществе электронных библиотек [31].
 
Выводы
 
В ближайшее время будут активно создаваться и развиваться системы доступа к научным знаниям. В настоящий момент уже предлагаются стандарты на метаданные для таких систем, делаются попытки формализовать их, привести к общему знаменателю.
 
Скорее всего, общее направление в этой области будет не создание больших сложных централизованных систем, а создание сетей, сообществ систем, кооперирующихся друг с другом.
 
Несмотря на все различия в подходах к НИС можно выделить ряд общих черт, свойственных большинству НИС. Анализ этих особенностей, требований к НИС показывает, что НИС концептуально близки к электронным библиотекам. Некоторые задачи нерешенные в области НИС уже решены в электронных библиотеках. Соединение двух этих областей разработки и исследований может быть плодотворным как для НИС, так и для электронных библиотек.
 
ЛИТЕРАТУРА
 
1-4. Лопатенко А.С., "Научные Информационные Системы. Перспективы использования" (http://derpi.tuwien.ac.at/~andrei/CRIS_DOC.htm)
 
Niclas Lindgren, Anita Rautarrmk, Managing Strategic Aspects of Research, CRIS-2000, (itp://ftp.cordis.lu/pub/cris2000/docs/rautamdki_fulltext.p)
 
TENTTU Information Retrieval System. Helsinki University of Technology (http://otatrip.hut.fi/tkk/englindex.html Shyu, Yuh-Mei and Kao, Chiu-Fang, The Integratedl "!ll
 
Research Information System Government Research Bulletin (GRB), CRIS-2000 (ftp://ftp cords lu/pub/cns2000/docs/shyu_fulltext Pd.)
 
5. Dew, Peter, Leigh, Christine, White, Bill, "ADVISER II Theory and practice of finding and presenting RTD results", CRIS-2000 (ftp //ftp cordis lu/pub/cns2000/docs/dew_fulltext pdf)
 
6. Iqa Vounakis, The Exploitation ofCRIS for Technology Transfer How CORDIS Works (CRIS-98)
 
7. European Research Gateways On-line (http //www cordis lu/ergo/home html)
 
8. Irya Vounakis the Exploitation of Current Research Information Systems for Technology Transfer How CORDIS Works, CRIS-1998
 
9. CERIF-2000 Guidelines, Final Report of the CERIF Revision Working Group, Part 1, С 3 User requirements, (ftp //ftp i-ordis lu/pub/cenf/docs/cerif2000 him)
 
10. L V Woensel "User Needs for Research Information", CRIS-98 Luxembourg (http //www cordis lu/tybercdfe/src/vanwoensel htm)
 
11. "Code ot Good Practice for Current Research Information Systems", a EuroCRIS report, January 1998, (ftp //ftp cordis lu/pub/cenf/docs/Codegpr doc)
 
12. Jeftery К "The future ofCRIS", CRIS-98, Luxembourg (ftp://ftp cordis lu/pub/cybercafe/docs/Jefferyl zip) 11 Hilt F R , Integration of Research Institutes into the future world-wide network of scientific information
 
13. Workshop "The transformation of Science" Elmau May 5th 1999, Max Planck Society MPG
 
14. Т Sevenens M Hohlfeld, К Zimmermann, E R Hilf, С von Ossietzky, "PhysDoc A Distributed Network of Physics Institutions Collecting, Indexing, and Searching High Quality Documents by using Harvest", D-Lib Magazine, Vol. 6, N 12
 
15. Lawrence S, "Access to scientific literature". The Nature Yearbook of Science and Technology, London, pp. 86-88, 2001
 
16. Jostein Hauge, "The proof of the pudding is in the eating'" CRIS-98, (ftp //ftp cordis lu/pub/cybercafe/docs/hauge zip)
 
17. MB Кулагин, А С Лопатенко "Интеграция электронных библиотек с система управления документами, как задача, решаемая Системой обмена информации между объектно-ориентированными информационными системами", "Электронные библи-отеки-2000"
 
18. Adamchak W, Begemann H, Stefani S "Research Report Online as Portal to a Wider CRIS", CRIS-2000 (ftp //ftp cordis lu/pub/cns2000/docs/adamczak_fulltext pd)
 
19. Eberhatd L Hilf, Professional Home Pages of Institutions and Scientists - New Add-on Services for Learned Societies, The Future of Mathematical Communication, Int Cont at Berkeley, 1 -5 12 1999, (http //msn org/publications/ln/msn/1999/fmc99/hilf/l/)
 
20. Laitmen, Sauli Sutela Pirjo & Tirronen, Kerttu, Development of Current Research Information Systems in Finland, CRIS-2000 (ftp //ftp cordis lu/pub/cns2000/docs/laitinen_fulltext pd)
 
21. Lutz Wiederhold, Cooperative Structures for the Collection of Internet Resources on and from the Middle East, (http //www bibliothek uni-halle de/text/vortraege/vene-dig htm)
 
22. DESIRE Information Gateways Handbook (http //www desire org/handbook/pnnting html)
 
23. Adamczak W The future of CRIS a "LINK" system CRIS98, Luxembourg, 12th 14th March 1998, (http //www uni-kassel de/wiss_tr/Veranstaltungen/ CRIS98 html)
 
24. Worsfold E., Subject gateways - fulfilling the DESIRE for knowledge Computer Networks and ISDN Systems Vol. 30, N 12-18 30 Sept 1998 (http //www desne org/html/research/publications/ tnc98gateways/)
 
25. Van Woensel L Common European Research Information Format (CERIF) Innovative current research paper presented at the CRIS98 Conference Luxembourg 12th-14th March 1998 (http //www cordis lu/cybercafe/src/vanwoensel htm)
 
26. Krause Jbrgen Innovative current research information systems in the information society, CRIS98 (http //www cordis lu/cybercafe/src/krause htm)
 
27. Meinel, Chnstoph Wagner, Amo, WWW BDD-POR-TAL ORG An Electronic Basis for Cooperative Electro me Basis for Cooperative Research in EDA CRIS-2000 (ftp //ftp cordis lu/pub/cns2000/docs/wagner_fulltext pd)
 
28. Lagoze С , Oai Open Archives Initiative, European Conference on Research and Advanced Technology for Digital Libranes, Lisbon Portugal, 2000
 
29. A. H. Бездушный, Д. А. Ковалев, А. А. Филиппова "Использование протокола LDAP для реализации распределенности ИСИР РАН", "Электронные библиотеки-2000"
 
30. Осипов М. А., Калиниченко Л. А. "Интеграция XML-коллекций данных в посреднике неоднородных коллекций электронных библиотек", "Электронные библиотеки-2000"
 
31. Kalinichcnko LA, Bnukhov DO Skvortsov NA Zakharov V N "Infrastructure of the subject mediating environment aiming at semantic interoperability of heterogeneous digital library collections", "Электронные библиотеки-2000"
 
32. Шокин Ю. И. , Федотов А. М., "Информационная система Сибирского отделения РАН", "Электронные библиотеки-2000"
 
33. С Lagoze, "The Warwick Framework A Container Architecture for Diverse Sets of Metadata", "D-Lib Magazine", July/August 1996