И.В. Краснов. Стратегии поиска информации в базах данных

СТРАТЕГИИ ПОИСКА ИНФОРМАЦИИ В БАЗАХ ДАННЫХ
И.В. Краснов - Зам. директора по ИТ Научной библиотеки Марийского государственного университета

В моем сообщении речь пойдет о всеобъемлющем, профессиональном поиске, т.е. о том, который должен собрать максимальное количество релевантных записей. По многим запросам найти пару-тройку релевантных записей для непрофессионала не представляет труда и не владея искусством поиска.
 
«Запрос» в профессиональной литературе понимается по-разному. Мы понимаем под этим выражение проблемы для поиска на естественном языке («нужна информация о русских народных сказках»). От запроса отличается поисковое предписание, т.е. то, что вносится в строку поиска («русск* И сказ*»).
 
Стратегия поиска информации в базах данных (БД) – общий план, искусство ведения поиска в БД с использованием закономерностей, присущих этому виду деятельности.
 
О каких закономерностях может идти речь, когда БД такие разные? У них разные интерфейсы, разное содержание (библиографические, реферативные, полнотекстовые), разные механизмы поиска (с использованием и без использования операторов, контекстного поиска и т.д.).
 
Однако закономерности имеются и ими необходимо пользоваться для эффективного поиска информации. Литературы на эту тему практически нет (в отличие от литературы по поиску в Интернете, например книги Крупника). Эта статья – основа моей будущей книги на эту тему. Закономерности, о которых пойдет речь, выяснены в процессе практической работы с БД. Часть информации была почерпнута из лекций в школе библиотечно-информационного дела университета штата Иллинойс в г. Урбана-Шампейн, США, где автор обучался в 2000 - 2002 годах. Все примеры взяты из реальной работы с читателями.
 
По нашим наблюдениям имеется четыре основные стратегии поиска информации в БД:
 
а) Изучение фоновой информации о теме запроса;
 
б) предупреждение Закона Мерфи для БД;
 
в) Наращивание Жемчуга, состоящее в Парадигматическом и Синтагматическом поиске; г) Стратегия поиска узко-специфических материалов.
 
Изучение фоновой информации по теме запроса может предоставить немало дополнительных идей для поиска. Обычно ее источники – справочники и тезаурусы. Например изучение дополнительной литературы по запросу «Необходимо как можно больше информации о литературном творчестве папы Римского Иоанна Павла Второго» даст нам дополнительные сведения об имени Папы Кароль Войтыля, которым он часто подписывал свои светские сочинения, и по которому тоже можно вести поиск.
 
Предупреждение Закона Мерфи для БД. Закон Мерфи для экономики гласит: «Если какая-то неприятность может случиться в бизнесе, то она случится». В переносе на БД это может звучать следующим образом: «Если в описании документа может быть ошибка, то она скорее всего там имеется». Особенно это касается транслитерации собственных имен с одной системы письменности на другую. Например, по запросу «Нужны данные о творчестве Вильгельма Гауффа» можно использовать следующие поисковые предписания, вызванные разной транслитерацией немецкого Hauff в кириллицу: Гауф, Гауфф, Хауф, Хауфф. Всякий раз найдутся релевантные записи. Для того, чтобы предупредить Закон Мерфи для БД необходимо осознавать, где может вкрасться ошибка, и использовать различные приемы поиска (Символы, используемые для усечения, маскирования, а также логические операторы приведены на примере БД ИНИОН РАН (усечение, логические операторы). Поисковое предписание может иметь вид: “Гауф* ИЛИ Хауф* ИЛИ Hauf*”.
 
Для того, чтобы выяснить, как в этом примере пишется фамилия автора на немецком языке (Hauff), необходимо либо изучить фоновую информацию об авторе, либо применить стратегию Наращивание Жемчуга. Эта стратегия состоит в том, чтобы вести поиск с использованием результатов предыдущих поисков. Некоторые БД предоставляют оригинальное правописание имен собственных на родных языках. Таким образом, изучив записи, найденные по поисковому предписанию «Гауф», можно выяснить подлинное правописание фамилии этого автора. Наращивание жемчуга делится на составляющие: Парадигматический поиск и Синтагматический поиск.
 
Парадигматический поиск – это дробление заглавного дескриптора на составляющие и поиск по этим составляющим. Например, по запросу «Нужны материалы о поэтах Серебряного века» мы обнаружим в записях помимо заглавного дескриптора «Поэты Серебряного века» его составляющие: Волошин, Гумилев, Пастернак, Ахматова и т.д. Поиск по этим фамилиям драматически увеличит количество найденных релевантных запросу записей.
 
Синтагматический поиск – поиск с использованием параллельного дескриптора. Например, по запросу «Нужны материалы об угро-финских народах» мы обнаружим мало записей с дескриптором «Угро-финны», а в тех, которые мы обнаружим, будет параллельный дескриптор «Финно-угры». Поиск с использованием этого дескриптора будет гораздо эффективнее. По этому запросу необходимо также использовать другие стратегии поиска: закон Мерфи (на тот случай, если дефис в слове отсутствует, например, с использованием маскирующего оператора «финн$угр*»); и парадигматический поиск (раздробить понятие на составляющие: марийцы, удмурты, мордва и т.д.).
 
Поиск узко-специфической информации используется тогда, когда другие стратегии не приносят желаемого эффекта. Эта стратегия обратна стратегии Парадигматический поиск. Заключается она в расширении ключевого понятия. В этом случае мы можем найти источник, в котором искомая информация может содержаться в качестве составной части (главы, доклада, части и т.д.). Например, поиск по запросу «Нужны материалы о главной героине романа Фаулза «Женщина французского лейтенанта» не очень эффективен. Однако, если расширить ключевое понятие до поиска всех критических материалов на творчество Фаулза, то можно найти несколько дополнительных релевантных записей (поисковое предписание “Фаулз* ИЛИ Fowles*”). Такой записью может быть книга о женских образах в творчестве Фаулза. В этой книге наверняка имеется релевантная информация.
 
Как видно из этих примеров, стратегии поиска необходимо применять в комплексе. Лучшие результаты также достигаются при «погружении» специалиста в тему и поиске в соответствующих БД (материалы по литературоведению – в БД по литературоведению, по физике – в физике и т.д.).  

Распечатать страницу ...