Home page | Каталоги и базы данных

Научные и технические библиотеки

Степанов В.К.
Государственная публичная
историческая библиотека, Москва


Поисковые системы Интернет: эволюция и перспективы

Необходимость создания поисковых средств Интернет обозначилась еще в до-Webовскую эру, когда были разработаны такие системы, как Archie, Veronica и WAIS, призванные отыскивать данные на FTP, Gopher и Telnet-серверах. Однако по-настоящему важность поисковых инструментов была осознана лишь с развитием World Wide Web, когда возможность, вдобавок к обычному тексту, легко передавать и получать высококачественные цветные изображения, аудио- и видеофайлы сделала глобальные сети необходимыми практически для всех. Миллионы отдельных лиц и целые организации начали предоставлять свои материалы в сетях. В результате объем данных стал увеличиваться столь стремительно, что в скором времени Интернет окончательно превратился в непроходимые киберджунгли, ориентироваться в которых было крайне трудно.

Ответом на сложившуюся ситуацию и явилось создание специальных поисковых инструментов, получивших название "search engines" (поисковые средства). Ныне их общее число колеблется в пределах нескольких сотен и все новые продолжают появляться день за днем.

Проведенное исследование показывает, что поисковые средства постоянно развиваются. Совершенствование идет по всем главным аспектам: рост объемов баз данных, возможности составления запроса и дружественность интерфейса, выдача результатов и наличие дополнительных сервисных функций. Системы, которые долгое время не внедряют новых элементов и не оптимизируют уже имеющиеся функции, постепенно выводятся из активного использования.

Главная тенденция последнего времени заключается в расширении числа обследуемых документов и одновременном увеличении глубины просмотра источника. Несколько лет назад поисковые средства были способны индексировать только несколько миллионов источников, которые на тот период включали web-страницы, статьи конференций Usenet, файлы Gopher и FTP-серверов. Современные системы в среднем индексируют порядка 50 млн документов (от 31 млн Alta Vista до 69 млн в Lycos). При этом скорость работы не только не снизилась, но даже увеличилась за счет использования новейшего программного и аппаратного обеспечения. Однако более важным является то, что поисковые механизмы последнего поколения индексируют все слова на web-странице или в статье из конференции (ранее область индексирования ограничивалась, как правило, названием, заголовками, первыми несколькими строками и адресом документа). Это существенно ограничивало возможность выявления материалов по узкой тематике, поскольку результаты поиска не всегда отражали реально существующие данные. Устранив этот недостаток, современные поисковые системы стали более надежными.

В ближайшем будущем полнотекстовое индексирование утвердится в качестве неотъемлемой характеристики поисковых средств. На наш взгляд, это один из ключевых параметров дальнейшего развития поисковых инструментов.

Следующая важнейшая черта - совершенствование внутреннего поискового механизма, выражающееся в увеличении числа операторов и других элементов составления запросов. Несколько лет назад применение находили только два, в лучшем случае три классических булевых оператора: AND, OR и NOT. Теперь появились NEAR в Alta Vista и FOLLOWED BY в OpenText - в высшей степени полезные операторы расстояния, которые дают возможность в максимальной степени конкретизировать запрос. Многие системы позволяют усекать окончания терминов, ограничивать поиск по дате создания документа, искать ключевые слова только в обозначенных элементах web-страниц (названии, заголовках, электронном адресе и т. д.), а также вести поиск на точное словосочетание. Новейшие разработки также позволяют выявлять файлы определенного вида (например графические или аудио) и обладают чувствительностью к строчным и заглавным буквам. Общепринятой становится возможность поиска данных на любых языках. Все это дает возможность составлять поисковое предписание с большой степенью точности, что, конечно же, повышает релевантность получаемых результатов.

Немаловажное значение имеет тенденция совершенствования интерфейса. Графические браузеры типа Netscape Navigator, Internet Explorer и им подобные практически полностью вытеснили текстовой Lynx, что позволило значительно повысить дружественность интерфейса, сделать его намного более сенсетивным, чем 2-3 года назад.

Разработчики первых поисковых систем не слишком заботились о комфорте пользователей. В тот период гораздо важнее было просто заставить систему работать. Поэтому желающих воспользоваться услугами поисковых серверов встречали зачастую лишь строки для ввода запроса, без каких-либо экранов помощи или примеров употребления булевых операторов. По этой причине пользователи часто испытывали затруднения, пытаясь точно выразить свой запрос. Системы последнего поколения во многих случаях имеют детализированное многоуровневое меню, которое делает составление запроса максимально простым. За счет его применения пользователи освобождаются от необходимости знать принципы работы булевой логики - они просто комбинируют искомые термины с имеющимися условиями поиска. Меню Power search (углуб-ленного поиска) в OpenText и Modified search (модифицированного поиска) в HotBot - яркие примеры прогресса в этой сфере.

Нынешние поисковые средства предоставляют также детализированную помощь, примеры составления запросов, файлы часто задаваемых вопросов. В зависимости от полученных результатов генерируются подсказки и рекомендации, направленные на устранение типичных ошибок, допускаемых при составлении запроса. Таким образом, сегодня пользователь уже не должен обладать какими-либо специальными знаниями и опытом для обращения к поисковым средствам.

Еще одной немаловажной тенденцией является оптимизация выдачи результатов поиска. В данном случае можно с уверенностью утверждать, что поисковые средства становятся более интеллектуальными. Блок искусственного интеллекта способен ранжировать результаты в зависимости от соответствия конкретному запросу. Программа анализирует расположение слов в документе, их повторяемость и общее количество. На этой основе перечень ссылок выдается в порядке соответствия запросу, причем ссылки на наиболее ценные источники -в начале списка.

В перспективе работа над тем, как сделать поисковые средства еще более интеллектуальными, будет продолжаться, поскольку только системы с мощной интеллектуальной базой будут способны переработать стремительно расширяющийся океан полнотекстовых данных. В частности, именно системам искусственного интеллекта предстоит решить проблему информационного шума или "мусор-ных данных", которая становится все острей в связи с ростом отра-жения в Интернет материалов низкой содержательной ценности.

Последняя тенденция - появление дополнительных сервисных функций, которые делают пользование поисковыми системами более привлекательным. Некоторые из навигационных средств формируют добавочные базы данных по определенным направлениям (электронные адреса частных лиц, справочники компаний, перечни последних новостей и т. д.). Другие размещает на своих страницах ссылки на наиболее популярные справочные ресурсы Интернет (электронные словари, тезаурусы, энциклопедии, интерактивные карты и др.), что превращает интерфейс поисковых систем в хорошую отправную точку для работающего с Интернет. В последние месяцы наиболее продвинутые системы предлагают воспользоваться даже услугами персонального сетевого информатора, который обеспечивает текущий поиск новых материалов по заявленной тематике (см. UltraSeek).

Помимо технологических перемен стратегические изменения в сфере поискового сервиса также очевидны. Наиболее заметным является дробление поисковых средств, выделение поисковых инструментов региональной или отраслевой направленности, учитывающих материалы по отдельным странам или на определенном языке (только чисто русскоязычных систем насчитывается не менее десятка) или по определенной тематике (пока это в основном юриспруденция). Эти локальные поисковые средства призваны решить задачу исчерпывающего учета информации по отдельным странам и наиболее актуальным темам. Возможно, в скором времени мы будем располагать столькими поисковыми системами, сколько сегодня существует печатных справочников и указателей.

Наряду с образованием местных поисковых серверов, ясно обозначилось также стремление распространения вширь гигантов поискового бизнеса. Широко известные Yahoo!, Alta Vista, InfoSeek форсируют создание как "зеркальных", так и специальных профильных серверов в европейском и азиатском регионах, стремясь захватить их рынок сетевой рекламы. Само по себе это еще более ожесточает конкурентную борьбу в области поискового бизнеса.

Нет сомнений, что все перечисленные тенденции эволюции поисковых средств найдут свое продолжение в ближайшем будущем. С ростом ресурсов Интернет их потенциал будет также расширяться. Продолжится совершенствование существующих механизмов (при-мерами постоянного обновления являются WebCrawler, Lycos и Alta Vista), а также вытеснение старых систем новыми под иными именами (типичный пример HotBot, вытеснивший Inktomi). С уверенностью можно прогнозировать и появление совершенно новых средств, созданных на базе последних технологических достижений.

Реальной базой для дальнейшего усовершенствования поисковых орудий является расширение деловой активности в Интернет. Предприимчивые компании уже осознали, что создание и поддержка поисковых серверов является доходным бизнесом. Интерфейсы систем становятся наиболее выгодным местом для размещения рекламы, так как к их услугам прибегает огромное число пользователей. Поэтому разработчики поисковых орудий постоянно заботятся о том, чтобы сделать свой продукт максимально привлекательным. Добиться же этого можно только путем неуклонного повышения качества работы систем по всем рассмотренным показателям.

Copyright © 1995-97 ГПНТБ России