Home page | Каталоги и базы данных

Научные и технические библиотеки


Ресурсы Интернета

УДК 025: 65.011.56

Поисковая Интернет-система «Гугл» —
избавление от посредников

От редакции. Публикуем с сокращениями статью старшего специалиста по информационным технологиям Университета штата Мичиган (США) Р. Виггинса (Richard Wiggins) из журнала Searcher (Vol. 9, № 3, March 2001) — «Поисковик», который бесплатно получили участники Международной конференции «Компьютеры в библиотеках»Computers in Libraries (Вашингтон, март 2001 г.). Посещение данной конференции и выставки входило в программу научно-ознакомительной поездки библиотекарей, организованной МБИАЦ и ГПНТБ России («Науч. и техн. б-ки», 2001, № 8. С. 35—50).

Предполагаем, что ознакомление с новейшей технологией поиска в Интернете, тем более опирающейся на самые демократичные принципы построения системы, может быть полезным нашим уважаемым читателям.

Пояснение к названию поисковой системы и статьи: Барни Гугл (Google) — персонаж серии комиксов, выпущенных в 1919 г. (автор Билли де Бек), прирожденный неудачник, похожий на ослика Иа-Иа.

*   *   *

Когда разгорелась борьба за итоги голосования по выборам президента США в штате Флорида, мнения граждан разделились в соответствии с их политическими привязанностями. Одна сторона подчеркивала неудобность голосования по многим вопросам одновременно (бюллетени-«бабочки», в которых местонахождение нужного пункта было не совсем привычно для людей, привыкших читать слева направо и по строчкам). Другая сторона доказывала, что тем, кто не может прочитать инструкцию по голосованию, написанную очень простым языком, лучше вообще не голосовать, а сначала немного подучиться и попробовать в следующий раз.

Мне же больше по душе объяснение профессионального математика, опубликованное в газете «Нью-Йорк Таймс»: в любом случае (при любом победителе) итоги голосования сомнительны, так как статистическая ошибка при проведении голосования и подсчете итогов превосходит обнаруженный перевес голосов за одного из кандидатов. По итогам президентских выборов, конечно будут учтены недостатки и статистический разброс уменьшится до приемлемых пределов.

Еще один важный урок выборов — необходимость продуманно подходить к дизайну, обеспечивающему взаимодействие человека с информационной техникой — будь то дизайн избирательного бюллетеня, контрольной панели роскошного автомобиля или веб-сервера. Повторяю, проблема здесь не в красоте, а в необходимости учитывать при работе с колоссальными массами людей неизбежный разброс их уровня; поэтому дизайн устройств массового пользования должен соответствовать простым, естественным и понятным любому человеку побуждениям.

Эта идеология полностью применима к процессу поиска в Интернете, тем более что цена ошибочного поиска может оказаться неприемлемо высокой — при работе, например с медицинскими, юридическими материалами. Дело в том, что, несмотря на внимание к профессии библиотекаря — несомненного посредника между информацией и пользователем, повсеместно наблюдается устранение посредников из обыденной практики. Электронные ресурсы, можно сказать, подаются прямо на рабочий стол исследователя, инженера, студента. Именно поэтому я предлагаю вашему вниманию рассказ о сетевом сервисе, одновременно простом, мощном и эффективном, который уже сейчас расположил к себе миллионы пользователей во всем мире.

Несмотря на новизну, поисковая Интернет-система Гугл необычайно популярна, потому что очень проста в пользовании. Интерфейс системы — образец простоты! Если другие поисковые системы за последние 2 года утяжелили свои домашние страницы бесчисленным набором вариантов меню, Гугл, созданный двумя студентами Стэнфордского университета, буквально штурмом завоевывает аудиторию. Удивительно и то, что система нравится одинаково и новичкам, и опытным профессионалам поиска.

Дело в том, что система Гугл лучше всего работает с запросами, сформулированными на простом языке, без применения булевских терминов. Например, вы напечатали запрос Билл Клинтон; машина сама будет искать все материалы, в которых эти два слова употребляются вместе. При этом другие словосочетания, в которых участвует слово bill (долларовый билль, билль о правах и т.п.), равно как и все другие клинтоны — будут опущены и на замутят результаты поиска. Система Гугл (в отличие, например, от широко известного портала Alta Vista) не обращает внимания на строчные или прописные буквы в поисковом запросе.

Еще один простой, но необычайно эффективный прием — приоритет тому сайту и соответственно адресу документа, который чаще других спрашивается (т.е. количеству входящих адресов, зарегистрированных на найденном файле). Гугл не только выдает ответ на поисковый запрос, ранжированный по числу обращений к данному материалу (т.е. по популярности данного ресурса среди сообщества пользователей Интернетом). Это особая философия, основанная на предположении, что все люди имеют схожие проблемы и вопросы и вам, вероятнее всего, нужно то же, что и другим таким же. Роль библиографа — индексатора и систематизатора электронных ресурсов — при данной методике поиска уже не является определяющей.

Комбинирование этих двух простых методов — формулирования запросов на естественном языке и выдачи результатов в соответствии с популярностью — оказалось чрезвычайно эффектным.

Даже в политике публикации рекламных объявлений Гугл идет своим путем — вам дается только та реклама, которая прямо соответствует вашим поисковым запросам. Например, при запросе архив Интернета никакой отвлекающей ваше внимание рекламы не появится, а при запросе междугородний вы получите рекламный список компаний, дающих скидку на междугородние телефонные переговоры.

Еще одна новинка Гугла — сетевой предметный каталог, использующий таксономию, разработанную в ходе реализации проекта Открытого каталога. (Открытый каталог — несколько утопический проект, согласно которому любой пользователь Интернета может стать соучастникам пополнения каталога, внося туда свои библиографические записи. Идея полностью перекликается с идеей открытой оперативной системы Линакс). Сейчас в базе данных Открытого каталога 1.5 млн адресов файлов; в тысячу раз больше адресов имеется в указателе основной поисковой машины системы Гугл. Уникальное сочетание возможностей поиска и предметного просмотра с ранжировкой найденных ответов на запрос по их сетевой популярности повышает эффективность работы.

Предлагаемый в настоящее время вариант продвинутого поиска (Advanced Search at www.google.com advanced search) дает возможность искать по фразам, по поисковым терминам; комбинировать и/или; не выдавать страницы с нежелательными терминами; в качестве выходных форм давать только наименования или адреса или полный текст; осуществлять отбор и фильтрацию по языкам и по доменным именам; отсекать нежелательные материалы. Кроме того, система может осуществлять поиск по принципу аналогии с тем, что вы однажды уже делали, а также автоматически создавать список отсылок к какому-либо заранее заданному адресу.

Не думаю, что, несмотря на вносимые усовершенствования, система Гугл  когда-нибудь уподобится «старым» порталам, обвешанным вариантами меню и отсылками наподобие рождественской елки. Команда разработчиков Гугла твердо стоит на принципах минимализма — и в этом секрет дальнейших успехов. Дайте большинству пользователей то, что им часто бывает нужно, а для более изощренных поисковиков оставьте возможность найти то, что требуется, не засоряя основное меню.

Простота главной страницы системы, быть может, вызывает насмешки дизайнеров, она напоминает начальные варианты веб-страниц образца 1995 г. Однако я почти уверен в том, что библиотекари, читающие курсы по изучению поисковых машин, первым делом обращаются к системе Гугл, также поступают и посетители библиотек — им нравится простота и удобство пользования этой системой.

*   *   *

Американская машина научилась понимать по-нашему

Самая совершенная в мире технология Интернет-поиска портала Yahoo!, разработанная американской компанией Гугл, стала доступна и посетителям Рунета. Теперь сайт Google.com имеет русскую страницу и может осуществлять поиск на русском языке. Однако владельцы отечественных поисковых систем не боятся оттока своих пользователей на заокеанский сервер. Наиболее продвинутая из существующих ныне поисковых машин Google.com, созданная в 1998 г. 27-летним выходцем из России Сергеем Брином (Sergey Brin), согласно оценкам экспертов превосходит конкурирующие технологии AltaVista и FAST (применяется на портале Lycos.com). Гугл позволяет вести поиск на 26 языках, а деньги зарабатывает на сетевой рекламе и продаже лицензий на свою поисковую технологию. В частности, «движок» Гугл WebSearch использует крупнейший сетевой каталог Yahoo! и портал Netcenter, принадлежащий AOL Time Warner.

Сегодня Гугл работает над проектом Fandango — технологией поиска информации в сетях peer-to-peer (не на серверах, а на компьютерах пользователей).

Недавно пользователи Рунета заметили, что сайт Google.com встречает их русским интерфейсом и, главное, позволяет искать информацию в зоне «.ru». Пока «русифицированный» Google.com имеет изрядное количество недостатков. Поиск на сайте работает только с двумя-тремя кодировками из пяти, используемых в Рунете. Не реализована процедура машинной морфологии, позволяющая находить нужное слово в разных падежных формах. Кроме того, к русскому языку в интерпретации Гугл относятся белорусский, украинский и другие языки, использующие кириллицу.

По имеющейся у газеты «КоммерсантЪ» информации в ближайшее время Гугл не намерен вкладывать деньги в развитие русскоязычного сервиса, как, впрочем, и в продвижение своего брэнда в России. Вероятно, поэтому владельцы поисковых систем, действующих в Рунете, не выразили обеспокоенности появлением нового игрока. По мнению исполнительного директора ОАО «Рамблер Интернет-холдинг» Игоря Ашманова, «сейчас наши алгоритмы поиска работают в Рунете лучше. Кроме того, конкурентная борьба между поисковиками идет не столько на уровне качества услуги, сколько на известности марок». Отечественные Интернет-марки, по мнению И. Ашманова, значительно популярнее Гугл поэтому «существенного оттока пользователей бояться не стоит». С Игорем Ашмановым солидарен руководитель отдела поисковых систем компании «Яндекс» Илья Сегалович: «Сейчас на Гугл приходится лишь несколько процентов от всех посетителей-поисковиков. Не думаю, что появление русского интерфейса существенно изменит эту долю». Однако в перспективе защищенность рынка российских поисковиков от мировых технологических лидеров не столь очевидна. Так, директор компании «Интернет-инкубатор» Андрей Вакуленко считает, что Рунет не может быть отгорожен от остального мира какой-либо стеной вроде языка. «Не исключено, что Гугл заинтересуется зоной «ru» через два-три года, — говорит он. — Ведь десять лет назад никто и представить не мог, что Россия привлечет Microsoft».

Послесловие от редакции. Система поиска Гугл изобретена двумя студентами Стэнфордского университета в Калифорнии. В истории информационно-компьютерных технологий и помимо Гугл можно дать массу примеров того, как именно студенты вносили революционные технологические и интеллектуальные решения, направленные на то, чтобы «простым людям Сети» жилось и работалось лучше. Это открытая и бесплатная операционная система Линакс, созданная норвежским студентом Торвальдсеном в дополнение или в противовес закрытой в то время программе Windows — продукции гигантской компании Майкрософт. Это система обмена музыкальными файлами в формате .тр3, созданная в обход финансовой и технической политики гигантских звукозаписывающих компаний (Sony, Warner Bros). Список продолжит любой специалист в информатике.

В связи с этим возникает вопрос, быть может, имеющий непосредственное отношение к пользователям научно-технических библиотек и нашим задачам. Почему зарубежные студенты столь продуктивны в изобретениях? Ведь область науки и техники, в которой они работают, не требует слишком дорогостоящего оборудования — это не ускорители элементарных частиц ценою по 5 — 10 млрд долларов. Почему ума и энергии наших студентов хватает лишь на победы в математических олимпиадах и на хакерство? Предполагаемые ответы: либо система обучения компьютерным наукам у нас поставлена плохо, либо система изобретений в России, поддерживаемая многочисленными государственными надзирателями и негосударственными помощниками, не дает возможности развернуться таланту; все гаснет в интеллектуальном болоте или интеллектуальном воровстве отдельных недобросовестных преподавателей. Быть может, у наших читателей есть свои соображения на этот счет — присылайте нам.


Copyright © 1995-2001 ГПНТБ России