Электронная библиотека ГПНТБ России

Перевод статьи из газеты «Мировой обзор информации» (David Green. When the web starts thinking for itself. – Information World Review. The newspaper for information industry. Issue 186. Dec. 2002. P. 37-38).

Для начала в семантической сети будут размечаться документы таким образом, чтобы поисковые машины могли различать содержание документов. Затем последует внедрение процессов автоматической интеллектуальной обработки данных, или сеть начнет думать.

В семантической сети данные обозначаются семантическими метками, которые интерпретируются как отражение содержания документов, в отличие от меток, обозначающих расположение и форматирование документа (как это делается в формате языка разметки HTML).

Предоставив любому человеку возможности для простой, доступной публикации, сеть оказала глубокое воздействие на общество, изменив поведение и дав надежду на повышение эффективности в таких процессах, как поиск информации, распространение знаний, коллективная работа. И в то же время пока что и поиск, и обмен данными не столь уж просты.

В сентябре 1998 г. Тим Бернерс Ли, создатель системы WWW, высказал свое мнение о путях развития сети и устранения недостатков. Его работа «Дорожная карта для семантической сети» (Semantic Web Road Map)* опубликована на веб-сайте консорциума W3C – некоммерческой организации, координирующей разработку стандартов сети в мировом масштабе. «Дорожная карта» послужила толчком к разработке во всем мире исследований, направленных на создание стандартов и инфраструктуры, которые в конечном итоге приведут к формированию сети, способной автоматически производить несложный поиск и обработку информации.

Семантическая сеть – это естественное продолжение существующей ныне сети; однако в семантической сети данные приобретают некоторый смысл, а не только вид. Как это делается, какие технологии используются или разрабатываются – изложено в данной статье.

Прежде всего при опубликовании документы в сети будут снабжаться семантическими разметками – ярлыками (тэгами), которые определяют не внешний вид документа (так пока что делается в языке разметки HTML), а относятся к его содержанию. Этот фундаментальный шаг в изменении условий публикации в сети будет иметь очень глубокие и важные последствия, в корне меняющие условия работы в сети поисковых машин. Вместо того чтобы с помощью поисковой машины грести все из сети (как рыбаки «вспахивают» тралом толщу океанских вод), вы сможете точно сформулировать запрос и получить отфильтрованный ответ.

Семантическая сеть будет дополнять работу людей в тех областях, где производительность человеческого труда пока невысока, например, при необходимости провести быструю обработку больших объемов информации, проанализировать тексты в поисках нужной информации и т.п.

Можно также предположить продвижение этих технологий и в обычный, обыденный мир: разнообразные электрические и электронные приборы будут «объявлять» свои функциональные возможности посредством микропроцессоров и тех самых тэгов. Например, мобильный телефон сможет «сам» описать спецификации своего дисплея так, что некоторые сетевые документы без вашего участия станут доступными (читаемыми в данном случае) автоматически, как принято говорить «на лету».

Семантическая сеть берет свои истоки из уже имеющихся технологий, например таких, как язык разметки XML, схема описания ресурсов (Resource Description Framework, RDF), онтология, интеллектуальные агенты.

Как известно, язык разметки XML является логическим продолжением языка разметки HTML (см.: Грин Д. Бесконечно расширяемый язык разметки. Науч. и техн. б-ки. 2002. № 11. С. 100–103. – Ред.). Это открытая, семантически сконцентрированная технология разметки. Она предусматривает существенно бóльшие возможности, чем просто метаданные, поскольку позволяет издателю указывать содержание документа. Язык XML – мощный инструмент структурированного поиска в текстовых сетевых страницах, который направляет пользователя непосредственно к тем частям документа, где расположена необходимая ему информация.

С помощью специальных стандартов форматирования (например XSL) через язык разметки XML осуществляется обработка текста, в результате чего сетевая страница уже не просто имеет какой-то определенный вид. После такой обработки однажды сформатированный текст может быть опубликован много раз на любых программных платформах.

При том, что издатели самостоятельно создают свои тэги – разметки языка XML, соответствующая (прилагаемая) схема объясняет структуру разметки данного издателя путем выпуска словаря разметок и обеспечивая семантическую связь с этими словарями. Все сколь-нибудь значимые, крупные информационные и издательские компании используют эту технологию. В действительности, в области работы с базами данных XML превратился де-факто в признанный стандарт по передаче данных из одного программного приложения в другое.

Упомянутая выше новая технология RDF – схема описания ресурсов – используется для обозначения смысла документа, записанного в формате XML. Точно так же, как и в обычном разговорном языке, где смысл передается предложением, содержащим 1) существительное, 2) глагол и 3) объект, система RDF направлена на выражение смысла сетевого текста и соотношения между различными сетевыми страницами посредством программированного формирования структуры, содержащей 1) предмет (вещь), 2) свойства и 3) значения.

Например, некто Дэвид Грин (предмет) является автором (свойство) этой статьи и ряда других (значения), субъект, объект и глагол (или вещь, свойство и значение) кодируются в документе посредством единого идентификатора ресурса (Uniform Resource Identifier), который обеспечивает единый подход к связыванию слов внутри документа с определением. Таким образом обеспечивается возможность обмена данными между системами.

Однако же, если RDF позволяет издателю «информировать» компьютер поисковой системы о том, какой термин использован для разметки содержания документа, разные издатели будут пользоваться различными терминами и идентификаторами для выражения одной и той же концепции (мысли).

Онтологии обеспечивают более глубокое понимание содержания за счет установления эквивалентности в соотношениях между терминами (например, термин А на моей веб-странице выражает ту же самую концепцию, что и термин Б на вашей веб-странице). Онтология – это файл, который формально определяет соответствия между терминами (например таксономия и набор правил составления определений).

Создавая такой «словарь значений» (в философии онтология означает природа бытия), онтология может улучшить точность результатов поиска в сети, заставляя поисковую программу отыскивать страницы документов, относящиеся к определенной заданной концепции, а не искать какой-то определенный термин – как это сейчас происходит.

Если XML, RDF и онтологии формируют основу инфраструктуры семантической сети, то именно интеллектуальные агенты (роботы поисковых систем) реализуют все раскрывающиеся возможности и демонстрируют всю мощь сети. Интеллектуальным агентом пожалуй, можно назвать часть адаптивной системы кодирования компьютера, способной к выполнению логических операций, («рассуждения»), которая «самообучается» на примере наших, человеческих привычек, образа действия и преференций и таким образом составляет свой («сфотографированный» с нашего) алгоритм действия. Можно сказать, что речь идет о «проактивной персонализации» компьютера.

Существуют тысячи различных агентов (если хотите, можно назвать их слугами или помощниками), каждый из которых нацелен на выполнение своих специфических задач (например, в осуществлении поиска, в проведении сетевых бесед – чатов, в Интернет-покупках и т.д.). Важным аспектом этих помощников является их социальный общественный характер – они могут взаимодействовать и передавать сообщения людям или друг другу. В семантической сети различные агенты работают совместно, создавая информационно значимые цепочки, в которых запрос пользователя обрабатывается пакетно, через подсборки блоков информации, просматриваемых помощниками – и каждый из них вносит что-то свое, тем самым повышая ценность конечного результата.

Процесс происходит следующим образом. Пользователь формулирует информационный запрос высокого уровня сложности. Интеллектуальный агент (помощник) анализирует этот запрос и передает его далее, другим работающим в этой сфере помощникам – агентам и службам, которые в сетевых объявлениях рекламировали свои услуги по данной тематике. Помощники «просеивают» большие объемы информации, имеющиеся в сети, и последовательно сводят этот объем к небольшому массиву высококачественной информации, т.е. формируют точный ответ на запрос.

Если вам когда-либо приходилось формулировать поисковые запросы, вы знаете, как это непросто. Результатом автоматизации выполнения поисковых запросов будет все увеличивающаяся роль систем искусственного интеллекта – например таких, как интеллектуальные помощники.

Один из ключевых моментов формирования нового мира интеллектуальных агентов состоит в том, что при их растущей автономности будет падать уровень их подотчетности человеку. Вопрос состоит в том, в каком объеме информация о наших привычках и поведении передается от одного интеллектуального агента другому, другим базам данных и другим системам, т.е. создается ли некая обратная связь, при которой помощник-агент не только учится у нас, но и начинает учить других нашим обычаям и пристрастиям. Необходимо обозначить некие границы в соответствие с потребностями пользователя, с тем чтобы обезопасить себя на всякий случай.

Точно так же интеллектуальные помощники должны будут проводить проверку аутентичности и качества источников информации, а также и других интеллектуальных агентов, с которыми им приходится взаимодействовать при выполнении своей работы. Соответствующая технология уже имеется – это электронная подпись. Поскольку в будущем значительная часть преступлений будет совершаться путем воровства персональных данных, а не конкретных физически ощутимых вещей (артефактов), то отлаживание подобного рода систем безопасности приобретает особое значение.

Семантическая сеть и другие технологические продвижения, такие, как коллективные сетевые вычисления (когда один сетевой компьютер использует суммарные вычислительные мощности многих других компьютеров), операционные системы Интернета подводят к концепции некоего «мирового мозга». Сеть, насыщенная «думающими», «рассуждающими» интеллектуальными агентами-помощниками, будет действовать как некий суперорганизм – мозг всего общества. Все это откроет запасы коллективного мирового знания для интеллектуального анализа и выявления новых концептуальных связей даже там, где пока не существует терминологического единства.

Агенты будут также самостоятельно обрабатывать страницы и динамично добавлять новые ссылки и связи к смежным концепциям, тем самым выявляя новые соотношения между отраслями знания. Интеллигентность динамической самоорганизующейся сети, в которой активно используемые связи приобретают высокий иерархический уровень, а малоиспользуемые связи отмирают (точно так же, как это происходит с нейронами человеческого организма), будет постепенно «прирастать» и наращиваться за счет взаимодействия интеллектуальных агентов, автономных и первоначально ограниченных какими-то контекстными рамками.

Девиз проекта «Открытый каталог» – «Люди делают это лучше». По мнению Тима Бернерса Ли, семантическая сеть многое может сделать лучше, чем люди: «автоматическое обнаружение простой, несложной информации, обмен ею помогут людям качественно выполнять более сложные задания». Такого рода симбиоз интеллектуального потенциала людей, плюс компьютеров, плюс интеллектуальных помощников, обеспечивающий немедленный доступ к мировым запасам человеческого знания, кажется какой-то утопией. Точно также выглядит утопией и самообучающаяся система компьютерного интеллекта, которая очень быстро обгонит в своем развитии нашу способность контролировать такую систему.

Будет ли такой мировой разум действовать как электронный диктатор, для которого интересы отдельных личностей окажутся на втором месте по сравнению с общественными потребностями? Два исследования, опубликованные в научном журнале “Nature” (выпуск от 9 сент. 1990 г.), указывают на то, что Интернет скорее эволюционирует (как живой организм), чем следует модели роста случайных неживых сетей. Комментируя эти исследования в июньском 2000 г. выпуске журнала “New Scientist”, г-н Даниэль Деннер (Daniel Denner), директор Центра изучения познания Университета Медфорд (Массачусетс, США) указывает: «Глобальная коммуникационная сеть уже сейчас способна к сложному поведению, которое игнорирует стремление людей контролировать ее».

В заключение можно отметить, что семантическая сеть может действовать как коллективная память, тем самым умножая мощь человеческого мозга отдельного лица и значительно ускоряя темп обучения людей и появление новых открытий – но нам нужно быть очень аккуратными в организации контроля за ее развитием и за степенью нашей зависимости от нее, если мы хотим избежать сценария формирования ужасного и могучего электронного диктатора.

Адреса, полезные для продолжения изучения этой темы:

^*В данном контексте, как и в ряде других, прямой перевод словосочетания Road Map – дорожная карта – не вполне соответствует достаточно верному восприятию этого понятия российским (русскоговорящим) гражданином. В американской практике RoadMap – это подробнейший атлас автомобильных дорог какого-либо региона, с четкими указаниями всех нужных действий при передвижении, например: по шоссе 6в – до выезда № 2, затем – через 500 м – поворот налево и т.д. – Прим. А. 3.