Home page | Каталоги и базы данных

Научные и технические библиотеки


 

УДК 025:65.011.56

Грин Д.

Бесконечно расширяемый язык разметки?

Расширяемый язык разметки XML, по-видимому, вытесняет широко используемый в настоящее время для сетевых публикаций стандартный язык гипертекстовой разметки HTML.

Встроенные в стандарт XML инструменты семантической обработки текста позволяют рассчитывать на то, что этот язык со временем превратится также в стандарт управления знаниями. XML представляет собой семантически ориентированную открытую технологию, предоставляющую намного более существенные возможности, чем просто составление метаданных.

В XML предусмотрено точное описание содержания материала, а также проведение различных манипуляций по форматированию и выгрузке данных (посредством сопряженных стандартных технологий). Такого рода возможности превращают веб-страницу из демонстрационного инструмента в средство для обработки данных.

HTML мертв; с определенного момента уже не предполагается вводить новые стандарты, относящиеся к этому языку. На смену ему пришел XML. При всей своей простоте HTML был ограничен тем, что предназначался только для обработки внешнего вида и расположения информационных материалов и совершенно не касался их содержания. Имея в виду тот факт, что большинство пользователей Интернета и систем, входящих в Интернет, в первую очередь нацелены на поиск информации и обмен информационными массивами, такого рода ограничения становились препятствием.

Переход от HTML к XML как фактически работающему инструменту для создания сетевых материалов будет иметь далеко идущие последствия и для специалистов по информации, и для издателей.

Очень большая работа выполнена по разработке и согласованию открытых стандартов. Консорциум World Wide Web Consortium (W3C) – международно признанная компания, разрабатывающая открытые сетевые стандарты, наконец одобрила стандарты издательских технологий и формирования гиперссылок, тем самым завершив весь комплекс работ по созданию системы XML.

Теперь XML вступает в новую фазу широкомасштабного внедрения. Именно на этом этапе потребуется мобилизовать все усилия профессионалов по управлению информацией, классификационным схемам, индексированию, умению организовать поиск и работать с найденными записями.

Для индустрии деловой информации, которая демонстрирует постоянную консолидацию отдельных компаний вокруг трех супергигантов – Группы Томсон (Thomson Group), Рид Эльзевир (Reed Elsevier), владельца системы Лексис-Нексис (Lexis-Nexis), и Фактива (Factiva) – распределение информации становится ключевым фактором в конкурентной борьбе. Мы не думаем сейчас о внутренних (собственных) или внешних источниках информации – сейчас мы озабочены проблемой их группирования в единую систему самым естественным и незаметным для пользователя способом.

Портал деловой информации (например такой, как созданный Фактивой портал Select) – это канал технологии XML, позволяющий корпоративным пользователям группировать воедино новостные материалы в их собственный корпоративный Интернет.

По многим позициям программный продукт Лайв Интранет (Livelntranet), созданный компанией МЭЙД (MAID), предвосхищал систему Select; однако фундаментальная разница состоит в том, что он опирался на собственный программный продукт (технологию индексирования InfoSoft), а не на открытый для публичного пользования стандарт XML. Никто не хочет по доброй воле попадать в кабальную зависимость от единственного владельца ключевых программ.

Можно сказать, что работа с информационными ресурсами состоит из циклов обнаружения ресурса, комплектования, каталогизации и распространения. Такие системы управления ресурсами, как например Interwoven, работающие в протоколах языка XML, предоставляют специалисту по информации возможность из одной точки работать с ресурсами, находящимися в различных независимых хранилищах. Можно извлекать данные из нескольких источников, группировать их и путем обработки создавать новые сетевые документы (либо документы другого формата) по ходу процесса. Инструменты индексирования и поиска (например Autonomy) помогут усовершенствовать обработку материала посредством идентификации сопоставимых терминов внутри документа и между документами или наборами данных и при этом автоматически создавать гиперссылки.

Поскольку XML является технологическим стандартом, можно говорить о хороших перспективах его использования и в качестве стандарта системы управления знаниями. Например, на базе таксономии как неотъемлемой части процесса обработки внутренних данных можно организовать автоматическую разметку в языке XML.

До недавнего времени система разметки языка XML была достаточно свободной и любой пользователь мог по своему вкусу и разумению проставлять символы разметки; распознавание такой разметки требовало передачи пользователю разметочной таблицы. Сейчас положение изменилось – концерн W3C выпустил стандартизованную схему разметки, которая определяет разметочные словари и дает ключи к ассоциированным семантическим понятиям.

Повторим еще раз, центральным моментом языка XML является его адресация к семантике.

Тим Бернерс-Ли (Tim Berners-Lee), директор концерна W3C, человек, которого многие называют крестным отцом Интернета, сейчас работает над созданием "семантической сети"; он описывает ее как естественное расширение сегодняшнего Интернета. Эта семантическая сеть позволит автоматически просматривать данные, обмениваться ими вовсе без участия человека, что безусловно превратит Интернет в единый гигантский компьютер.

Компания Майкрософт также инвестирует сотни миллионов долларов в проект взаимодействующих сетевых ресурсов .NET, который отражает их представление о ближайшем будущем Интернета. Создаваемая система позволит проводить автоматизированный обмен сетевыми ресурсами между отдельными программами, приложениями и базами данных, а там, где это возможно и допустимо, – и между людьми.

Ясно, что такого рода подход нуждается в проверке и удостоверении аутентичности источников информации, чтобы обеспечить безопасность хранения данных и не нарушать право на частную жизнь. Упомянутая схема создает возможности более глубокой проверки и подтверждения при обмене информацией (например при совершении покупок и других финансовых операций через системы электронной коммерции) за счет использования электронной подписи и других инструментов контроля и проверки.

И еще одно новшество, недавно принятое концерном W3C: стандарт, который устраняет последние препятствия на пути всеобщего распространения языка XML.

Расширяемый язык разметки XSL (Extensible Stylesheet Language) позволяет автору многократно использовать и публиковать на разных программных платформах однажды написанный текст. Например, можно из одного текста сделать документы для печати, для размещения в сети или в системе мобильной телефонии. В будущем документы будут представлять собой некие не совсем четкие массивы, созданные "на лету", в процессе их сетевой обработки. При этом для каждого отдельно взятого пользователя (по его заказу) можно будет формировать и публиковать персональное издание.

Новые технологии обеспечат оптимальные условия для хранения данных. И все же виртуальные репозитарии, используемые для многократного формирования документов, нуждаются в обдумывании и разработке системы контроля конкретных записей. Как и в любой другой системе работы с электронными материалами, нужно будет хранить документы, которые могут потребоваться при решении различных вопросов юридического характера, подготовке нормативных актов или для иных деловых целей.

Эти документы должны быть доступны точно так же, как и ныне действующие бумажные документы. И на этом поприще специалисты по информации могут с помощью языка продемонстрировать все свои таланты и принести пользу родному предприятию или учреждению.


Copyright © 1995-2002 ГПНТБ России