Wiki-системы: технологические платформы

 | 13.33

«Телеком. Коммуникации и сети» 6/2008, с.54

Atlassian Confluence, Near-Time, Socialtext и Traction — это четыре пакета, которые предоставляют возможность простого редактирования и создания контента в Wiki, а также учитывают специфику корпоративных приложений. Корпоративная среда требует строгого управления доступом, чтобы предотвратить неавторизованные изменения и размещения файлов.

Atlassian Confluence 2.2.10

Confluence состоит из нескольких составляющих: средство совместной работы, Интранет, репозиторий документов и монитор проектов. Отдельные страницы легко организуются, могут снабжаться аттачментами и включаться в дискуссии на форумах с использованием комментариев. Очень просто можно категорировать страницы в логические последовательности «родители — дети» всего одним щелчком мыши. Каждая страница может быть выведена на печать или экспортирована в PDF.

Помимо стандартных страниц контента Confluence обеспечивает возможность создания новостных страниц (блогов). Это нужно для времязависимого контента, такого как объявления для рабочей группы и возможности размещать комментарии к статьям, что улучшает условия для совместной работы. Мощный генератор RSS позволяет создавать ленты со страниц, новостных заметок, комментариев и аттачментов. Также есть RSS-функционал для внедрения внешних RSS-лент непосредственно в новостные ленты Confluence.

Wiki часто рекламируют как замену электронной почте. Confluence может распознавать сообщения и сохранять их в архиве. Для этого нужно отправить копию сообщения на почтовый ящик Confluence — и содержание будет автоматически проиндексировано и доступно для поиска. Аналогично, аттачменты загружать не нужно: для них работает система версий, ссылок и поиска. Релевантность последнего высокая и обеспечивает гибкий поиск по областям, типу контента или дате. К Confluence имеется семь разновидностей плагинов — от макросов (аналогично тем, что используются при вставке RSS-лент) и Java-сервлетов до наборов тем и обработчиков событий (например, посылка e-mail, если страница была изменена).

Near-Time

Сервис Near-Time позволяет участникам группы обмениваться информацией (групповой Webлог), размещать неструктурированные знания путем создания Wiki-страниц. Весь контент разделяется по областям и может быть публичным или частным. В обоих случаях могут быть созданы подкасты и RSS-ленты для коммуникации с широкой аудиторией. Информация организовывается с использованием категорий и тегов, можно воспользоваться помощью поиска. Календарь событий позволяет отслеживать активность пользователей.

Система обеспечивает шифрование данных по SSL, роли и права на доступ, 1GB для размещения файлов. Управление тем, что пользователь может видеть и что он может делать в определенной области, требует только указания роли (редактор, автор, комментатор или читатель). Управление редактированием обеспечивает вставку документов Word, таблиц и расстановку меток. Система реализует интеллектуальные ссылки на другой контент.

Поисковые запросы могут быть сохранены и размещены на соотвествующей странице.

Несмотря на то что Near-Time — это в основном персональный инструмент и для совместной работы, он позволяет опубликовать некоторый контент путем изменения параметров доступа к области.

Socialtext Workspace 2.3

Socialtext — это первый коммерческий Wiki-продукт. Для тестирования предложены хостинговые профессиональная и персональная версии, версия для корпораций и версия с открытым кодом, поддерживаемая сообществом. Socialtext предоставляет возможности по сравнению версий и восстановлению  предыдущих. Функции администрирования позволяют определить, кто может видеть каждую рабочую область (например, только приглашенные пользователи), но система не позволяет видеть специфические роли и права. Корпоративная редакция добавляет некоторые полезные функции, такие как поддержка цифровых сертификатов, архивирование на сетевых накопителях, возможность поиска ваших Wiki- и Weblog-форм при помощи существующей в корпорации поисковой машины. Socialtext обеспечивает все основные Wiki-функции и ускоряет совместную работу.

Traction TeamPage 3.7

Traction TeamPage включает все элементы индексирования, кросс-ссылок и навигации, имеющихся в системе, что позволяет создавать крупные корпоративные Википедии, а также быстро организовывать весь контент. Система разграничения доступа очень развита, так что каждый пользователь может видеть свой список отчетов, статей и сообщений. Для поиска можно выбрать встроенную поисковую машину Traction или корпоративную OEM-версию FAST. Администраторы проекта имеют возможность легко сконфигурировать главную страницу и страницы проекта так, чтобы они соответствовали корпоративной структуре. Система позволяет быстро и просто публиковать контент и комментарии, подготовленные с использованием веб-ориентированного WYSIWYG-редактора. Traction 3.7 отображает две страницы в Википедия-стиле для поиска различий между двумя версиями, что помогает рабочей группе редактировать или вносить правки в статьи. Traction — система, использующая журналы. TeamPage  предназначена для крупных проектов и предоставляет информацию о необходимом контенте большому числу пользователей с обеспечением исключительной безопасности и контроля доступа к системе.

Различия между рассматриваемыми продуктами — Socialtext и Near-Time — позволяют совместную Wiki-работу, публикацию Weblog’ов, поиск, простой файл-менеджмент и некоторую персонализацию. Atlassian Confluence обеспечивает лучшую организацию контента и расширяемость. Traction TeamPage наряду с тем, что делают другие, дает возможность каждому пользователю получить именно ту информацию, которая ему нужна.

Wiki: в фокусе — метаданные

При поиске и обработке информации необходимо учитывать знания о предметной области (ПрО) и о пользователе. Для этого надо создавать собственные базы знаний (БЗ), содержащие сведения о различных ПрО, либо уметь импортировать знания из внешних БЗ. В идеале было бы добиться преобразования совокупности всех (или хотя бы части) информационных ресурсов Web в единую БЗ. Но для этого каждый документ, находящийся в Web, надо представить в виде некоторого «источника знаний», имеющего определенную структуру, свойства и описывающего некоторые объекты. Для того чтобы создавать и, главное, использовать подобные описания, необходимо разработать соответствующие языки разметки, принципиально отличающиеся от html. Кроме того, надо некоторым образом убедить все мировое сообщество использовать эти языки разметки и создать средства обработки и анализа таких описаний. Такую, на первый взгляд, непосильную задачу ставит перед собой проект Semantic Web.

Это достаточно гибкая и четкая концепция, направленная на то, чтобы информация, представленная в Web, использовалась не только людьми, но и программами, выступающими от лица этих людей — программными агентами. Для этого необходимо обрабатывать семантику данных, то есть работать не с данными, а со знаниями. Поэтому основной акцент концепции делается на работе с метаданными, однозначно характеризующими свойства и содержание ресурсов Web, вместо используемого в настоящее время текстового анализа документов.

Существующие технологии не способны адекватно фиксировать информацию, проходящую через организацию. Сотрудники компаний постоянно используют каналы коммуникации и часто заходят как в Интернет, так и в Интранет. Каналы, однако, находятся в личном пользовании каждого отдельного человека и недоступны остальным специалистам, а посещение различных платформ не оставляет никаких следов. Таким образом, эти каналы и платформы не позволяют ответить на вопросы, связанные с тем, кто еще работает над подобным проектом в это же время, какие важные вопросы сейчас обсуждаются, то есть существенная часть интеллектуальной работы и ее результатов остаются невидимыми для основной массы сотрудников.

Для поддержки коллективной интеллектуальной деятельности необходимо реализовать некоторые базовые компоненты:

1. Поиск. Использование таких средств, как карта интранет-сайта и поиск по ключевым словам, недостаточно эффективны. Необходимо учитывать семантические связи между информационными объектами.

2. Ссылки. Так как оценка страницы часто зависит от количества ссылок на нее (например, Google считает лучшими страницами те, на которые ведет наибольшее количество ссылок), то необходимо предоставить возможность большому числу пользователей добавлять свои ссылки, причем желательно семантически размеченные.

3. Авторство. Популярность Википедии показывает, что большинству людей есть чем поделиться (знаниями, опытом, комментариями, редакторскими правками, фактами, ссылками и т. д.), при этом Wiki предусматривает коллективное авторство, то есть для рассмотренных выше технологий имеются потенциальные пользователи.

4. Теги — короткие гипертекстовые определения, которые обеспечивают лучшую категоризацию контента. Систему категоризации, возникающую в результате создания тегов, которыми пользователи описывают информационные ресурсы, называют фольксономией — в противоположность таксономии (изначальной категоризации, разработанной одним или несколькими экспертами). Основное преимущество фольксономии состоит в том, что она отражает информационную структуру, которая реально используется людьми, а не ту, что была для них спланирована заранее. Помимо построения фольксономий теги позволяют сохранять след на тех платформах, которые посещают специалисты. Сотрудники могут отследить полезные страницы Интранета и Интернета, к которым они прибегают, наблюдать, кто из других сотрудников компании заходит на те же страницы, а значит, работает над схожими задачами. Фольксономия может послужить основой для создания онтологии соответствующей ПрО.

Перспективы развития Wiki-технологий связаны с их интеллектуализацией, то есть с переходом от обычных гиперссылок к системе семантической разметки контента на основе метаданных — семантической Wiki.

Семантическая Wiki — расширение технологии Wiki, использующее модель знаний, которая позволяет указывать тип ссылок между статьями, типы данных внутри статей, а также метаданные о страницах.

В частности, семантическая Wiki направлена на решение описанных выше проблем.

Проект Semantic Web оказал большое воздействие на развитие технологий Wiki. Цель семантической Wiki — автоматизировать обработку сведений, содержащихся в Википедии, и генерировать выделение информации по запросам пользователей. В этом расширении для запросов используется язык SPARQL. Система Semantic MediaWiki написана с помощью механизма расширений MediaWiki. Построенное на машино-понятном языке, это расширение позволяет семантически обрабатывать Wiki-контент («семантическую аннотацию»), предоставляет пользователю возможность для добавления семантической разметки информации.

Semantic Wiki — это расширение традиционной Wiki-технологии, которое предоставляет пользователю возможность для добавления семантической разметки к контенту. В этом расширении для запросов используется язык SPARQL. Система Semantic MediaWiki написана с помощью механизма расширений MediaWiki. Это упрощает интеграцию в существующие приложения MediaWiki. Необходимые коллекции семантических данных в SMW пополняются пользователями, они могут добавить аннотации к Wiki-текстам статей с помощью специальной разметки.

Элементы разметки

В семантической Википедии модель ее знаний описана на ее же страницах. Эта Википедия предоставляет следующие элементы для разметки статей: категории, типизированные ссылки и атрибуты — свойства содержимого статей. Категории классифицируют статьи семантической Википедии в соответствии с их контентом, как и в обычной Википедии. Например, статья «Статистика» относится к категории «Науки». Категоризация — это процесс структурирования схожих статей, но наличие хотя бы одной категории в статье обязательно.

Типизированные ссылки представляют собой тройки RDF, состоящие из субъекта, отношения и объекта. Например, в тройке Киев: [[столица :: Украина]] субъект — имя страницы «Киев», отношение — «столица» и имя страницы «Украина» — объект. Типизированные ссылки позволяют выполнять прямой запрос «Какой город является столицей Украины?», логический вывод «Киев — столица Украины» => «Киев находится в Украине» и агрегирование поисковых критериев в запросе «Киев — столица Украины», «Украина — государство в Европе => «Киев — европейская столица». Для создания триплетов вводится новое пространство имен Relation:, позволяющее получить список известных троек (по аналогии с пространством «Категория» в Википедии). Обработка этих троек состоит из извлечения типизированных ссылок из текста статьи, их преобразования в RDF-тройки и обновления соответствующей БД.

Атрибуты описывают свойства объекта статьи семантической Википедии. Например, можно указать численность населения Украины или ее площадь. При обработке значений атрибутов нужно распознавать используемые единицы измерения. Поэтому с переменными, используемыми в качестве атрибутов объекта, связывают не только определенный тип данных (например, «целое», «текстовая строка»), но и их семантику (скорость в км/ч или м/с). Это позволяет преобразовывать значения с различными  единицами измерения. Для этого в расширение Semantic Wikipedia встроен преобразователь для популярных единиц измерения. Для  хранения значений атрибутов также используются RDF-тройки.

Семантическая разметка позволяет значительно упростить всю структуру Wiki, помогает пользователям быстрее находить нужную информацию.

Гладун Анатолий, старший научный сотрудник, кандидат технических наук Международного научно-учебного центра информационных технологий и систем НАНУ;


Рогушина Юлия, старший научный сотрудник, кандидат физико-математических наук Института программных систем НАНУ

Robo User
Web-droid editor

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *