Пресса о нас

12.12.2009 | Пресса о нас

ИНТЕЛЛЕКТУАЛЬНЫЕ АГЕНТЫ КАК СОВРЕМЕННЫЙ ИНСТРУМЕНТ ЦЕЛЕВОГО ПОИСКА В ИНТЕРНЕТЕ

Источник: Национальный исследовательский ядерный университет «МИФИ»

 http://library.mephi.ru/data/scientific-sessions/2010/fulltext_t6/1-1-1.doc.

Д.В. ЛЕОНОВ, Д.М. НИКОЛАЕВ, В.С. НИКОЛАЕВ, Б.Н. ОНЫКИЙ,
В.И. МЕТЕЧКО, Б.М. ТУЛИНОВ
Национальный исследовательский ядерный университет «МИФИ»

ИНТЕЛЛЕКТУАЛЬНЫЕ АГЕНТЫ КАК СОВРЕМЕННЫЙ ИНСТРУМЕНТ  ЦЕЛЕВОГО ПОИСКА В ИНТЕРНЕТЕ

В научных публикациях специалистов по сетевым информационным технологиям и на мировом рынке программных продуктов появился новый класс программ, получивших общее название «Интеллектуальные агенты». В статье оцениваются перспективность и практическая значимость этого направления. Рассматриваются и сравниваются функциональные свойства доступных программных продуктов.

Агентные информационно-аналитические системы – одно из новых профессионально-ориентированных направлений развития Интернет и распределенных корпоративных сетей.
Актуальность направления определяется попытками преодоления общих проблем профессионального использования полнодоступной мировой компьютерной сети.
Независимый и неограниченный ввод информации любым пользователем, наряду с полной свободой и высокой скоростью коммуникаций, увеличивает «шум» вокруг профессиональных тематически определенных кластеров. В результате увеличивается время на фильтрацию информации в режиме диалога, т.е. увеличивается непроизводительные затраты времени специалиста.
Возможность создания индивидуальных, коллективных и корпоративных веб-сайтов, наряду с полной свободой структуризации информации и формирования виртуальных организаций, приводит к рассеиванию профессионально значимой информации. В результате опять увеличивается время поиска и неопределенность полноты его результатов.
Основные протоколы, используемые в Интернет, не обеспечены достаточными встроенными функциями поиска. Протокол HTTP, используемый в Интернет, обеспечивает лишь навигацию, которая рассматривается только как средство просмотра страниц, но не их поиска. То же самое относится и к протоколу FTP. В настоящее время информационные ресурсы Интернет составляют свыше десятка миллиардов документов (Web-страниц) и их количество возрастает экспоненциально [1]. Из-за быстрого роста информации, доступной в Интернет, навигационные методы просмотра быстро достигли предела функциональных возможностей и эффективности [2].
Единой функциональной системы обновления информации в этой крупнейшей полнотекстовой распределенной базе данных никогда не было. Для того чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы, использующие принцип полнотекстового поиска (поиска документа в базе данных текстов на основании содержимого этих документов). Тем не менее, проблема поиска профессионально значимой информации не может быть решена универсальными поисковыми системами Интернет (Гугл, Яндекс и др.), так как они рассчитаны на самого широкого пользователя с заранее неопределенными запросами, и в этом их привлекательность.
Идея создания поисковых интеллектуальных агентов состоит в разработке специальных программ, автоматически сканирующих Интернет и специализированные базы данных по заранее заданным поисковым предписаниям, и размещении информации в «семантическом архиве» – тематически ориентированной базе знаний. При таком подходе пользователь освобождается от перечисленных выше проблем при решении задач в профессиональной деятельности и не утрачивает возможности использовать общедоступные функции Интернет.
На рынке программных продуктов, претендующих на реализацию функций интеллектуальных агентов еще нет признанных лидеров. В этих разработках содержатся пока только первые попытки решения открытых задач: как задавать цель и область поиска, как осуществлять диффузию в ранее не заданные области информационного пространства, как поступать при встрече с различными препятствиями в поиске, как унифицировать функции общения между интеллектуальным агентом и другим программным миром, как сохранять принадлежность владельцу и его целям?
Международное сообщество разработчиков интеллектуальных агентов (FIPA) представляет собой виртуальную организацию, насчитывающую 26 постоянных и 30 ассоциированных членов, среди котороых крупные промышленные корпорации (Boeing, Siemens, Toshiba и др.) и университеты, в основном американские, европейские и японские. Российские научные организации в FIPA не представлены.
Главным отличием современных интеллектуальных систем является их распределенность, обеспечение обработки и применение распределенных знаний. Главный смысл происходящих в настоящее время смен концепций создания и использования средств искусственного интеллекта – переход от предположений, справедливых только для изолированных систем искусственного интеллекта, от индивидуальных систем к распределенной обработке информации и разработке многоагентных интеллектуальных систем (МАС).
Вопрос построения универсальной архитектуры МАС остается открытым.
Одна из причин отсутствия общей архитектуры заключена в предметной ориентированности и узкой направленности большинства исследований в области МАС, что позволяет разработчикам создавать агент-ориентированные приложения за короткий срок, однако делает такие системы несовместимыми с другими приложениями, основанными на теории многоагентных систем и понятии агента. В свою очередь, широкое применение многоагентных систем следует ожидать только при формализации и стандартизации архитектур, механизмов и протоколов поддержки прикладных агентов.
Последним достижением FIPA является стандарт обмена сообщениями между интеллектуальными агентами (FIPA Specification). Обмен сообщениями осуществляется на языке ACL (AgentCommunicanionLanguage) [3].
Одним из успешных шагов на пути к созданию действительно интеллектуальных агентов является создание метапоисковых систем, которые в отличие от обычных поисковых систем не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы множества поисковых систем. За счет этого полнота поиска в таких системах возрастает, и вероятность нахождения нужной информации повышается. Современные метапоисковые системы обладают возможностью выбора тех поисковых машин, в которых, по мнению пользователя, он с большей вероятностью может найти то, что ему нужно. Кроме того, подобные системы имеют собственные алгоритмы определения релевантности документов, что позволяет им проводить переоценку релевантности документов, полученных от стандартных поисковых систем.
Нужно отметить, что в любой системе метапоиска наиболее узким местом, является пропускная способность канала передачи данных, так как обработка страниц с результатами поиска, полученными от нескольких десятков поисковых серверов, не является слишком трудоемкой операцией. Затраты времени на обработку информации на порядки меньше времени прихода страниц, запрошенных у поисковых серверов [4].
Метапоисковые системы могут быть реализованы в виде программ, которые устанавливаются на локальный компьютер («Copernic») или на сервер, доступ к которому осуществляется через Web-интерфейс («Nigma»); или являться частью информационно-аналитических систем («Семантический архив»).
Немаловажным аспектом является отображение найденной по запросу пользователя информации. Если для представления числовой информации наиболее удобными являются различные типы графиков и диаграмм, то для представления текстовой информации – карты и графические схемы. Одним из самых эффективных инструментов отображения текстовой информации и ее анализа является семантическая сеть. На ней в графическом векторном виде показаны объекты и связи между ними. В основе работы с Семантическими сетями лежит один из известных методов анализа – визуальный анализ данных  (VAD – Visual Analysis Data) [4].
Для проведения оценки функциональных характеристик агентных информационно-аналитических систем (степени автоматизации информационно-аналитической работы) необходимо рассмотреть технологическую цепочку данной работы без средств автоматизации.
1. Определение источников информации.
1.1. Составляется список источников информации.
1.2. Формулируются критерии оценки источников информации.
1.3. Производится оценка источников по выбранным критериям силами экспертов.
1.4. Производится ранжирование источников на основании выбранных критериев.
1.5. Определяется интегральный критерий отбора просматриваемых источников.
1.6. Составляется расписание просмотра отобранных источников.
2. Формулировка запросов к источникам информации.
2.1. Формулируется унифицированная форма запроса.
2.2. Формулируется списка типовых запросов.
2.3. Формулируются критерии оценки типовых запросов.
2.4. Производится оценка типовых запросов по выбранным критериям силами экспертов.
2.5. Производится ранжирование типовых запросов на основании выбранных критериев.
2.6. Определяется интегральный критерий отбора типовых запросов.
2.7. Составляется расписание использования отобранных типовых запросов.
3. Опрос источников в соответствии с составленным расписанием.
3.1. Реализуется алгоритм согласования расписаний источников и запросов при учете того, что каждому запросу ставятся в соответствие конкретные источники информации.
3.2. Формируется информационный массив документов в процессе опроса.
После выполнения поиска информации начинается этап анализа полученных документов. Суть этого этапа – извлечение знаний, которые можно условно разбить по следующим «уровням пирамиды знаний» [5; 6]:
1. Архитектура. Этому уровню соответствуют основополагающие объекты знаний и формы отношений между ними. Рассматриваются наиболее глобальные подходы к анализу предметной области, выявлению проблемных ситуаций и определению альтернатив решения проблем.
2. Конструкции. Этот уровень соответствует типовым решениям проблемных ситуаций, связанных с данной предметной областью. Любые стратегические замыслы всегда должны быть представлены в виде реальных, физически и логически обоснованных конструкций.
3. Ресурсы. На этом уровне представлены те «материалы», которые могут быть использованы для реализации конструкций. Это – следующая ступень приближения к основанию пирамиды. Сюда могут быть отнесены финансы, источники информации, кадры, организации и т.д.
4. Технологии. На этом уровне дается детальное описание решения проблемных ситуаций при условии конкретного ресурсного обеспечения в рамках заданной конструктивной схемы (сценарий перехода системы из текущего состояния в целевое).
5. Инструменты. Рассматриваются механизмы реализации каждой из операций, составляющих конкретную технологию.
Для каждого уровня можно выделить следующие «секторы знаний» [5]:
1) состояние дел: критерии; оценки; выводы;
2) системный анализ: понятия; структура; отношения (взаимодействия); модели;
3) практический выход: методические материалы (нормативные акты, законы, указы, инструкции, приказы, распоряжения и т.д.); продукты (изделия, программы, комплексы, системы и т.д.); пилотные проекты;
4) прогнозы.
Исходя из вышеизложенного программно-аппаратный комплекс целевого сканирования должен в ходе свой работы выполнять, по крайней мере, следующие задачи:
1) составлять список источников информации по каждому разделу предметной области;
2) ранжировать источники;
3) автоматически собирать документы из источников;
4) оценивать и ранжировать документы по достоверности, полноте и актуальности (ДПА);
5) хранить документы в базе данных;
6) извлекать целевые знания;
7) хранить знания в базе знаний;
8) представлять полученные знания в наглядной форме;
9) предоставлять возможность моделирования предметных областей.
Согласно приведенным выше критериям было произведено исследование функциональных характеристик агентных информационно-аналитических систем «ImageWatch & CrisisAlert», разработанной компанией Image Barometer, и «Семантический архив», разработанной компанией «Аналитические бизнес-решения». Результаты исследования приведены в таблице [4].
 
Сравнение систем WatchDog и "Семантический архив"
 
Функция
WatchDog
Семантический Архив
1.                    
Генерация списка источников информации
+
+
2.                    
Ранжирование источников
-
+
Автоматизированный сбор документов
a.                    
Google
+
+
b.                    
Rambler
-
+
c.                    
Яндекс
-
+
d.                    
Rambler
-
+
e.                    
Yahoo
-
+
3.                    
Оценка и ранжирование документов по ДПА;
-
+
Хранение информации в БД
4.                    
MySQL
+
-
5.                    
Microsoft SQL Server
-
+
6.                    
Извлечение целевых знаний
+
+
7.                    
Хранение знаний
+
+
8.                    
Представление знаний в наглядной форме
+
+
9.                    
Возможность моделирования предметных областей
-
+
 
Выводы по результатам тестирования.
 
1. Система ImageWatch/WatchDog представляется недостаточно гибкой и адаптированной для целевого поиска информации.
2. Система «Семантический архив» является, в свою очередь, вполне мощным инструментом целевого поиска с относительно удобным интерфейсом и крайне богатыми возможностями анализа собираемой и хранимой информации.
3. Создание информационно-аналитической системы по естественнонаучным направлениям и их практическим приложениям на базе «Семантического архива» открывает возможность более глубокого анализа информации путем выявления различных типов отношений между объектами, субъектами, фактами и предоставлении пользователю информации в виде семантических сетей. Например, «физический эффект» и технические устройства, в которых он использован; или «экстремальные значения некоторых физических величин» и адреса организаций, в которых они получены и т.д.  
СПИСОК ЛИТЕРАТУРЫ
 
1.                       Как найти нужную информацию, используя Интернет. [Электронный ресурс]:  Российское общество профессионалов конкурентной разведки.  – Режим доступа: http://www.rscip.ru/base/A815634-8353227.html.
2.                       Ландэ Д.В.  //  Телеком. 2004. № 6. С. 44.
3.                       IEEE Foundation for Intelligent Physical Agents [Электронныйресурс]: сайторганизации «IEEE Foundation for Intelligent Physical Agents». – США: IEEE, 2009. – Режим доступа: http://www.fipa.org.
4.                       Оныкий Б.Н., Николаев В.С., Леонов Д.В. и др. Разработка методов целевого использования интеллектуальных агентов в атомной отрасли. – М.: НИЯУ МИФИ, 2009.
5.                       Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем.С.-Пб.: Питер, 2001.
6.                       Частиков А., Белов Д., Гаврилова Т. Разработка экспертных систем. Среда CLIPS.С.-Пб.: BHV-Санкт-Петербург, 2001.

 

Создание сайта SeaDesign O2