Компьютерные сети
«1» «2»
В поисках истинных причин сетевых проблем
Системы искусственного интеллекта взрослеют. Как это отразится на индустрии сетевого управления и на вашем выборе программного обеспечения?
Основные схемы сетевого управления — так много обещавшие — не оправдали ожида-ний. Оказалось, что их трудно реализовать и использовать, они дороги и не соответствуют ре-шениям в сфере информационных технологий в век Internet.
Однако ситуация меняется. Даже появившиеся в середине 1990-х гг. интегрированные платформы как универсальное средство управления начали перестраиваться. Основные новшества связаны с программными системами с элементами искусственного интеллекта для всестороннего анализа информации из различных источников. Эти решения были призваны обеспечить адаптивность, гибкость и автоматизацию процессов управления.
В данной статье рассматриваются рыночные и технические аспекты элементов искусст-венного интеллекта при управлении. Кроме того, в ней исследуются методы анализа истинных причин (root-cause analysis) сетевых проблем и продукты, реализующие эти методы; процессы и продукты сетевого анализа и корреляции событий; важность сотрудничества в получении эф-фективных решений анализа истинных причин и, наконец, влияние рынка на будущее сетевого управления.
Деревья знаний
Чтобы понять, в каком направлении развивается рынок сетевого управления, полезно представлять основные этапы его формирования. В 80-е гг. особую популярность приобрели мэйнфреймы, поддерживавшие сетевую архитектуру SNA. Соединения были гарантированны-ми, при этом обеспечивался их автоматический учет. С тех пор программное обеспечение и сервисы сетевого управления пытаются в некотором смысле воссоздать этот «райский сад», только в более распределенной и разнородной сетевой среде.
Управлению элементами сети всегда придавалось важное значение, и до сих пор во мно-гих организациях основное внимание уделяется общему состоянию сетевых устройств. При та-ком упрощенном подходе, когда проблемы решаются не в совокупности, а по частям, сеть не может служить основой для предоставления услуг бизнес-класса.
К середине 1990-х гг. рынок сетевого управления уже вполне сформировался. Объеди-нив отдельные решения, заслуживающие внимания, платформы изменили характер работы средств сетевого управления, обеспечив общую среду для запуска многочисленных приложе-ний управления. Однако взаимосвязи и глубокая интеграция приложений с платформой отсут-ствовали.
К 1996 г. ситуация изменилась: отрасль сделала поворот от систем управления сетью к созданию интегрированной среды управления системами (systems-management framework) как основы для управления всей информационной инфраструктурой предприятия. Но данный под-ход вел к снижению роли сети до уровня вспомогательного транспортного средства.
Сегодня термин «интегрированная среда» вызывает у большинства сетевых специали-стов только раздражение. Такие средства управления обладают теми же недостатками, что и традиционные платформы управления сетью, но только многократно усиленными. Интегриро-ванные средыы оказались более сложными и трудными для реализации, они не могли дать практичные, самонастраивающиеся решения, хотя и позволяли глубоко вникнуть в суть про-цесса управления. Любое изменение в сетевом окружении требовало или обновления про-граммного обеспечения, или ручного вмешательства в процесс сетевого управления.
В условиях, когда за считанные секунды требуется сформировать, активизировать и та-рифицировать новые услуги, принцип традиционных и интегрированных платформ «создай собственную философию управления» совершенно неприемлем. Сегодня такие платформы еще существуют, но они эволюционируют к новым, более автоматизированным и более интеллекту-альным моделям. Платформы сетевого управления от таких поставщиков, как Computer Associa-tes (CA), Hewlett-Packard (HP) и Tivoli, перестраиваются для того, чтобы обеспечить поддержку новейших свойств.
К 1998 г. утвердилась новая модель управления. Наиболее общий подход состоит в реа-лизации базовых функций управления (обнаружение неисправностей, управление конфигура-цией, учет, мониторинг производительности и обеспечение безопасности) на уровне бизнес-услуг. Эти услуги включают сервисы приложений, виртуальных частных сетей (VPN) и всего того, что способствует получению доходов. Подход к управлению на уровне услуг предполага-ет новый тип автоматизации и построения программного обеспечения, когда основное внима-ние сосредоточено на предоставлении услуг в автоматизированном самонастраивающемся ре-жиме, а не в виде реакции на какие-то уже произошедшие события. В настоящее время модель управления на уровне услуг начинает получать признание.
Большая перестройка
Рисунок 1. В 2000 г. компания Enterprise Management Associates провела исследова-ние пользовательских предпочтений в об-ласти решений анализа первопричин и корреляции событий. Эта диаграмма от-ражает главные причины инвестиций в средства анализа первопричин.
Концепция электронной инфраструктуры (e-infrastructure) объединила управление сетью, системами и приложениями в общую модель управления. По существу это разновидность управления на уровне сервиса, специально приспособленного для электронного бизнеса. В то время как управление на уровне сервиса с помощью электронной инфраструктуры способствует повышению доходности бизнеса, реализация данного подхода представляет собой непростую задачу и требует существенного обновления приемов создания систем управления.
Применение методов анализа первопричин (root-cause analysis) начало изменять рынок сетевого управления. Эксперты пока спорят о точном определении таких методов, но обычно под ними понимается поиск и изоляция неисправного элемента, послужившего первопричиной возникновения проблемы. Это может быть сетевое устройство, приложение, сервер или любой компонент такого рода объектов. Администраторы все чаще прибегают к методам анализа первопричин при решении проблем работоспособности и производительности сети.
Естественно, нужно остерегаться назойливой рекламы: большинство производителей, предлагающих средства по выявлению и устранению неисправностей практически в реальном масштабе времени, будут заявлять, что их продукт поддерживает функции анализа первопри-чин сетевых проблем.
Рисунок 2. Удовлетворенность реше-ниями анализа первопричин указыва-ет на высокую степень полезности этих средств, хотя остается еще много возможностей для их улучшения.
Многие пользователи ставят знак равенства между методами анализа первопричин и корреляции событий, с помощью которого анализируются взаимосвязанные события в сетевых устройствах, компьютерных системах или приложениях — как правило, с целью сокращения количества тревожных сообщений. События включают в себя широкий диапазон явлений в ин-фраструктуре сети, в том числе чувствительные ко времени и связанные с производительно-стью сети. К родственным технологиям относятся основанные на правилах традиционные сис-темы, изначально сложные в реализации и недостаточно гибкие, а также системы принятия ре-шений с учетом прецедентов, нечеткая логика и нейронные сети. Все эти технологии как раз для того и были разработаны, чтобы привнести интеллектуальное начало при ответах на вопро-сы «где» и «почему», касающиеся характеристик инфраструктуры. Корреляция событий — од-но из средств, используемых при анализе первопричин, — но она дает только частичный ответ на возникающие вопросы.
Анализ первопричин становится центральным звеном в применяемых стратегиях управ-ления. Технологии анализа первопричин появились в 1990 г. вместе с платформами и вполне могли придать им большую значимость. Если бы усовершенствованные средства корреляции событий можно было применить для того, чтобы разобраться в море красных огоньков, пода-ваемых различными устройствами или иными управляемыми объектами, то платформа, может быть, и стала бы чем-то иным, нежели просто удобным средством запуска приложений.
Основная проблема заключалась в сложности реализации подобных систем. Многие из тех, кто считал, что платформы трудны в реализации, дороги и морально устаревают еще до за-вершения внедрения, сочли, что виной тому - основанные на правилах средства анализа перво-причин. Дело в том, что, систематизируя накопленный опыт, системы подобного рода позволя-ют справиться с проблемой и изолировать ее, но требуют на начальной стадии внедрения очень большой подготовительной работы.
Становление систем анализа
Сегодня весь груз проблем, связанных с созданием системы управления, смещается от пользователя к производителям, выпускающим все более самонастраивающиеся продукты. Эти изменения во многом связаны с хранилищами объектов - безусловно, самой интересной нова-цией в сфере программного обеспечения анализа первопричин сетевых проблем. В такие хра-нилища помещается информация об управляемых объектах - сетевых устройствах, приложени-ях и т. п. Задача производителя - вовремя моделировать элементы, имеющие отношение к но-вым устройствам или новым приложениям и их компонентам, и быть всегда в курсе всех нови-нок как среди устройств, так и среди программного обеспечения. Новые объектно - ориентиро-ванные возможности средств разработки программного обеспечения, часто связанные с техно-логиями реляционных баз данных, делают этот трудоемкий процесс более ясным и эффектив-ным.
Топология — вторая область развития. Она порождается сетевой средой и помогает по-нять, как связаны между собой сетевые устройства, компьютерные системы и приложения. Так, в традиционной маршрутизируемой среде тревожные сообщения от неисправрого устройства, такого как маршрутизатор или сервер, не распространяются вниз по иерархии. В некоторых продуктах управления, например OpenView компании Hewlett-Packard с модулями Smart Plug-Ins для VantagePoint, реализовано автоматическое обнаружение компонентов топологии, таких, как сетевые устройства, приложения, настольные системы и серверы.
Сетевая топология стала ареной жесткого соперничества, так как различные производи-тели предлагают разнообразные решения для канального и сетевого уровней, а также для под-держки локальных виртуальных сетей VLAN. Знание проблемных мест в сетевой среде не сво-дится просто к блокировке потока сообщений о неисправностях. Некоторые разработчики ис-пользуют знание топологии сети для решения задач инвентаризации и учета оборудования.
Изменения затронули и ту область, где к анализу взаимосвязанных событий привлека-ются элементы искусственного интеллекта. Для анализа первопричин требуется каким-то обра-зом установленить соответствие между собственно сетевыми событиями, изменениями тополо-гии и другими изменениями, связанными с устройствами и приложениями. Как правило, таким средством является алгоритм или совокупность алгоритмов, которые производители хранят за семью печатями.
Продукты анализа первопричин могут включать и другие элементы искусственного ин-теллекта, такие, как нечеткая логика, экспертные системы и нейронные сети. Примером являет-ся сеть Neugents компании Computer Associates (CA), в которой достоинства нечеткой логики и нейронных сетей используются для предупреждения проблем, связанных с производительно-стью.
На Рисунке 3 представление и контекст подчинены интеллектуальным средствам корре-ляции событий. Представление и контекст могут изменяться в широком диапазоне - от экрана для просмотра тревожных сообщений до полного набора решений для уровня услуг, и даже до реализации самого бизнес-процесса, когда проблемы с доступностью и производительностью тут же соотносятся с качеством бизнес-услуг. Таким образом, весь мощный потенциал средств искусственного интеллекта может использоваться как для бизнеса, так и для выяснения чисто технических вопросов.
В таких системах в автоматическом режиме возможно выполнение широкого спектра действий - от управления тревожными сообщениями до динамических изменений конфигура-ции на основе анализа качества сетевых услуг. В этой области наблюдается интерес производи-телей к совместным разработкам. Прежде готовые решения интегрировались с решениями для отслеживания процессов устранения неисправностей в сетях. Однако нынешние примеры со-трудничества - совместная работа Micromuse c Orchestream по обеспечению формирования ус-луг в сетях на базе оборудования разных производителей, союз RiverSoft с Jyra в области средств интегрированного управления производительностью и работоспособностью, использо-вание компанией Peregrine технологии Loran для систем оказания помощи пользователям, а также управление инвентаризацией - все это дает представление о других областях, в которых решения анализа первопричин смогут внести свой вклад в форме автоматизированных действий и представления взаимосвязей.
Исполнение желаний из коробки
В области автоматизации действий ключевым фактором дифференциации решений является возможность настройки автоматизированных операций, например операций процесса управления критическими состояниями. Такие производители, как Micromuse, могут автомати-зировать процедуры корректирующих действий организационной политики предприятия, ука-зывая, кто именно, в каком подразделении организации, в какое время дня и что конкретно должен сделать для решения возникшей проблемы. Производители, обладающие соответст-вующим опытом - например, в области анализа предистории и составления отчетов, - органич-но сотрудничают с компаниями, выпускающими интеллектуальные системы анализа первопри-чин.
Учитывая все новации, можно ли рассчитывать на появление из коробки (в которую упакована система управления) джина, который решит задачи автоматизированного управления производительностью и работоспособностью вашей сетевой инфраструктуры? Видимо, пока нет, хотя такие продукты, как ServiceCenter Au-tomated Resolution компании Pere-grine (приоб-ретенные вместе с компанией Loran), приближаются к заветной цели. Применяя адаптивный подход к управлению, ServiceCenter предлагает средства анализа первопричин вплоть до уровня устройств.
В большинстве лучших решений по анализу первопричин можно обнаружить сочетание автоматизированных процедур и «коробочных» решений по устранению сетевых проблем с процедурами, настраиваемыми в соответствии с уникальными условиями конкретного заказчи-ка. Этот подход может оказаться эффективным, если уровень автоматизации достаточно высок, а процесс создания локализованных правил - прост. Однако пока мало продуктов, которые бы удовлетворяли этим требованиям. Имейте в виду, что продукт «из коробки», как правило, ре-шает только часть того, что вам необходимо.
Продукты эволюции: средства анализа первопричин
Итак, давайте рассмотрим некоторые решения по анализу первопричин сетевых проблем (интегрированные и традиционные платформы выходят за рамки данной статьи и поэтому здесь не рассматриваются). Компания Entuity предлагает продукты анализа первопричин, обладаю-щие хорошими возможностями по управлению производительностью и работоспособностью, в особенности для виртуальных локальных сетей (VLAN). Ее система Eye of the Storm, вклю-чающая в себя такие компоненты, как Early Warning Center (центр раннего предупреждения), Report Center (центр отчетов) и Switched Early Warning Center (коммутируемый центр раннего предупреждения), предназначена для инженерного персонала сетевого операционного центра (Network Operation Center, NOC) и отделов информационных технологий. Продукт может ана-лизировать перебои в работе сети посредством рейтинговой системы, учитывающей широкий диапазон условий работы сети - от нормальных до существенного снижения производительно-сти и полной неработоспособности.
Эта компания также поддерживает управление на уровне сервиса и функции инвентари-зации в версии 2.5 Eye of the Storm, выпущенной в конце 2000 г. Продукт критикуется за его высокую стоимость и невозможность вмешательства пользователя в процесс составления отче-тов.
Продукты компании Magnum Technologies поддерживают широкий спектр возможно-стей и просты в развертывании и использовании. Программное обеспечение Magnum COORDINATOR анализирует первопричины проблем и предоставляет средства для автомати-ческого обнаружения сетевых компонентов, включая тех, которые работают на канальном уровне, — эти особенности могут дополнять аналогичные функции платформ.
Продукт CAP-TREND предназначен для планирования производительности и пропуск-ной способности, а ADVANTAGE — для управления на уровне сервиса. CAP-TREND и ADVANTAGE легко инсталлировать и обслуживать. Разработки компании Magnum хорошо се-бя зарекомендовали во многих клиентских средах, но это все еще очень незрелое решение, с перспективой дальнейшего развития.
Компания Micromuse особое значение придает консолидации информации о неисправ-ностях и операционному управлению на уровне услуг. Приобретение в 2000 г. компании Calvin Alexsander Networking позволило ей укрепить такие направления, как анализ первопричин и учет топологии среды, особенно для канального уровня. Продукт включает модуль Netcool/OMNIbus, объединяющий информацию для последующего централизованного управ-ления на уровне сервиса и обработки сообщений о неисправностях; модуль Netcool/Precision, непосредственно выполняющий анализ первопричин, и модуль Netcool/Impact, предназначен-ный для функционально-ориентированной настройки воздействия на услуги, включая сервисы приложений.
Продукты компании Micromuse начинают учиться работать с предысторией событий, а также с информацией о качестве сети. Приобретение компании NetOps дало возможность при-менить средства анализа первопричин для предупреждения возникновения проблем и их кор-ректировки - с помощью Netcool/Visionary. Программное обеспечение компании Micromuse всегда ориентировалось на сети, а также на поставщиков услуг и крупные предприятия. Компа-ния не ставит своей целью производить «коробочные» решения, а добивается успеха в тех слу-чаях, когда решения разворачиваются стратегически.
Бизнес компании RiverSoft Tech-nologies развивался вокруг ее операционной системы Network Management Operating System (NMOS), которая поддерживает приложения управления неисправностями, производительностью и конфигурацией. Данный продукт создает надежную основу для принятия решения задач описания сетевой топологии, локализации неисправностей и автоматизации действий. Хотя RiverSoft в настоящее время поставляет только средства управления неисправностями, этот продукт может быть использован для реализации полного спектра требований Форума удаленного управления (TeleManagement Forum) по группам функ-ций управления неисправностями, конфигурацией, учетом, производительностью и безопасно-стью.
Операционная система NMOS включает в себя инструментальные средства опроса сете-вого оборудования, хранилище объектов и средства обнаружения и описания топологии; она также поддерживает в качестве приложения функции управления неисправностями (на основе развитых методов интеллектуальной корреляции событий). RiverSoft недавно взялась обеспе-чить улучшенную поддержку канального уровня для Network-Node Manager - платформы сете-вого управления компании HP.
Компании System Management ARTS (SMARTS), одной из немногих производителей средств анализа первопричин, удалось создать удачное решение в области анализа взаимосвя-зей с помощью элементов искусственного интеллекта на базе модуля под названием Codebook Correlation. Этот модуль анализирует проблемы, связанные с работой сетевого оборудования, серверов и, до некоторой степени, - приложений, назначая определенные уровни вероятности для каждой из проблем.
Комплект продуктов InCharge предоставляет в дополнение к обычному управлению се-тью информацию о производительности и готовности сетевых сервисов. InCharge разработала хранилище данных, совместимое с общей информационной моделью (Common In-formation Model, CIM) - похоже, что такое хранилище будет приобретать все большее значение по мере того, как интеллектуальным системам, подобным тем, которые предлагает компания SMARTS, потребуется в недалеком будущем большая степень совместимости. InCharge получает высокие отзовы от заказчиков. Это сфокусированное решение, и его высокое качество во многом объяс-няется партнерскими отношениями производителя, позволившими успешно применить его ин-теллектуальные динамические свойства.
При локализации неисправностей продукт Event Watch компании Tavve Software Company ведет себя подобно сетевому операционному центру (NOC), опираясь на данные о се-тевой топологии и корреляционный анализ процессов, протекающих в сети. Компания Tavve более других производителей средств анализа первопричин использует преимущества коррели-рованной базы данных для целей составления отчетов и проведения анализа — как при управ-лении сетевой производительностью, так и при управлении на уровне сетевых услуг. Например, данные, показывающие, что сервер, расположенный за вышедшим из строя маршрутизатором, недоступен, не отражают производительность сервера. Сопоставление информации о взаимо-связанных процессах может помочь составить правильное представление о рабочих характери-стиках сети.
Компания Tavve разработала архитектуру ePROBE, учитывающую специфику использо-вания межсетевых экранов и высокую степень распределенности среды Internet. ePROBE рабо-тает внутри межсетевого экрана как распределенный ресурс и может связываться с удаленной консолью. Продукты Tavve имеют внутренние ограничения, например зависимость от сущест-вующей платформы сетевого управления, от которой они получают информацию о топологии сети и статусе устройств, хотя продукт и обладает своими собственными средствами опроса статуса и поддержки топологии. В последнее время компания разработала собственное средст-во для автоматического обнаружения сетевых компонентов.
Проблемы решит маршрутизация
Программные средства анализа первопричин переопределяют принципы сетевого управ-ления, причем основными достоинствами новых программных продуктов являются автомати-ческое обнаружение и устранение неисправностей и управление производительностью, а также возможность управления на уровне услуг. И даже управление инвентаризацией и учетом уста-новленного оборудования выигрывает от расширенных возможностей определения топологии сети, предлагаемой некоторыми разработчиками программного обеспечения анализа первопри-чин. За счет партнерских отношений разработчикам программного обеспечения анализа перво-причин удается увязать свои решения с функциями управления конфигурацией, учета и бил-линга систем управления. Используя свой опыт в области биллинга в IP-сетях, компания XACCT и подобные ей производители могут определять соответствие между сетевой произво-дительностью и качеством бизнес-функций.
Возрастающая конкуренция породила большой выбор продуктов анализа первопричин, однако нужно быть готовым потратить некоторую сумму денег. Стоимость большинства реше-ний начинается приблизительно с 50 тыс. долларов и более. Кроме того, можно воспользовать-ся комбинацией продуктов анализа первопричин, основываясь на достоинствах каждого из них - выбирая, скажем, один продукт за его функции управления на уровне услуг, а другой - за его мощные средства анализа взаимосвязи событий.
Программное обеспечение анализа первопричин - поле деятельности не для одного про-изводителя. На рынке присутствует большая группа компаний-разработчиков, которые произ-водят интеллектуальные продукты с высокой степенью интеграции. И рынок сам поможет по-нять, какой следующий шаг им следует сделать.