Андрей Глущенко. «Мониторинг в дата-центре становится «умнее»
Современные тенденции в ИКТ-индустрии оказывают влияние как на развитие центров обработки данных, так и на развитие систем мониторинга их инфраструктуры. Все активнее при организации ИТ используются программно определяемые и облачные платформы. Работа приложений в таких средах полностью переносится на виртуальные ресурсы под управлением программ-оркестраторов. Контроль работы ЦОД в этих случаях уже выходит за рамки функций классических решений мониторинга и управления дата-центром (DCIM), ограниченных отслеживанием параметров работы инженерной инфраструктуры и ИКТ-оборудования. Появляются дополнительные объекты мониторинга – виртуальные среды и виртуальные ресурсы, функционирующие в них.
В связи с широким использованием технологий виртуализации и контейнеризации более комплексными становятся сами ИТ-услуги дата-центров, усложняется контроль за их качеством и требования в рамках соглашений об уровне обслуживания (SLA). И это также приводит к усложнению систем мониторинга и управления инфраструктурой ЦОД.
Практические аспекты внедрения
Для любого ЦОД важны бесперебойная работа и безостановочное оказание услуг (получение прибыли), с одной стороны, и энергоэффективность (сокращение затрат) – с другой. Поэтому для полного контроля и владения ситуацией необходимо непрерывно наблюдать за всеми системами ЦОД, которые тесно связаны между собой.
Поскольку система мониторинга является основным инструментом подразделения, отвечающего за эксплуатацию ЦОД, ее следует рассматривать как одну из систем ЦОД, которая обеспечивает контроль над всеми функционирующими системами. Соответственно, ее необходимо проектировать и внедрять во время строительства и использовать с первого дня эксплуатации дата-центра.
Для контроля за инженерной и ИТ-инфраструктурой система мониторинга должна иметь поддержку логических и программных интерфейсов (API), позволяющих подключать ее к оборудованию или другим контролируемым системам, а также передавать информацию о состоянии систем в другие блоки контроля и управления, например ITSM.
Не менее важной является интеграция с базой данных активов центра обработки данных. Это может быть база данных управления конфигурациями (CMDB), внедряемая совместно с ITSM, или отдельный программный комплекс управления активами со встроенной библиотекой конфигурационных элементов, например FNT Command от компании FNT Software. Такая интеграция позволяет оцифровать всю инфраструктуру центра обработки данных, организовать визуализацию для системы мониторинга, а также быстро и однозначно идентифицировать вышедший из строя компонент и даже автоматически сгенерировать заявку на его заказ на сервисном складе или у поставщика.
В процессе проектирования для каждого показателя, снимаемого системой мониторинга с помощью датчиков, предусматриваются пороговые значения. Они определяются в проектном решении, затем уточняются в рамках опытной эксплуатации и могут меняться в процессе дальнейшей эксплуатации.
Следует определиться с частотой снятия показаний с датчиков и систем. Например, для систем энергоснабжения показания следует снимать посекундно. Система холодоснабжения более инертна, и для нее можно настроить поминутное снятие показателей. Это позволит не перегружать систему мониторинга лишними данными.
Как и всякая другая система, функционирующая в ЦОД, система мониторинга должна быть зарезервирована. При этом необходимо предусмотреть резервное питание для мониторингового оборудования, а сами промышленные мониторы выбирать с повышенными требованиями к сроку службы для обеспечения их бесперебойной круглосуточной работы.
Мониторинг гибридной инфраструктуры
В течение последних двух лет вектор развития корпоративных ИТ-систем поменялся в сторону интенсивного использования коммерческих облачных платформ. Например, некоторые компании переходят к использованию публичных облаков в качестве резервной площадки своей ИТ-инфраструктуры. Таким образом, ИТ-инфраструктура этих организаций становится гибридной: одна ее часть остается в одном или нескольких классических ЦОД, а другая размещается на платформе облачных операторов.
По прогнозам Gartner, к 2022 г. около 20 % предприятий в мире будут использовать гибридные инструменты управления цифровой инфраструктурой локальных, облачных и пограничных сред. В России развитие облаков несколько отстает по темпам от общемировых, но отечественные компании тоже начинают использовать облачные сервисы в своей ИТ-инфраструктуре. Определенную роль в этом играет государство, которое в рамках программы «Цифровая экономика Российской Федерации» выдвигает инициативы по переводу своего взаимодействия с бизнесом в цифровой формат.
Наличие гибридной среды усложняет задачи мониторинга. Помимо мониторинга собственной инфраструктуры организации становится необходимо отслеживать работу инфраструктуры оператора облачной платформы.
Сделать это можно несколькими способами. Один из них – использование в существующей системе мониторинга расширения для подключения облачных платформ. Такие расширения разрабатываются производителями систем мониторинга, и они доступны за отдельную плату. То же относится к решениям Open Source: например, для ПО Zabbix существуют модули подключения к глобальным облачным средам, таким как Amazon или Microsoft Azure. Правда, для российских компаний данный вариант вряд ли подходит, поскольку у глобальных облачных операторов нет своих центров обработки данных на территории России.
Другой подход заключается в том, чтобы установить отдельную мониторинговую подсистему в облаке и использовать ее в качестве прокси-системы для общей системы мониторинга. В этом случае за дополнительную плату внутри облачной инфраструктуры устанавливается физический сервер или выделяются виртуальные серверы (инстансы), которые можно настроить в соответствии с потребностями мониторинга.
Есть и такой вариант – использовать средства мониторинга провайдера облачной системы. Например, у «Яндекса» существует платный сервис Yandex Monitoring со своим API, через который облачные метрики транслируются в систему мониторинга заказчика.
Такие сервисы являются относительно недорогими, поскольку в них тарифицируется только запись метрик, а чтение не тарифицируется. Так, использование Yandex Monitoring при частоте записи 20 метрик/с позволяет получать за месяц более 51 млн значений, а стоимость такого набора составляет всего около 350 руб.
Соответственно, на этапе проектирования необходимо определиться с активами, которые будут размещаться в облаке, и списком метрик, которые необходимо получать о состоянии этих активов. После этого, рассчитав затраты, можно выбрать наиболее эффективный вариант организации мониторинга гибридной среды.
Системы интеллектуального мониторинга
Данные, получаемые от систем мониторинга, нужны не только для организации правильного процесса эксплуатации, но и для грамотного учета и финансового планирования. Это имеет особую важность для руководителей ИТ-подразделений и топ-менеджеров.
Однако владельцам бизнеса, которые оперируют бизнес-процессами и финансовыми показателями, не интересны технические подробности – им необходимы интегральные показатели работы инфраструктуры. Управляющим важно не столько знать, что произошел отказ того или иного сервера, сколько понимать, какое влияние это окажет на текущие процессы деятельности, какое время будет потрачено на восстановление работоспособности оборудования и ПО и какова величина соответствующих затрат.
Как же превратить систему мониторинга в инструмент бизнеса? Ведь управление активами гибридных сред, в которых функционируют современные приложения, представляет собой нетривиальную задачу.
Именно поэтому на рынке появляются системы управления ИТ с искусственным интеллектом (Artificial Intelligence for IT Operations, AIOps). AIOps-система сочетает в себе функции анализа больших данных, собранных из метрик работы инфраструктуры, и машинного обучения. За счет этого обеспечивается в том числе автоматизация таких ИТ-операций, как корреляция событий, обнаружение аномалий и определение причинно-следственных связей.
Что позволяет получить платформа AIOps, будучи развернутой в среде мониторинга дата-центра? Во-первых, она осуществляет аналитическую обработку данных в реальном времени. Это значит, что работу ЦОД можно привязать к бизнес-процессам, установив для каждого из них свой параметр качества в соответствии с SLA. Во-вторых, система интеллектуального мониторинга позволяет проводить постоянную оценку соответствия состояния инфраструктуры дата-центра бизнес-целям. И в-третьих, алгоритмы искусственного интеллекта и машинного обучения позволяют AIOps-системе обнаруживать аномалии в работе центра обработки данных и в дальнейшем уже автоматически корректировать пороговые значения как для отдельных показателей, так и для групп метрик.
В целом на основе данных работы системы можно планировать время на устранение возможных отказов отдельных компонентов инфраструктуры. В результате использование «умной системы» мониторинга позволяет оператору дата-центра контролировать риски деградации услуг для конечного потребителя и выявлять проблемы раньше, чем потребитель о них узнает.
Обладая развитыми API-интерфейсами, AIOps-система может передать информацию о проблеме в ITSM. В то же время и саму ITSM-систему можно контролировать на предмет соответствия SLA. Поэтому интеграция AIOps-решений в инфраструктуру мониторинга ЦОД позволяет в том числе создать решение по защите репутационных и материальных рисков в отношении цифровых бизнес-процессов.
Сегодня такие компании, как IBM, Broadcom, Microfocus, уже представили свои системы интеллектуального мониторинга. Выходят на рынок и специализированные компании. Например, израильская компания Centerity предлагает продукт на базе ресурсно-сервисной модели контролируемого оборудования и систем, который по многим параметрам не уступает лидерам.
В AIOps-системе Centerity информация об инфраструктуре ЦОД может быть собрана либо в режиме автоматической инвентаризации (автодискаверинга), либо взята из существующих систем мониторинга через API-интерфейсы. Технологический стек при этом контролируется на всех уровнях: приложения, базы данных, Big Data и Data Lake, виртуализация и облачные платформы, серверы и системы хранения данных, сети и т. д. За счет этого система поддерживает работу и с традиционными, и с гибридными средами.
Для каждого компонента и уровня в AIOps-решении Centerity проставляется весовой коэффициент, что помогает оценить влияние работы этого компонента на работу инфраструктуры в целом. Эти весовые коэффициенты могут быть взяты из готового шаблона либо назначены вручную в удобном графическом интерфейсе. При этом система анализирует сетевой трафик, относящийся к конкретному компоненту.
В свою очередь, иерархическая структура ресурсно-сервисной модели позволяет проводить анализ первоисточников неисправностей (Root Cause Analysis) для выявления причин нарушений в работе инфраструктуры, будь то проблема с аппаратной частью или сбой программного обеспечения. Кроме того, система подскажет приоритет и срочность устранения проблемы.
Решения AIOps на сегодняшний день могут считаться приоритетным направлением развития систем управления ИТ-инфраструктурой вообще и систем мониторинга в частности. Дальнейшее их развитие, скорее всего, будет связано с усложнением предиктивной аналитики как для предотвращения отказов, так и для планирования использования ресурсов технических площадок. Так что даже при широком использовании альтернатив в виде решений на базе открытого кода стоимость таких систем увеличится.
Вместе с тем нельзя забывать, что для повышения экономической эффективности дата-центра необходимо обеспечивать непрерывность оказания его услуг. И в этом смысле затраты на приобретение и внедрение «умных систем» мониторинга можно вполне рассматривать как инвестиции в гарантированное соблюдение SLA.