Евгений Иванилов. «Механизмы виртуализации и адаптивная инфраструктура»
Информационные системы, организованные по новому принципу, получили название адаптивной инфраструктуры, или сервис-ориентированной вычислительной среды. Это означает, что имеющиеся ресурсы выделяются по требованию (on demand) для решения возникающей в данный момент задачи. Вычислительные мощности совокупности серверов (процессорное время, дисковое пространство) виртуализируются, то есть с логической точки зрения представляются как единый ресурс, допускающий гибкое распределение. Это касается также организации данных, которыев новой среде получили название «интегрированная информация».
Повышение КПД
Анализируя историю развития сферы информационных технологий, Кроуфорд Дел Прет, старший вице-президент исследовательской компании IDC по направлению аппаратного обеспечения компьютерных систем и телекоммуникаций, отмечает, что главные векторы развития вычислительных систем меняются каждые 10 лет. Так, в середине 60-х годов прошлого века доминантой развития индустрии были мейнфреймы, в середине 70-х годов – миникомпьютеры. Середина 80-х сместила вектор технологического развития в сторону клиент-серверных вычислений, а середина 90-х связана с приходом Интернет-технологий. Следующий революционный поворот должен произойти в районе 2005 года и, как считает Дел Прет, главным его содержанием будет значительное повышение коэффициента полезного использования (utility) компьютерных систем. «Центр обработки данных современных компаний крупного и среднего уровня – это пестрая смесь серверов баз данных, серверов обработки транзакций, Web-серверов, файловых и принт-серверов, соединенных мешаниной проводов и кабелей», - считает Дел Прет. Первый этап на пути преобразования компьютерных систем организаций в сторону резкого увеличения доли полезной работы связан с консолидацией серверного хозяйства. Аналитики считают, что в течение 2004 г. до 75% американских компаний займутся консолидацией серверных ресурсов.
Действительно, за счет консолидации серверных ресурсов компании могут получить немалую выгоду. Согласно данным аналитиков, сегодня возможности аппаратного обеспечения серверов используются на 8 – 30%. При этом на каждый доллар стоимости оборудования затрачивается 10 долл., требуемых для управления серверным оборудованием. Фактически получается, что организации сегодня оплачивают непрерывную сложную работу по управлению простаивающей вычислительной мощностью. При этом персонал еще и совершает ошибки в управлении – до 40% случаев вынужденного простоя компьютерной инфраструктуры связано с человеческим фактором. Остается добавить, что, согласно данным недавнего опроса американских ИТ-менеджеров, который провела компания Standish Group, 75% бюджета ИТ-подразделения уходит на поддержку унаследованных систем и только 20% направляется на внедрение инноваций.
Следующим этапом развития компьютерных систем, по мнению Дел Прета из IDC, станет использование совместимых ресурсов на базе техник автоматизации и виртуализации. На третьем, завершающем этапе перехода к новой организации информационных систем будет обеспечено динамическое совместное использование всех ресурсов центров обработки данных: процессорной мощности, емкости хранения и сетевых ресурсов.
Аналитики IDC прогнозируют, что объем рынка компьютерных систем с высоким коэффициентом использования будет расти от уровня 800 млн. долл. в 2003 г. до более чем 3,6 млрд. долл. в 2007 г. При этом они выделяют три основных сегмента этого будущего рынка: средства мониторинга и управления, средства автоматизации центров обработки данных и инструменты визуализации.
По мнению специалистов IDC, в 2003 г. наибольшую долю рассматриваемого рынка составят средства мониторинга и управления. Однако уже к 2005 г. ожидаемый объем этого сегмента (400 млн. долл.) будет вдвое меньше, чем объем сегмента средств автоматизации (800 млн. долл.), и втрое меньше объема рынка средств виртуализации (1,2 млрд. долл.). Соответствующее распределение рынка в 2007 г. будет выглядеть следующим образом: 500 млн. долл., 1 млрд. долл., 2,2 млрд. долл.
Мэри Джонсон Тернер, аналитик из другой американской компании Summit Strategies, согласна с тем, что именно средствам виртуализации принадлежит решающая роль в осуществлении перехода ИТ-мира в состояние мира on demand: «Виртуализированные резервуары самоуправляемых ИТ-ресурсов, которые динамически перераспределяются в соответствии с заданной политикой управления, будут обеспечивать легкую перенастройку ИТ-инфраструктуры на лету для того чтобы оперативно адаптироваться к изменениям бизнес-окружения или потребностей в услугах. Будет абсолютно не важно, где именно размещены ресурсы и как они управляются – персоналом ли самой организации или внешним провайдером ресурсов. Важно, что они будут предоставляться и тарифицироваться в точном соответствии с уровнем реального потребления и качества».
Сегодня мы находимся в начале этого пути, на этапе осознания необходимости консолидации серверных ресурсов и осуществления некоторых шагов в направлении снижения сложности и стоимости поддержки серверного хозяйства. В большинстве случаев уменьшение количества используемых серверов достигается за счет организации нескольких разделов дисковой памяти (partitioning), что дает возможность сделать управление корпоративным центром обработки данных (ЦОД) более простым и менее дорогим занятием. Однако приложения по-прежнему функционируют на выделенных серверах с фиксированной памятью и сетевыми соединениями. Необходим следующий шаг – консолидация всех серверных ресурсов: вычислительной мощности, емкости хранения и сетевых ресурсов, – в единый резервуар ресурсов ЦОД. Тогда удастся существенно увеличить экспоненциальный, по мнению авторов специального обзора «Data Center Virtualization», подготовленного журналом Network World, коэффициент полезного использования ЦОД и добиться соответствующего снижения его совокупной стоимости.
Авторы другого исследования подсчитали, что приблизительно через год после внедрения соответствующих средств компании среднего и крупного размера, работающие с данными объемом 5 Тбайт, потенциально смогут экономить до 170 тыс. долларов – за счет повышения степени полезного использования аппаратного обеспечения и до 80 тыс. долл. – за счет повышения производительности труда администраторов.
Еще не все готово для полномасштабной реализации этой задачи. Однако сегодня на рынке уже имеется ряд ИТ-решений, с помощью которых организации могут добиться значительного повышения полезной производительности ЦОД.
Виртуализация на базе компактных серверов
М. Джонсон Тернер из Summit Strategies считает, что один из возможных путей реорганизации информационных систем – построение ЦОД их компактных (blade) серверов, монтируемых в стойки , управляемых соответствующими программами. Эти устройства получили широкое распространение у провайдеров сервисов и приложений благодаря удобству интеграции и высокой вычислительной мощности. Каждый сервис содержит от 1 до 4 процессоров. Одна стойка включает в себя от 48 до 250 процессоров. Система допускает оперативное (без включения питания) добавление/удаление устройств, консолидацию кабельных систем, содержит интегрированные средства управления, а также инструменты автоматического развертывания ПО.
Полноценному использованию инфраструктуры на базе множества небольших серверных устройств, снабженных собственной операционной системой и локальной памятью, препятствует высокая сложность управления этой структурой, обеспечения отказоустойчивости и переконфигурирования отдельных серверов, а также сложность выделения нужных ресурсов для отдельных приложений.
Для устранения этих недостатков недавно была предложена архитектура сети обработки данных (Proccessing Area Network, PAN), которая предполагает, что бездисковые тонкие сервера, соединенные с внешней памятью и корпоративной IP-сетью, управляются по сети с помощью интегрированных высокоскоростных соединений. Важный элемент концепции PAN – специальное ПО, которое превращает отдельный сервер в часть единого логического «резервуара компьютерных ресурсов». На логическом уровне происходит дезинтеграция процессоров, элементов хранения, сетевых ресурсов, принадлежащих конкретным физическим устройствам, и превращение их в обобществленные ресурсы, динамически выделяемые серверам с помощью ПО виртуализации. В результате снимается жесткая привязка ресурсных мощностей к конкретным приложениям, а услуг – к конкретному оборудованию и сетевым соединениям. Предоставление ресурсов производится автоматически на основе корпоративных правил или договора SLA (Service Lelev Agreement).
Приведем оценку экономической эффективности имеющихся на рынке решений виртуализации ЦОД, выполненную аналитиками Network World:
- снижение капитальных затрат на аппаратные средства на 20–60%, в частности за счет применения более дешевых универсальных компьютерных платформ, а также за счет уменьшения общего количества требуемых устройств;
- снижение общей стоимости лицензий на ПО (меньшее количество серверов требует меньшего количества копий операционных систем, приложений, средств управления и т. д.);
- увеличение доли полезной работы, выполняемой серверами, с 20% до 70– 80%, в том числе и за счет уменьшения влияния человеческого фактора;
- обеспечение оперативного запуска новых приложений;
- обеспечение более четкого соответствия имеющихся ИТ-ресурсов задачам компании. Похоже, что сегодня мы уже переживаем период революционных изменений в организации информационных систем: центр обработки данных превращается в центр поддержки ИТ-услуг, вычислительные системы – в управляемый производственный ресурс. Управление информационной инфраструктурой предприятия становится проще (для системных администраторов) и понятнее (для руководителей).
Надо отметить, что главным содержанием этого революционного этапа является распространение механизмов виртуализации на всю ИТ-инфраструктуру предприятия целом – сами по себе механизмы виртуализации не являются новинкой последних лет. На уровне систем хранения данных виртуализация была реализована еще в мейнфреймах IBM. Именно в области хранения данных отрасль ИТ накопила самый значительный опыт практического воплощения механизмов виртуализации.
Storage – больше, чем хранение
Возможность совместного использования данных (data sharing) появилась еще в начале 80-х годов как ответ на потребности предприятий в повышении эффективности обработки данных. Сегодня этот термин подразумевает возможность доступа к единственной копии файла нескольких пользователей. Иногда он понимается как средство поддержки репликации файлов или баз данных, которое дает возможность нескольким пользователя (или приложениям) одновременно использовать отдельные копии данных.
В простейшем случае однородной серверной среды, когда все северы работают под управлением одной и той же операционной системы, доступ множества серверов к единой консолидированной системе хранения реализуется достаточно просто. Если же речь идет о гетерогенной среде, включающей, например, сервера под управлением ОС UNIX и Windows, задача совместного использования данных становится гораздо сложнее и требует применения специальных механизмов консолидации и управления данными.
В качестве первого серьезного ответа на требования консолидации данных в гетерогенных серверных средах в конце 90-х годов появились:
- концепция NAS (Network Attached Storage), устройства хранения, подключаемого непосредственно к локальной или глобальной и сети, ориентированная на файловые сервисы;
- концепция сети хранения данных (SAN), ориентированная на обработку блоков данных, хранящихся в базах данных;
- интерфейс iSCSI (Internet Small Computer System Interface), с помощью которого можно создавать сети хранения данных без использования дорогостоящего оптоволоконного оборудования.
Все эти решения объединяет одна характеристика – попытка снизить ТСО системы хранения, внедряя эффективное управление «островками» информации, изолированно располагающимися в гетерогенной среде, включающей различные ОС, форматы данных и пользовательские интерфейсы.
Технология SAN обеспечивает реальную консолидацию ресурсов хранения и их совместного использования, поскольку емкость хранения может подключаться ко многим серверам, в том числе и удаленным, а машины, обрабатывающие данные, освобождаются от задачи управление ресурсами и их хранения.
Практическая реализация виртуализации Консолидация данных может выполняться на двух уровнях: физическом и логическом. Консолидация на физическом уровне предполагает, что данные из различных подсистем хранения собираются на совместно используемых дисковых массивах, которые могут размещаться удаленно от серверов. Емкость этих массивов совместно используется множеством серверов. Чаще всего используется деление массива на разделы (partition) или зоны таким образом, что каждый сервер имеет доступ к определенной порции данных. Такие подсистемы обычно снабжаются развитыми функциями зеркалирования, репликации данных и т. д. Пример такой системы – RAID-массив. Вся доступная емкость может динамически перераспределяться между серверами, требующими дополнительного дискового пространства, например, емкость, не используемая сервером приложений, может быть передана другому серверу. Таким образом, физическая консолидация данных позволяет повысить эффективность использования дискового пространства, сводя к минимуму неиспользуемые излишки. Однако физическая консолидация не способна охватить все адресуемые излишки дискового пространства. Консолидация на логическом уровне, реализуемая в сетях хранения данных SAN, позволяет получить преимущества совместного использования данных на базе уже существующего оборудования: связи SAN могут устанавливаться между клиентом и группой устройств хранения, которые физически не совмещены (за исключением встроенных серверных устройств). Такой логический подход к комбинированию дисковых ресурсов позволяет распределять и перераспределять доступную емкость между различными приложениями, работающими на распределенных серверах. В результате достигается еще более высокая степень полезного использования ресурсов хранения. |
Однако концепция предоставления вычислительных ресурсов по требованию выдвигает новые требования к системам хранения. Несмотря на то, что стоимость устройств хранения постоянно снижается приблизительно на 30% ежегодно, объем хранимых данных, требуемых для ежедневного обеспечения экономической деятельности и потребностей частной жизни, возрастает каждый год приблизительно на 50%. При этом требования по доступности информации только повышаются. По последним оценкам, все абоненты Интернета, которых насчитывается 300 млн. человек, ежемесячно перемещают по сетям передачи данных 2 петабайта информации. Формы пользовательского поведения становятся все более разнообразными, интегрированные приложения передачи контента – все более интерактивными. В таких условиях, по оценкам специалистов IBM Джона Мура и Кьела Нистрома, стоимость управления хранением данных может до 11 раз превышать стоимость собственно хранения.
Для того чтобы обеспечить полноту реализации возможностей, предоставляемых технологией SAN, используется механизм виртуализации системы хранения. Главная цель виртуализации – обеспечивать совместное использование данных, их высокую доступность, возможность гарантированного восстановления после сбоев и улучшенную производительность. На базе консолидированных ресурсов хранения становится возможным внедрять автоматизированные механизмы управления на базе правил, чего нельзя достичь на основе одних лишь аппаратных компонентов SAN.
Таким образом, виртуализация наполняет новым содержанием традиционный термин «система хранения данных». Скрывая от конечного пользователя сложность внутренних механизмов функционирования (ресурсы хранения уже больше похожи на предмет массового потребления, чем на часть сложной программно-аппаратной системы), виртуализация одновременно расширяет функциональность традиционных сервисов хранения. Например, становится возможным объединить множественные источники каких-либо сервисов в единый виртуализированный сервис или добавить функцию безопасности к небезопасному сервису. Свои технологии виртуализации хранения, которые в общем виде можно описать как переход от уровня физических томов данных на уровень логической абстракции, предложили все основные поставщики технологий хранения. В качестве одного из примеров рассмотрим подход корпорации IBM. В нем обобщен опыт практической реализации виртуализации хранения длиной в несколько десятилетий, что позволило корпорации создать продукты, распространяющие технологию виртуализации на всю сеть SAN.
Повышение «сетевого интеллекта»
Технологии SAN способны упростить географическое расширение информационной системы предприятия. Однако воспользоваться всеми возможностями совместного использования данных нельзя, если в сети присутствуют серверы различных типов, управляемые различными ОС. Дисковая память оказывается поделенной на разделы, соответствующие каждому типу сервера, что усложняет управление, что усложняет управление и снижает эффективность использования памяти. Если появляется необходимость добавления памяти, исполнение приложений должно прерываться. В то же самое время пользовательские приложения постоянного усложняются, получают распространение интегрированные среды передачи данных различной природы (видео, оцифрованная речь). Появление таких новых приложений способно породить еще большие сложности в управлении хранимыми данными, чем наращивание объемов и скорости обмена данными.
Технология виртуализации, предложенная IBM, предназначена для разрешения таких проблем. Она подразумевает управление множественными устройствами хранения и томами данных как логическими группами при условии независимости контура управления от физического размещения данных. Благодаря такой независимости добавление дисковых систем, а также перемещение данных между ними происходит без прерывания приложений, использующих это устройство. Поскольку устройство хранения больше не управляется конкретными серверами, оно может использоваться любыми серверными устройствами, которым это необходимо.
В целом виртуализация хранения может быть реализована на различных уровнях:
- уровне сервера – посредством управления логическим томом на базе серверных ОС;
- на уровне отдельного устройства виртуализации – обеспечивается независимость резервуара хранения данных от многоплатформенной специфики серверов;
- на уровне подсистемы хранения – некоторая степень виртуализации может достигаться уже на уровне дисковой системы за счет деления дисков на более мелкие виртуальные диски. Тогда несколько устройств хранения могут быть консолидированы в виде одного виртуального диска.
IBM сконцентрировала усилия на совершенствовании технологии виртуализации на уровне устройства виртуализации. Действительно, с точки зрения TCO, такие тенденции, как снижение стоимости систем хранения, снижение удельной стоимости мегабайта данных вносят слишком малый вклад в снижение стоимости владения системой хранения. Критическим элементом сетей SAN становится ПО, с помощью которого должно обеспечиваться администрирование удаленных ИТ-активов, высокая доступность ресурсов, минимизация простоев – все то, от чего зависит надежность и высокая производительность решений, обеспечивающих функционирование важных для бизнеса приложений.
Это становится возможным, если выбрать метод виртуализации на основе сетевого устройства виртуализации. Перемещение механизма управления хранением на уровень сети дает возможность получить желаемую независимость от специфики конкретного серверного ПО управления, например Logical Volume Manager. Одновременно такой подход позволяет снизить требования к «интеллектуальности» дисковых систем хранения, что в свою очередь уменьшает зависимость от специфики исполнения интеллектуальных средств дисковых подсистем. Кроме того, перемещение управления хранением на уровень сети снижает сложность управления, обеспечивая единую точку обзора всей структуры хранения. Сеть хранения в таком случае может рассматриваться в качестве основы для распространения всех типов сервисов, включая виртуализацию, по множеству устройств хранения сети SAN. Эффективность управления ресурсами в масштабе всей сети хранения существенно повышает продуктивность ИТ-инфраструктуры и снижает TCO.
Подход IBM к созданию современных эффективных систем хранения с использованием виртуализации отражен в концепции IBM TotalStorage Virtualization и нашел практическое воплощение в виде семейства продуктов IBM TotalStorage Virtualization Family. Ключевыми понятиями концепции визуализации хранения являются следующие.
SAN Volume Controller
Устройство виртуализации, с помощью которого виртуализированные тома данных, с которыми оперируют хосты и приложения, отображаются на физические тома устройств хранения. С этим контроллером виртуализации могут быть соединены все сервера, обслуживаемые SAN, или только их часть. В результате системный администратор получает возможность наблюдать, получать доступ и управлять всем объемом пространства хранения SAN, достигая высокой эффективности в использовании ресурсов.
Каждый сервер внутри SAN снабжен собственным набором виртуальных адресов хранения, которые отображаются на физические адреса. Если физический адрес изменяется, сервер продолжает работать, используя тот же самый виртуальный адрес. Таким образом, тома памяти могут добавляться или удаляться без прерывания работы серверов.
Технология виртуализации предполагает улучшение управления информацией на уровне блоков данных, предоставляя возможность серверам и приложениям совместно использовать устройства хранения, расположенные на сети.
Storage Tank
Файловая система масштаба SAN, управляющая доступом к данным на сети хранения приложений, выполняющихся под управлением различных ОС, и гетерогенных устройств хранения. Она обеспечивает также централизованное, основанное на правилах управление данными в масштабе всей сети SAN. Благодаря возможностям Storage Tank, все файлы, принадлежащие сотням серверов, хранятся в единой файловой системе SAN. Это означает, что все файлы в сети могут быть доступными всем серверам, обеспечивая выполнение задач пользователей. Такой подход снимает все многочисленные проблемы, связанные с поддержкой копий файлов, используемых множеством серверов.
Поскольку Storage Tank поддерживает единый каталог файлов SAN, для любого файла или их групп могут быть установлены специфические правила обслуживания, включая, например, размещение, безопасность, уровень обслуживания (SLA) и т. д. Системные администраторы избавляются от необходимости назначать тома хранения каждому конкретному серверу и выделять разделы на серверах приложений. Следовательно, более эффективное использование памяти сопровождается меньшими затратами усилий администраторов.
Таким образом, перемещение интеллекта управления хранением на уровень сети SAN достигается, во-первых, за счет передачи части интеллектуальных функций от подсистем хранения устройству виртуализации SAN Volume Controller, и, во-вторых, перемещением интеллектуальных функций от файловой системы к Storage Tank.
Расширенная блоковая виртуализация
Механизм агрегирования блоков, разработанный в рамках концепции IBM TotalStorage Virtualization, базируется на отраслевом подходе, известном под названием виртуализации блоков, который обеспечивает серверам на логическом уровне единую картину физической структуры хранения. SAN Volume Controller предоставляет расширенные возможности блоковой виртуализации, обеспечивая модульное резервированное и масштабируемое решение.
По сравнению с традиционными сетями SAN, в которых все сервера отображаются на специфические устройства хранения, SAN Volume Controller обеспечивает отображение серверов на виртуальные диски, создавая таким образом дополнительный уровень виртуализации на уровне сети хранения. Можно сказать, что традиционные SAN поддерживают «физическое» отображение, а блоковая виртуализация – «логическое».
Агрегирование файлов
В отличие от блокового агрегирования, обеспечивающего гибкость в работе с блоками данных, хранимых в томах, файловая агрегация обеспечивает гибкость доступа и управления данными, хранимыми в файлах. Технология контроллера метаданных IBM Storage Tank обеспечивает расширенные, по сравнению с традиционным уровнем SAN, функции агрегации файловых данных. В рамках данного подхода, уходящего корнями в системы управления файлами и томами, а также механизмы распределения емкости хранения на основе правил, разработанные для мейнфреймов, SAN Volume Controller оперирует с единым глобальным именем пространства хранения, обеспечивая доступ к данным на устройствах хранения. Описанный механизм вместе с кэшированием метаданных на клиентском узле позволяют Storage Tank поддерживать уровень производительности локальной файловой системы в масштабе всей сети SAN.
Сервер приложений, который запрашивает файл данных, получает информацию о файле (метаданные) от контроллера метаданных IBM Storage Tank. Используя полученные метаданные, сервер приложений производит доступ к блокам данных, составляющим нужный файл, прямо по сети SAN.
Как мы отмечали выше, технология IBM Storage Tank позволяет переместить интеллект системы управления файлами на уровень сети хранения SAN. В результате помимо единого глобального имени пространства хранения достигается единая точка управления файловыми данными в масштабе всей сети хранения. Кроме того, исключается необходимость управления файлами на уровне серверов. Тем самым достигается реальная поддержка совместного использования файлов в гетерогенных средах. Storage Tank оказывается тем элементом инфраструктуры SAN, который располагает всей информацией обо всех файлах в масштабе сети хранения, включая метаданные. Следовательно, на его базе возможно создание логической точки управления хранением на сети SAN с помощью правил. В частности, Storage Tank может принять решение о месте размещения файлов, руководствуясь заданными пользователем критериями, например, типом файла. Storage Tank также способен принять решение о группировании устройств хранения на основании их конкретных характеристик, например, времени задержки и производительности.
Такие группы - пулы хранения – позволяют администраторам управлять данными на основе наиболее существенных характеристик. В частности, администратор сможет легко объединять в единый пул хранения критически важные приложения, которые автоматически будут размещаться на высоконадежных массивах хранения, для них в ночное время будет производиться регулярное резервное копирование данных, а также поддерживаться полный комплекс мер по обеспечению отказоустойчивости. Другие, менее критичные приложения будут объединяться в другие пулы, снабженные минимальными средствами отказоустойчивости и с еженедельным резервным копированием на магнитную ленту.
Поскольку метаданные Storage Tank отделены от данных приложений, с файлами можно производить манипуляции, даже если находятся в состоянии активного использования. Например, файлы, обслуживающие критически важные приложения, можно перемещать внутри одного пула или даже между пулам, не прерывая исполнения приложений. Также без прерывания приложений может быть произведена миграция данных с одной системы хранения на другую. Для этого достаточно средствами Storage Tank переместить пулы хранения на новые физические диски, а затем отменить логические соединения со старыми дисками. Все это означает, что обеспечивается автоматизация рутинных процедур, часто являющихся источником ошибочных действий человека, таких как размещение файлов и учет множества специфических требований к выделяемому дисковому пространству. Фактически функциональность Storage Tank становится своеобразным щитом, защищающим конечных пользователей от сложностей традиционных сетей хранения данных.
Заключение
Таким образом, современные технологии хранения данных, поддерживающие механизмы виртуализации, обеспечивают эффективную консолидацию файловых и блоковых данных, интеграцию данных и средств управления, а также поддержку гетерогенной вычислительной среды. Системы хранения приобретают новое качество – они уже не просто надежное хорошо управляемое хранилище корпоративных данных, а интегрированная и масштабируемая основа для оперативного гибкого развертывания новых подсистем, высокопроизводительный базис для быстрой экономичной миграции к новым поколениям систем хранения данных.