Обозрение подготовлено

версия для печати
Как обеспечить надежность архитектуры ЦОД

Как обеспечить надежность архитектуры ЦОД

Бесперебойную работу архитектуры ЦОД, связь всех ее компонентов обеспечивает грамотно выстроенная инженерная инфраструктура, отличающаюся повышенной надежностью. Работа без сбоев в круглосуточном режиме достигается за счет внедрения комплексного решения, отвечающего всем требованиям сегодняшнего дня, а также за счет отработанных и грамотных действий персонала. По данным различных исследований более 60% отказов инженерной инфраструктуры вызваны человеческим фактором. При этом более 50% сбоев приходятся на этап эксплуатации.

Очевидно, что достижение высочайшего уровня надежности для инфраструктуры такого уровня — задача чрезвычайно сложная, ведь современный ЦОД может включать десятки и даже сотни серверов. Между тем, сбои на уровне инженерной инфраструктуры носят более масштабный характер, чем на уровне приложений и дополнительного оборудования. Выход из строя элементов инженерной инфраструктуры ЦОД может вызвать как локальный отказ оборудования, так и отказ значительной части ЦОД.

«Интеллектуальное здание» ЦОД

Специалисты сравнивают ЦОД с интеллектуальным зданием в миниатюре, поскольку он содержит все присущие «умному» зданию элементы. Инженерная инфраструктура — его мыслительный центр, предназначенный для правильного и бесперебойного функционирования интеллектуальных процессов.

Инженерную инфраструктуру ЦОД можно подразделить на две основных составляющих: подсистему обеспечения функционирования (электроснабжение, кондиционирование, монтажные конструктивы); и подсистему обеспечения безопасности (охранно-пожарная сигнализация, системы автономного газового пожаротушения и видеонаблюдения, мониторинга и управления доступом). Обе компоненты должны работать в четком согласовании, ведь подсистемы обеспечения функционирования нуждаются в круглосуточном контроле.

Возможности современных инженерных инфраструктур должны гарантировать соблюдение необходимых климатических параметров окружающей среды. Большинство аппаратных средств рассчитано на работу при температуре воздуха +22±2°С и относительной влажности 50±10%. Отклонение температуры от указанных параметров приводит к сокращению срока службы оборудования (например, аккумуляторных батарей), ухудшению его характеристик, снижению надежности, сбоям в работе или даже полной остановке.

Низкая влажность в помещении ведет к накоплению статического электричества, разряд которого способен вывести из строя электронные элементы. Вследствие высокой влажности образуется конденсат, вызывающий коррозию, из-за чего может произойти короткое замыкание печатных проводников и возникнуть неисправность отдельных узлов.

Кроме того, важно учитывать, что плотность энергопотребления современных ЦОД выросла многократно — с 5 кВт на стойку до 15-16 кВт (у серверов 1U), 24 кВт (у модульных серверов) и даже о 80 кВт на стойку. За последние десять лет плотность тепловыделения оборудования возросла в три-пять раз и может доходить до 3 кВт/мІ. Энергопотребление и охлаждение становятся главными проблемами при разработке инженерной инфраструктуры ЦОД различного масштаба.

Типичные проблемы

Среди типичных проблем инженерной инфраструктуры ЦОД специалисты называют, в первую очередь, невозможность достаточно быстрой реакции персонала на форс-мажорные обстоятельства, такие как сбой в вентиляции, проблемы с электроснабжением, перегрев отдельных узлов и т.д. Связано это с тем, что большинство подобных событий невозможно выявить до их визуального проявления.

Неграмотные действия сотрудников имеют место чаще, чем технологические факторы — отказ оборудования и ошибки приложений. По данным опроса Symantec, 50% ИТ-сотрудников назвали главным «врагом» эффективного управления ЦОД пресловутый человеческий фактор.В число наиболее актуальных мер, предпринимаемых в этой связи главами ИТ-отделов с целью повышения управляемости систем, входит внедрение методологии ITIL (библиотека, описывающая лучшие из применяемых на практике способов организации работы ИТ-подразделений или ИТ-компаний), использование виртуализации и управление объемом хранилищ данных. Человеческий фактор в экстренных ситуациях исключительно важен. Правильность и скорость реакции определяется квалификацией персонала, которая, увы, не всегда адекватна обстоятельствам. И здесь, по мнению многих экспертов, ITIL не панацея. Согласно информации исследовательской группы The Uptime Institute, более 60% отказов инженерной инфраструктуры было вызвано человеческим фактором. При этом более 50% сбоев приходятся на этап эксплуатации. Остальные происходят во время проектирования и монтажа. Современные системы мониторинга и контроля не всегда способны справиться с подобной ситуацией. Здесь может помочь только своевременная замена инфраструктурных компонент по мере завершения их регламентируемого эксплутационного периода.

Второй проблемой инженерной инфраструктуры является необходимость планового обслуживания. Срок эксплуатации современного инфраструктурного оборудования ЦОД составляет от 5 до 25 лет. Для гарантии бесперебойной работы оборудования плановое обслуживание следует проводить регулярно, а замена отдельных комплектующих позволит существенно увеличить срок работы ЦОД. Тем не менее, по мнению экспертов, и контроль за работой инженерной инфраструктуры, и своевременная замена отдельных узлов инфраструктуры, бывает, проводится нерегулярно и не в полном объеме. Здесь дело не только в том самом человеческом факторе, но и в финансовых возможностях предприятия, где установлен ЦОД. Специалисты указывают на то, что дешевизна решения обычно означает снижение качества, надежности, и, как следствие, уменьшение жизненного цикла инфраструктуры ЦОД. Кроме того, причина может быть и в отсутствии тех или иных комплектующих для замены — нередко система, чей срок эксплуатации 5 и более лет, быстро устаревает. А новые аналогичные узлы выпускаются производителем под новые стандарты. Изменения в технологиях и оборудовании влекут за собой ужесточение требований к инженерной инфраструктуре.

Здесь мы переходим к следующей актуальной проблеме — ограничение инженерной инфраструктуры по масштабированию. Часто инженерная система имеет законченную архитектуру, не предусматривающую алгоритмы взаимодействия с прочими инженерными системами. Разумеется, эта архитектура предполагает развитие. Но технологический прогресс не стоит на месте, поэтому расширить инфраструктуру, созданную несколько лет назад, практически невозможно.

Для управления ЦОД нужна информация

Основной же проблемой на сегодняшней день, по мнению абсолютного большинства менеджеров ЦОД, является недостаточная управляемость системы. Часть инженерных систем ЦОД оснащается собственными средствами мониторинга и управления, не совместимыми друг с другом (кондиционеры, источники бесперебойного питания). А у другой части (системы электропитания и приточно-вытяжной вентиляции) иногда их нет вообще. Полная информация о состоянии всех инженерных систем ЦОД и параметрах окружающей среды отсутствует, тем самым затрудняя оперативную оценку общего состояния центра. Между тем, грамотная реализация системы мониторинга и управления инженерной инфраструктурой благодаря целому ряду функциональных возможностей позволяет быстро решить многие проблемы.

Согласно исследованию, проведенному Aperture Research Institute, 49% компаний не в состоянии отслеживать физические изменения, происходящие в их информационных центрах, включая потребляемую мощность и систему охлаждения. Почти половине организаций не хватает основной управленческой информации для обеспечения эффективного функционирования ЦОД. Сотрудники данных компаний говорят, что существующее оборудование инженерной инфраструктуры не предусматривает мониторинг отдельных элементов с требуемым уровнем детализации. Менеджеры ЦОД, как правило, используют от трех до пяти различных приложений для хранения информации о конфигурациях, что делает проблематичной ее консолидацию с целью составления целостной картины. 62% менеджеров признали, что их информация о конфигурациях является как минимум на 10% неточной.

Напрашивается следующий вывод: менеджеры ЦОД должен иметь единый удобный и гибкий интерфейс контроля и управления всеми инженерными системами ЦОД. Подобная единая система облегчает восприятие информации и позволяет контролировать все параметры систем в реальном времени, своевременно обнаруживать изменения в работе и производить техническое обслуживание или ремонт. Ведь центр обработки данных, не оснащенный единой автоматизированной системой мониторинга и управления инженерной инфраструктурой, не в состоянии обеспечивать уровень надежности сервисов, который требуется современному бизнесу.

Андрей Егоров

Техноблог | Форумы | ТВ | Архив
Toolbar | КПК-версия | Подписка на новости  | RSS