Алгоритм Безапосности: издание для профессионалов
Санкт-Петербург:
тел.: +7 911 137-88-32 magazine@algoritm.org
Москва:
тел.: +7 499 641-05-26moscow@algoritm.org

Главная
Новости
О журнале
Архив
Свежий номер
Реклама
Подписка
Контакты
Сотрудничество
 

Если вы хотите стать распространителем нашего журнала

 
 
 
 
 

"Алгоритм Безопасности" № 3, 2015 год.

Содержание

Безопасность инфраструктуры ЦОД
И. Шварц


БЕЗОПАСНОСТЬ ИНФРАСТРУКТУРЫ ЦОД

И. Шварц

руководитель отдела системной интеграции ГК «Тринити»

Когда говорят о безопасности информационной системы или данных, всем приходят на ум аббревиатуры и словосочетания К9, С3, шифрование ГОСТ, VIPNet и т.д., но редко кто вспоминает о фундаменте, на котором строится вся ИТ-инфраструктура, крутятся критически важные бизнес-приложения, работают отказоустойчивые СХД и кластеры. Да, речь пойдет об электричестве, охлаждении и системах контроля.

Я по долгу службы бываю в серверных заказчиков десятки раз в год, и в 80% случаев слышу жалобы на то, что тяжело охладить серверную, что-то перегревается или что-то происходит с электропитанием.

Например, «мы повесили еще два настенных кондиционера, но это не помогло». Смотришь, и правда - полезная нагрузка (IT-оборудование) всего около 30 кВт, а на стене весит 9 кондиционеров по б или 7 кВт холодопроизводительности каждый, а серверам все жарко. Заказчика называть не буду, скажу только, что это финансовая структура регионального масштаба, цена простоя или потери данных крайне велика, а стоимость охлаждаемого ИТ-оборудования около 3 млн $.

Давайте разберем, почему система охлаждения не справляется, несмотря на то, что мощность охлаждения превышает тепловыделение в два раза (60 кВт vs 30 кВт).

Как правило, внутренний блок бытового кондиционера забирает воздух из помещения сверху своего корпуса, пропускает через себя, охлаждая его, и выбрасывает перед собой вниз. Все это происходит с определенной скоростью, доступной бытовой технике: в среднем 10-30 литров воздуха в секунду на киловатт своей холодопроизводительности. Данный параметр производительности кондиционера называется «расходом воздуха».

Теперь перейдем к серверному оборудованию, оно монтируется в серверных шкафах или открытых монтажных стойках. Охлаждается оборудование следующим образом: сервер принудительно за счет своих встроенных вентиляторов втягивает воздух с фронтальной поверхности, пропускает внутри себя через нагретые радиаторы и микросхемы, выбрасывает нагретый воздух с тыльной стороны корпуса. Средний расход воздуха сервера составляет 85 литров воздуха в секунду на киловатт своей потребляемой электрической мощности.

Посмотрим, как это выглядит в конкретном и далеко не единственном случае. Серверные шкафы устанавливаются в ряд вдоль одной из стен помещения. На противоположной стене смонтированы внутренние блоки системы кондиционирования, расстояние между вычислительной техникой и системой охлаждения около 4,5 метра. Включаем технику и кондиционеры. За серверами и над стойками становится жарко - пока все нормально, так и должно быть, шум от вентиляторов в серверах нормальный. В той половине помещения, где расположены кондиционеры, - холодно. Проходит несколько десятков минут, и серверы начинают «выть» в прямом смысле слова, компоненты серверов начали перегреваться и BIOS каждого сервера включил свои внутренние вентиляторы и кулеры на полную мощность. Теперь, подойдя к серверам спереди, т.е. встав между кондиционерами и серверными шкафами, мы чувствуем, что воздух очень теплый. Отойдем на пару шагов в сторону кондиционеров и чувствуем холод. Таким образом, в серверной установились две климатические зоны: горячая в той половине, где находится IT-оборудование, и холодная там, где находятся кондиционеры. На пересечение зон происходит слабое перемешивание потоков холодного и горячего воздуха (рис. 1).

За серверами образуется зона горячего воздуха с избыточным давлением и высокой энергией (скоростью) молекул, и, будучи ничем не ограничены, потоки устремляются к потолку и обходят стойки сбоку. А с фронтальной стороны серверных шкафов создается зона разряжения, созданная кулерами серверов, куда и устремляются потоки горячего воздуха, т.е. обратно в сервер. Что в это время происходит в той половине серверной, где находятся кондиционеры? Холодная струя воздуха, вышедшая из кондиционера, проходит 2,5-3 метра замедляясь и перемешиваясь с горячим воздухом, начинает подниматься к потолку, не дойдя до серверных шкафов, где начинает свое движение в обратную сторону на вход в кондиционер.

Рис. 1

И хотя установлены бытовые кондиционеры с несоответствующим расходом воздуха для ИТ-нагрузок, по холодопроизводительности их установлено вдвое больше, и поток воздуха в сумме получается как нужно. Вроде все должно быть хорошо, но нет.

Двигаемся дальше. Посмотрим, как смонтированы кондиционеры - один под другим. Верхний кондиционер у потолка собирает теплый воздух и выбрасывает его вперед и вниз, т.е. на вход кондиционера, расположенного ниже, тот, который ниже, берет холодный воздух и также обеспечивает нижевисящий кондиционер холодным воздухом, - сразу понятен КПД такой системы. Действительно полезную работу совершает только верхний кондиционер (рис. 2).

Рис. 2

Второй подобный случай, физико-технический НИИ, какой - опять не уточняю: небольшой кластер высокопроизводительных вычислений,2 шкафа по 4 блейд-центра в шкафу - получается по 20 кВт на шкаф и еще несколько шкафов с серверами общего назначения. Расположение холодильных агрегатов относительно вычислительной техники такое же, только кондиционеры более серьезных моделей. Два потолочных и два напольных, расстояние в данном случае от ИВТ-техники до кондиционеров больше 6 метров, в районе стоек стоят комнатные вентиляторы. Сразу понятно, что во время расчета задачи кластером система охлаждения не справляется. Вывод: неграмотная установка даже прецизионной охлаждающей техники от перегрева не спасет.

Риски перегрева в данном случае - это выход из строя ИТ-оборудования стоимостью свыше полумиллиона долларов, остановка расчетных задач вследствие самовыключения серверов из-за перегрева, что влечет за собой риски срыва проектов по срокам, возгорания вычислительного оборудования вследствие перегрева и последующего пробоя электролитических конденсаторов внутри серверов.

Все эти проблемы возникают из-за неправильно спроектированных систем. Зачастую клиенты обращаются в компании, которые занимаются проектированием и монтажем вентиляционного оборудования для офисных зданий и т.п. Система кондиционирования воздуха, проектируемая ими, может достигать мегаватт, но рассчитывают они исходя из огромных площадей зданий в тысячи и десятки тысяч квадратных метров с равномерно распределенными источниками тепла с низким удельным тепловыделением, такими как люди, ПК, окна, бытовая техника. Методологии расчетов данных компаний не работают с «hot spot» (перегретыми точками), которыми является мощное ИТ-оборудование, требующее особой специфики охлаждения. Правильным будет в таком случае обратиться в компанию системного интегратора, специализирующуюся на строительстве серверных или ЦОД и имеющую положительный опыт.

Ошибки проектирования мы разобрали, теперь давайте разберемся, как правильно строить такие системы. Основные принципы:

■ не допускать перемешивания холодного и горячего воздуха;

■ подать холодный воздух непосредственно на фронтальную поверхность серверов в нужном объеме с температурой 19-22° C;

■ эффективно забрать и охладить отработанный серверами горячий воздух. Как это правильно сделать? Существует несколько методик и видов оборудования различных ценовых категорий и, соответственно, с разным уровнем КПД. Хочу оговориться сразу - ни одна из методик не является дешевой, но любая окупает вложения с точки зрения минимизации потерь от вышеописанных рисков. Системами, удовлетворяющими данным принципам, будут:

■ системы фальшпольного охлаждения;

■ системы канальных кондиционеров;

■ вспомогательные системы контейнеризации холодных или горячих воздушных коридоров;

■ системы внутрирядного охлаждения типа inRow.

Каждая система имеет свои плюсы, минусы и оптимальные условия их применения. Когда какую систему выбирать?

Системы фальшпольного охлаждения представляет собой фальшпол с установленными на него двумя (или более) специализированными кондиционерами, кондиционеры нагнетают холодный воздух в фальшпольное пространство серверной. Оборудование расставляется в серверных шкафах рядами, перед каждым серверным шкафом устанавливается перфорированная фальшпольная плита или решетка. Нагнетаемый кондиционером воздух будет выбрасываться непосредственно перед потребителем - серверным шкафом с оборудованием.

Достоинства данной системы: простота, возможность убрать все инженерные коммуникации и системы кабельных лотков под фальшпол, этим самым облагородив внешний вид, возможность при необходимости перемещать шкафы с оборудованием, добавлять новые шкафы с оборудованием.

Основными минусами системы является ограничение по мощности серверных шкафов до 5-6 кВт, т.к. в таких рядах начинает перегреваться верхнее оборудование.

К такой системе существует «тюнинг» -система контейнеризации холодного коридора, т.е. 2 ряда шкафов, ориентированных фронтальными сторонами друг к другу, накрываются «крышей», а боковые проходы между рядами закрываются герметичными дверями типа «купе».

Установленная система контейнеризации позволяет увеличить допустимую электрическую нагрузку серверных шкафов до двух раз.

Система канального кондиционирования. Принцип примерно аналогичный первой системе с той разницей, что воздух подается по вентрукавам, смонтированным под потолком помещения, непосредственно к оборудованию; забираться отработанный воздух в такой системе может также отдельным рукавом.

Достоинство: относительно недорогая стоимость. Недостатки: сложнее в расчетах и монтаже, сложность в масштабируемости и гибкости, мало эстетики. При использовании верхней кабельной разводки -приводит к коллизиям при монтаже. Смежные проекты ОВ и ВК должны быть тщательно согласованы с проектом КЛ.

Внутрирядная система кондиционирования inRow. Мощная компактная система охлаждения, изначально разработанная для высоконагруженных вычислительных систем, выполненная в виде серверного шкафа 300, 400 или 600 мм шириной. Этот кондиционер устанавливается непосредственно в ряд серверных шкафов, номинальная мощность такого кондиционера, занимающего площадь всего 0,6 м2, может быть свыше 100 кВт, и их производительность с каждым годом растет. Как работает такая система? Шкаф, стоящий в ряду серверных шкафов, всей площадью задней поверхности засасывает горячий воздух из горячего воздушного коридора, охлаждает его и выбрасывает в холодный коридор. Достоинства такой системы: высокая эффективность (КПД) из всех вышеперечисленных систем, данная система перемещает воздух по самому кратчайшему пути, из «горячего коридора» в «холодный коридор», равному 1 м, как известно из школьного курса физики работа по переносу газа одна из самых неэффективных и трудоемких. Высокая способность по отводу тепла от серверного оборудования, удобство монтажа, легкость проектирования таких систем, прогнозируемость климата в больших машинных залах, масштабируемость системы. Из минусов, пожалуй, только сравнительно высокая стоимость.

Как сделать серверную с хорошо прогнозируемым климатом, мы разобрались, к кому за этим обращаться - тоже.

Рассмотрим следующий случай: компания авиагрузоперевозчик. Небольшая серверная, пара шкафов, забитых блейд-центрами и СХД, с охлаждением все в штатном режиме, вычислительная техника работает от двух источников бесперебойного питания, время автономной работы ИБП - 4 часа. Происходит отключение городской линии электропитания, техника продолжает работать, а система охлаждения выключается, т.к. к ИБП не подключена. Через 40 минут работы в таком режиме часть серверов выключается в связи с перегревом, ИТ-служба заказчика смогла добраться до объекта в течение полутора часов после возникновения инцидента. Когда открыли серверную, там стоял запах плавленой проводки, а температура в помещении была 63 градуса, несмотря на то, что большая часть серверов уже не работала. Так как серверная была задублирована по схеме disaster recovery (имела резервную площадку), убытков, связанных с простоем, компания не понесла, но в течение последующего года из строя вышло более 20 серверов на сумму 160 000 $. В случае простоя компания понесла бы более ощутимые убытки.

Вывод: при проектировании автономной работы серверной от источников бесперебойного питания, система охлаждения должна также подключаться к системе бесперебойного питания ИБП и ДГУ.

С основными тривиальными ошибками разобрались, теперь давайте рассмотрим более интересный случай.

Центр обработки данных режимного предприятия мощностью более 1 МВт, в ЦОД располагается вычислительный кластер, стоимость проекта более 10 млн $. Используется внутрирядное охлаждение, компоненты систем электропитания, системы охлаждения, газового пожаротушения зарезервированы, системы имеют надежность N+1, 2N. «Тринити» была приглашена в качестве независимого эксперта для анализа причин возникновения аварии в ЦОД.

Внешний характер повреждений оборудования (значительная деформация геометрии пластиковых элементов, вскипание и вздутие аккумуляторных элементов) свидетельствует о воздействии повышенной температуры длительное время - от десятков часов до нескольких суток (рис. 3).

Рис. 3. Внешний характер повреждений

Исходя из длительности воздействия температуры, следует однозначный вывод, что комплекс продолжал активную работу в условиях остановки охлаждающей подсистемы. Анализ записей журналов ИБП, межрядных кондиционеров, чиллеров и стабилизатора внешнего электропитания показал следующие факты: до и во время аварии перебои с внешним электропитанием отсутствовали, перебоев питания по чистым линиям (питаемым от ИБП) не происходило, несмотря на отключение батарейного блока и многочисленные переходы на питание в режиме байпас (без стабилизации). При превышении порога давления клапана вследствие повышенной температуры воздуха более 50° С имел место аварийный сброс огнетушащего вещества из баллонов автоматической газовой системы пожаротушения, что привело к неработоспособности системы пожаротушения на фоне продолжающегося роста температуры. Как выяснилось, аварии предшествовала 20-часовая одновременная работа двух чиллеров, в штатном режиме такая работа продолжается не более 25 секунд, в период ротации чиллеров. Одновременная длительная работа двух внешних блоков системы охлаждения привела к чрезмерному переохлаждению теплоносителя, вследствие чего они отключились по ошибке «Защита от угрозы обмерзания» с остановкой основных циркуляционных насосов. Дополнительный циркуляционный насос, находящийся в машинном зале, не способен осуществлять самостоятельную циркуляцию теплоносителя.

Результатом отсутствия циркуляции явилась аварийная остановка межрядных кондиционеров и, как следствие, резкий рост температуры в «горячем коридоре». В результате исследования всех доступных журналируемых систем установили: первопричиной аварии явились проблемы с щитом силовой автоматики. К одновременному запуску и работе второго чиллера привела некорректная работа первого чиллера, вследствие пропадания первой фазы на питании чиллера номер 1.

Причиной, позволившей событиям развиваться далее и так долго, стало:

1) Отсутствие в техническом задании на проектирование требований к системе мониторинга и оповещения, связанных с режимом безопасности объекта, а именно - «Система автоматического отключения и оповещения (САОО)» при проектировании была рассчитана на работу с дежурным оператором путем оповещения по двум каналам: SMS (текстовое оповещения через сети GSM общего пользования) и email (электронное оповещение через internet-сети общего пользования). Оба канала оказались не подключенными из-за режима безопасности объекта.

2) При введении в эксплуатацию САОО не была переведена в автоматическое функционирование в режиме отсутствия каналов оповещения об аварии.

3) Была отключена сигнальная линия «авария», штатно предусмотренная производителем (APC), между аппаратным комплексом мониторинга среды NetBotz и ИБП.

4) Не был запроектирован и установлен дополнительный контур мониторинга параметров среды с выводом сигнализации на пост охраны.

5) Аварию удалось обнаружить, только когда сработали объемные датчики движения охранно-тревожной сигнализации, выведенные на пост охраны, зафиксировавшие падение оплавленных воздушных заглушек и боковых стенок шкафов.

Вывод по данному случаю применим при строительстве любой серверной: техническим заданием на проектирование должны быть установлены требования к системе мониторинга параметров среды, электропитания, требования к выводу сигнализации на пост охраны, требования к каналам связи для оповещения, требования к независимости контура мониторинга основных критически важных параметров от работоспособности ЛВС, серверов, АТС и др. оборудования, за которым производится наблюдение. Проектом должна быть разработана подробная программа методики испытаний на этапе сдачи комплекса в эксплуатацию, предусматривающая максимально возможные комбинации внештатных событий. Исполнительная документация должна содержать инструкции по действию во время нештатных ситуаций. Должно быть проведено обучение эксплуатирующего персонала. При питании трехфазной техники должны использоваться реле контроля фаз.

скачать
скачать

 

Rambler's Top100 Интернет портал. Каталог фирм. бжд. Охрана. Обеспечение безопасности. Безопасность предприятия. Оборудование. Видеонаблюдение.