На протяжении многих лет историяцентр обработки данныхпотребление энергии шло по предсказуемой траектории. Цифровизация, конечно, росла, но повышение эффективности за счет улучшения серверов, виртуализации и консолидации облаков сохраняло общее потребление электроэнергии на удивление неизменным. Глобальный спрос на электроэнергию в центрах обработки данных колебался в пределах 1 процента от общего потребления электроэнергии — примерно 200 тераватт-часов в год — на протяжении большей части десятилетия.
Эта эпоха заканчивается.
Конвергенция генеративного искусственного интеллекта, майнинга криптовалют, периферийных вычислений и экспоненциальный рост подключенных устройств сломали старую кривую эффективности. Оценки отрасли теперь показывают, что спрос на электроэнергию в центрах обработки данных растет ежегодными темпами, невиданными с начала 2000-х годов. В некоторых регионах — Ирландии, Северной Вирджинии, Сингапуре — на центры обработки данных уже приходится от 15 до 25 процентов общего потребления электроэнергии, что вынуждает регулирующие органы вводить мораторий на новое строительство.
На этом фоне выбор инфраструктуры, который когда-то казался техническими деталями — архитектура охлаждения, топология распределения питания, планирование плотности стоек — стал решениями совета директоров. Стоимость энергии больше не является отдельной статьей. Это ограничение роста.
Эффективность использования энергии, или PUE, уже почти два десятилетия является стандартным показателем эффективности в индустрии центров обработки данных. Это простое соотношение: общая мощность объекта, деленная на мощность ИТ-оборудования.
PUE, равный 2,0, означает, что на каждый ватт, питающий серверы и системы хранения данных, еще один ватт уходит на охлаждение, освещение, потери на преобразование энергии и другие накладные расходы. PUE, равный 1,2, означает, что накладные расходы потребляют всего 0,2 Вт на каждый ИТ-ватт.
В отрасли широко распространены уровни, основанные на PUE:
| Уровень | ПУЭ | DCiE | Что это значит |
|---|---|---|---|
| Платина | <1,25 | >0,80 | Эффективность мирового класса, обычно требуется естественное или жидкостное охлаждение. |
| Золото | 1,25 – 1,43 | 0,70 – 0,80 | Очень эффективен, достижим благодаря современному дизайну в умеренном климате. |
| Серебро | 1,43 – 1,67 | 0,60 – 0,70 | Приемлемо для старых объектов или более теплого климата. |
| Бронза | 1.67 – 2.00 | 0,50 – 0,60 | Типично для устаревших центров обработки данных без серьезной модернизации. |
| Справедливый | 2.00 – 2.50 | 0,40 – 0,50 | Низкая эффективность, высокие эксплуатационные расходы. |
| Бедный | >2,50 | <0,40 | Критическая неэффективность, вероятно, требует немедленного внимания. |
Проблема в том, что многие организации фактически не знают своего PUE. Они оценивают. Они догадываются. Или измеряют только по основному счетчику коммунальных услуг, а все остальное берут на себя.
Отраслевое исследование 2023 года показало, что почти 40 процентов операторов центров обработки данных никогда не измеряли PUE на уровне стоек. Среди тех, кто это сделал, разница между заявленным и фактическим PUE составила в среднем 0,3 пункта — этого достаточно, чтобы перевести объект из уровня Gold в уровень Silver незаметно для всех.
Понимание того, почему PUE так сильно различается, начинается с рассмотрения того, откуда электроэнергия уходит из центра обработки данных.
В типичной установке воздушного охлаждения с PUE около 1,8 поломка выглядит примерно так:
Холодильная нагрузка является самой большой переменной. Предприятие в умеренном климате, использующее наружный воздух для естественного охлаждения, может тратить на охлаждение только 15 процентов своей мощности, не связанной с ИТ. Одна и та же установка в тропическом климате с механическим охлаждением круглый год может расходовать 40 процентов.
Вот почему провайдеры колокейшн рекламируют PUE на уровне объекта, но предоставляют PUE на счетчике клиента — разные цифры, разные последствия. За все платит клиент.
Традиционное управление центром обработки данных предполагало относительно статическую среду. Стеллажи заполнялись месяцами или годами. Охлаждение можно было регулировать медленно. Распределение мощности с первого дня было чрезмерным.
Эпоха облаков изменила представления. Стеллажи теперь заполняются днями. Рабочие нагрузки автоматически перемещаются между серверами. Кластеры искусственного интеллекта высокой плотности могут потреблять в три раза больше мощности, чем соседние вычислительные стойки общего назначения.
Эти изменения заставили переосмыслить управление инфраструктурой. Выделяются три тенденции.
Во-первых, плотность растет неравномерно.Десять лет назад стандартная серверная стойка потребляла 5–8 киловатт. Сегодня стойки общего назначения потребляют 10-15 киловатт. Стойки для высокопроизводительных вычислений и обучения искусственному интеллекту обычно потребляют более 30 киловатт на стойку. Некоторые превышают 50 киловатт.
Это создает проблемы управления температурным режимом, которые воздушное охлаждение с трудом решает. При мощности 20 киловатт на стойку воздушное охлаждение остается эффективным при надлежащей изоляции. При 30 киловаттах оно становится предельным. При мощности 40 киловатт и выше жидкостное охлаждение из необязательного становится необходимым.
Во-вторых, планирование мощностей стало прогнозирующим.Старый метод — купить больше мощности, чем необходимо, и оставить ее простаивать — больше не работает в больших масштабах. Незадействованные мощности имеют как капитальные затраты, так и затраты на текущее обслуживание.
Современные системы управления инфраструктурой используют исторические данные и прогнозирование рабочей нагрузки, чтобы предсказать, когда закончится электроэнергия, охлаждение или место в стойке. Лучшие системы могут порекомендовать, следует ли переконфигурировать существующие мощности или заказать новое оборудование за несколько дней или недель до того, как ограничение станет критическим.
В-третьих, требования к видимостирасширенный.Традиционный центр обработки данных может отслеживать мощность на уровне PDU. Современному объекту необходима видимость на уровне стойки, иногда на уровне сервера и все чаще на уровне рабочей нагрузки — знание того, какая виртуальная машина или контейнер какую мощность потребляет.
Инфраструктура центра обработки данныхПрограммное обеспечение для управления (DCIM) существует уже более десяти лет, но его внедрение остается неравномерным. Менее половины корпоративных центров обработки данных развернули полную систему DCIM. Многие из них использовали лишь часть своих возможностей.
Правильно реализованная система DCIM делает четыре вещи:
Управление активами.Каждый сервер, коммутатор, PDU и охлаждающее устройство отслеживаются в базе данных управления конфигурацией (CMDB). Местоположение, номинальная мощность, сетевые подключения, история обслуживания — все это. Это звучит просто, но многие организации до сих пор отслеживают активы в электронных таблицах, обновления которых проходят месяцами.
Мониторинг в реальном времени.Потребляемая мощность на уровне PDU или стойки, температура и влажность в точках подачи и возврата, состояние системы охлаждения, состояние батареи ИБП. Сигналы тревоги срабатывают, когда параметры отклоняются от заданных значений. Цель состоит в том, чтобы обнаружить проблемы до того, как они приведут к простою.
Планирование мощностей.Система знает, сколько мощности и мощности охлаждения доступно, сколько используется и сколько зарезервировано для будущего развертывания. Он может моделировать влияние добавления новой стойки высокой плотности или вывода из эксплуатации набора старых серверов.
Визуализация.Цифровой двойник центра обработки данных — стойка за стойкой, плитка за плиткой — показывает текущие условия и позволяет операторам моделировать изменения. Добавление 10 киловатт нагрузки в третью строку четвертого столбца: превышает ли это охлаждающую способность? Система отвечает прежде, чем кто-либо переместит оборудование.
Сокращение энергопотребления центров обработки данных не является чем-то загадочным. Методы хорошо известны. Проблема заключается в дисциплине реализации.
Поднимите температуру приточного воздуха.В большинстве центров обработки данных температура на выходе охлаждающего устройства составляет от 18 до 20 градусов по Цельсию, потому что именно это всегда делали операторы. Рекомендации ASHRAE теперь рекомендуют от 24 до 27 градусов. Увеличение на каждый градус снижает энергопотребление примерно на 4 процента. Работа при температуре 26 градусов вместо 20 градусов экономит 20-25 процентов мощности охлаждения.
Исключите смешивание горячего и холодного воздуха.Ограждение горячего коридора, изолирование холодного коридора или вертикальные вытяжные каналы направляют охлаждающий воздух туда, где он необходим, а не проходит через переднюю часть стоек. Само по себе сдерживание обычно снижает энергию охлаждения на 15-25 процентов.
Используйте приводы с регулируемой скоростью.Вентиляторы и насосы с постоянной скоростью тратят энергию при частичной нагрузке. Приводы с регулируемой скоростью регулируют поток воздуха и воды в соответствии с фактической потребностью. Срок окупаемости модернизации обычно составляет 1-3 года.
Оптимизируйте работу ИБП.Большинство систем ИБП постоянно работают в режиме двойного преобразования — преобразуют переменный ток в постоянный и обратно в переменный, даже если электроэнергия чистая. Современные системы ИБП могут переключаться в экономичный режим, когда позволяет качество электроэнергии, достигая эффективности 99 процентов вместо 94-96 процентов. Компромиссом является короткое время перехода на батарею в случае сбоя электропитания. Для ИТ-нагрузок с источниками питания, предназначенными для таких передач, риск минимален.
Примите распределение более высокого напряжения.Распределение мощности при напряжении 415 В вместо 208 В снижает потери при распределении примерно на 25 процентов. Для этого требуются совместимые PDU и блоки питания серверов, но многие современные устройства поддерживают это.
Компания Шанъюй CPSY, высокотехнологичное предприятие, специализирующееся на инфраструктуре центров обработки данных, сообщает о PUE 1,3 для своих модульных решений для центров обработки данных. Это переводит компанию на золотой уровень с переходом на платиновый.
Заявленная экономия энергии в 25 процентов по сравнению с традиционными конструкциями обусловлена множеством факторов. Модульные системы ИБП с эффективностью 97,4 процента на уровне системы сокращают потери при распределении, которые в противном случае составляют 15–20 процентов. Прецизионные кондиционеры с компрессорами с регулируемой скоростью и ЕС-вентиляторами регулируют мощность охлаждения в соответствии с фактической тепловой нагрузкой, а не работают с фиксированной мощностью. А физическая планировка — изоляция горячего коридора, оптимальное расстояние между стойками, фальшпол с перфорированной плиткой подходящего размера — направлена на управление воздушными потоками, что подрывает многие другие эффективные объекты.
Портфель сертификатов компании включает ISO 9001 (менеджмент качества) и ISO 27001 (менеджмент информационной безопасности). Ее клиентские развертывания включают партнерские отношения с Huawei, ZTE и Inspur, а также экспортные установки в США, Великобритании, Германии, Франции и Австралии.
В течение многих лет жидкостное охлаждение было нишевой технологией для суперкомпьютерных центров. Ситуация быстро меняется.
Учебные кластеры искусственного интеллекта, использующие графические процессоры NVIDIA H100 или будущие B200, генерируют 30–50 киловатт на стойку в конфигурациях с чисто воздушным охлаждением. При такой плотности воздушное охлаждение требует высоких скоростей воздушного потока — громких вентиляторов, глубоких стоек и все еще незначительного контроля температуры.
Жидкостное охлаждение непосредственно на кристалле отводит 60–80 процентов тепла у источника. Чипы работают холоднее. Вентиляторы работают медленнее. Комнатный кондиционер обрабатывает только оставшееся тепло от источников питания, памяти и других компонентов.
Прирост эффективности существенный. На предприятиях с прямым охлаждением чипов значения PUE составляют от 1,1 до 1,2. Компромиссами являются более высокие капитальные затраты, более сложное управление утечками и необходимость очистки воды на уровне предприятия.
Полное иммерсионное охлаждение — погружение целых серверов в диэлектрическую жидкость — снижает PUE ниже 1,1, но остается специализированным. В большинстве коммерческих центров обработки данных сначала применяется прямое охлаждение кристалла, а затем погружение в определенные зоны с высокой плотностью размещения.
Платформа центра обработки данных SHANGYU включает в себя возможности для архитектуры как воздушного, так и жидкостного охлаждения, признавая, что будущие развертывания с высокой плотностью потребуют жидкостного управления температурным режимом независимо от конструкции объекта.
Большинство операционных групп центров обработки данных по-прежнему работают в режиме реагирования. Звучит сигнал тревоги. Кто-то расследует. Исправление применяется. Цикл повторяется.
Переход к прогнозному управлению требует трех способностей, которых не хватает многим организациям.
Полные данные конфигурации.Знание того, что находится в центре обработки данных — каждый сервер, каждый коммутатор, каждый блок распределения питания, каждый блок охлаждения — является основой. Без точных данных CMDB планирование мощности остается догадкой.
Детальная телеметрия.Измерение мощности на уровне стойки является минимальным. Лучше измерять мощность каждого сервера. Распределение полномочий на уровне рабочей нагрузки является лучшим, но труднее всего достичь.
Аналитика, отличающая сигнал от шума.Скачок температуры в одной стойке может означать неисправность вентилятора. Скачок температуры в половине центра обработки данных может означать выход из строя чиллера. Система должна дифференцировать и рекомендовать соответствующие ответы.
Платформа DCIM от SHANGYU обеспечивает поддержку устройств SNMP и Modbus, веб-интерфейсы и интерфейсы приложений Windows, а также интеграцию с сетевыми камерами для создания изображений, запускаемых по событиям. Заявленные цели просты: сократить дорогостоящие простои, сократить ежедневные эксплуатационные расходы за счет полного контроля окружающей среды, а также улучшить прозрачность и отслеживаемость управления.
Потребление энергии в центрах обработки данных составляет примерно 1 процент мирового спроса на электроэнергию. Это число кажется небольшим, пока его не поместят в контекст. Это примерно эквивалентно общему потреблению электроэнергии в Соединенном Королевстве.
Что еще более важно, темпы роста ускоряются. Отраслевые прогнозы показывают, что спрос на электроэнергию в центрах обработки данных будет увеличиваться на 10–15 процентов ежегодно до 2030 года, что обусловлено искусственным интеллектом, внедрением облачных технологий и продолжающимся расширением подключенных устройств. При таких темпах к концу десятилетия центры обработки данных будут потреблять 3–4 процента мировой электроэнергии.
Повышение эффективности, которое сохраняло энергопотребление на прежнем уровне в течение предыдущего десятилетия, было достигнуто за счет виртуализации серверов (сокращение количества физических серверов), повышения эффективности дисков (переход от вращающихся дисков к твердотельным накопителям) и широкого внедрения естественного охлаждения (использование наружного воздуха вместо механического охлаждения). Эти низко висящие плоды в основном уже собраны.
Следующая волна повышения эффективности будет связана с жидкостным охлаждением, распределением более высокого напряжения, управлением охлаждением, оптимизированным с помощью искусственного интеллекта, и — что, пожалуй, самое важное — лучшим соответствием между мощностью инфраструктуры и фактической ИТ-нагрузкой. Последняя часть требует такой видимости в реальном времени и прогнозной аналитики, которую предоставляют системы DCIM, но лишь немногие средства используют ее в полной мере.
Знаете ли вы фактическое значение PUE, а не число в спецификации?Если вы не измеряли на выходе ИБП и на входе ИТ-оборудования, вы не знаете. Разница — это ваши реальные накладные расходы.
Ваши системы охлаждения борются друг с другом?Во многих центрах обработки данных блоки CRAC настроены с перекрывающимися диапазонами температуры и влажности. Один блок осушает, другой увлажняет. Один охлаждает, другой нагревает. В этом нет ничего необычного. Это также не эффективно.
Каково энергопотребление ваших серверов в режиме простоя?Отраслевые данные показывают, что типичные корпоративные серверы потребляют 30–40 процентов своей пиковой мощности, когда ничего не делают. Выключение или перевод неиспользуемых серверов в режим сна является наиболее эффективной мерой рентабельности инвестиций. Это также наиболее игнорируемый фактор.
Можно ли повысить температуру приточного воздуха на два градуса, не нарушая при этом технические характеристики оборудования?Скорее всего да. Большая часть оборудования рассчитана на температуру на входе 25-27 градусов. Большинство дата-центров работают при температуре 20-22 градуса. Этот шестиградусный разрыв означает годы ненужной энергии для охлаждения.
Когда вы в последний раз проверяли эффективность своего ИБП?КПД, указанный на паспортной табличке, измерен при полной нагрузке и идеальном коэффициенте мощности. Реальный КПД при частичной нагрузке с реальным коэффициентом мощности может быть на 5-10 пунктов ниже.