Компания планирует создать GPU‑кластер для машинного обучения? По спецификации серверы могут подходить под задачу, но в собственном ЦОДе появляются другие ограничения: допустимая мощность, отвод тепла, резерв питания, СХД и режим запуска задач. Если проверить только спецификацию серверов, можно получить дорогую конфигурацию, которая упирается не в вычисления, а в площадку.
Для банков, операторов связи, крупных цифровых сервисов, промышленности и розничных сетей вопрос не сводится к выбору графических ускорителей. Нужно заранее понять, выдержит ли центр обработки данных нагрузку, сколько электроэнергии уйдет на вычисления и охлаждение, где появятся узкие места и какие параметры нужно заложить в закупку.
В статье разбираем, как оценить энергопотребление GPU‑кластера в ЦОДе, какие данные измерить до закупки, как связаны питание, охлаждение, хранилище данных, сетевая инфраструктура и стоимость владения.
Почему GPU‑кластер нельзя считать обычной серверной закупкой
В обычной ситуации нагрузка растет постепенно: добавляются серверы, системы хранения данных и сетевые узлы. GPU‑кластер ведет себя иначе. Несколько серверов с ускорителями могут резко поднять энергопотребление, плотность теплового потока и требования к электропитанию в одной зоне ЦОДа.
По спецификации NVIDIA расчетная тепловая мощность одного ускорителя H100 в исполнении SXM может доходить до 700 Вт. В сервере с восемью такими ускорителями только GPU дает до 5,6 кВт расчетной тепловой мощности. К этому добавляются процессоры, память, накопители, сеть, кулеры и потери в системе питания.
На уровне стойки разница еще заметнее. Для стойки NVIDIA GB200 NVL72 в документации указано ориентировочное потребление около 120 кВт. Такой уровень требует проверки блоков питания, распределения нагрузки, резервирования, мониторинга и обслуживания до закупки оборудования.
| Критерий | Типовая серверная нагрузка | GPU‑кластер для ИИ |
|---|---|---|
| Рост мощности | Часто распределен между несколькими системами | Может концентрироваться в одной стойке или группе стоек |
| Главный риск | Недостаток ресурсов сервера или СХД | Ограничение по питанию, охлаждению, СХД или сети |
| Профиль нагрузки | Более равномерный или предсказуемый | Пики во время обучения и сложных расчетов |
| Влияние ошибки | Снижение производительности отдельного сервиса | Простой ускорителей, перегрев, срыв планов масштабирования |
| Что проверять до закупки | Мощность сервера и совместимость | Серверную комнату, стойки, питание, охлаждение, СХД, сеть и профиль задач |
Главный риск: ЦОД может ограничить ИИ‑нагрузку
GPU‑сервер может быть подобран правильно, но в реальной инфраструктуре не показывать нужную производительность.
Причина часто не в самом оборудовании, а в общей конфигурации: слишком высокая плотность в стойке, слабый отвод тепла, медленная подача данных из хранилища или ограничения сети при распределенном обучении.
Для крупной компании это не только вопрос счетов за электроэнергию. Ограничение по мощности может остановить рост ИИ‑нагрузок. Неверное охлаждение повышает риск аварий и снижения частоты. Медленное хранилище оставляет графические ускорители без данных. Слабая сетевая инфраструктура мешает обучать модели на нескольких узлах.
Поэтому задача не в том, чтобы выбрать самый мощный сервер. Задача - понять, какие ограничения нужно учесть, чтобы оборудование работало с пользой для обучения, аналитики или видеообработки.
Какие параметры измерить до закупки и модернизации
До подготовки коммерческого предложения нужно определить возможности серверной и уровень нагрузки. Без этого сложно сравнивать варианты: обновление текущего кластера, закупку новых GPU‑серверов, перенос части задач в облако или смешанную схему.
| Зона проверки | Что измерить | Зачем |
|---|---|---|
| Стойка | Доступная мощность, схема питания, резерв, распределение по линиям | Понять, можно ли размещать GPU‑узлы в выбранной зоне |
| Помещение | Запас по питанию, ИБП, фактический PUE, план роста | Оценить нагрузку не только на серверы, но и на всю площадку |
| Охлаждение | Температура на входе и выходе, воздушные потоки, рециркуляция | Увидеть риск перегрева и снижения частот |
| Серверы | Загрузка GPU, процессоров, памяти, накопителей и кулеров | Понять реальный профиль вычислений |
| СХД | Задержка, пропускная способность, время ожидания данных | Исключить простой ускорителей из‑за медленной подачи данных |
| Сеть | Пропускная способность, задержка, межузловой обмен | Проверить готовность к распределенному обучению |
| Задачи | Обучение, вывод моделей, очереди, контрольные точки | Снизить пики и повысить полезную загрузку |
Для сбора данных используют интеллектуальные блоки распределения питания, средства наблюдения за ускорителями, систему учета задач и общую систему мониторинга ЦОДа. Важно связать эти данные в одну картину. Иначе видно только уровень потребления, но не видно причину: плотность стойки, слабую загрузку ускорителей, медленное хранилище, сетевое ограничение или режим запуска задач.
Где расходуется энергия в ИИ‑кластере
Энергия уходит не только на ускорители. Они задают верхнюю границу по мощности, теплу и плотности размещения. Для оценки берут полную мощность сервера под реальной нагрузкой, добавляют СХД, сетевую инфраструктуру и учитывают PUE площадки.
| Зона | Что потребляет энергию | Что проверить |
|---|---|---|
| GPU‑ускорители | Обучение, вывод моделей, обмен между ускорителями | Лимиты мощности, загрузку, температуру, снижение частот |
| Процессоры и память | Подготовка данных, управление задачами, работа с сетью и накопителями | Баланс процессоров, памяти и GPU под профиль задачи |
| СХД и накопители | Чтение данных, запись контрольных точек, резервное копирование | Задержку, пропускную способность, схему хранения |
| Сеть | Межузловой обмен и связь с хранилищем | Пропускную способность, задержки |
| Питание | Блоки питания, преобразование энергии, ИБП | Резервирование, распределение нагрузки, фактические потери |
| Охлаждение | Кулеры, кондиционирование, радиаторы, жидкостный контур | Воздушные потоки, температуру, запас по отводу тепла |
По данным Uptime Institute за 2025 год, средний отраслевой PUE составил 1,54. Это не целевой показатель для конкретной площадки, а ориентир. Если ИИ‑кластер потребляет 100 кВт на оборудование, нагрузка на площадку с учетом инженерной инфраструктуры будет выше.
Как питание, СХД, сеть и охлаждение влияют на обучение моделей
Техническая спецификация сервера не отвечает на главный вопрос: выдержит ли выбранная зона ЦОДа несколько GPU‑узлов одновременно.
- Проверьте доступную мощность на стойку и на группу стоек.
- Сопоставьте расчетную мощность серверов с фактической нагрузкой.
- Проверьте схему питания и отказоустойчивость.
- Учтите работу СХД, сетевой инфраструктуры, охлаждения и ИБП.
- Оцените пики нагрузки, если тяжелые задачи запускаются одновременно.
- Заложите план масштабирования, если кластер будет расширяться.
Не всегда нужно сразу менять оборудование, если появились ограничения. Иногда помогает другая схема размещения, настройка очередей задач или поэтапное расширение. Если проблемы связаны с питанием или инженерной инфраструктурой, закупку серверов лучше синхронизировать с модернизацией серверной.
Охлаждение GPU‑серверов: когда воздуха недостаточно
Серверы с GPU‑ускорителями повышают тепловую плотность стойки. Для части задач достаточно воздушного охлаждения, но плотные ИИ‑кластеры могут требовать десятки киловатт отвода тепла, а системы высокой плотности - отдельного проекта инженерной инфраструктуры.
| Вариант | Когда подходит | Что ограничивает |
|---|---|---|
| Воздушное | Невысокая плотность GPU‑узлов, достаточный запас по холодному воздуху | Плотность стойки, рециркуляция, шум, запас по кондиционированию |
| Усиленное воздушное | Есть рост GPU‑нагрузки, но площадка еще допускает работу с воздухом | Качество изоляции коридоров, температура на входе, распределение стоек |
| Жидкостное | Высокая плотность, ограничения по площади, рост GPU‑стоек | Наличие контура, обслуживание, совместимость площадки и оборудования |
Жидкостное охлаждение не стоит выбирать по умолчанию. Оно нужно там, где плотность мощности, ограничения по площади или будущий рост GPU‑стоек делают воздушную схему неэффективной или рискованной. Решение принимают после проверки мощности, температуры, воздушных потоков и плана роста.
Почему СХД и сетевая инфраструктура влияют на энергопотребление GPU‑кластера
Кластер потребляет энергию даже тогда, когда ускорители ждут данные. Если СХД не успевают отдавать информацию или записывать контрольные точки, серверы остаются включенными, но эффективность падает. То же происходит при слабой передаче данных между вычислительными узлами и хранилищем.
Для машинного обучения важны не только емкость СХД и число портов. Нужно проверить задержку, пропускную способность, режим чтения и записи, схему хранения контрольных точек и резервное копирование. При распределенном обучении обмен данными влияет на итоговое время выполнения задачи.
Поэтому снижение энергопотребления нельзя сводить к ограничению мощности графических ускорителей. Иногда больший эффект дает баланс конфигурации: ускорители, процессоры, память, хранилище и ИТ‑инфраструктура должны соответствовать одному профилю нагрузки.
Когда помогает настройка, а когда нужна модернизация
Для ИИ‑кластера нет универсального способа снизить потребление электроэнергии. Одни задачи почти не теряют скорость при снижении лимита мощности GPU, другие сразу увеличивают время обучения. Поэтому перед изменениями нужно сравнивать потребление, температуру, время выполнения задачи, качество результата и загруженность графических ускорителей.
| Симптом | Возможная причина | Что проверить | Следующий шаг |
|---|---|---|---|
| GPU простаивают | СХД или сеть не успевают отдавать данные | Задержку, пропускную способность, время ожидания данных | Настроить СХД, сеть или размещение данных |
| Стойка перегревается | Высокая плотность или плохой поток воздуха | Температуру, рециркуляцию, заглушки, схему коридоров | Изменить размещение или охлаждение |
| Пики по питанию | Задачи стартуют одновременно | Расписание задач, очереди, лимиты мощности | Настроить планировщик и приоритеты |
| Производительность ниже расчета | Несбалансированная конфигурация | GPU, процессоры, память, СХД, сеть | Сравнить конфигурации под профиль нагрузки |
| Рост расходов без роста результата | Ускорители заняты не полезной работой | Стоимость запуска задачи, время обучения, простои | Оптимизировать очереди и состав кластера |
Если проблема в планировании задач, лимитах мощности, очередях или подаче данных, можно начать с настройки. Если площадка уперлась в мощность, охлаждение или старую архитектуру, нужна модернизация ЦОДа и пересмотр закупки.
Как сравнить конфигурации перед закупкой
Выбор сервера только по числу GPU может привести к неправильному решению. Для ИИ‑кластера важно понять, какие задачи будут выполняться и какие ограничения есть у площадки.
| Вариант | Модели | Когда подходит | Что проверить до закупки |
|---|---|---|---|
| Сервер с 2‑4 GPU | Dell PowerEdge R760xa; Dell PowerEdge R7615; Lenovo ThinkSystem SR675 V3; ASUS ESC4000A‑E12; Supermicro SYS‑221GE‑NR | Для вывода моделей, аналитики, визуализации, задач машинного обучения и отдельных рабочих групп | Питание, охлаждение, поддерживаемые GPU, кабели, расширение, совместимость ускорителей и матрицу производителя |
| Сервер с 8 GPU PCIe | Lenovo ThinkSystem SR675 V3; HPE ProLiant Compute DL380a Gen12; GIGABYTE G493‑SB0; Supermicro SYS‑422GA‑NR; Dell PowerEdge XE7740 | Для более плотных PCIe‑конфигураций, вывода моделей, визуализации, высокопроизводительных вычислений и нескольких групп задач | СХД, сеть, тепловую нагрузку, запас по стойке, PCIe Gen5, питание, воздушное охлаждение, допустимую мощность ускорителей |
| Сервер с 8 GPU SXM / HGX | Dell PowerEdge XE9680; HPE Cray XD670; Lenovo ThinkSystem SR680a V4; NVIDIA DGX B200; Supermicro SYS‑821GE‑TNHR | Для глубокого обучения крупных моделей, генеративного ИИ и задач с интенсивным обменом между ускорителями через NVIDIA NVLink / NVSwitch | Платформу, питание, охлаждение, сервис, совместимость GPU, обслуживание и размещение |
| Стоечная система высокой плотности | NVIDIA GB200 NVL72; NVIDIA GB300 NVL72; Dell PowerEdge XE9712; NVIDIA GB200 NVL72 by HPE; Lenovo NVIDIA GB300 NVL72 Rack Scale AI | Для крупных ИИ‑кластеров, обучения и вывода больших моделей, мультимодальных задач, крупных языковых моделей и масштабирования на уровне стойки | Готовность ЦОДа, жидкостное охлаждение, ИБП, стойки, серверную модель, ИТ‑архитектуру, резервирование данных |
Примечание: точное число и тип ускорителей нужно проверять по техническому руководству и матрице совместимости конкретной платформы.
Экономика: считать нужно стоимость кластера, а не сервера
Бюджет складывается не только из цены серверов. В расчет входят графические ускорители, хранилище данных, питание, охлаждение, время простоя и комплектующие. Сравнение только по числу GPU и цене модели не показывает, насколько выгодной будет конфигурация.
Процент переплаты нельзя предсказать без исходных данных проекта. На итог влияют тариф на электроэнергию, PUE, загрузка ускорителей, стоимость часа простоя, требования к хранилищу и инфраструктуре, условия поставки, гарантия и план масштабирования.
Для первичной оценки используют формулу: мощность оборудования в кВт умножают на часы работы, затем на PUE площадки и тариф по договору. Если серверы не работают круглосуточно под полной нагрузкой, вместо паспортной мощности нужно брать измеренный профиль.
Пример: каждый постоянный 1 кВт ИТ‑нагрузки дает 8760 кВт·ч в год до учета инженерной инфраструктуры. При PUE 1,54 это около 13 490 кВт·ч на уровне площадки. Дальше компания подставляет свой тариф, режим загрузки и план роста.
| Что может сделать проект дороже | Как это проявляется | Что считать до закупки |
|---|---|---|
| Избыточная конфигурация | Серверы выбраны с запасом, который не нужен текущей нагрузке | Разницу между достаточной и избыточной конфигурацией |
| Простой GPU | Ускорители медленно получают данные из СХД | Стоимость часа работы узла и часы простоя |
| Неверная оценка питания | После закупки выясняется, что стойка или зал не выдерживают нагрузку | Стоимость модернизации питания, ИБП и распределения по стойкам |
| Недооценка охлаждения | Стойка перегревается, узлы снижают частоту или требуют переноса | Стоимость охлаждения, простоя и перенастройки оборудования |
| Несравнимые коммерческие предложения | Поставщики закладывают разные составы, гарантии, сервис и комплектующие | Полную стоимость владения, а не только цену GPU‑сервера |
Экономия проявляется не в скидке на отдельный сервер. Цена снижается за счет подготовки корректного КП под задачу, проверки серверной, сравнения конфигураций, расчета хранилища и ИТ‑инфраструктуры.
Что подготовить для проверки спецификации
Перед запросом коммерческого предложения лучше указать в ТЗ:
- текущую или планируемую спецификацию GPU‑сервера;
- тип задач;
- требования ко времени обучения;
- объем данных и систему хранения;
- требования к хранилищу, резервному копированию и ИБП;
- схему подключения между вычислительными узлами и хранилищем;
- доступную мощность на стойку;
- условия охлаждения и допустимую тепловую нагрузку;
- требования по срокам поставки и гарантии;
- ограничения по бюджету, если они уже известны.
Эти данные помогают понять, где нужен новый сервер, где достаточно настройки, а где закупку нужно связать с модернизацией ЦОДа.
Как CRABBIT помогает распределить бюджет
CRABBIT работает как поставщик и интегратор ИТ‑оборудования. В проектах под задачу экономия начинается до закупки: нужно понять, какую часть бюджета направить на серверы, какую - на хранилище данных, какую - на ИБП, охлаждение и отказоустойчивость.
Если не подготовить ТЗ, коммерческие предложения будут абстрактными: один вариант выглядит дешевле за счет слабого хранилища, другой не учитывает питание и охлаждение, третий дает избыточные GPU‑ускорители. В такой ситуации компания рискует переплатить за мощность, которую серверная архитектура не раскроет.
| Что делает CRABBIT | Как это влияет на бюджет | Что получает клиент |
|---|---|---|
| Проверяет ограничения площадки | Помогает не покупать комплектующие, которые нельзя разместить без доработки ЦОДа | Понимание, что нужно менять: серверы, ИБП, охлаждение |
| Сравнивает несколько конфигураций | Помогает не переплатить за избыточные GPU и не сэкономить на узком месте | Вариант под нагрузку, модернизацию и бюджет |
| Связывает серверы, СХД и ИТ‑инфраструктуру | Снижает риск оплаты ускорителей, которые простаивают из‑за медленной подачи данных | Сбалансированную архитектуру под машинное обучение |
| Проверяет состав коммерческого предложения и ТЗ | Помогает сравнивать предложения по одинаковому составу и условиям | Понятную спецификацию для закупки и тендера |
| Подбирает замену или эквивалент | Помогает найти аналоги под задачу, если исходная модель недоступна или слишком дорогая | Альтернативные конфигурации без потери ключевых требований |
| Предлагает поэтапную закупку | Помогает не замораживать весь бюджет сразу, если нагрузку можно наращивать поэтапно | План поэтапного масштабирования или модернизации ИТ‑инфраструктуры |
| Уточняет гарантию, сервис и документы | Помогает учитывать не только цену оборудования, но и условия эксплуатации | Меньше спорных мест в поставке и обслуживании |
CRABBIT поможет подобрать
Реклама 16+. ООО "ГК КРЭББИТ" ИНН 7722377552 ОГРН: 1167746991170 107023, г. Москва, вн.тер.г. муниципальный округ Преображенское, ул. Малая Семеновская, д. 9, стр. 3
Вывод: сначала расчет, потом закупка
GPU‑кластер в собственном ЦОДе нужно рассматривать как проект по модернизации, а не как закупку нескольких мощных серверов. Сначала фиксируют профиль задач, измеряют ограничения, проверяют питание, затем связывают серверы с СХД и ИТ‑инфраструктурой.
Такой подход помогает избежать ситуации, когда ускорители куплены, но не приносят пользу: простаивают, перегреваются, упираются в нехватку питания или не масштабируются. После проверки можно сравнить конфигурации, рассчитать стоимость полезной работы, подготовить ТЗ и перейти к закупке с конкретным бюджетом.
Следующий шаг - отправить CRABBIT спецификацию, описание задач и ограничения площадки. По этим данным можно сравнить варианты, определить обязательные расходы и отделить их от переплаты за избыточную или несбалансированную сборку.
FAQ
Сколько потребляет GPU‑сервер для машинного обучения?
Зависит от модели сервера, числа ускорителей, процессоров, памяти, накопителей, сети и профиля задач. Например, у NVIDIA H100 SXM расчетная тепловая мощность может доходить до 700 Вт на один ускоритель. Но считать нужно не только GPU, а полный сервер и нагрузку на площадку.
Как рассчитать энергопотребление GPU‑кластера в ЦОДе?
Для первичной оценки берут мощность оборудования в кВт, часы работы, PUE площадки и тариф. Для точного расчета лучше использовать измеренный профиль нагрузок.
Какое охлаждение нужно для GPU‑серверов?
Зависит от плотности стойки, доступного холодного воздуха, температуры на входе и выходе, рециркуляции, планов роста и типа серверов. Для части конфигураций достаточно воздушной схемы, для плотных стоек может потребоваться жидкостный контур.
Когда GPU‑кластеру нужно жидкостное охлаждение?
Жидкостное охлаждение стоит рассматривать, если мощность стойки слишком высока для воздушной схемы, есть ограничения по площади, растет плотность GPU‑узлов или площадка не справляется с отводом тепла.
Почему GPU могут простаивать при дорогой конфигурации?
Частая причина - слабая подача данных. В такой ситуации сервер потребляет ресурсы, но полезная работа падает.
Что проверить перед покупкой?
Нужно проверить задачу, требования ко времени обучения, мощность, СХД, отказоустойчивость, спецификацию, условия поставки и совместимость комплектующих.
Можно ли использовать облако вместо собственного ИИ‑кластера?
Можно, если это подходит по стоимости, безопасности и требованиям к контролю. Для крупных компаний часто работает смешанная схема: часть опытов и пиковых задач уходит в облако, а базовые или чувствительные нагрузки остаются в собственном ЦОДе.
Какие данные нужны CRABBIT для подбора?
Нужны тип задач, модели, объемы данных, требования ко времени обучения или вывода модели, система хранения данных, доступная мощность на стойку, условия охлаждения и требования к поставке.
Что входит в спецификацию GPU‑сервера для ЦОДа?
В спецификацию нужно включить серверную платформу, тип и число ускорителей, процессоры, память, накопители, сеть, блоки питания, кабели, требования к охлаждению, гарантию и ограничения площадки.
Можно ли заранее сказать, во сколько дороже будет проект без подготовки?
Без исходных данных корректный процент назвать нельзя. Подорожание зависит от тарифа на электроэнергию, PUE, загрузки GPU, стоимости простоя, СХД, требований к охлаждению. Для проекта считают сценарии: достаточная конфигурация, избыточная конфигурация, модернизация площадки, поэтапное расширение и смешанная схема. Так становится видно, где бюджет нужен, а где возникает переплата.