NVIDIA Rubin на CES 2026: почему новая AI-платформа меняет правила игры для 10/100GbE, памяти и GPU-инференса
Четверг, Январь 15, 2026
NVIDIA на CES 2026 показала редкий для индустрии сигнал уверенности: следующий шаг в AI-железе не просто запланирован, а уже физически «на руках» у компании, чипы вернулись с фабрики, а системы поднимаются в лабораториях. Для рынка это важно не из-за громкого названия Rubin, а потому что становится понятнее, куда именно уйдут узкие места в ближайшие годы и почему инфраструктура вокруг GPU снова будет решать почти всё. Когда ускорение на уровне одного GPU заявляется кратным, внезапно выясняется, что сеть, память и сборка стоек начинают ограничивать прогресс сильнее, чем сами вычисления.
Rubin задуман как платформа, а не один «звёздный» GPU. NVIDIA прямо продаёт идею целого стека, где CPU, GPU, DPU, сетевые карты, NVLink и Ethernet-коммутация собраны в единый конструктор. В их логике это не шесть отдельных чипов, а шесть компонентов одной машины, которая должна быть быстрее в инференсе, заметно сильнее в обучении и при этом эффективнее по энергии. NVIDIA говорит о приросте инференса на GPU до 5 раз и обучения до 3.5 раз по сравнению с Blackwell, а также о более высокой производительности на ватт именно в инференсе. Даже если реальная картина у конкретных нагрузок окажется скромнее, тренд считывается безошибочно: спрос на вычисления будет расти быстрее, чем терпимость рынка к избыточным расходам на питание и охлаждение.
Сердце платформы это Rubin GPU, который, по заявлению компании, рассчитан на NVFP4 и даёт до 50 PFLOPS для инференса и до 35 PFLOPS для обучения на той же точности. Важный «ускоритель ускорителей» здесь память: заявлены до 288GB HBM4 и суммарная пропускная способность до 22 TB/s, что NVIDIA описывает как примерно 2.8 раза больше, чем у Blackwell. Параллельно растёт и сложность самого кристалла, упоминаются сотни миллиардов транзисторов и производство на 3nm. Это уже не про «поставил карту и полетел», а про то, что система должна быть сбалансирована целиком, иначе деньги превращаются в тепло.
Чтобы такие GPU масштабировались внутри стойки, NVIDIA делает ставку на NVLink 6 и новый NVLink Switch. Говорится о 3.6 TB/s NVLink-полосы на GPU и переходе на 400Gbps SerDes, а для свитч-чипа отдельно подчёркивается необходимость жидкостного охлаждения. Это хороший маркер того, где теперь проходит граница плотности: трафик внутри стойки становится настолько агрессивным, что «обычное» охлаждение уже не выглядит достаточным. Одновременно это намёк клиентам, что стоимость владения будет всё больше зависеть от инженерии: от кабель-менеджмента до термопрофиля.
В паре с Rubin GPU идёт Vera CPU, ARM-процессор с 88 ядрами и поддержкой SMT до 176 потоков. NVIDIA позиционирует его как шаг вперёд относительно Grace по обработке данных и компрессии, а также переводит память на модульный формат SOCAMM с объёмом до 1.5TB LPDDR5X и полосой около 1.2 TB/s. Для рынка это заметно: модульность решает «вечную» проблему платформ, где память была впаяна и менять её было нельзя. Плюс к этому NVIDIA делает акцент на rack-scale confidential computing, то есть на шифрование домена не только на GPU, но и на уровне CPU в масштабе стойки.
Снаружи стойки начинается второй слой истории это сеть. ConnectX-9 заявлен с общей полосой 1.6 Tb/s и 200G PAM4 SerDes, BlueField 4 получает собственную сетевую часть и приросты по вычислениям и памяти относительно предыдущего поколения. А на уровне Ethernet-коммутации выходит Spectrum-6 и Spectrum-X, где главным техническим элементом становятся co-packaged optics. NVIDIA обещает здесь серьёзные выигрыши по энергоэффективности и надёжности относительно «традиционных» оптических схем. Самые показательные цифры в их презентации это масштабы: старшие модели свитчей описываются как сотни портов 800G и сотни терабит суммарной пропускной способности. Это не про домашние сети и даже не про классический enterprise, это про инфраструктуру, где каждый процент эффективности быстро превращается в миллионы долларов на горизонте жизненного цикла.
На уровне готовых систем NVIDIA подтверждает две линии: Vera Rubin NVL72 как плотный «всё внутри NVLink» вариант и HGX Rubin NVL8 как путь для тех, кому нужно оставаться ближе к миру x86. У NVL72 особенно важна не только производительность, но и эксплуатация. NVIDIA заявляет переход на модульные лотки без кабелей и сокращение времени сборки стойки с 100 минут до 6 минут, а также обещания по обслуживанию без простоя на health checks и сетевые работы. Это уже язык людей, которые обожглись на сложности интеграций и хотят предсказуемую сборку в масштабе.
Отдельно интересна идея с KV-кешем для инференса, NVIDIA Inference Context Memory Storage Platform. Поскольку контекст и промежуточные данные у современных моделей растут, держать всё на узле становится дорого, а пересчитывать повторно тоже невыгодно. NVIDIA предлагает выделенный слой для хранения контекста на SSD, связанный через ConnectX/BlueField и поддержанный софтом в их стеке. Для провайдеров и операторов это ещё один инструмент: не только «дать больше GPU», а поднять реальную пропускную способность инференса на уровне кластера и снизить энергозатраты.
Для клиентов QCKL главный вывод простой: AI-инфраструктура ускоряется не только за счёт GPU, а за счёт баланса вычислений, памяти и сети, и именно этот баланс станет точкой конкуренции в 2026. Когда на горизонте появляются системы уровня Rubin, имеет смысл заранее проектировать окружение под быстрый storage, высокую сетевую полосу и понятную масштабируемость, чтобы рост нагрузки не упёрся в архитектурные мелочи.
Если вы планируете GPU-инфраструктуру под инференс или обучение и хотите заранее заложить правильную сеть и конфигурации под рост, посмотрите решения QCKL и подберите вариант под вашу модель нагрузки. Мы поможем собрать конфигурацию так, чтобы упор был в вычисления, а не в узкие места вокруг них.
