Когда инженеры отвергают более умные модели: битва за AI-инференс, OpenAI меняет «оружие»

Bitget

Новости

华尔街见闻2026/05/18 12:10

Показать оригинал

Автор:华尔街见闻

Bitget предлагает комплексные решения для торговли криптовалютами, акциями и золотом. Торгуйте сейчас!

Приветственный бонус 6,200 USDT для новых пользователей! Зарегистрироваться

Рынок искусственного интеллекта, ориентированный на инференс, переживает глубокую парадигмальную трансформацию: именно скорость, а не интеллект, становится ключевой переменной, за которую разработчики готовы платить. Этот революционный сдвиг вывел ранее находившуюся на периферии компанию по производству чипов Cerebras в центр внимания, а OpenAI потратил десятки миллиардов долларов, чтобы сделать ставку на производителя чипов размером с кремниевую пластину, который готовится к IPO.

Согласно подробному отчету отраслевого исследовательского института SemiAnalysis, OpenAI уже заключила с Cerebras мастер-контракт на вычислительную мощность в размере до 750 мегаватт с потенциальным расширением до 2 гигаватт и общими оставшимися обязательствами на сумму 24,6 миллиарда долларов.

Ключевая логика этой сделки состоит в том, что модель OpenAI GPT-5.3-Codex-Spark на аппаратном обеспечении Cerebras может обеспечивать скорость генерации до 2000 токенов в секунду на пользователя, что значительно превышает пользовательский опыт, предоставляемый кластерами GPU на базе HBM. В то же время Cerebras стоит на пороге IPO, и ее судьба уже тесно связана с OpenAI.

Сигналы о революции скорости на рынке становятся все более отчетливыми. SemiAnalysis раскрывает, что 80% расходов их команды на ИИ (годовой пиковый уровень — 10 млн долларов) сосредоточены на быстром режиме Opus 4.6 компании Anthropic — этот режим обеспечивает 2,5-кратное ускорение при 6-кратном ценовом премиуме. Более показательно, что после выхода Opus 4.7 несколько инженеров отказались от апгрейда только потому, что новый релиз не поддерживает быстрый режим. Это первый случай, когда команда SemiAnalysis добровольно отказалась от передовых возможностей в пользу более высокой скорости генерации токенов.

Премия за скорость: разработчики голосуют кошельками

Конкурентная среда рынка инференса ИИ перекраивается по новой оси.

Как многократно подчеркивал CEO Nvidia Jensen Huang на конференции GTC в этом году, throughput (количество токенов в секунду на GPU) и interactivity (количество токенов в секунду на пользователя) — это фундаментальный компромисс в инференсе: первый фактор подходит для пакетной обработки, второй определяет пользовательский опыт. SemiAnalysis сравнивает это с выбором между "автобусом и Ferrari": можно медленно обслуживать большое количество пользователей, а можно быстро обслужить одного.

Когда инженеры отвергают более умные модели: битва за AI-инференс, OpenAI меняет «оружие» image 1

Предпочтения рынка уже подтверждены покупательским поведением. Быстрый режим Opus 4.6 при 6-кратной цене предоставляет лишь 2,5-кратное ускорение по скорости и стал самым рентабельным продуктом Anthropic, а также ключевым драйвером взрывного роста ARR в этом году. Однако данные, собранные командой SemiAnalysis совместно с OpenRouter, фиксируют недавнее замедление режима: стандартный Opus 4.6 стабилен на уровне около 40 tps, быстрый режим ранее превышал 100 tps, но недавно упал до примерно 70 tps — фактическое ускорение сократилось с 2,5х до примерно 1,75x.

OpenAI и Anthropic уже осознали этот спрос и предлагают быструю версию, приоритетный режим, ценообразование для пакетов и другие варианты, пытаясь охватить весь рынок и найти точку максимизации прибыли.

Чипы размером с пластину: техническая логика ва-банк

Главная ставка Cerebras — преодолеть физические пределы однократного экспонирования литографической машины и превратить всю пластину в единый чип.

Третье поколение этих продуктов — WSE-3 — изготавливается по технологии N5 от TSMC и вмещает 44 ГБ SRAM на одной пластине, обеспечивая пропускную способность памяти 21 ПБ/с — это в тысячи раз выше, чем у HBM. Суть архитектуры: использовать сверхвысокую пропускную способность памяти ради минимальной задержки доступа, что позволяет раскрыть потенциал в задачах декодирования с малой партией и низкой арифметической интенсивностью. В аналогичных условиях GPU на базе HBM часто испытывают "голод вычислительных ресурсов".

Однако эта архитектура оборачивается значительной ценой в вычислительной плотности. По данным SemiAnalysis, эффективная плотность FP16 составляет лишь 15,625 PFLOPS — что в восемь раз меньше, чем указывается в официальных материалах Cerebras (125 PFLOPS). Разница обусловлена использованием неструктурной разреженности с коэффициентом 8:1. SemiAnalysis называет это "Формулой Фельдмана" и сравнивает с "математикой Дженсена" от Nvidia, но отмечает, что Cerebras пошла еще дальше.

Что касается стоимости системы, SemiAnalysis оценивает себестоимость каждой серверной станции CS-3 (включая KVSS CPU-узлы) примерно в 450 000 долларов, что существенно выше стоимости самой пластины TSMC (около 20 000 долларов). Дорогие модули питания (Vicor), системы жидкостного охлаждения и индивидуальные фотошаблоны для каждой партии дополнительно увеличивают цену.

Когда инженеры отвергают более умные модели: битва за AI-инференс, OpenAI меняет «оружие» image 2

Архитектурные ограничения: сетевая дилемма пропускной способности

Самое заметное слабое место WSE-3 — крайне ограниченная внешняя пропускная способность.

Каждый WSE-3 предоставляет только 150 ГБ/с (1,2 Тбит/с) внешнего интерфейса — это в шесть раз меньше, чем возможность масштабирования одного GPU Blackwell NVLink5 от Nvidia (900 ГБ/с). Это не просчет инженеров, а внутреннее ограничение архитектуры пластин — в SemiAnalysis это называют "проблемой островов".

Суть проблемы — в механизме однородного экспонирования: WSE-3 собирается из 84 одинаковых блоков (die), каждый из которых должен быть идентичен для корректной 2D-сети. Нельзя разместить все SerDes PHY на одном краю пластины — чтобы увеличить каналы ввода-вывода, место под PHY нужно резервировать в каждом блоке, но те, что внутри пластины, не смогут соединяться с внешним миром, образуя "брошенный кремний". Кроме того, модули PHY порождают "дыры" в сетке, увеличивают задержки передачи данных и ослабляют ключевые преимущества самой архитектуры.

Это узкое место непосредственно ограничивает способность Cerebras обслуживать крупные модели. Для задач с числом параметров свыше триллиона и окнами контекста в миллион токенов система вынуждена резать сеть на слои между несколькими пластинами и передавать активируемые значения между ними. По мере роста модели число необходимых пластин растет линейно, а постоянная задержка каждой передачи накапливается, нивелируя выигрыш в скорости.

Расширение SRAM завершено: тревоги дорожной карты

Еще одно структурное испытание для Cerebras — физический предел плотности SRAM.

С WSE-1 (TSMC 16nm, 18 ГБ SRAM) до WSE-2 (7nm, 40 ГБ) емкость SRAM выросла в 2,2 раза. Однако при переходе на WSE-3 (с 7nm на 5nm) объем увеличился лишь на 10% — с 40 до 44 ГБ, несмотря на 50-процентный прирост логических транзисторов. По данным SemiAnalysis, после 5nm у TSMC пластин N3E и N5 площадь SRAM практически не уменьшается, N2 и последующие узлы также — расширение SRAM фактически застопорилось.

Когда инженеры отвергают более умные модели: битва за AI-инференс, OpenAI меняет «оружие» image 3

Это означает, что в будущем Cerebras сможет нарастить объем SRAM только путем жертвы вычислительной площади под память — и возникает жесткий нулевой баланс. Следующее поколение CS-4 сохранит WSE-3 на базе N5, память не увеличится, а рост вычислений и частоты будет достигаться только за счет повышения энергопотребления.

Для сравнения: после слияния с Groq Nvidia получает возможность вертикального наращивания SRAM по оси Z с помощью гибридного бондинга (маршрут LP40), обходя ограничения плоской интеграции. Cerebras также исследует эту дорожную карту — возможность бондинга DRAM пластин или фотонных соединений поверх WSE, однако SemiAnalysis сомневается в реализуемости этой технологии и графике: такие решения сталкиваются с механическими и термическими трудностями, которые гораздо сложнее, чем у обычных чипов.

Сделка с OpenAI: двуострый меч моноклиентской зависимости

Связь между Cerebras и OpenAI уже далеко вышла за пределы отношений поставщика и клиента.

По данным S-1, на которые ссылается SemiAnalysis, в декабре 2025 года стороны заключили мастер-контракт (MRA): OpenAI обязуется с 2026 по 2028 года поэтапно приобретать ИИ-вычислительные мощности в 750 МВатт, каждая партия на 3–4 года с возможностью продления до 5 лет, и имеет опционы еще на 1,25 ГВт. На 31 декабря 2025 года размер оставшихся обязательств Cerebras достиг 24,6 млрд долларов.

Когда инженеры отвергают более умные модели: битва за AI-инференс, OpenAI меняет «оружие» image 4

В структуре капитала OpenAI выступает сразу в трех ролях: предоставляет Cerebras кредит на оборотные средства в 1 млрд долларов под 6% годовых (при погашении мощностями проценты не взимаются); владеет 33,445 млн ордеров на акции класса N (без права голоса) по близкой к нулю цене; потенциально может получить около 12% полностью разводнённой доли в Cerebras. Если MRA будет расторгнут не по вине OpenAI, Cerebras обязана немедленно погасить весь долг и начисленные проценты, а OpenAI получает право напрямую распоряжаться средствами на эскроу-счетах.

Это делает прогноз роста Cerebras крайне зависимым от единственного заказчика. По оценке SemiAnalysis, доход компании в ближайшие годы резко изменится, OpenAI — главный драйвер, но и основные риски сосредоточены там же: к 2028 году Cerebras придется поставить серверов в разы больше, чем когда-либо за всю историю, а ключевой неопределенностью остаётся скорость развития дата-центров.

Менять скорость на интеллект: сколько стоит эта сделка

Флагманский продукт OpenAI, заработавший на Cerebras — GPT-5.3-Codex-Spark — это не полноценный GPT-5.3-Codex, а сжатая дистиллированная модель на архитектуре gpt-oss-120B, которая в 10 раз меньше по числу параметров, чем оригинал.

SemiAnalysis говорит об этом прямо: чипы Cerebras сегодня экономически выгодно работают только с относительно малогабаритными моделями. Для современных задач с объемом параметров больше триллиона и контекстным окном 1 миллион токенов OpenAI при переходе на Cerebras должна принять существенную премию в цене, и фактическая скорость общения будет ниже 1000 токенов в секунду.

Но здесь есть переменная: скорость прогресса алгоритмов. По мнению SemiAnalysis, модели с 120B параметров могут достичь уровня интеллекта GPT-5.5 менее чем за год. Тогда идея "менять фронтирный интеллект на ультраскоростную генерацию токенов" изменит свою суть — так же, как сегодня инженеры предпочитают быстрый режим Opus 4.6, отказываясь от более интеллектуального Opus 4.7 ради ощущения живого диалога.

Первая квота на 750 МВатт уже закреплена. Остаётся вопрос: когда интеллект модели 120B сравняется с текущим фронтиром, применит ли OpenAI дополнительную опцию и расширит масштаб соглашения до 2 ГВт или даже выше? Ответ на этот вопрос определит, удастся ли выполнить IPO-оценку Cerebras и выиграть следующую фазу войны на рынке инференса.

Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.

PoolX: вносите активы и получайте новые токены.

APR до 12%. Аирдропы новых токенов.

Внести!

Вам также может понравиться

UPNEW за 24 часа вырос на 1099,3%: цена взлетела с минимальных 0,015 доллара до максимальных 0,1799 доллара

Bitget Pulse•2026/05/19 12:04

От выпуска до инфраструктуры

Block unicorn•2026/05/19 11:51

GOAT изменился на 56,5% за 24 часа: рост, вызванный листингом на Binance и MEXC, сменился коррекцией.

Bitget Pulse•2026/05/19 11:44

Военное напряжение между США и Ираном снижается, дипломатия усиливается, но золото не растет, несмотря на благоприятные факторы

汇通财经•2026/05/19 11:21

Когда инженеры отвергают более умные модели: битва за AI-инференс, OpenAI меняет «оружие»

Премия за скорость: разработчики голосуют кошельками

Чипы размером с пластину: техническая логика ва-банк

Архитектурные ограничения: сетевая дилемма пропускной способности

Расширение SRAM завершено: тревоги дорожной карты

Сделка с OpenAI: двуострый меч моноклиентской зависимости

Менять скорость на интеллект: сколько стоит эта сделка

Вам также может понравиться

Популярное

Цены на крипто