Активируйте JavaScript для полноценного использования elitetrader.ru Проверьте настройки браузера.
Медвежий сценарий для NVIDIA » Элитный трейдер
Элитный трейдер
Искать автора

Медвежий сценарий для NVIDIA

31 января 2025 | Nvidia
Перевод статьи от Джеффри Эмануэля

Как человек, который провел ~10 лет, работая инвестиционным аналитиком общего профиля в различных long/short хедж-фондах (в том числе в Millennium и Balyasny), а также будучи чем-то вроде математика и компьютерного ботаника, изучающего глубокое обучение с 2010 года (в те времена, когда Джефф Хинтон еще говорил об ограниченных машинах Больцмана и все еще программировалось с помощью MATLAB, а исследователи все еще пытались доказать, что они могут получить лучшие результаты при классификации рукописных цифр, чем при использовании машин опорных векторов), мне хочется думать, что у меня довольно необычный взгляд на развитие технологий ИИ и на то, как это связано с оценкой акций на фондовом рынке.

Последние несколько лет я больше работаю как разработчик, и у меня есть несколько популярных проектов с открытым исходным кодом для работы с различными формами моделей/сервисов ИИ (например, смотрите LLM Aided OCR, Swiss Army Llama, Fast Vector Similarity, Source to Prompt и Pastel Inference Layer в качестве нескольких недавних примеров). По сути, я использую эти пограничные модели весь день, каждый день, настолько интенсивно, насколько это возможно. У меня 3 аккаунта на Claude, чтобы не иссякали запросы, и я подписался на ChatGPT Pro через несколько минут после того, как он стал доступен.

Я также стараюсь быть в курсе последних научных достижений и внимательно читаю все основные технические отчеты, которые выходят из крупнейших лабораторий ИИ. Так что я думаю, что у меня достаточно хорошее представление об этом пространстве и о том, как оно развивается. В то же время за свою жизнь я зашортил тонну акций и дважды выиграл приз за лучшую идею на Value Investors Club (за TMS long и PDH short, если вы следите за этим).

Я говорю это не для того, чтобы похвастаться, а скорее для того, чтобы утвердить свою репутацию человека, который может высказать свое мнение по этому вопросу, не показавшись безнадежно наивным. И хотя, безусловно, есть много людей, которые лучше меня разбираются в математике и науке, и людей, которые лучше меня разбираются в long/short инвестировании на фондовом рынке, я сомневаюсь, что найдется много тех, кто находится в центре диаграммы Венна в той степени, на которую я могу претендовать.

При всем этом, когда бы я ни встречался и ни общался со своими друзьями и бывшими коллегами из мира хедж-фондов, разговор быстро переходит на Nvidia. Не каждый день компания проходит путь от относительной безвестности до стоимости, превышающей совокупный объем фондовых рынков Англии, Франции и Германии! И естественно, эти друзья хотят знать мои мысли по этому поводу. Поскольку я свято верю в долгосрочное преобразующее воздействие этой технологии - я действительно считаю, что она радикально изменит почти все аспекты нашей экономики и общества в ближайшие 5-10 лет, практически не имея исторических прецедентов, - мне было трудно привести аргументы в пользу того, что темпы роста Nvidia замедлятся или прекратятся в ближайшее время.

Но даже несмотря на то, что в течение последнего года или около того я считал, что оценка слишком высока, сочетание последних событий заставило меня немного изменить свой обычный инстинкт, который заключается в том, чтобы быть немного более противоположным толпе в своих взглядах и подвергать сомнению консенсус, когда кажется, что он уже более чем оценен. Поговорка «во что мудрец верит в начале, в то дурак верит в конце» стала знаменитой не зря.

"Бычий" сценарий

Прежде чем мы перейдем к событиям, которые заставляют меня задуматься, давайте сделаем паузу, чтобы вкратце рассмотреть «бычий» сценарий для акций NVDA, который, по сути, теперь известен каждому. Глубокое обучение и искусственный интеллект - это самые преобразующие технологии со времен интернета, которые способны изменить практически все в нашем обществе. Nvidia каким-то образом оказалась близка к монополии по доле совокупных капитальных затрат отрасли, которые тратятся на инфраструктуру обучения и вывода.

Некоторые из крупнейших и наиболее прибыльных компаний в мире, такие как Microsoft, Apple, Amazon, Meta, Google, Oracle и т. д., решили, что они должны делать и тратить все необходимое, чтобы оставаться конкурентоспособными в этом пространстве, потому что они просто не могут позволить себе остаться позади. Объем капитальных вложений, гигаватт электроэнергии, площадь новых дата-центров и, конечно, количество графических процессоров - все это взорвалось и, похоже, не собирается замедляться. При этом Nvidia удается получать безумно высокие 90%+ валовые прибыли на самых высокотехнологичных продуктах, ориентированных на дата-центры.

Мы только нащупали поверхность «бычьего» сценария. Сейчас существует множество дополнительных аспектов, которые заставляют даже тех, кто уже был настроен очень оптимистично, становиться еще более оптимистичными. Помимо таких вещей, как появление человекоподобных роботов, которые, как я подозреваю, застанут большинство людей врасплох, когда они быстро смогут выполнять огромное количество задач, которые в настоящее время требуют неквалифицированного (или даже квалифицированного) человеческого труда (например, стирка, уборка, организация и приготовление пищи; выполнение строительных работ, таких как ремонт ванной комнаты или строительство дома в команде рабочих; управление складом и вождение погрузчиков и т. д.), есть и другие факторы, которые большинство людей даже не рассматривали.

Один из основных факторов, о котором говорят умные люди, - это появление «нового закона масштабирования», который создал новую парадигму мышления о том, как со временем будут расти потребности в вычислениях. Первоначальный закон масштабирования, который двигал прогресс в ИИ с момента появления AlexNet в 2012 году и изобретения архитектуры Transformer в 2017 году, - это закон масштабирования предварительного обучения: чем больше миллиардов (а теперь уже и триллионов) токенов мы можем использовать в качестве обучающих данных, чем больше параметров у обучаемых моделей и чем больше FLOPS вычислений мы тратим на обучение этих моделей на этих токенах, тем выше производительность полученных моделей на большом количестве очень полезных задач в дальнейшем.

И не только это, но и то, что это улучшение в некоторой степени предсказуемо, настолько, что ведущие лаборатории ИИ, такие как OpenAI и Anthropic, имеют довольно хорошее представление о том, насколько хороши будут их последние модели еще до того, как они начнут реальное обучение - в некоторых случаях предсказывая эталоны конечных моделей с точностью до пары процентных пунктов. Этот «оригинальный закон масштабирования» был жизненно важен, но всегда вызывал некоторые сомнения у людей, прогнозирующих будущее с его помощью.

Во-первых, похоже, что мы уже исчерпали весь накопленный в мире набор высококачественных обучающих данных. Конечно, это не совсем так - существует еще очень много старых книг и периодических изданий, которые еще не были должным образом оцифрованы, а если и были, то не имеют соответствующей лицензии для использования в качестве учебных данных. Проблема в том, что, даже если отдать должное всему этому материалу - скажем, общей сумме «профессионально» созданного англоязычного письменного контента с 1500 по, скажем, 2000 год, - в процентном выражении это не такая уж огромная сумма, когда речь идет об обучающем корпусе из почти 15 триллионов лексем, то есть о масштабах современных пограничных моделей.

Для быстрой проверки реальности этих цифр: Google Books оцифровал около 40 миллионов книг; если типичная книга содержит от 50 до 100 тысяч слов, или от 65 до 130 тысяч токенов, то это от 2,6 до 5,2 Т токенов только из книг, хотя, конечно, большая часть этих данных уже включена в обучающие корпорации, используемые большими лабораториями, независимо от того, является ли это строго законным или нет. Кроме того, существует множество научных работ: только на сайте arXiv более 2 миллионов работ. А в Библиотеке Конгресса США хранится более 3 миллиардов оцифрованных газетных страниц. В совокупности это может составлять до 7 Т лексем, но поскольку большая их часть уже включена в обучающие корпорации, оставшиеся «дополнительные» обучающие данные, вероятно, не так уж и значительны в общей схеме вещей.

Конечно, есть и другие способы собрать больше обучающих данных. Например, можно автоматически расшифровывать каждое видео на YouTube и использовать этот текст. И хотя это может быть полезно в некоторых случаях, это, конечно, гораздо менее качественно, чем, скажем, уважаемый учебник по органической химии в качестве источника полезных знаний о мире. Поэтому мы всегда сталкивались со «стеной данных», когда речь заходила о первоначальном законе масштабирования; хотя мы знаем, что можем продолжать вкладывать все больше и больше средств в GPU и строить все больше и больше центров обработки данных, гораздо сложнее массово производить новые полезные человеческие знания, которые были бы правильными и дополняли бы уже существующие. Одним из интригующих ответов на это стало появление «синтетических данных», то есть текста, который сам по себе является результатом работы LLM. И хотя это кажется почти бессмыслицей, в качестве способа улучшения качества модели, на практике это, похоже, работает очень хорошо, по крайней мере, в области математики, логики и компьютерного программирования.

Причина, конечно, в том, что это области, где мы можем механически проверить и доказать правильность вещей. Так что мы можем сделать выборку из огромной вселенной возможных математических теорем или возможных скриптов Python, а затем проверить, являются ли они правильными, и включить их только в том случае, если они правильные. Таким образом, мы можем очень сильно расширить коллекцию высококачественных обучающих данных, по крайней мере, в таких областях.

Кроме текста, есть и другие виды данных, на которых мы могли бы обучать ИИ. Например, что если мы возьмем секвенирование всего генома (около 200-300 ГБ без сжатия для одного человека) для 100 миллионов человек? Очевидно, что это очень много данных, хотя подавляющее большинство из них будут практически идентичны у двух разных людей. Конечно, по разным причинам сравнение с текстовыми данными из книг и интернета может ввести в заблуждение:

Сырой размер генома не поддается прямому сравнению с количеством лексем.
Информационное содержание геномных данных сильно отличается от текста
Ценность обучения с использованием сильно избыточных данных неясна
Вычислительные требования для обработки геномных данных отличаются.

Но это еще один большой источник разнообразной информации, на котором в будущем мы сможем обучать огромные модели, поэтому я и включил его в список.

Итак, хотя есть некоторая надежда на то, что мы сможем собирать все больше и больше дополнительных обучающих данных, если посмотреть на скорость роста обучающих корпораций в последние годы, становится очевидно, что мы близки к тому, чтобы удариться о стену с точки зрения доступности данных для «общеполезных» знаний, которые могут приблизить нас к конечной цели - получить искусственный супер-интеллект, который в 10 раз умнее Джона фон Неймана и является абсолютным экспертом мирового класса по всем известным человеку специальностям.

Помимо ограниченного количества доступных данных, у сторонников закона масштабирования перед обучением всегда была еще пара моментов, которые таились на задворках сознания. Главный из них - после завершения обучения модели что делать со всей этой вычислительной инфраструктурой? Обучать следующую модель? Конечно, вы можете это сделать, но, учитывая быстрое улучшение скорости и производительности GPU, а также важность электроэнергии и других расходов в экономических расчетах, имеет ли смысл использовать кластер двухлетней давности для обучения новой модели? Конечно, лучше использовать новый центр обработки данных, который вы только что построили и который стоит в 10 раз дороже старого и в 20 раз мощнее благодаря более совершенным технологиям. Проблема в том, что в какой-то момент вам нужно будет амортизировать первоначальные затраты на эти инвестиции и окупить их за счет потока (надеюсь, положительного) операционной прибыли, верно?

Рынок настолько увлечен ИИ, что, к счастью, игнорирует это, позволяя таким компаниям, как OpenAI, демонстрировать умопомрачительные операционные убытки, получая при этом все более впечатляющие оценки в последующих инвестиционных раундах (хотя, к их чести, они также смогли продемонстрировать очень быстро растущие доходы). Но в конечном итоге, чтобы такая ситуация была устойчивой в течение полного рыночного цикла, эти затраты на центры обработки данных должны в конце концов окупиться, надеюсь, с прибылью, которая со временем станет конкурентоспособной по сравнению с другими инвестиционными возможностями с учетом риска.

Новая парадигма

Итак, это был закон масштабирования до обучения. Что же это за «новый» закон масштабирования? Ну, это то, на чем люди начали фокусироваться только в прошлом году: масштабирование вычислений во времени вывода. Раньше большая часть всех вычислений, которые вы затрачивали в процессе, приходилась на предварительные обучающие вычисления для создания модели. После того, как у вас была обученная модель, выполнение выводов на основе этой модели - т.е. задать вопрос или попросить LLM выполнить для вас какую-то задачу - использовало определенный, ограниченный объем вычислений.

Очень важно, что общий объем вычислений (измеряемый различными способами, такими как FLOPS, объем памяти GPU и т.д.) был намного, намного меньше, чем требовалось на этапе предварительного обучения. Разумеется, объем вычислений при выводе данных растет, когда вы увеличиваете размер контекстного окна моделей и объем выходных данных, которые вы генерируете за один раз (хотя исследователи добились захватывающих дух алгоритмических улучшений в этом направлении по сравнению с первоначальным квадратичным масштабированием, которое люди изначально ожидали получить при масштабировании). Но, по сути, до недавнего времени вычисления для выводов были гораздо менее интенсивными, чем вычисления для обучения, и масштабировались практически линейно в зависимости от количества обрабатываемых запросов - чем больше спрос на завершение текста в ChatGPT, например, тем больше вычислений для выводов вы использовали.

С появлением революционных моделей Chain-of-Thought («COT»), представленных в прошлом году, наиболее заметных во флагманской модели O1 от OpenAI (но совсем недавно в новой модели R1 от DeepSeek, о которой мы поговорим позже гораздо подробнее), все изменилось. Вместо того чтобы объем вычислений прямо пропорционально зависел от длины выходного текста, генерируемого моделью (масштабируясь при увеличении контекстных окон, размера модели и т. д.), эти новые COT-модели также генерируют промежуточные «логические лексемы»; считайте, что это своего рода блокнот или «внутренний монолог» модели, пока она пытается решить вашу проблему или выполнить поставленную перед ней задачу.

Это настоящее изменение в работе вычислений: теперь, чем больше токенов вы используете для этой внутренней цепочки мыслительного процесса, тем выше качество конечного результата, который вы можете предоставить пользователю. По сути, это все равно что дать человеку больше времени и ресурсов на выполнение задачи, чтобы он мог дважды и трижды проверить свою работу, выполнить одну и ту же базовую задачу несколькими разными способами и убедиться, что они получаются одинаковыми; взять полученный результат и «подставить» его в формулу, чтобы проверить, действительно ли он решает уравнение, и т. д.

Оказалось, что этот подход работает почти удивительно хорошо; по сути, он использует давно ожидаемую мощь так называемого «обучения с подкреплением» с мощью архитектуры Transformer. Он напрямую решает единственную самую большую слабость феноменально успешной в остальном модели Transformer, которая заключается в ее склонности к «галлюцинациям».

По сути, Transformer работают в плане предсказания следующего маркера на каждом шаге так: если они начинают идти по плохому «пути» в своем первоначальном ответе, они становятся почти как уклончивый ребенок, который пытается плести о том, почему он на самом деле прав, даже если он должен был понять в середине потока с помощью здравого смысла, что то, что он говорит, не может быть правильным.

Поскольку модели всегда стремятся быть внутренне последовательными и чтобы каждая последующая сгенерированная лексема естественным образом вытекала из предыдущих лексем и контекста, им очень трудно корректировать курс и отступать назад. Разбив процесс умозаключения на множество промежуточных этапов, они могут попробовать множество разных вещей, посмотреть, что работает, и продолжать корректировать курс и пробовать другие подходы, пока не достигнут достаточно высокого порога уверенности в том, что они не несут чушь.

Возможно, самое необычное в этом подходе, помимо того, что он вообще работает, заключается в том, что чем больше токенов логики/COT вы используете, тем лучше он работает. Внезапно у вас появился дополнительный диск, который можно повернуть так, что по мере увеличения количества маркеров COT-рассуждений (которые используют гораздо больше вычислений для выводов, как в плане FLOPS, так и в плане памяти), повышается вероятность того, что вы дадите правильный ответ - код, который запускается с первого раза без ошибок, или решение логической задачи без явно неверного шага дедукции.

На собственном опыте могу сказать, что, как бы ни была хороша модель Claude3.5 Sonnet от Anthropic в программировании на Python - а она действительно ОЧЕНЬ хороша, - всякий раз, когда вам нужно сгенерировать что-нибудь длинное и сложное, она неизменно допускает одну или несколько глупых ошибок. Эти ошибки, как правило, довольно легко исправить, и на самом деле их можно исправить, просто подав ошибки, сгенерированные интерпретатором Python, без каких-либо дополнительных объяснений, в качестве последующего запроса на вывод (или, что более полезно, вставить полный набор обнаруженных «проблем», найденных в коде вашим редактором кода, используя то, что называется Linter), но это все равно было раздражающим дополнительным шагом. А когда код становится очень длинным или очень сложным, его исправление может занять гораздо больше времени и даже потребовать ручной отладки.

Первый раз, когда я попробовал модель O1 от OpenAI, был похож на откровение: Я был поражен тем, как часто код оказывался идеальным с первого раза. А все потому, что процесс COT автоматически находит и устраняет проблемы еще до того, как они попадают в финальный маркер ответа, который выдает модель.

На самом деле модель O1, используемая в подписке OpenAI ChatGPT Plus за 20 долларов в месяц, - это практически та же модель, что и модель O1-Pro, представленная в их новой подписке ChatGPT Pro за 10-кратную цену (200 долларов в месяц, что вызвало много вопросов в сообществе разработчиков); главное отличие в том, что O1-Pro думает гораздо дольше, прежде чем ответить, генерирует гораздо больше логических маркеров COT и потребляет гораздо большее количество вычислений для вывода для каждого ответа.

Это поразительно: даже очень длинный и сложный запрос для Claude3.5 Sonnet или GPT4o с ~400 Кб+ контекста обычно требует менее 10 секунд для начала ответа, а часто и менее 5 секунд. В то время как на тот же запрос к O1-Pro может легко уйти 5+ МИНУТ, прежде чем вы получите ответ (хотя OpenAI показывает вам некоторые «шаги рассуждения», которые генерируются в процессе, пока вы ждете; критически важно, что OpenAI решил, предположительно по причинам, связанным с коммерческой тайной, скрыть от вас точные маркеры рассуждения, которые он генерирует, показывая вам вместо этого их очень сокращенное резюме).

Как вы, вероятно, можете себе представить, существует масса контекстов, где точность имеет первостепенное значение - где вы скорее сдадитесь и скажете пользователю, что не можете сделать это вообще, чем дадите ответ, который может быть тривиально доказан неверным или который включает в себя галлюцинации или другие спекулятивные рассуждения. Все, что связано с деньгами/транзакциями, медициной, юриспруденцией, и так далее.

В принципе, там, где стоимость умозаключений тривиальна по сравнению с почасовой оплатой труда человека, взаимодействующего с системой ИИ, это тот случай, когда увеличение COT-вычислений становится совершенно бессмысленным (главный недостаток - значительное увеличение задержки ответов, поэтому все еще есть контексты, в которых вы можете предпочесть ускорить итерации за счет получения менее точных или правильных ответов с меньшей задержкой).

Одна из самых интересных новостей в мире ИИ появилась всего несколько недель назад и касалась новой, еще не выпущенной модели OpenAI O3, которая смогла решить большое количество задач, которые ранее считались недоступными для современных подходов к ИИ в ближайшей перспективе. И способ, которым она смогла решить эти сложнейшие задачи (включающие исключительно сложные «фундаментальные» математические задачи, которые было бы очень сложно решить даже высококвалифицированным профессиональным математикам), заключается в том, что OpenAI бросил на решение задач безумное количество вычислительных ресурсов - в некоторых случаях на решение одной задачи тратилось более 3 тысяч долларов вычислительной мощности (сравните это с традиционными затратами на вывод для одной задачи, которые вряд ли превысят пару долларов при использовании обычных моделей-трансформеров без цепочки размышлений).

Не нужно быть гением ИИ, чтобы понять, что эта разработка создает новый закон масштабирования, который совершенно не зависит от первоначального закона масштабирования перед обучением. Теперь вы по-прежнему хотите обучить лучшую модель, используя как можно больше вычислений и как можно больше триллионов токенов высококачественных обучающих данных, но это только начало истории в этом новом мире; теперь вы можете легко использовать невероятно огромные объемы вычислений только для того, чтобы делать выводы на основе этих моделей на очень высоком уровне доверия или при попытке решить чрезвычайно сложные задачи, требующие рассуждений «уровня гения», чтобы избежать всех потенциальных ловушек, которые могут сбить с пути обычную LLM.

Но почему Nvidia должна получить все преимущества?

Даже если вы, как и я, верите в то, что перспективы развития ИИ практически невообразимо радужны, все равно остается вопрос: «Почему одна компания должна извлекать большую часть прибыли из этой технологии?» Безусловно, существует множество исторических случаев, когда очень важная новая технология меняла мир, но главными победителями становились не те компании, которые казались наиболее перспективными на начальных этапах процесса. Компания по производству самолетов братьев Райт во всех ее нынешних воплощениях в различных фирмах сегодня стоит не более 10 миллиардов долларов, несмотря на то что они изобрели и усовершенствовали технологию намного раньше всех остальных. И хотя рыночная стоимость компании Ford сегодня составляет 40 миллиардов долларов, это всего лишь 1,1% от текущей рыночной стоимости Nvidia.

Чтобы понять это, важно понять, почему Nvidia сегодня захватывает такую большую часть пирога. В конце концов, это не единственная компания, которая вообще производит графические процессоры. AMD выпускает достойные GPU, которые на бумаге имеют сопоставимое количество транзисторов, производятся по аналогичным технологическим узлам и т. д. Конечно, они не такие быстрые или продвинутые, как GPU Nvidia, но это не значит, что GPU Nvidia в 10 раз быстрее или что-то в этом роде. На самом деле, в пересчете на наивные/сырые доллары за FLOP, GPU AMD примерно в два раза дешевле GPU Nvidia.

Если взглянуть на другие рынки полупроводников, например, на рынок DRAM, то, несмотря на то, что он также очень сильно консолидирован всего тремя значимыми глобальными игроками (Samsung, Micron, SK-Hynix), валовая маржа на рынке DRAM варьируется от отрицательной в нижней части цикла до ~60% в самой верхней части цикла, в среднем в районе 20%. Сравните это с общей валовой маржой Nvidia, составлявшей в последние кварталы ~75%, которая снижается за счет более низкодоходной и товарной категории потребительской 3D-графики.

Как же такое возможно? Ну, основные причины связаны с программным обеспечением - лучшими драйверами, которые «просто работают» в Linux и имеют высокую надежность (в отличие от AMD, которая печально известна низким качеством и нестабильностью своих драйверов для Linux), и высоко оптимизированным открытым кодом в популярных библиотеках, таких как PyTorch, который был настроен для работы на GPU Nvidia.

Но дело не только в этом - сама среда программирования, которую кодеры используют для написания низкоуровневого кода, оптимизированного для GPU, CUDA, полностью принадлежит Nvidia, и она стала стандартом де-факто. Если вы хотите нанять группу чрезвычайно талантливых программистов, которые знают, как сделать так, чтобы все работало очень быстро на GPU, и платите им 650 тысяч долларов в год или любую другую ставку для людей с подобной квалификацией, есть шанс, что они будут «думать» и работать в CUDA.

Помимо превосходства в программном обеспечении, еще одним важным преимуществом Nvidia является так называемый интерконнект - по сути, пропускная способность, позволяющая эффективно соединять тысячи GPU, чтобы совместно использовать их для обучения передовых современных фундаментальных моделей. Короче говоря, ключ к эффективному обучению заключается в том, чтобы все графические процессоры были задействованы как можно полнее все время, а не простаивали, пока не получат очередную порцию данных, необходимых для вычисления следующего шага процесса обучения.

Требования к пропускной способности чрезвычайно высоки, гораздо выше, чем типичная пропускная способность, необходимая в традиционных центрах обработки данных. Для такого соединения нельзя использовать традиционное сетевое оборудование или оптоволокно, поскольку это приведет к слишком большим задержкам и не обеспечит чистую пропускную способность в терабайтах в секунду, необходимую для постоянной работы всех графических процессоров.

Nvidia приняла невероятно умное решение приобрести израильскую компанию Mellanox в 2019 году всего за 6,9 миллиарда долларов, и именно это приобретение обеспечило им ведущую в отрасли технологию межсоединений. Обратите внимание, что скорость межсоединений гораздо важнее для процесса обучения, где вам нужно объединить производительность тысяч GPU одновременно, чем для процесса вывода (включая вывод COT), который может использовать всего несколько GPU - все, что вам нужно, это достаточно VRAM для хранения квантованных (сжатых) весов модели, которая уже обучена.

Вот, пожалуй, основные компоненты «рва» Nvidia и то, как ей удается сохранять столь высокую маржу в течение столь долгого времени (есть также аспект «маховика», когда они агрессивно инвестируют свои сверхнормативные прибыли в тонны разработок (R&D), что, в свою очередь, помогает им улучшать свои технологии быстрее, чем конкуренты, поэтому они всегда лидируют в плане сырой производительности).

Но, как было отмечено ранее, то, что действительно волнует покупателей при прочих равных условиях, - это производительность на доллар (как в виде первоначальных капитальных затрат на оборудование, так и в виде энергопотребления, то есть производительность на ватт), и хотя GPU Nvidia, безусловно, самые быстрые, они не являются лучшими по соотношению цена/производительность, если их наивно оценивать в FLOPS.

Но дело в том, что все остальные вещи НЕ равны, и тот факт, что драйверы AMD - отстой, что популярные программные библиотеки ИИ не работают так же хорошо на GPU AMD, что вы не можете найти действительно хороших экспертов по GPU, которые специализируются на GPU AMD за пределами игрового мира (зачем им беспокоиться, если на рынке есть больший спрос на экспертов по CUDA? ), что вы не можете соединить тысячи из них вместе так же эффективно из-за паршивой технологии межсоединений для AMD - все это означает, что AMD в принципе не конкурентоспособна в мире высококлассных центров обработки данных и, похоже, не имеет хороших перспектив попасть туда в ближайшей перспективе.

Что ж, все это звучит очень оптимистично для Nvidia, верно? Теперь вы понимаете, почему акции компании торгуются с такой высокой оценкой! Но какие еще тучи маячат на горизонте? Есть несколько, которые, на мой взгляд, заслуживают особого внимания. Некоторые из них затаились на заднем плане в течение последних нескольких лет, но были слишком малы, чтобы повлиять на ситуацию, учитывая, как быстро рос пирог, но сейчас они готовятся к потенциальному перегибу. Другие - это совсем недавние события (например, последние 2 недели), которые могут кардинально изменить ближайшую траекторию роста спроса на GPU.

Основные угрозы

На самом высоком уровне можно рассуждать следующим образом: Nvidia долгое время работала в довольно нишевой области; у нее было очень мало конкурентов, а конкуренты не были особенно прибыльными или достаточно быстро растущими, чтобы представлять реальную угрозу, поскольку у них не было капитала, необходимого для того, чтобы оказать давление на такого лидера рынка, как Nvidia. Игровой рынок был большим и растущим, но не отличался ни потрясающей рентабельностью, ни особо впечатляющими темпами годового роста.

Несколько крупных технологических компаний начали увеличивать число сотрудников и расходы на машинное обучение и искусственный интеллект в 2016-2017 годах, но в совокупности это никогда не было действительно значимой статьей расходов для каждой из них - скорее, это были расходы на R&D в рамках «пальцем в небо». Но как только большая гонка ИИ началась всерьез с выходом ChatGPT в 2022 году - всего чуть более 2 лет назад, хотя с точки зрения развития событий кажется, что прошла целая жизнь, - ситуация резко изменилась.

Внезапно крупные компании оказались готовы невероятно быстро потратить многие, многие миллиарды долларов. Количество исследователей, появляющихся на крупных научных конференциях, таких как Neurips и ICML, очень и очень сильно возросло. Все умные студенты, которые раньше изучали финансовые деривативы, вместо этого стали изучать Transformer, а компенсационные пакеты в размере более $1 млн за неисполнительные инженерные роли (то есть за независимый вклад, не управляющий командой) стали нормой в ведущих лабораториях ИИ.

Чтобы изменить направление движения огромного круизного лайнера, требуется время; и даже если вы действуете очень быстро и тратите миллиарды, на строительство новых центров обработки данных, заказ всего оборудования (с огромными сроками изготовления) и его настройку и работу уйдет год или больше. Потребуется много времени, чтобы нанять и принять на работу даже толковых кодеров, прежде чем они смогут по-настоящему освоиться с существующими кодовыми базами и инфраструктурой.

Но теперь вы можете себе представить, что в этой области тратятся совершенно библейские суммы капитала, мозгов и усилий. И у Nvidia на спине самая большая мишень из всех игроков, потому что именно они получают львиную долю прибыли СЕГОДНЯ, а не в каком-то гипотетическом будущем, когда ИИ будет управлять всей нашей жизнью.

Поэтому главный вывод заключается в том, что «рынки находят способ»; они находят альтернативные, радикально инновационные подходы к созданию аппаратного обеспечения, которые используют совершенно новые идеи для обхода барьеров, помогающих укрепить ров Nvidia.

Угроза на аппаратном уровне

Например, так называемые «пластинчатые» чипы для обучения ИИ от Cerebras, которые выделяют целую 300-миллиметровую кремниевую пластину под абсолютно гигантский чип, содержащий на порядки больше транзисторов и ядер на одном кристалле (см. недавнюю запись в их блоге, объясняющую, как им удалось решить «проблему выхода», которая мешала такому подходу быть экономически целесообразным в прошлом).

Если сравнить новейший чип WSE-3 от Cerebras с флагманским GPU для центров обработки данных от Nvidia, H100, то общая площадь кристалла Cerebras составляет 46 225 квадратных миллиметров против всего 814 у H100 (а H100 сам по себе считается огромным чипом по отраслевым меркам); это кратное увеличение в ~57 раз! И вместо 132 ядер «потокового мультипроцессора», как у H100, чип Cerebras имеет ~900 000 ядер (конечно, каждое из этих ядер меньше и выполняет гораздо меньше задач, но все равно это почти непостижимо большое число). Если говорить более конкретно, то чип Cerebras может выполнять примерно в 32 раза больше FLOPS в контексте ИИ, чем один чип H100. Поскольку H100 продается по цене около 40 тысяч долларов за штуку, вы можете себе представить, что чип WSE-3 стоит недешево.

Так почему же все это имеет значение? Вместо того чтобы попытаться сразиться с Nvidia в лоб, используя аналогичный подход и пытаясь сравниться с технологией межсоединений Mellanox, Cerebras применила радикально инновационный подход, чтобы обойти проблему межсоединений: пропускная способность межпроцессорных соединений становится гораздо менее важной проблемой, когда все работает на одном сверхбольшом чипе. Вам даже не нужно иметь одинаковый уровень межсоединений, потому что один мегачип заменяет тонны H100.

Кроме того, чипы Cerebras отлично подходят для задач искусственного интеллекта. На самом деле, вы можете попробовать это сегодня бесплатно здесь и использовать очень приличную модель Llama-3.3-70B от Meta. Она реагирует практически мгновенно, со скоростью ~1 500 токенов в секунду. Для сравнения, все, что выше 30 токенов в секунду, кажется пользователям относительно быстрым по сравнению с ChatGPT и Claude, и даже 10 токенов в секунду - это достаточно быстро, чтобы вы могли прочитать ответ, пока он генерируется.

Cerebras также не одинока: есть и другие компании, например Groq (не путать с семейством моделей Grok, обученных X AI Илона Маска). Groq применила еще один инновационный подход к решению той же фундаментальной проблемы. Вместо того чтобы пытаться напрямую конкурировать с программным стеком CUDA от Nvidia, они разработали так называемый «тензорный процессор» (TPU), который специально предназначен для выполнения математических операций, необходимых моделям глубокого обучения. Их чипы разработаны на основе концепции «детерминированных вычислений», что означает, что, в отличие от традиционных GPU, где точное время выполнения операций может меняться, их чипы выполняют операции совершенно предсказуемым образом каждый раз.

Это может показаться незначительной технической деталью, но на самом деле это имеет огромное значение как для проектирования чипов, так и для разработки программного обеспечения. Поскольку время выполнения операций полностью детерминировано, Groq может оптимизировать свои чипы таким образом, который был бы невозможен при использовании традиционных архитектур GPU. В результате за последние 6 с лишним месяцев они продемонстрировали скорость вывода более 500 токенов в секунду с моделями серии Llama и другими моделями с открытым исходным кодом, что значительно превышает возможности традиционных GPU. Как и Cerebras, это приложение доступно уже сегодня, и вы можете попробовать его бесплатно здесь.

Используя сопоставимую модель Llama3 со «спекулятивным декодированием», Groq способна генерировать 1320 токенов в секунду, что наравне с Cerebras и намного превышает возможности обычных GPU. Вы можете спросить, какой смысл в достижении скорости 1 000+ токенов в секунду, когда пользователи, кажется, вполне довольны ChatGPT, который работает менее чем на 10% от этой скорости. Дело в том, что это имеет значение. Получая мгновенную обратную связь, можно гораздо быстрее проводить итерации и не терять концентрацию, как человек. А если вы используете модель программно, через API, на что все больше и больше растет спрос, то это позволяет создавать совершенно новые классы приложений, требующих многоступенчатого умозаключения (когда результаты предыдущих этапов используются в качестве входных данных на последующих этапах подсказки/умозаключения) или требующих откликов с малой задержкой, таких как модерация контента, обнаружение мошенничества, динамическое ценообразование и т. д.

Но еще более важно то, что чем быстрее вы можете обслуживать запросы, тем быстрее вы можете выполнять циклы и тем более загруженным может быть оборудование. Хотя оборудование Groq очень дорогое - от 2 до 3 миллионов долларов за один сервер, - в итоге каждый выполненный запрос обходится гораздо дешевле, если спрос достаточен для того, чтобы оборудование постоянно было занято.

Как и Nvidia с CUDA, огромная часть преимуществ Groq связана с собственным стеком программного обеспечения. Они могут брать те же модели с открытым исходным кодом, которые другие компании, такие как Meta, DeepSeek и Mistral, разрабатывают и выпускают бесплатно, и декомпозировать их особым образом, что позволяет им работать значительно быстрее на их специфическом оборудовании.

Как и Cerebras, они приняли различные технические решения для оптимизации определенных аспектов процесса, что позволяет им делать вещи принципиально иным способом. В случае Groq это связано с тем, что они полностью сосредоточены на вычислениях на уровне выводов, а не на обучении: все их аппаратное и программное обеспечение под особым соусом дает огромные преимущества в скорости и эффективности только при выполнении выводов на уже обученной модели.

Но если следующий большой закон масштабирования, о котором так много говорят, будет касаться вычислений на уровне выводов, и если самым большим недостатком COT-моделей является высокая задержка, связанная с необходимостью генерировать все эти промежуточные логические маркеры, прежде чем они смогут ответить, то даже компания, которая занимается только вычислениями на уровне выводов, но делает это значительно быстрее и эффективнее, чем Nvidia, может стать серьезной конкурентной угрозой в ближайшие годы. По крайней мере, Cerebras и Groq могут пошатнуть завышенные ожидания роста доходов Nvidia в ближайшие 2-3 года, которые заложены в текущую оценку акций.

Помимо этих инновационных, хотя и относительно неизвестных конкурентов-стартапов, серьезную конкуренцию составляют некоторые из крупнейших клиентов Nvidia, которые сами производят кремний на заказ, специально предназначенный для обучения ИИ и вычисления рабочих нагрузок. Возможно, самым известным из них является Google, которая разрабатывает собственные TPU с 2016 года. Интересно, что, хотя компания недолго продавала TPU внешним заказчикам, последние несколько лет она использует все свои TPU внутри компании, и уже работает над шестым поколением аппаратных TPU.

Amazon также разрабатывает собственные чипы под названиями Trainium2 и Inferentia2. В то время как Amazon строит дата-центры с миллиардами долларов графических процессоров Nvidia, они одновременно инвестируют многие миллиарды в другие дата-центры, использующие эти внутренние чипы. В одном из кластеров, который они запускают для Anthropic, используется более 400 тысяч чипов.

Amazon много критикуют за то, что они совершенно не умеют разрабатывать свои внутренние модели ИИ, растрачивая огромное количество внутренних вычислительных ресурсов на модели, которые в итоге оказываются неконкурентоспособными, но собственный кремний - это совсем другое дело. Опять же, им не обязательно нужно, чтобы их чипы были лучше и быстрее, чем у Nvidia. Им нужно, чтобы их чипы были достаточно хороши, но при этом они производились с безубыточной валовой маржой вместо ~90%+ валовой маржи, которую Nvidia зарабатывает на своем бизнесе H100.

OpenAI также объявила о своих планах по созданию пользовательских чипов, и они (вместе с Microsoft), очевидно, являются крупнейшим пользователем оборудования Nvidia для центров обработки данных. Как будто этого недостаточно, Microsoft сама анонсировала свои собственные чипы!

А Apple, самая дорогая технологическая компания в мире, уже много лет срывает ожидания благодаря своим инновационным и революционным заказным кремниевым операциям, которые теперь полностью превосходят процессоры от Intel и AMD по производительности на ватт, что является наиболее важным фактором в мобильных приложениях (телефоны/планшеты/ноутбуки). И они уже много лет выпускают собственные GPU и «нейронные процессоры», хотя им еще предстоит продемонстрировать полезность таких чипов за пределами собственных приложений, таких как передовая программная обработка изображений, используемая в камере iPhone.

В то время как фокус Apple кажется несколько ортогональным к этим другим игрокам с точки зрения его мобильного, ориентированного на потребителя, «edge compute» фокуса, если он закончит тратить достаточно денег на свой новый контракт с OpenAI, чтобы предоставить услуги ИИ для пользователей iPhone, вы должны представить, что у них есть команды, рассматривающие возможность создания своего собственного кремния для вывода/обучения (хотя, учитывая их секретность, вы можете даже никогда не узнать об этом напрямую!).

Не секрет, что распределение клиентов Nvidia имеет вид силового закона, и львиная доля высокодоходной выручки приходится на горстку крупнейших клиентов. Как можно думать о будущем этого бизнеса, если буквально каждый из этих VIP-клиентов создает свои собственные чипы, специально предназначенные для обучения и вычисления ИИ?

Размышляя обо всем этом, следует помнить об одной невероятно важной вещи: Nvidia - это в основном компания, основанная на IP. Они не производят свои собственные чипы. Настоящий особый соус для создания этих невероятных устройств, вероятно, в большей степени исходит от TSMC, фактической фабрики, и ASML, которая производит специальные машины для EUV-литографии, используемые TSMC для производства этих чипов на передовых технологических узлах. И это очень важно, потому что TSMC будет продавать свои самые передовые чипы любому, кто придет к ним с достаточными предварительными инвестициями и будет готов гарантировать определенный объем производства. Им все равно, будут ли это ASIC для майнинга биткоинов, GPU, TPU, SoC для мобильных телефонов и т.д.

Столько, сколько зарабатывают в год старшие дизайнеры чипов в Nvidia, несомненно, можно переманить у других технологических гигантов за достаточное количество денег и акций. А когда у них будет команда и ресурсы, они смогут разработать инновационные чипы (опять же, возможно, даже не на 50% более совершенные, чем H100, но с такой валовой маржой Nvidia есть с чем работать) за 2-3 года, а благодаря TSMC они смогут воплотить их в реальном кремнии, используя точно такую же технологическую ноду, как и Nvidia.

Программная угроза (угрозы)

Если бы эти надвигающиеся аппаратные угрозы не были достаточно плохими, за последние пару лет в мире программного обеспечения произошло несколько событий, которые, хотя и начались медленно, сейчас набирают обороты и могут представлять серьезную угрозу для программного доминирования CUDA от Nvidia. Первая из них - это ужасные драйверы Linux для графических процессоров AMD. Помните, мы говорили о том, что AMD необъяснимым образом позволяла этим драйверам быть отстойными в течение многих лет, оставляя при этом огромные суммы денег на столе?

Так вот, как ни забавно, печально известный хакер Джордж Хотц (знаменитый тем, что в подростковом возрасте взломал оригинальный iphone, а в настоящее время является генеральным директором стартапа Comma.ai и компании Tiny Corp, которая также создает программный фреймворк tinygrad AI с открытым исходным кодом), недавно заявил, что ему надоело иметь дело с плохими драйверами AMD, и он отчаянно хочет иметь возможность использовать более дешевые GPU AMD в своих компьютерах TinyBox AI (которые поставляются в нескольких вариантах, некоторые из которых используют GPU Nvidia, а некоторые - GPUS AMD).

Так вот, он создает свои собственные драйверы и программный стек для графических процессоров AMD без какой-либо помощи со стороны самой AMD; 15 января 2025 года он написал в твиттере через аккаунт X своей компании, что «Мы находимся на расстоянии одной детали от полностью суверенного стека на AMD, ассемблера RDNA3. У нас есть собственный драйвер, среда выполнения, библиотеки и эмулятор. (и все это в ~12 000 строк!)». Учитывая его послужной список и навыки, вполне вероятно, что все это заработает в ближайшие пару месяцев, и это откроет множество интересных возможностей для использования графических процессоров AMD во всех видах приложений, где компании в настоящее время вынуждены платить за графические процессоры Nvidia.

Ладно, это только драйвер для AMD, и он еще не готов. Что еще есть? Есть еще несколько областей программного обеспечения, которые имеют гораздо большее влияние. Например, в настоящее время многие крупные технологические компании и сообщество разработчиков ПО с открытым исходным кодом прилагают огромные усилия для создания более общих программных фреймворков для ИИ, в которых CUDA является лишь одной из многих «целей компиляции».

То есть вы пишете программное обеспечение, используя высокоуровневые абстракции, а система сама автоматически превращает эти высокоуровневые конструкции в супернастроенный низкоуровневый код, который отлично работает на CUDA. Но поскольку это делается на более высоком уровне абстракции, он так же легко может быть скомпилирован в низкоуровневый код, который будет отлично работать на множестве других GPU и TPU от различных поставщиков, например, на огромном количестве заказных чипов, находящихся на конвейере у каждой крупной технологической компании.

Наиболее известными примерами таких фреймворков являются MLX (спонсируемый в основном Apple), Triton (спонсируемый в основном OpenAI) и JAX (разработанный Google). MLX особенно интересен тем, что предоставляет PyTorch-подобный API, который может эффективно работать на Apple Silicon, показывая, как эти уровни абстракции могут позволить рабочим нагрузкам ИИ работать на совершенно разных архитектурах. Triton, тем временем, становится все более популярным, поскольку позволяет разработчикам писать высокопроизводительный код, который может быть скомпилирован для работы на различных аппаратных платформах без необходимости разбираться в низкоуровневых деталях каждой платформы.

Эти фреймворки позволяют разработчикам писать код один раз, используя мощные абстракции, а затем автоматически нацеливать его на множество платформ - разве это не звучит как лучший способ сделать вещи, который даст вам гораздо больше гибкости в плане того, как вы на самом деле запускаете код?

В 1980-х годах все самые популярные и продаваемые программы были написаны на языке ассемблера с ручной настройкой. Например, утилита сжатия PKZIP была вручную доработана для достижения максимальной скорости, до такой степени, что грамотно написанная версия на стандартном языке программирования C и скомпилированная с помощью лучших оптимизирующих компиляторов того времени, работала бы, вероятно, в два раза быстрее, чем вручную настроенный ассемблерный код. То же самое можно сказать и о других популярных программных пакетах, таких как WordStar, VisiCalc и так далее.

Со временем компиляторы становились все лучше и лучше, и каждый раз, когда менялась архитектура процессоров (скажем, Intel выпускала 486-й, затем Pentium и так далее), ручной ассемблер часто приходилось выбрасывать и переписывать, на что были способны только самые умные кодеры (примерно как специалисты по CUDA находятся на другом уровне на рынке труда по сравнению с «обычными» разработчиками ПО). В конце концов, все сошлось так, что преимущества скорости ручного ассемблера были значительно перевешены гибкостью возможности писать код на языке высокого уровня, таком как C или C++, где вы полагаетесь на компилятор, чтобы все работало действительно оптимально на данном процессоре.

В настоящее время очень мало нового кода пишется на ассемблере. Я полагаю, что аналогичная трансформация произойдет и с кодом для обучения и выводов ИИ по тем же причинам: компьютеры хороши в оптимизации, а гибкость и скорость разработки становятся все более важным фактором - особенно если это также позволяет вам значительно сэкономить на покупке оборудования, поскольку вам не нужно продолжать платить «налог на CUDA», который дает Nvidia 90%+ маржи.

Еще одна область, в которой ситуация может кардинально измениться, - это то, что CUDA вполне может стать абстракцией высокого уровня - «языком спецификаций», подобным Verilog (используемым в качестве промышленного стандарта для описания компоновки микросхем), который опытные разработчики могут использовать для описания алгоритмов высокого уровня, включающих массивный параллелизм (поскольку они уже знакомы с ним, он очень хорошо построен, это лингва франка и т. д.), но затем вместо того, чтобы компилировать этот код для использования на графических процессорах Nvidia, как это обычно делается, его можно передать в виде исходного кода в LLM, который сможет портировать его в любой низкоуровневый код, понятный новому чипу Cerebras, или новому Amazon Trainium2, или новому Google TPUv6, и т. д. Это не так далеко, как вы думаете; вероятно, это уже вполне достижимо с помощью последней модели OpenAI O3, и, несомненно, будет возможно в целом в течение года или двух.

Теоретическая угроза

Возможно, самое шокирующее событие, о котором говорилось ранее, произошло в последние пару недель. Это новость, которая полностью потрясла мир ИИ и которая доминирует в дискуссиях знающих людей в Twitter, несмотря на полное отсутствие ее в основных СМИ: небольшой китайский стартап под названием DeepSeek выпустил две новые модели, которые по уровню производительности практически соответствуют лучшим моделям OpenAI и Anthropic (обгоняя модели Meta Llama3 и других небольших игроков с открытым исходным кодом, таких как Mistral). Эти модели называются DeepSeek-V3 (по сути, их ответ на GPT-4o и Claude3.5 Sonnet) и DeepSeek-R1 (по сути, их ответ на модель O1 от OpenAI).

Почему все это так шокирует? Прежде всего, DeepSeek - это крошечная китайская компания, в которой, как сообщается, работает менее 200 человек. История гласит, что они начинали как хедж-фонд, занимающийся квантовой торговлей, подобно TwoSigma или RenTec, но после того, как Си Цзиньпин наложил запрет на эту сферу, они использовали свои математические и инженерные способности, чтобы переключиться на исследования в области ИИ. Кто знает, действительно ли все это правда или они просто прикрытие для КПК или китайских военных. Но факт остается фактом: они выпустили два невероятно подробных технических отчета - для DeepSeek-V3 и DeepSeekR1.

Это тяжелые технические отчеты, и если вы не знаете много линейной алгебры, вы, вероятно, мало что поймете. Но что вам действительно стоит попробовать, так это скачать бесплатное приложение DeepSeek в AppStore здесь и установить его, используя учетную запись Google, чтобы войти в систему и попробовать (вы также можете установить его на Android здесь), или просто попробовать его на своем компьютере в браузере здесь. Обязательно выберите опцию «DeepThink», чтобы включить цепочку мыслей (модель R1) и попросить его объяснить некоторые части технических отчетов простым языком.

Это одновременно покажет вам несколько важных вещей:

Во-первых, эта модель абсолютно легальна. В бенчмарках ИИ происходит много нелепостей, которые регулярно подтасовываются, чтобы модели демонстрировали отличные результаты в бенчмарках, но затем оказывались в полном провале в реальных тестах. Google, безусловно, является худшим нарушителем в этом отношении, постоянно рассказывая о том, как удивительны их LLM, в то время как они настолько ужасны в любом реальном тесте, что не могут надежно выполнить даже самые простые задачи, не говоря уже о сложных задачах кодирования. С моделями DeepSeek все не так - их ответы последовательны, убедительны и абсолютно на том же уровне, что и у OpenAI и Anthropic.
Во-вторых, DeepSeek добилась глубокого прогресса не только в качестве моделей, но и, что более важно, в эффективности обучения и вывода моделей. Благодаря чрезвычайно близкому расположению к аппаратному обеспечению и наложению нескольких отдельных, очень умных оптимизаций, DeepSeek смог обучать эти невероятные модели с помощью GPU значительно более эффективным способом. По некоторым оценкам, более чем в ~45 раз эффективнее, чем другие передовые модели. DeepSeek утверждает, что полная стоимость обучения DeepSeek-V3 составила чуть более 5 миллионов долларов. Это абсолютно ничто по меркам OpenAI, Anthropic и т.д., которые уже в 2024 году превысили отметку в $100 млн за обучение одной модели.

Как такое вообще возможно? Как эта маленькая китайская компания смогла полностью превзойти все самые умные умы в наших ведущих лабораториях ИИ, у которых в 100 раз больше ресурсов, персонала, зарплат, капитала, графических процессоров и т. д.? Разве Китай не должен был пострадать от ограничения Байдена на экспорт GPU? Ну, детали довольно технические, но мы можем хотя бы описать их на высоком уровне. Возможно, просто оказалось, что относительная бедность DeepSeek в обработке данных на GPU стала тем самым критическим ингредиентом, который сделал их более креативными и умными, ведь необходимость - мать изобретения и все такое.

Важным нововведением является сложная система обучения со смешанной точностью, позволяющая использовать 8-битные числа с плавающей запятой (FP8) на протяжении всего процесса обучения. Большинство западных ИИ-лабораторий обучают с «полной точностью» 32-битных чисел (это в основном определяет количество градаций, возможных при описании выхода искусственного нейрона; 8 бит в FP8 позволяют хранить гораздо более широкий диапазон чисел, чем вы могли бы ожидать - он не просто ограничен 256 различными величинами одинакового размера, как в обычных целых числах, а использует умные математические трюки для хранения как очень маленьких, так и очень больших чисел - хотя, естественно, с меньшей точностью, чем в 32 битах). Основной компромисс заключается в том, что если FP32 может хранить числа с невероятной точностью в огромном диапазоне, то FP8 жертвует частью этой точности для экономии памяти и повышения производительности, сохраняя при этом достаточную точность для многих рабочих нагрузок ИИ.

DeepSeek решила эту проблему, разработав умную систему, которая разбивает числа на небольшие плитки для активаций и блоки для весов, а также стратегически использует высокоточные вычисления в ключевых точках сети. В отличие от других лабораторий, которые проводят обучение с высокой точностью, а затем сжимают данные (теряя при этом качество), DeepSeek использует подход, основанный на FP8, что позволяет добиться значительной экономии памяти без ущерба для производительности. При обучении на тысячах GPU такое резкое снижение требований к памяти на один GPU приводит к тому, что в целом требуется гораздо меньше GPU.

Другим важным прорывом является их система предсказания с несколькими лексемами. Большинство моделей LLM на основе трансформеров делают выводы, предсказывая следующий токен - по одному токену за раз. DeepSeek придумал, как предсказывать несколько лексем, сохраняя при этом качество, которое можно получить при предсказании одной лексемы. Их подход достигает примерно 85-90% точности при предсказании дополнительных лексем, что фактически удваивает скорость вывода без особого ущерба для качества. Самое интересное, что они сохраняют полную причинно-следственную цепочку предсказаний, так что модель не просто угадывает, а делает структурированные, контекстуальные предсказания.

Одна из их самых инновационных разработок - то, что они называют Multi-head Latent Attention (MLA). Это прорыв в том, как они работают с так называемыми индексами «ключ-значение (Key-Value)», которые, по сути, представляют собой отдельные лексемы в механизме внимания в архитектуре Transformer. Хотя это уже слишком сложная техническая тема, достаточно сказать, что эти индексы KV являются одним из основных видов использования VRAM в процессе обучения и вывода, а также частью причины, по которой для обучения этих моделей необходимо использовать тысячи GPU одновременно - каждый GPU имеет максимум 96 Гб VRAM, и эти индексы съедают эту память на завтрак.

Их система MLA находит способ хранить сжатую версию этих индексов, которая захватывает важную информацию, используя при этом гораздо меньше памяти. Самое замечательное, что это сжатие встроено непосредственно в процесс обучения модели - это не какой-то отдельный шаг, который нужно сделать, это встроено непосредственно в сквозной конвейер обучения. Это означает, что весь механизм является «дифференцируемым» и может быть обучен непосредственно с помощью стандартных оптимизаторов. Все это работает потому, что эти модели в конечном итоге находят гораздо более низкоразмерные представления базовых данных, чем так называемые «окружающие размеры». Поэтому хранить полные индексы KV расточительно, хотя все остальные именно так и поступают.

В итоге вы не только тратите тонны места, храня гораздо больше чисел, чем нужно, что значительно увеличивает объем памяти для обучения и эффективность (опять же, сокращая количество GPU, необходимых для обучения модели мирового класса), но и в конечном итоге может улучшить качество модели, поскольку может действовать как «регуляризатор», заставляя модель обращать внимание на действительно важные вещи вместо того, чтобы использовать пустую емкость для подгонки к шуму в обучающих данных. Таким образом, вы не только экономите тонну памяти, но и модель может даже работать лучше. По крайней мере, вы не получаете огромного снижения производительности в обмен на огромную экономию памяти, с чем обычно приходится сталкиваться при обучении ИИ.

Они также добились значительного прогресса в эффективности обмена данными с GPU благодаря алгоритму DualPipe и пользовательским коммуникационным ядрам. Эта система разумно перекрывает вычисления и коммуникации, тщательно балансируя ресурсы GPU между этими задачами. Для коммуникации им требуется всего 20 потоковых мультипроцессоров (SMs) GPU, а остальные остаются свободными для вычислений. В результате коэффициент использования GPU оказался гораздо выше, чем в обычных обучающих системах.

Еще одна очень умная вещь, которую они сделали, - это использование архитектуры, известной как Mixture-of-Experts (MOE) Transformer, но с ключевыми инновациями в области балансировки нагрузки. Как вы, наверное, знаете, размер или емкость модели искусственного интеллекта часто измеряется количеством параметров, которые содержит модель. Параметр - это просто число, которое хранит некоторый атрибут модели; либо «вес» или важность конкретного искусственного нейрона по отношению к другому, либо важность конкретного маркера в зависимости от его контекста (в «механизме внимания») и т. д.

Последние модели Llama3 от Meta имеют несколько размеров, например: версия с 1 миллиардом параметров (самая маленькая), модель с 70 миллиардами параметров (наиболее часто используемая) и даже массивная модель с 405 миллиардами параметров. Эта самая большая модель имеет ограниченное применение для большинства пользователей, потому что вам нужно иметь в своем компьютере графические процессоры стоимостью в десятки тысяч долларов, чтобы работать с приемлемой скоростью для выводов, по крайней мере, если вы используете ее в наивной версии с полной точностью. Поэтому большая часть реального использования и ажиотажа вокруг этих моделей с открытым исходным кодом приходится на уровень 8B параметров или 70B параметров с высокой степенью квантования, поскольку именно это может поместиться в графический процессор потребительского класса Nvidia 4090, который сейчас можно купить менее чем за 1000 долларов.

Так почему же все это имеет значение? Ну, в некотором смысле количество и точность параметров говорит о том, сколько необработанной информации или данных хранит модель внутри себя. Заметьте, я не говорю о способности к рассуждениям, или, если хотите, «IQ» модели: оказывается, модели даже с удивительно скромным количеством параметров могут демонстрировать замечательную когнитивную производительность, когда речь идет о решении сложных логических задач, доказательстве теорем в геометрии плоскости, решении задач SAT и т. д.

Но эти маленькие модели не смогут обязательно рассказать вам обо всех аспектах каждого сюжетного поворота в каждом романе Стендаля, в то время как действительно большие модели потенциально могут это сделать. "Цена" такого экстремального уровня знаний заключается в том, что модели становятся очень громоздкими как для обучения, так и для выводов, потому что вам всегда нужно хранить все эти 405B параметров (или любое другое количество параметров) в VRAM GPU одновременно, чтобы сделать любой вывод с помощью модели.

Прелесть подхода MOE-моделей заключается в том, что вы можете разложить большую модель на набор более мелких моделей, каждая из которых знает различные, не пересекающиеся (по крайней мере, полностью) части знаний. Инновацией DeepSeek стала разработка так называемой стратегии балансировки нагрузки «без потерь вспомогательных ресурсов», которая обеспечивает эффективное использование экспертов без обычного снижения производительности, возникающего при балансировке нагрузки. Затем, в зависимости от характера запроса на вывод, вы можете разумно направить вывод к «экспертным» моделям в этой коллекции более мелких моделей, которые в наибольшей степени способны ответить на этот вопрос или решить эту задачу.

Можно представить это как комитет экспертов, обладающих собственными специализированными знаниями: один из них может быть экспертом в области права, другой - в компьютерных науках, третий - в бизнес-стратегии. Так что если поступает вопрос по линейной алгебре, вы не отдаете его эксперту по юриспруденции. Конечно, это очень вольная аналогия, и на практике так не бывает.

Реальное преимущество такого подхода заключается в том, что он позволяет модели содержать огромный объем знаний, не будучи при этом очень громоздкой, поскольку, хотя общее количество параметров у всех экспертов велико, только небольшое подмножество этих параметров «активно» в каждый момент времени, а это значит, что вам нужно хранить только это небольшое подмножество весов в VRAM для того, чтобы делать выводы. В случае DeepSeek-V3, у них есть абсолютно массивная модель MOE с 671B параметров, так что она намного больше, чем даже самая большая модель Llama3, но только 37B из этих параметров активны в любой момент времени - достаточно, чтобы поместиться в VRAM двух потребительских графических процессоров Nvidia 4090 (общей стоимостью менее 2000 долларов), а не требовать один или несколько графических процессоров H100, которые стоят около 40 тысяч долларов каждый.

По слухам, и ChatGPT, и Claude используют архитектуру MoE, а некоторые утечки говорят о том, что GPT-4 имеет в общей сложности 1,8 триллиона параметров, разделенных на 8 моделей, содержащих 220 миллиардов параметров каждая. Несмотря на то, что это гораздо проще, чем пытаться уместить все 1,8 триллиона параметров в VRAM, для запуска модели все равно требуется несколько GPU класса H100 из-за огромного объема используемой памяти.

Помимо того, что уже было описано, в технических документах упоминается еще несколько ключевых оптимизаций. К ним относится чрезвычайно эффективный с точки зрения памяти обучающий фреймворк, который использует тензорный параллелизм, пересчитывает некоторые операции во время обратного распространения вместо того, чтобы хранить их, и разделяет параметры между основной моделью и вспомогательными модулями предсказания. Сумма всех этих инноваций, собранных воедино, привела к цифрам ~45-кратного повышения эффективности, о которых говорят в сети, и я вполне готов поверить, что они соответствуют действительности.

Одним из очень сильных индикаторов того, что это действительно так, является стоимость API DeepSeek: несмотря на почти лучшую в своем классе производительность модели, DeepSeek берет за запросы на вывод через свой API примерно на 95% меньше денег, чем сопоставимые модели от OpenAI и Anthropic. В каком-то смысле это похоже на сравнение графических процессоров Nvidia с новыми пользовательскими чипами конкурентов: Даже если они не так хороши, соотношение цены и качества настолько лучше, что в зависимости от приложения это может быть несомненным выбором, если только вы можете оценить уровень производительности и доказать, что он достаточно хорош для ваших требований, а доступность API и латентность достаточно хороши (до сих пор люди были поражены тем, как хорошо инфраструктура DeepSeek держалась, несмотря на действительно невероятный всплеск спроса из-за производительности этих новых моделей).

Но в отличие от Nvidia, где разница в стоимости является результатом того, что они получают монопольную валовую прибыль в 90%+ на своих продуктах для центров обработки данных, разница в стоимости API DeepSeek по сравнению с API OpenAI и Anthropic может заключаться просто в том, что они почти в 50 раз эффективнее в вычислениях (это может быть даже значительно больше, если говорить о выводах - ~45-кратная эффективность была на стороне обучения). На самом деле, даже не очевидно, что OpenAI и Anthropic делают большую прибыль на своих API-сервисах - возможно, они больше заинтересованы в росте доходов и сборе данных от анализа всех полученных API-запросов.

Прежде чем перейти к делу, я не могу не упомянуть, что многие люди предполагают, что DeepSeek просто лжет о количестве GPU и GPU-часов, потраченных на обучение этих моделей, потому что на самом деле у них гораздо больше H100, чем должно быть, учитывая экспортные ограничения на эти карты, и они не хотят создавать себе проблемы или ухудшать свои шансы на приобретение большего количества этих карт. Хотя это, конечно, возможно, я думаю, что более вероятно, что они говорят правду и что они просто смогли достичь таких невероятных результатов, будучи чрезвычайно умными и творческими в своем подходе к обучению и умозаключениям. Они объясняют, как они это делают, и я подозреваю, что это лишь вопрос времени, когда их результаты будут широко растиражированы и подтверждены другими исследователями в различных других лабораториях.

Модель, которая действительно может думать

Новая модель R1 и технический отчет могут быть еще более потрясающими, поскольку они смогли превзойти Anthropic в создании цепи мышления и теперь являются практически единственными, кроме OpenAI, кто заставил эту технологию работать в масштабе. Но обратите внимание, что предварительная модель O1 была выпущена OpenAI только в середине сентября 2024 года. Это всего лишь ~4 месяца назад! Вы должны помнить, что, в отличие от OpenAI, которая невероятно скрытна в отношении того, как эти модели работают на самом деле на низком уровне, и не раскрывает фактический вес моделей никому, кроме партнеров, таких как Microsoft и других, которые подписывают тяжелые NDA, эти модели DeepSeek являются полностью открытыми и лицензированными. Они выпустили чрезвычайно подробные технические отчеты, объясняющие, как они работают, а также код, который каждый может посмотреть и попытаться скопировать.

С помощью модели R1 компания DeepSeek, по сути, решила одну из священных задач ИИ: заставить модели рассуждать шаг за шагом, не опираясь на массивные наборы данных для супервизии. Эксперимент DeepSeek-R1-Zero показал нечто поразительное: используя чистое обучение с подкреплением и тщательно продуманные функции вознаграждения, они смогли заставить модели развивать сложные способности к рассуждениям совершенно автономно. Речь шла не только о решении задач - модель органично научилась генерировать длинные цепочки мыслей, самостоятельно проверять свою работу и выделять больше вычислительного времени на решение более сложных задач.

Техническим прорывом стал новый подход к моделированию вознаграждения. Вместо того чтобы использовать сложные нейронные модели вознаграждения, которые могут привести к «взлому вознаграждения» (когда модель находит нечестные способы увеличить свое вознаграждение, которые на самом деле не приводят к улучшению реальной производительности модели), они разработали умную систему, основанную на правилах, которая сочетает вознаграждение за точность (проверку окончательных ответов) и вознаграждение за формат (поощрение структурированного мышления). Этот более простой подход оказался более надежным и масштабируемым, чем модели вознаграждения, основанные на процессе, которые пробовали другие.

Особенно интересно то, что во время обучения они наблюдали так называемый «момент ага» - этап, когда модель спонтанно училась пересматривать свой мыслительный процесс в середине пути, когда сталкивалась с неопределенностью. Это поведение не было явно запрограммировано, оно возникло естественным образом в результате взаимодействия между моделью и средой обучения с подкреплением. Модель буквально останавливала себя, отмечала потенциальные проблемы в своих рассуждениях и начинала заново, используя другой подход, и все это без явного обучения.

В полной версии модели R1 эти идеи были развиты путем введения так называемых «холодных стартовых» данных - небольшого набора высококачественных примеров - перед применением методов RL. Они также решили одну из основных проблем в моделях рассуждений: согласованность языка. Предыдущие попытки построить цепочку рассуждений часто приводили к тому, что модели смешивали языки или выдавали несогласованные результаты. DeepSeek решила эту проблему с помощью умного вознаграждения за согласованность языков во время обучения RL, компенсируя небольшое снижение производительности гораздо более читаемыми и согласованными результатами.

Результаты поражают воображение: на AIME 2024, одном из самых сложных математических конкурсов для старшеклассников, R1 показал точность 79,8%, что соответствует модели O1 от OpenAI. На MATH-500 она достигла 97,3%, а на соревнованиях по программированию Codeforces - 96,3 процентиля. Но, пожалуй, самое впечатляющее, что им удалось свести эти возможности к гораздо меньшим моделям: их версия с 14B параметрами превзошла многие модели в несколько раз, что говорит о том, что способность к рассуждению зависит не только от количества параметров, но и от того, как вы обучаете модель обрабатывать информацию.

Разрушение

В последнее время в Twitter и на Blind (сайт корпоративных слухов) ходят слухи, что эти модели застали Meta врасплох и что они работают лучше, чем новые модели Llama4, которые все еще находятся в процессе обучения. Судя по всему, проект Llama в Meta привлек большое внимание со стороны высокопоставленных технических руководителей, и в результате над Llama работают около 13 человек, каждый из которых в отдельности зарабатывает в год больше, чем общая стоимость обучения моделей DeepSeek-V3, которые превосходят его. Как вы объясните это Цукербергу с честным лицом? Как Цук продолжает улыбаться, выкладывая несколько миллиардов долларов Nvidia на покупку 100 тысяч H100, когда лучшая модель была обучена всего на 2 тысячах H100 за чуть более чем 5 миллионов долларов?

Но лучше поверить, что Meta и все остальные крупные лаборатории ИИ разбирают эти модели DeepSeek на части, изучают каждое слово в технических отчетах и каждую строчку открытого кода, который они выпустили, отчаянно пытаясь интегрировать те же самые трюки и оптимизации в свои собственные конвейеры обучения и вывода. И каково же влияние всего этого? Ну, по наивности кажется, что совокупный спрос на вычисления для обучения и вывода должен делиться на какое-то большое число. Может быть, не на 45, а на 25 или даже 30? Потому что все, что вы думали, что вам нужно до выпуска этих моделей, теперь стало намного меньше.

Оптимист может сказать: «Вы говорите о простой константе пропорциональности, о единичном кратном. Когда вы имеете дело с экспоненциальной кривой роста, эти вещи вымываются так быстро, что в итоге не имеют особого значения». И в этом есть доля правды: если ИИ действительно так преобразует мир, как я ожидаю, если реальная польза от этой технологии будет измеряться триллионами, если вычисления в режиме «вывод-время» станут новым законом масштабирования, если у нас будут армии человекоподобных роботов, постоянно выполняющих огромное количество выводов, то, возможно, кривая роста все еще настолько крута и экстремальна, а Nvidia имеет достаточно большое преимущество, что все еще будет работать.

Но Nvidia закладывает в цену множество хороших новостей на ближайшие годы, чтобы эта оценка имела смысл, и когда вы начинаете складывать все эти вещи в общую мозаику, это начинает заставлять меня, по крайней мере, чувствовать себя крайне неловко, платя ~20x предполагаемых выручек 2025 года на их акции. Что произойдет, если вы увидите даже небольшое замедление роста продаж? Что, если он окажется 85% вместо более чем 100%? Что если валовая рентабельность немного снизится с 75 до 70% - все равно невероятно высокая для полупроводниковой компании?

Подведение итогов

В целом, NVIDIA сталкивается с беспрецедентным сочетанием конкурентных угроз, которые делают ее премиальную оценку все более сложной для оправдания при 20х форвардной выручке и 75% валовой маржи. Предполагаемые «рвы» компании в области аппаратного обеспечения, программного обеспечения и эффективности дают трещины. Весь мир - тысячи умнейших людей планеты, опирающиеся на несметные миллиарды долларов капитальных ресурсов - пытается атаковать их со всех сторон.

На аппаратном фронте инновационные архитектуры от Cerebras и Groq демонстрируют, что преимущество NVIDIA в межсоединениях - краеугольный камень ее доминирования в центрах обработки данных - можно обойти путем радикальных изменений. Чипы Cerebras в масштабе пластины и детерминированный подход к вычислениям Groq обеспечивают потрясающую производительность, не нуждаясь в сложных межсоединениях NVIDIA. Более традиционно, каждый крупный клиент NVIDIA (Google, Amazon, Microsoft, Meta, Apple) разрабатывает пользовательский кремний, который может снизить доход от высокодоходных центров обработки данных. Это уже не экспериментальные проекты - только Amazon создает массивную инфраструктуру с более чем 400 000 пользовательских чипов для Anthropic.

Не менее уязвимым представляется и ров для программного обеспечения. Новые высокоуровневые фреймворки, такие как MLX, Triton и JAX, абстрагируются от важности CUDA, а усилия по улучшению драйверов AMD могут открыть гораздо более дешевые аппаратные альтернативы. Тенденция к более высокоуровневым абстракциям напоминает то, как язык ассемблера уступил место C/C++, что говорит о том, что доминирование CUDA может быть более временным, чем предполагалось. Самое главное, что мы видим появление трансляции кода на базе LLM, которая может автоматически переносить код CUDA для работы на любом аппаратном обеспечении, что потенциально устраняет один из самых сильных эффектов блокировки NVIDIA.

Возможно, самым разрушительным является недавний прорыв в эффективности DeepSeek, который позволил достичь сопоставимой производительности модели при затратах примерно в 1/45 от стоимости вычислений. Это говорит о том, что вся индустрия массово перераспределяет вычислительные ресурсы. В сочетании с появлением более эффективных архитектур выводов на основе цепочечных моделей совокупный спрос на вычисления может оказаться значительно ниже, чем предполагается в текущих прогнозах. Экономические показатели здесь убедительны: если DeepSeek может соответствовать производительности уровня GPT-4 и при этом брать на 95% меньше за вызовы API, это говорит о том, что либо клиенты NVIDIA неоправданно сжигают деньги, либо маржа должна значительно снизиться.

Тот факт, что TSMC будет производить конкурентоспособные чипы для любого хорошо финансируемого клиента, устанавливает естественный потолок для архитектурных преимуществ NVIDIA. Но что еще более важно, история показывает, что рынки в конечном итоге находят способ обойти искусственные узкие места, которые приносят сверхнормальную прибыль. Если сложить все эти угрозы вместе, то можно предположить, что NVIDIA предстоит пройти гораздо более сложный путь к сохранению текущей траектории роста и маржи, чем предполагает ее оценка. С пятью различными векторами атаки - архитектурные инновации, вертикальная интеграция клиентов, абстракция ПО, прорыв в эффективности и демократизация производства - вероятность того, что хотя бы один из них окажет значительное влияние на маржу или темпы роста NVIDIA, кажется высокой. При текущих оценках рынок не учитывает ни один из этих рисков.

Надеюсь, вам понравилось читать эту статью. Если вы работаете в хедж-фонде и хотите проконсультироваться со мной по NVDA или другим акциям, связанным с ИИ, или темам инвестирования, я уже зарегистрирован в качестве эксперта на GLG и Coleman Research.