Интересное интервью Ильи Суцкевера (бывшего главного инженера OpenAI, а ныне основателя Safe Superintelligence). Это его первое публичное выступление с декабря 2024, но учитывая, что он является архитектором современного ядра LLM, его взгляд ценен.
Идеи Ильи практически полностью пересекаются с моими концепциями, высказанными в нескольких циклах материалов по ИИ в этом году, поэтому перескажу, по сути, собственные идеи словами Ильи, но с более научным обрамлением.
Главный тезис Ильи заключается в том, что период с 2012 по 2020 годы был «эпохой исследований», которая сменилась «эпохой масштабирования» (2020–2025), когда доминировал простой рецепт: больше данных + больше вычислений = лучше результат.
Дополню от себя: это выражается в экспоненциальном росте капитальных расходов, достигающих 400 млрд в 2025 среди бигтехов США и зеркалировании выручки у производителей оборудования для развертывания ИИ.
• Предел данных: предварительное обучение (pre-training) упирается в конечность доступных данных. Простое увеличение масштаба модели больше не дает прежнего качественного скачка.
• Смена парадигмы: если раньше вопрос «на каких данных учить?» не стоял (ответ был «на всех»), то теперь, особенно в RL (обучении с подкреплением), отбор данных и создание среды становятся критическими задачами.
• Возврат к исследованиям: индустрия снова входит в фазу, где прогресс зависит не столько от размера кластера, сколько от новых идей и алгоритмов.
Чрезвычайно неэффективное использование вычислительных мощностей:
🔘Современная архитектура трансформеров (Илья входил в число ключевых инженеров, которые преобразовали прототип архитектуры в текущую конфигурацию LLMs) была создана в 2017 на всего двух чипах в эквиваленте Blackwell, сейчас ИИ фабрики требуют миллионов чипов.
🔘Современные модели, несмотря на огромные объемы обучения, обобщают знания значительно хуже людей – им требуются миллионы и миллиарды примеров, чтобы совершать элементарные операции, где у людей уходят часы (10 часов практики, чтобы научиться водить машину у человека на базовом уровни и десятки тысяч часов обучающих видео у моделей).
🔘Pre-training – это статистическая проекция мира, созданная людьми. Модель не учится на реальности, она учится на текстовой проекции реальности, созданной людьми. Pre-training дает широту знаний, но не дает глубины физического понимания причинно-следственных связей. Поэтому модели галлюцинируют – у них нет «заземления» в реальности, только в статистике слов.
🔘Чрезвычайная узконаправленность – LLMs демонстрируют выдающиеся результаты в формализованных и натреннированных задачах, но небольшое отклонение в сторону – модель сразу рассыпается, эффективность снижается (человек способен обеспечивать более эффективный трансфер опыта из одной дисциплины в другую, а LLM – нет).
🔘Имитация компетентности – компании «надрачивают» бенчмарки, чтобы казаться сильнее, создавая инфоповоды (подтверждает мои опасения), бенчмарки больше не показательны. Это создает иллюзию интеллекта, которая рассыпается при смене контекста. «Ум» в тестах не всегда транслируется в надежность в реальных задачах.
🔘Нет функции ценности по интерпретации Ильи. Для LLMs нужно дойти до конца итерации, чтобы оценить результат, тогда как человек за счет интуиций и композиции эмоций может заранее понимать неправильный путь решения.
Например, чувство дискомфорта или неуверенности возникает до завершения задачи, позволяя корректировать путь.
Если модель думала 100 или 1000 шагов и в конце ошиблась, весь этот вычислительный путь часто отбрасывается или маркируется как негативный, где огромная энергия тратится впустую, а человек намного раньше (в процессе решения) понимает ошибочность пути.
LLM могут генерировать правдоподобный текст, но не обладают внутренней «интуицией» о правильности направления рассуждений, пока не получат внешний фидбек.
Основное концептуальное ядро в интервью – уже уперлись в потолок, дальнейшее масштабирование неэффективно, необходимо снова возвращаться к алгоритмам.
🔘Нынешний хайп вокруг «AGI - универсального интеллекта», который якобы возникнет сам собой из триллионов транзисторов - это маркетинговый миф. AGI не достигается методом масштабирования, нужна другая архитектура.
🔘Качественные данные конечны. Стратегия «просто добавить больше данных» (Scaling Era – куда бигтехи инвестируют сотни миллиардов) уперлась в потолок доступного человеческого контента.
Модели выходят на плато по эффективности, дальше неизбежная деградация в связи с «заражением» моделей синтетическими данными, сгенерированными нейросетями (обучение на синтетических данных).
Обучение моделей на данных, сгенерированных другими моделями, приводит к потере «хвостов распределения» (редких, но важных знаний) и усреднению реальности. Это математически неизбежная деградация дисперсии, ведущая к «цифровому инцесту» и вшитыми в процесс обучения галлюцинациям.
🔘Убывающая отдача инвестиций. Каждая следующая итерация (после экспоненциального роста в начале) требует несоизмеримо больше ресурсов ради минимального прироста качества. В 2026 году этот застой станет очевидным, кульминация в следующем году.
🔘Дальнейший прогресс только через физический мир. Текст имеет низкую пропускную способность по сравнению с визуальным опытом. LLM изучают статистические корреляции в описаниях мира, а не динамические связи физической реальности.
🔘Современные модели не являются ИИ в широком смысле, т.к. не обладают механизмом самообучения, критерием истинности и необходимым пулом характеристик, проявляющим наличие интеллекта (чисто формально, свыше 90% человеческой популяции также не обладают интеллектом).
🔘Текущие LLM технически можно обвязать внешними «агентами», планировщиками, инструментами и заставить выглядеть более разумными. Но ядро остаётся тем же: статистический предсказатель последовательностей, а не миро-ориентированный разум.
🔘Необходим переход от статических корреляций к казуальным и причинно-следственным связям в условиях динамического мира с неустойчивыми и противоречивыми связями, не поддающимися формализации (переход от статики с замороженными весами к непрерывному дообучению).
🔘Необходима модификация алгоритмов с авторегрессии (генерации следующего токена) к абстрактной симуляции мира и от пассивного наблюдения к активному взаимодействую с окружающим пространством.
🔘Проблема современный нейросетей в том, что нет динамического создания новых связей в ответ на опыт. Нет цикла «действие → мир → наблюдение → обновление».
Отсутствие цикла «действие → ошибка → самокоррекция весов» в реальном времени с бесконечным циклом повторов и коррекций ошибок делает текущие модели «умными идиотами», запертыми в статической вселенной своих обучающих данных.
🔘Концепция ИИ агентов неработоспособна. Почему? Без умения эффективно дробить задачи на подмодули и удерживать иерархию приоритетов, без наличия критерия истинности и без функционала самокоррекции, любой автономный агент неизбежно уйдет по неверной траектории в процессе итерации последовательности шагов.
Необходимо помнить про фундаментальные ограничения памяти и контекстного окна у LLMs, проблема стабильности и качества выходных токенов при расширении контекстного окна (склонность к галлюцинациям при перегруженной памяти).
LLM-ядро обеспечивает мощную аппроксимацию распределений и извлечение закономерностей, но без внешнего контура проверки/памяти/действий оно не даёт устойчивых свойств агентности: долговременных целей, причинной идентификации, надёжной самокоррекции.
Все это ставит текущую концепцию развитии ИИ крайне уязвимой с точки зрения способности возврата денежного потока – непропорционально много ресурсов в слишком неустойчивое равновесие и низкий прирост производительности.
На самом деле, восторженная презентация последних моделей оказалась не настолько блестящей, как было показано на рекламных слайдах. Все актуальные проблемы остались, скачка интеллекта не произошло.
Не является индивидуальной инвестиционной рекомендацией | При копировании ссылка обязательна | Нашли ошибку - выделить и нажать Ctrl+Enter | Жалоба
