Если среди американских производителей, я бы поставил на Google и объясню почему.
▪️ Ресурсы определяют долгосрочную устойчивость – Google имеет колоссальный операционный денежный поток в 150 млрд долларов в год, который может без потери стратегической устойчивости отгружать в «плантации ИИ фабрик», чего не может себе позволить OpenAI, Anthropic и xAI, сидящие на подсосе у венчурных инвесторов.
▪️ Мощнейшая инженерная школа DeepMind (практически все ведущие ученые в LLM являются выходцами из DeepMind). Работают медленнее и менее рисково, чем стартапы, но зато системно и последовательно.
▪️ Общемировая корпоративная и потребительская клиентская база в несколько миллиардов уникальных пользователей, удерживая через развитую сеть цифровых сервисов Google на всех уровнях (от развлекательных, поисковых, навигационных до бизнес сервисов) и слоях, платформах (мобильные, web, PC, серверные и IDE среды).
▪️ Full-stack платформа: собственное железо, которое выкупает само у себя по себестоимости (Google производит TPU Trillium / v6e) + имеет развитые облачные технологии Google Cloud Platform (GCP) + среда разработки Vertex AI и Google AI Studio с развитыми библиотеками и фреймфорками (Project IDX, Kotlin, Firebase Genkit и т.д.) + уникальный поисковый движок Google Search, платформу Youtube для сбора данных, дата-сетов и медиа трендов.
▪️ Индустриальный стандарт в WEB технологиях: архитектура Chromium, на котором базируются все современные веб браузеры и сам браузер Chrome с доминирующей рыночной долей, позволяющий отслеживать пользовательские предпочтения, вкусы, запросы и тренды во всех странах, всех возрастов и социальных групп (феноменальный дата сет).
▪️ Корпус данных и индексируемый набор данных последние 20 лет. Сейчас ни одна компания в мире не имеет настолько емкого и обширного доступа к текстовому и медиа контенту, как Google. Пока OpenAI третируют по судам из-за нелицензированного использованных данных многих веб-изданий, Google уже давно проиндексировали практически ВЕСЬ интернет и успешно кэшировали данные.
Практически все, что когда-либо было передано или написано в публичном пространстве – уже знает Google и хранит на специальных серверах. Теперь задача правильно все эти данные извлечь и разместить.
Эти уникальные характеристики и ресурсное обеспечение позволит Google доминировать (финансы, инженеры, платформа, датасеты, общемировая клиентская база и сквозная интеграция ИИ сервисов), здесь любой компании сложно перехватить лидерство.
Данные особо важны.
Gemini 3 обучалась, по моим оценкам (на основе данных обучения предыдущих моделей и аппроксимации с учетом расширенной мультимодальности), на 50-70 трлн токенов данных (большая часть видео-контент, где у Google абсолютное преимущество за счет Youtube) или почти 230 Терабайт чистого текста.
Какое количество качественных данных обучили в Gemini 3 – неизвестно, но сейчас вся мировая емкость интернета оценивается в следующей пропорции:
• Научная, техническая и специализированная литература всех дисциплин – 2 трлн токенов
• Научные статьи всех специальностей – 0.7 трлн токенов
• Мировая художественная литература всех жанров и времен – 3 трлн токенов
• Образовательная литература, методички – 1 трлн токенов
• Прочая литература, в том числе развлекательных – 3.5 трлн токенов среди относительно качественных
• Энциклопедии, справочники – 0.2 трлн токенов
• Код (в основном GitHub, StackOverflow с учетом техдокументации) – 2 трлн токенов среди относительно качественного кода
• Патенты, техническая документация, стандарты, законы – 2-2.5 трлн токенов.
Относительно качественный пласт данных оценивается около 15 трлн токенов за всю историю человечества, где качественных данных и источников не более 5-10%.
Цифровые новости, блоги и аналитические статьи около 40-45 трлн токенов, плюс еще 200-220 трлн емкость мировых соцсетей в публичной части, большая часть (свыше 99.8%) из которых скам, срач, копипасты, репосты, SEO-мусор.
Все это без медиа контента (графика, аудио, видео), только текст.
Понимание сильных и слабых сторон LLMs позволит не только использовать их более эффективно в личных и бизнес проектах, но и понимать уязвимость невероятного пузыря, не имеющего аналогов в истории человечества (около 52 избыточной мировой капитализации на ИИ хайпе и до 0.5 трлн инвестиций в год от мировых компаний в реальной экономике).
Оглушительный хайп вокруг ИИ во многом связан с попыткой проекцией сверхъестественных свойств, но эти LLMs имеют массу ограничений. Я выпустил очень много материалов, но даже в них рассмотрел лишь часть.
Начну с самого важного и принципиального.
▪️Фундаментальная неспособность к инновациям. Любая инновация (новая идея, альтернативная гипотеза, концептуальный или технологический прорыв) - это статистическая аномалия (выброс), а архитектура LLM в своем ядре заточена эти выбросы сглаживать и/или игнорировать (зависит от пресетов и настроек моделей).
LLM обучается минимизировать ошибку (Loss Function) на огромном массиве данных, она математически штрафуется за любые отклонения от «нормального» распределения. Веса модели - это усредненный слепок коллективного разума (и глупости).
LLM архитектурно не способна к инновациям, это семантический блендер. Если в обучающие данные положить стейк (научные факты), торт (художественную литературу) и гнилые овощи (форумный спам, интернет дебаты), на выходе вы получите однородную, легко усваиваемую питательную массу без вкуса и текстуры. В этом важно то, что выделить обратно стейк невозможно, из этого следует …
▪️Качество данных определяет все. Это не архитектурный баг, а обучающее несовершенство. В своей основе LLM выстраивают вектор распределения на статической интерполяции, где наиболее часто встречающиеся семантические конструкции имеют больший вес. Другими словами, чем чаше в обучении встречается некоторое утверждение, тем оно более истинное для LLMs (архитектурная уязвимость), но в обучении эксабайты медиа срачей и скама (обучающее несовершенство) всегда будут доминировать над очень ограниченной выборкой качественной научной, технической или художественной литературой.
Для решения этой проблемы есть множество механизмов, но они хороши в теории, а не на практике.
🔘Data Up-sampling, когда в корпусе данных датасеты делятся на домены (энциклопедии, научная литература, база кода, интернет статьи, форумный троллинг и т.д), где приоритет отдают качественным публикациям и надежным источникам.
Это хорошо в теории, на практике нет надежных механизмов сепарации эксабайт (в 1 миллион раз больше, чем терабайт), в итоге происходит смешение данных и доминирование токсичной информации, которой на многие порядки выше, чем качественной.
🔘Фильтрация на основе классификаторов с автоматической классификацией через специально натреннированную нейросеть (модель-цензор) для отсеивания откровенного скама, но не существует механизмов отсечения семантически качественных материалов, но концептуально пустых (здесь должен быть человек – эксперт, но на практике весь отбор данных почти полностью автоматический).
🔘Дедупликация – когда через специальные алгоритмы сжимаются миллионы репостов одного и того же скама в единичный экземпляр для устранения переполнения стэка данных дубликатами. Если этого не делать, уникальная научная статья будет иметь нулевой вес в сравнении с эксабайтами медиа скама.
Теория от практики отличается. Нет надежного механизма агрегации и сепарации качественных источников от некачественных, когда речь идет об обработке сотен эксабайт данных.
Как решение, брать за основу архитектуру модели с небольшим количеством параметров на 8-10 млрд и целенаправленно обучать на специализированных доменах (например, медицина, химия, физика, программирование и т.д.). На выходе получится скорее очень сухое, скучное справочное бюро без возможности междисциплинарного взаимодействия и полноценного размышления.
Универсальные модели (в открытом доступе) страдают «заражением» токсичными данными и искаженной «картиной мира» не только из-за ошибок развесовки и несовершенства алгоритма, но и по причине ошибочной сепарации данных и изначально некачественных источников.
Не является индивидуальной инвестиционной рекомендацией | При копировании ссылка обязательна | Нашли ошибку - выделить и нажать Ctrl+Enter | Жалоба
