7 июня 2024 БКС Экспресс
Технологические компании могут исчерпать запас общедоступных данных для обучения языковых моделей на основе искусственного интеллекта (ИИ) примерно к началу следующего десятилетия — где-то между 2026 и 2032 гг., пишет Associated Press со ссылкой на исследование центра Epoch AI.
Авторы работы сравнивают это явление с «золотой лихорадкой», которая истощает ограниченные природные ресурсы. Точно так же и ИИ может столкнуться с трудностями в стремлении сохранить существующие темпы развития технологии, как только резервы созданного человеком письменного контента истощатся.
ИИ сможет читать ваши письма?
В краткосрочной перспективе такие технологические компании, как OpenAI и Google, стремятся обеспечить свои языковые модели качественными данными — например, заключая соглашения на получение постоянного массива текстового контента с форумов или новостных СМИ.
В долгосрочной перспективе новых блогов, статей и комментариев в соцсетях будет недостаточно для поддержания траектории развития ИИ, считают исследователи. По их мнению, это приведет к тому, что компании начнут использовать личные данные, которые сейчас считаются конфиденциальными — например, электронные письма или текстовые сообщения.
«Если вы начнете сталкиваться с ограничениями на объем имеющихся у вас данных, вы больше не сможете эффективно масштабировать свои модели. И масштабирование моделей было, вероятно, самым важным способом расширения их возможностей и улучшения качества их продукции», — говорит один из авторов работы Тамай Бесироглу.
Он отметил, что исследователи ИИ более десяти лет назад осознали, что агрессивное расширение двух ключевых компонентов — вычислительной мощности и хранилищ интернет-данных — может значительно улучшить производительность систем ИИ. Так, согласно исследованию Epoch AI, объем текстовых данных, передаваемых в языковые модели ИИ, растет примерно в 2,5 раза в год, а объем вычислений — примерно в 4 раза.
Бесконечная «ксерокопия»
Еще одно решение для технологических компаний — обучать языковые модели на менее надежных «синтетических» данных, которые генерируют сами чат-боты.
Не связанный с исследованием собеседник издания — Николас Паперно, доцент кафедры компьютерной инженерии в Университете Торонто — подтверждает вероятность использования такого контента. Однако, по его словам, это будет похоже на бесконечное ксерокопирование листа бумаги: с каждой новой «копией» часть информации теряется, искажается. В случае с языковыми моделями это грозит ростом закодированных ошибок и предвзятости, снижению производительности, называемому «коллапсом модели».
Если созданный человеком текст останется важнейшим источником данных для обучения, то владельцам таких платформ, как Reddit и Wikipedia, а также новостным и книжным изданиям придется пересмотреть политику взаимодействия с ИИ. При этом Селена Декельманн, один из руководителей Фонда Викимедиа, отметила, что важно сохранять у людей мотивацию для создания качественного контента. Это особенно важно сейчас, когда поток сгенерированных ИИ некачественных данных заполняет интернет.
Авторы работы сравнивают это явление с «золотой лихорадкой», которая истощает ограниченные природные ресурсы. Точно так же и ИИ может столкнуться с трудностями в стремлении сохранить существующие темпы развития технологии, как только резервы созданного человеком письменного контента истощатся.
ИИ сможет читать ваши письма?
В краткосрочной перспективе такие технологические компании, как OpenAI и Google, стремятся обеспечить свои языковые модели качественными данными — например, заключая соглашения на получение постоянного массива текстового контента с форумов или новостных СМИ.
В долгосрочной перспективе новых блогов, статей и комментариев в соцсетях будет недостаточно для поддержания траектории развития ИИ, считают исследователи. По их мнению, это приведет к тому, что компании начнут использовать личные данные, которые сейчас считаются конфиденциальными — например, электронные письма или текстовые сообщения.
«Если вы начнете сталкиваться с ограничениями на объем имеющихся у вас данных, вы больше не сможете эффективно масштабировать свои модели. И масштабирование моделей было, вероятно, самым важным способом расширения их возможностей и улучшения качества их продукции», — говорит один из авторов работы Тамай Бесироглу.
Он отметил, что исследователи ИИ более десяти лет назад осознали, что агрессивное расширение двух ключевых компонентов — вычислительной мощности и хранилищ интернет-данных — может значительно улучшить производительность систем ИИ. Так, согласно исследованию Epoch AI, объем текстовых данных, передаваемых в языковые модели ИИ, растет примерно в 2,5 раза в год, а объем вычислений — примерно в 4 раза.
Бесконечная «ксерокопия»
Еще одно решение для технологических компаний — обучать языковые модели на менее надежных «синтетических» данных, которые генерируют сами чат-боты.
Не связанный с исследованием собеседник издания — Николас Паперно, доцент кафедры компьютерной инженерии в Университете Торонто — подтверждает вероятность использования такого контента. Однако, по его словам, это будет похоже на бесконечное ксерокопирование листа бумаги: с каждой новой «копией» часть информации теряется, искажается. В случае с языковыми моделями это грозит ростом закодированных ошибок и предвзятости, снижению производительности, называемому «коллапсом модели».
Если созданный человеком текст останется важнейшим источником данных для обучения, то владельцам таких платформ, как Reddit и Wikipedia, а также новостным и книжным изданиям придется пересмотреть политику взаимодействия с ИИ. При этом Селена Декельманн, один из руководителей Фонда Викимедиа, отметила, что важно сохранять у людей мотивацию для создания качественного контента. Это особенно важно сейчас, когда поток сгенерированных ИИ некачественных данных заполняет интернет.
Не является индивидуальной инвестиционной рекомендацией | При копировании ссылка обязательна | Нашли ошибку - выделить и нажать Ctrl+Enter | Жалоба
