Сразу к ключевому моменту – нет никаких ожиданий ускорения технологического прогресса с использованием LLMs, главным образом по причине, что на уровне архитектуры LLMs вшит «антипрогресс», т.е. фундаментальная невозможность генерации новых смыслов, идей и концепций.
Способствовать ускорению прогресса, как инструмент, в условиях работы с грамотной командой инженеров? Да, но этих инструментов много и произвести декомпозицию вклада каждого из инструмента – весьма сложно.
Несмотря на кажущиеся всемогучесть и безграничное количество сфер применения, эффективные контуры у LLMs достаточно локализованы.
Попробую дать емкое определение… В своей основе, LLM – это механизм компрессии (сжатия), причем всегда с потерями и декомпрессии (генерации), причем всегда с галлюцинациями, неструктурированных массивов данных, выстраивая градиент векторов в соответствии со статистикой распределения паттернов.
Так значит, где применение наиболее эффективно?
🔘Когда необходимо оценить вектор смысловых конструкций, не сильно вдаваясь в детали.
- краткое резюме встреч, конференций, семинаров, лекций, судебных заседаний;
- краткий пересказ книг, отчетов, статей, инструкций, законов, патентов, документации и т.д;
- обобщение больших массивов данных, например, поиск нарративов в новостях, аналитических и научных статьях, корпоративных отчетах и любой другой неструктурированной, но близкой по смыслу структуре данных;
- обобщение заявок в книге жалоб, обращений и в отзывах клиентов, где можно сразу определить фокусировку жалоб, сильные и слабые стороны продукта или услуги.
🔘Сравнительный анализ текста, например, сравнение текста регламента/закона с текстом внутренней инструкции компании на предмет противоречий. Чем эта версия договора отличается от предыдущей? Подсвети риски, которые появились и похожие сценарии.
🔘Стилистическая трансформация (или «перепиши текст в другом стиле»). Упрощение юридических формулировок, условий страхования или банковских договоров для обычных клиентов (простыми словами) или наоборот, превращение тезис в юридический документ, жалобу в официальные органы или техническое задание. Здесь же адаптация контента под разную аудиторию (возраст, профессия, когнитивная глубина).
🔘Реструктуризация текста (Entity Extraction). Выделение из стенограммы совещания конкретных договоренностей: кто, что должен сделать, к какому сроку или выделение из скан копий договоров детализацию реквизитов для формирования другой документации.
🔘Креативная генерация – как принудительное создание пространства решения, например, генерация вариантов заголовков для статьи или слогана для рекламной кампании.
🔘Мозговой штурм – из этой же серии, но более иерархическая и структурная генерация смыслов по схожим паттернам и направлениям, чтобы выйти из когнитивного тупика, зашоренности, посмотреть на проблему, задачу шире.
🔘Автоматическая разметка данных и тэгетирование: установка классификаторов и тэгов по смежным группам, например кошек, собак, хомяков объединить в группу «животные», а кирпич, песок и бетон в группу «стройматериалы».
🔘Кластеризация и сортировка документации по сценариям: автоматическая группировка документации различного типа по сценариям. Например, договора с азиатскими клиентами на 1кв26 с суммой выше 10 млн выделить в тот кластер и т.д.
🔘Автоматическая разметка тональности контента и намерений (Sentiment & Intent Analysis): по инструкциям можно делать маркировку степени депрессивности или оптимистичности контента на основе формулировок и частоты упоминания определенных семантических конструкций. Эмоция – это очень формализованный паттерн, где можно поймать
🔘Извлечение сущностей и атрибутов: компании, лица, суммы, даты, юрисдикции, продукты и т.д. в зависимости от структуры данных и типа задачи.
🔘Классификация и группировка: автоматическая разметка обращений/новостей/документов по темам, продуктам, регионам, типам риска.
🔘Нормализация формулировок: приведение разнородных описаний к единому словарю (например, причины жалоб, типы инцидентов, причины отказов).
LLM наиболее эффективна там, где нужно обработать уже имеющийся контекст (входные данные), а не генерировать факты из пространства своих весов.
Эффективны там, где требуется трансформация формы без изменения сути или экстракция, трансформация или перегруппировка структуры текста из неструктурированных массивов данных.
LLMs созданы для того (функциональное доминирование в архитектуре), чтобы эффективно сжимать текст (точнее сжимать и аппроксимировать закономерности в данных, а на выходе выполнять семантические преобразования), поэтому эффективно все, что связано с обобщением, конспектированием, резюмированием неструктурированных массивов данных (книг, отчетов, докладов, статей, исследований, инструкций, законов и т.д.)
• Это значит– создание сводок, дайджестов, структурированных протоколов, выделение ключевых нарративов и трендов (анализ клиентского поведения, анализ смещения тем и тональности во времени).
• Лингвистическая (упрощение или наоборот, детализация текстов) и стилистическая трансформация (рерайт и трансформация тональности),
• Преобразование текстов из одной структуры или формата в другой (например, из одного языка программирования в другой).
• Сравнительный анализ вместе с классификацией, кластеризацией и маршрутизации массивов данных.
• Генерация шаблонных текстов, отчетов, обзоров, комментариев по инструкциям в зависимости от сценариев, частично минимизируя бюрократическую нагрузку или «деклассируя» копирайтеров.
• Экспертная система/ ментор / учитель / справочное бюро, консультант в широком или узком применении, но при условии «замемления», т.е. доступа к внешним источникам и базам данных для верификации данных.
Имея доступ к среде программирования и компилятору, LLMs эффективны в формализованных дисциплинах, как физика, химия, математика, программирование, имея способность решать задачи, как лучшие умы планеты, но с очень многими оговорками – в специализированной среде (компилятор, изолированные тесты, симуляции, внешние верификаторы, заземление данных и т.д).
Из всего этого «вылезают» сценарные задачи:
• Декомпозиция запроса в дерево задач и формирование плана: что нужно уточнить, какие источники поднять, какие проверки сделать.
• Фокусировка на углублении источников данных – какие источники и данные необходимо собрать, чтобы закрыть все уязвимости, нерешенные вопросы в задаче?
• Автоматизация сравнительной аналитики – сопоставление технических параметров, спецификации и свойств продуктов конкурентов с выделением и систематизацией структуры, особенностей, характеристик, уязвимостей и так далее.
• Поиск слабых сигналов в жалобах/новостях/отчетах (ранние индикаторы проблем или трендов).
• Автоматическая проверка консистентности ответов, решений (LLM – как критик) для выявления слабых мест в отчете, аналитике или концепции.
• Генерация типовых кейсов для обучения в зависимости от уровня подготовки персонала.
• Консолидация схожего по смыслу контента в единое целое, создавая концентрат идей из разрозненных источников.
• Контроль качества и проверка на соответствие – сопоставление контента законам, регламентам, процедурам, требованиям и т.д.
• Поиск внутренних противоречий и пробелов (семантическая редактура текста).
• Консолидация различных версий идей мнений со сравнительной матрицей характеристик по каждой позиции/идеи (плюсы, минусы, уязвимости, риски).
• Сведение множества источников на консенсус/расхождения/нехватку данных.
• Создание пространства аргументаций на различные тезисы в зависимости от сценария.
• Концептуальное насыщение каркаса идей, когда через наброски тезисов создаются вектора распределения идей.
• Создание и редактура договоров, актов в соответствии с внутренним регламентов и внешним законодательством с контролем профильного специалиста.
• Обеспечение функционирование бюрократического аппарата (создание, поиск и редакция типовой электронной документации и отчетов).
Сценариев применения достаточно много, но на данном этапе скорее теоретические – будут работоспособны при условии роста стабильности и точности LLMs.
Не является индивидуальной инвестиционной рекомендацией | При копировании ссылка обязательна | Нашли ошибку - выделить и нажать Ctrl+Enter | Жалоба
