Каждый клик, лайк или покупка оставляют за человеком цифровой след. Собранные в общий массив информации эти данные могут стать основой для решения глобальных проблем и превратить простые действия в ценные инсайты для бизнеса.
В тексте расскажем, что такое большие данные (Big Data), как они собираются и для чего нужны.
Что такое Big Data?
Термин «большие данные» связывают с редактором журнала Nature Клиффордом Линчем: в 2008 г. он писал о взрывном росте объема информации в мире и предложил отнести к большим данным любой массив информации, превышающий 150 Гб в сутки. Это стало неким стандартом, хотя единого критерия до сих пор не существует — к примеру, некоторые эксперты считают Big Data любой объем данных, превышающий 8 Гб, размер стандартной оперативной памяти ПК.
Таким образом, большие данные — это структурированные или неструктурированные массивы информации большого объема. Основные характеристики Big Data определяют как шесть V:
- Volume — объем. От 150 Гб в сутки.
- Velocity — скорость накопления и обработки. Данные меняются практически ежесекундно, поэтому требуют значительных вычислительных мощностей для обработки.
- Variety — разнообразие типов информации. Она может быть структурированной или неструктурированной и включать в себя одновременно разные форматы — фото, видео, тексты, табличные формы, отчеты о пользовательских действиях и прочее.
Например, таблица с простым перечислением всех пользователей соцсети с указанием имени, возраста и пола не будет считаться большими данными. А если к ней прибавить, к примеру, данные о действиях людей — переходы по ссылкам, лайки, публикации, отправку сообщений — то это будет не просто большой базой данных, но и Big Data.
- Veracity — достоверность. Как самого набора данных, так и методов и результатов его анализа.
- Variability — изменчивость. Потоки данных могут быть нестабильными, на них влияют сезонные факторы, социальные явления, поведение пользователей, скорость передачи. Поэтому при работе с большими данными этот фактор важно не просто учитывать, но и прогнозировать.
- Value — ценность. Сами по себе данные могут ничего не значить или быть сложными для восприятия, однако собранные в огромный массив, они позволят сделать полезные выводы для принятия решения.
Данные в Big Data могут быть персональными и обезличенными. Первые — те, по которым можно идентифицировать человека, их сбор и обработка попадает под действие 152-ФЗ «О персональных данных». Обезличенные лишь говорят о конкретном поведении без привязки к конкретному лицу.
Как собирают и хранят большие данные?
Источники больших данных можно разделить на три вида:
Социальные. Цифровой след пользователя — его действия в соцсетях и онлайн-сервисах. Это также данные, которые собирают компании, государственная и муниципальная статистика, медицинские записи.
Машинные. Их генерируют определенные устройства — смартфоны, гаджеты умного дома, спутники, метеорологические станции, измерительные приборы, уличные видеокамеры.
Транзакционные. Банковские платежи, покупки, переводы, операции финансовых или кредитных сервисов.
В процессе сбора данные проходят очистку (Data Cleaning): специальные программы отбирают и фильтруют собранную информацию, проверяют на точность и соответствие заданным параметрам. Кроме того, во время очистки данные размечаются, чтобы алгоритмам при последующем анализе было проще находить необходимые сегменты.
Для хранения собранной информации используют специальные дата-центры с мощными серверами, облачные пространства («озера данных», data lake), системы управления базами данных (СУБД). А также системы распределенного хранения, например, Hadoop — фреймворк, позволяющий работать с большими данными на кластерах из тысяч узлов.
А как данные анализируют?
Для работы с большими данными применяют специальное горизонтально масштабируемое программное обеспечение (ПО). Оно использует модели параллельных вычислений, то есть распределяет задачи между несколькими компьютерами, одновременно обрабатывающими информацию.
Аналитика, полученная на основе Big Data, может быть:
- Описательной. Отвечает на вопрос «что произошло?» и выявляет причины или закономерности.
- Прогнозной (предикативной). Изучает вероятное развитие событий.
- Предписательной. Позволяет рассчитать сценарий, чтобы избежать нежелательных последствий.
- Диагностическая. Изучает причины произошедшего события.
Полученные результаты интерпретируются и преобразуются в понятные отчеты и визуализации, которые в свою очередь изучаются для принятия решений.
Три основные профессии в больших данных: дата-сайентист, аналитик данных, дата-инженер. Первые ищут закономерности, строят модели и на их основе прогнозируют будущие события. Аналитики занимаются интерпретацией данных и их представления в удобной для дальнейшего использования форме. Инженеры берут на себя технические аспекты — сбор, хранение и первоначальную обработку.
Где используют Big Data?
Большие данные применяются в бизнесе, промышленности, госсекторе. К примеру, в медицинской сфере собираемый массив данных позволяет ставить более точные диагнозы и подбирать эффективное лечение, находить новые лекарства. В транспортной отрасли Big Data используется для оптимизации маршрутов и снижения загруженности дорог.
В 2020 г. Toyota Motor разработала систему безопасности на основе больших данных о стиле вождения своих авто, чтобы предотвратить рост аварий, возникавших из-за того, что люди путают педали газа и тормоза.
Коммерческие компании, онлайн-магазины, банки могут с помощью анализа больших данных создавать персонализированные предложения и прогнозировать спрос, улучшать клиентский сервис, бороться с мошенниками и противоправными действиями.
Кроме того, большие данные ― основа для машинного обучения (ML). К примеру, так банки или ведомства могут обучать чат-ботов поддержки, которые берут на себя диалог с пользователями и помощь в решении самых распространенных запросов.
Как развивается Big Data в России?
Первые Big Data еще несколько лет назад начали использовать в IT, телекоме, банках, госсекторе — сферах, в которых специалисты могут накапливать большие массивы данных и анализировать их. При этом выделить это направление в отчетных и статистических публикациях не всегда возможно — отрасль больших данных довольно часто рассматривают в неразрывной связке с ИИ.
Так, по данным Финансового университета при правительстве РФ, по итогам 2024 г. объем рынка больших данных и ИИ в РФ достиг 320 млрд руб., а к 2028 г. прогнозируется его увеличение до 644 млрд руб. За период 2023–2024 гг. компании, внедряющие эти технологии, увеличили операционную прибыль на 1,6 трлн руб.
При этом уровень проникновения технологий варьируется по отраслям. К примеру, внедрение ML и Big Data в промышленности РФ остается невысоким. В 2024 г. их использовали 5,5% из 79 тыс. предприятий, в 2025 г. аналитики ожидают повышение показателя до 16%.
Не является индивидуальной инвестиционной рекомендацией | При копировании ссылка обязательна | Нашли ошибку - выделить и нажать Ctrl+Enter | Жалоба
