2 ноября 2017 Архив
Официальные данные Росстата, публикуемые с задержкой в 1-1,5 месяца, не могут удовлетворить потребность Центробанка в оперативной информации. Поэтому регулятор разработал метод анализа экономической активности в стране на основе систем обработки больших массивов данных (big data). Динамику активности планируется оценивать посредством высокочастотного индикатора, рассчитанного на основе ежедневных новостей.
«В качестве исходных данных используются новостные статьи, взятые из интернет-ресурсов. Анализ новостных статей производится методами текстового анализа и машинного обучения, — говорится в докладе «Оценка экономической активности на основе текстового анализа» Департамента исследований и прогнозирования ЦБ РФ.
Выбор нового источника информации для оценки и прогнозирования Центробанк объясняет тем, что «преимуществом данных сети по сравнению с обычными статистическими данными является их многообразие, возможность рассчитать показатель, не учитывающийся в официальной статистике».
«Это связано с тем, что новости являются не только основным источником информации, с их помощью можно также узнавать настроения журналистов и опрошенных респондентов относительно текущей ситуации и преобразовывать их в количественные данные», — отмечается в докладе.
В рамках конкретной модели новости были собраны с информационного ресурса, посвященного экономической тематике. Общее количество статей составило около 50 000, совокупный объем слов – 20–25 млн. Для построения индикатора использовалась временная выборка с января 2014 года по август 2017 года.
В построении новостного индекса выделяются три этапа. На первом этапе определяется список тем, содержащихся в новостных текстах. Второй этап определяет тональность новостных текстов, разделяя их на положительные и отрицательные. На третьем строится линейная регрессия.
Согласно используемой модели LDA, было выявлено 50 тем. Например, с января 2014 года по январь 2017 года основными темами в новостных статьях были темы, связанные с валютным курсом, нефтью, банковским сектором, ситуацией в США и так далее.
Разработанная методика достаточно успешно справилась с решением задачи прогнозирования экономической динамики, о чем свидетельствуют полученные оценки качества модели. Это позволяет сделать вывод о том, что новостные данные обладают достаточно хорошей прогнозной силой. С помощью разработанного новостного индекса можно отслеживать динамику не только экономической активности на ежедневной основе, но также разрабатывать иные индикаторы, что позволит более оперативно реагировать на текущую экономическую ситуацию и принимать соответствующие решения.
/templates/new/dleimages/no_icon.gif (C)
Не является индивидуальной инвестиционной рекомендацией | При копировании ссылка обязательна | Нашли ошибку - выделить и нажать Ctrl+Enter | Отправить жалобу