Слепое прочесывание данных и переподгонка

13 июня 2015 long-short.ru | Архив

Слепое прочесывание данных (data dredging, data fishing, data snooping, equation fitting, p-hacking) – это использование дата майнинга (data mining) для открытия статистически значимых паттернов в данных без предварительной разработки гипотез, обосновывающих причинность.

Процесс дата майнинга в этом случае основан на автоматическом тестировании огромного числа гипотез на единственном наборе данных, исчерпывающим образом ищущих комбинацию переменных, которые могут показать корреляцию. Обычные тесты на статистическую значимость основаны на вероятности того, что наблюдения возникли случайно, и должны принимать риск ошибочных результатов теста, названный «значимостью».

Когда проводится большое число тестов, некоторые дают ложные результаты, например 5% случайных гипотез выйдут значимыми на 5% уровне значимости чисто случайным образом. При тестировании достаточно большого числа гипотез практически неизбежно некоторые окажутся ложно статистически значимыми, поскольку практически каждый набор данных с любым уровнем случайности, скорее всего, содержит некоторые иллюзорные корреляции. Если исследователи недостаточно осторожны при использовании техник дата майнинга, они могут быть с легкостью введены в заблуждение этими ложными результатами.

Обычная процедура тестирования статистической гипотезы – сформулировать исследовательскую гипотезу, такую как «люди высших социальных классов живут дольше», затем собрать релевантные данные, после чего провести тест на статистическую значимость, чтобы увидеть, не могут ли быть данные воспроизводить эффект чисто случайно. Последний шаг называется тестированием против нулевой гипотезы.

Ключевой момент в правильном статистическом анализе – тестирование гипотезы на свидетельствах (данных), которые не использовались для конструирования гипотезы. Это критический момент, поскольку каждый набор данных содержит некоторые совершенно случайные паттерны. Если гипотеза не тестировалась на другом наборе данных, отличном от исходного, невозможно определить, является ли обнаруженный паттерн игрой случая.

Поиск паттернов в данных имеет право на существование. Но применять статистический тест на значимость (тестирование гипотезы) к тем же данным, на которых паттерн был получен – неправильно. Один из способов конструировать гипотезы, избегая подгонки под данные – провести случайные (randomized) тесты вне выборки. Исследователь собирает набор данных, затем случайным образом делит его на два под-набора, A и B. Только один под-набор – например, А – используется для создания гипотез. После того, как гипотеза сформулирована, она должна быть протестирована на наборе В, которые не был использован для создания гипотезы. Только когда набор В также поддерживает эту гипотезу, только тогда разумно полагать, что гипотеза может соответствовать действительности.

http://www.long-short.ru/ (C) Источник

Не является индивидуальной инвестиционной рекомендацией
При копировании ссылка обязательна Нашли ошибку: выделить и нажать Ctrl+Enter