Параметрическое оптимальное f при нормальном распределении

7 февраля 2018 DTI

Продолжение краткого изложения книги Ральфа Винса "Математика управления капиталом" с комментариями DTI.

Сегодня разбираем третью главу "Параметрическое оптимальное f при нормальном распределении". В ней рассматриваются различные виды распределений вероятности и методы их анализа. Также описывается нахождение оптимального f при условии нормального распределения.

Часть 1 Часть 2

Виды распределений

Существуют различные непрерывные и дискретные распределения. Дискретные распределения являются "ячеистыми", что уменьшает информационное содержание распределения. Однако и на практике приходится жертвовать частью информации, сохраняя при этом профиль распределения.

#важно Сделать непрерывное распределение дискретным можно путем создания ячеек. Однако дискретное распределение превратить в непрерывное невозможно

Непрерывное распределение является серией бесконечно малых ячеек:

Параметрическое оптимальное f при нормальном распределении

Величины, описывающие распределения
Центральная тенденция

Первое, что необходимо знать о группе данных, или первый момент распределения, — его центральное значение. Для его оценки используют различные показатели, наиболее распространенным из которых является среднее арифметическое значение.

Среднее арифметическое — сумма значений, соответствующих точкам распределения, деленная на их количество. Формула:

$A=\frac{(\sum_{i=1}^{N}X_i)}N$, где

$A$ — среднее арифметическое;
$X_i$ — значение, соответствующее точке i;
$N$ — общее число точек данных в распределении.

#важно Среднее арифметическое обычно оказывается плохим выбором, если распределение имеет широкие хвосты, то есть если вероятность получить значение, удаленное от среднего, высока. В такой ситуации средние, рассчитанные по разным наборам случайно выбранных из распределения точек, будут сильно различаться.

Могут использоваться также другие спецификации среднего: геометрическое (для положительных значений), гармоническое или квадратическое (среднеквадратический корень). Формулы:

Среднее геометрическое: $G={(\prod_{i=1}^{N}X_i)}^{\frac1N}$
Среднее гармоническое: $\frac1H=\frac1N\sum_{i=1}^{N}\frac1{X_i}$
Среднее квадратическое: $R^2=\frac1N\sum_{i=1}^{N}X_i^2$, где

$G$ — среднее геометрическое;
$H$ — среднее гармоническое;
$R$ — среднее квадратическое;
$X_i$ — значение, соответствующее точке i;
$N$ — общее число точек данных в распределении.

Средние значения всегда подчиняются следующим соотношениям: арифметическое всегда больше или равно геометрическому, а геометрическое больше или равно гармоническому.

Существуют альтернативные показатели центральной тенденции.

Медиана — значение, находящееся посередине расположенного по возрастанию ряда данных. Медиана делит распределение надвое так, чтобы площадь под кривой функции плотности вероятности одной части была равна площади под кривой второй части. В отличие от среднего арифметического величина медианы не искажается крайними случайными значениями.

Мода — наиболее часто повторяющееся значение данных. Данный показатель отражает пик кривой распределения. В некоторых распределениях нет моды, а в других их несколько. Мода никак не зависит от крайних случайных значений, и ее можно рассчитать быстрее, чем среднее арифметическое или медиану.

Распределение также можно разделить
тремя квартилями, чтобы получить четыре области равного размера или вероятности;
девятью децилями, чтобы получить десять областей равного размера или вероятности;
99 перцентилями, чтобы получить сто областей — при этом 50 перцентиль является медианой, а вместе с 25 и 75 перцентилями — квартилем;
N–1 квантилем, чтобы получить N областей.

Разброс значений

Второй момент распределения — это изменчивость данных, или "ширина" относительно центрального значения. Она измеряет разброс распределения относительно первого момента. Чаще всего в качестве оценки разброса используют дисперсию и стандартное отклонение. Также может применяться среднее отклонение.

Среднее абсолютное отклонение, или просто среднее отклонение, — среднее арифметическое абсолютных отклонений значения каждой точки от среднего арифметического всех значений. Иными словами, это среднее удаление от среднего. Формула:

$M=\frac{\sum_{i=1}^{N}|X_i-A|}N$, где

$M$ — среднее абсолютное отклонение;
$X_i$ — значение, соответствующее точке i;
$A$ — среднее арифметическое значение точек;
$N$ — общее число точек данных.

#важно Данная формула позволяет вычислить среднее абсолютное отклонение по всей совокупности данных. Однако его можно рассчитать и по выборке из них. Для этого в формуле необходимо заменить $\frac1N$ на $\frac1{(N–1)}$

Дисперсия — среднее арифметическое квадратов абсолютных отклонений значения каждой точки от среднего арифметического всех значений. Иными словами, это средний квадрат удаления от среднего. Формула:

$V=\frac{\sum_{i=1}^{N}(X_i-A)^2}N$, где

$V$ — среднее абсолютное отклонение;
$X_i$ — значение, соответствующее точке i;
$A$ — среднее арифметическое значение точек;
$N$ — общее число точек данных.

Стандартное отклонение (сигма, ?) — квадратный корень из дисперсии.

#важно Формулу для дисперсии — а соответственно, и для стандартного отклонения, также можно применять для совокупности данных или для выборки из них. Второй вариант также требует замены $\frac1N$ на $\frac1{(N–1)}$

Асимметрия и эксцесс

Третий момент распределения — асимметрия, описывающая асимметричность распределения относительно среднего значения. В отличие от первых двух моментов является безразмерной — это просто число, показывающее скос распределения. Положительная асимметрия означает, что хвосты толще с правой стороны распределения, и наоборот. Совершенно симметричное распределение имеет нулевой скос.

Различные виды асимметрии:

В симметричном распределении среднее, медиана и мода имеют одинаковое значение. В ином случае верно следующее равенство: $Среднее–Мода = 3(Среднее–Медиана)$.

Среднее, мода и медиана при асимметричном распределении:

Есть много способов для расчета асимметрии, и они часто дают различные ответы. Два распространенных варианта:

Коэффициент Пирсона $=S=\frac{A-Mo}?=\frac{3(A-Me)}?$

ИЛИ

$S=\frac1N\sum_{i=1}^{N}{(\frac{X_i-A}?)}^3$, где

$S$ — асимметрия;
$Mo$ — мода;
$Me$ — медиана;
$X_i$ — значение, соответствующее точке i;
$A$ — среднее арифметическое значение точек;
$N$ — общее число точек данных;
$?$ — стандартное отклонение точек.

Третий момент распределения — эксцесс. Он показывает, насколько у распределения плоско- или островершинная форма по сравнению с нормальным. Как и асимметрия, это безразмерная величина.

Менее остроконечная, чем нормальная, кривая имеет эксцесс отрицательный, и наоборот. Для вершины, аналогичной пику нормального распределения, эксцесс равен нулю — в таком случае он называется нормальным.

Различные виды эксцесса:

Наиболее распространенные методы расчета эксцесса:

$K=\frac{Q}{P}$

ИЛИ

$K=\frac1N\sum_{i=1}^{N}{(\frac{X_i-A}?)}^4-3$, где

$K$ — эксцесс;
$Q$ — семи-интерквартильная широта;
$P$ — широта перцентиля 10-90;
$Mo$ — мода;
$Me$ — медиана;
$X_i$ — значение, соответствующее точке i;
$A$ — среднее арифметическое значение точек;
$N$ — общее число точек данных;
$?$ — стандартное отклонение точек.

Примеры распределений
Нормальное

Нормальное распределение (также называется распределением Гаусса или Муавра) считается наиболее ценным, поскольку моделирует многие явления. Также оно является предельной формой некоторых других типов распределений, например, Пуассона и Стьюдента (t-распределения). Иными словами, при достаточно большом количестве точек (N) эти распределения похожи на нормальное.

Центральная предельная теорема (ЦПТ): средние значения выборок заданного размера с независимыми элементами образуют распределение, близкое к нормальному. Это позволяет получить случайный процесс из средних значений выборочных данных. При этом распределение совокупности, из которой были получены выборки, значения не имеет.

Важным в ЦПТ является количество выборок: для равномерного или унимодального (одновершинного) распределения совокупности, из которой получены выборки, 10 считается с большой вероятностью достаточным их количеством. Если совокупность распределена экспоненциально, может потребоваться 100 выборок.

Нормированное нормальное распределение — это нормальное распределение со средним, равным нулю, и дисперсией, равной единице. Для преобразования нормального в нормированное необходимо из каждой точки вычесть среднее всех значений, а затем разделить на их стандартное отклонение. Формула:

$Z_i=\frac{X_i-A}?$, где

$Z_i$ — значение нормированной точки i;
$A$ — среднее арифметическое значение точек;
$?$ — стандартное отклонение точек;
$X_i$ — значение наблюдаемой точки i.

Логарифмически нормальное распределение

Цена любого свободно котируемого инструмента имеет нулевое значение в качестве нижнего предела. Поэтому при приближении к нулю цене инструмента должно быть все труднее понизиться. Нормальное же распределение подразумевает, что вероятность изменения цены на одну и ту же величину не зависит от исходной точки. Получаемое из него логарифмически нормальное (логнормальное) распределение говорит, что вероятности равны не для абсолютных, а для процентных изменений.

Например, представим акцию стоимостью $10. В соответствии с нормальным распределением примерно равновероятны падения цены с $10 до $5 (50% понижение) и с $5 до $0 (100% понижение). При логнормальном распределении примерно равновероятны падения цены на 50% (с $10 до $5) и еще на 50% (с $5 до $2,5).

Нормальное и логнормальное распределение:

Перейти от логнормального распределения к нормальному в случае с динамикой цен, необходимо взять натуральные логарифмы от относительных изменений котировок, то есть от выражения $\frac{Цена_{новая}–Цена_{старая}}{Цена_{старая}}$. Полученный ряд будет подчиняться нормальному закону распределения.

Поиск оптимального f пo нормальному распределению

В первой главе книги была представлена формула Келли для нахождения параметрического оптимального f, где f — функция от процента выигрышных ставок и отношения выигрыша к проигрышу. Однако формула Келли дает оптимальное f только при бернуллиевом распределении выигрышей, то есть когда есть только два возможных результата.

Метод расчета оптимального f при нормальном распределении выигрышей также требует два параметра — среднее значение и стандартное отклонение результатов. Однако для его использования необходимо трансформировать непрерывное нормальное распределение в некоторое дискретное. Для этого нужно ввести ограничивающие параметры.

Выбрать, сколько данных мы отсекаем. Известно, что 99,73% всех точек данных находятся в интервале плюс и минус 3? от среднего, поэтому рекомендуется сохранять для использования точке в интервале плюс и минус 3–5 сигм от среднего.

Решить, на сколько равноотстоящих точек мы разделим интервал между двумя крайними точками, выбранными на предыдущем шаге. Для интервала плюс и минус 3? от среднего их должно быть не менее 30, включая крайние, — чем больше, тем ближе к реальному распределению. Они будут образовывать 29 интервалов по (3?+3?)/29?0,21?. Значит, полученные интервалы будут располагаться от -3? от среднего до (-3+0,21)? от среднего и так далее до 3?.

Для каждой из точек также необходимо рассчитать ассоциированную вероятность. Формула (Z — данные, преобразованные в нормированные нормальные по формуле выше) — подробные пояснения к этой и следующим выражениям можно прочитать в оригинале книги:

$N(Z)=1-N'(Z)(1,330274429Y^5-1,821255978Y^4+1,781477937Y^3-0,356563782Y^2+0,31938153Y),$

где $Y=\frac1{1+0,2316419|Z|}$;
$N'(Z)=0,398942e^{-\frac{Z^2}2}$.

Далее рассчитываем действительные вводные параметры: среднюю арифметическую сделку (выигрыш) и ее стандартное отклонение. Если последнее рассчитать затруднительно, можно использовать приблизительную формулу $S?1,253314137M$, где S — стандартное отклонение, а М — среднее отклонение.

Дополнительно можно рассчитать два дополнительных параметра, которые позволят увидеть влияние изменения вводных параметров.

Сжатие — множитель средней сделки. Показывает влияние среднего значения на оптимальное f. Сжатие должно иметь такой знак, чтобы при умножении на среднюю сделку получалось положительное значение.

Растяжение — множитель стандартного отклонения. Показывает влияние разброса на оптимальное f. Растяжение всегда должно быть положительным числом.

Таким образом формула цены для стандартной единицы (границы одного из полученных ранее равных интервалов — например, -3+0,21=-2,79) будет выглядеть следующем образом:

$D=A*Сжатие+?E*Растяжение$, где

$D$ — значение цены, соответствующее значению стандартной единицы;
$A$ — среднее арифметическое значение точек;
$?$ — стандартное отклонение точек;
$E$ — значение стандартной единицы.

D также называется ассоциированным значением P&L. Такие значения необходимо получить для всех стандартных единиц. Далее необходимо найти оптимальное f от 0 до 1 — например перебором.

Оптимальным будет такое f, при котором наибольшим становится среднее геометрическое значение HPR, рассчитанное на основании стандартных единиц по формуле:

$HPR=(1-\frac{fD}{W})^{N(Z)}$, где

$D$ — ассоциированное значение P&L;
$W$ — ассоциированное значение P&L наихудшего случая (всегда отрицательное значение);
$f$ — тестируемое значение f;
$N(Z)$ — ассоциированная вероятность.

https://blog.dti.team/ (C)

Не является индивидуальной инвестиционной рекомендацией
При копировании ссылка обязательна Нашли ошибку: выделить и нажать Ctrl+Enter