Термин процентиль воспринимается как нечто, максимально отдаленное от реальной жизни. Кажется, что это некий параметр, использующийся исключительно в математике или аналитике данных. Отчасти так и есть, но этим дело не ограничивается, персентиль можно использовать для анализа практически любого набора данных. Это характеристика, позволяющая кратко и емко оценивать массивы буквально одним числом.
Что такое процентиль простыми словами
Процентиль – это статистический показатель, использующийся для определения положения наблюдаемого значения внутри распределения данных. Число соответствует проценту наблюдений, находящихся ниже определенного значения.
Вообразите, что есть массив значений, указывается число и сообщается, что оно соответствует, например, 5-му процентилю. Это означает, что в массиве 5% значений меньше этого значения, а 95% значений выше.
Это удобнее рассмотреть на конкретном примере. Представьте массив данных, каждое число в котором соответствует росту студента в группе, всего таких чисел 200. Выбирается студент с ростом 175 см и нужно оценить его рост по отношению ко всему набору данных.
Можно рассчитать среднее арифметическое и сравнить 175 см с ним, но это не даст представления о том какая часть студентов выше этого роста, какая ниже. С этой задачей поможет справиться процентиль (он же персентиль или перцентиль), он более информативен.
Один из возможных вариантов – рост 175 см соответствует 90-му перцентилю. Это означает, что у 90% студентов рост ниже 175 см, и только у 20 студентов (10% от 200 человек) рост превышает 175 см.
Если рост 175 см соответствует 10-му перцентилю, то рост 90% студентов (180 человек) превышает 175 см. И всего у 20 человек рост недотягивает до 175 см.
По той же логике может исследоваться любой набор данных.
Персентиль выборки может использоваться и в медицине, и в образовании, и в инвестировании. Этот расчет применим везде, где есть некий набор значений.
Точная дата первого использования этого инструмента неизвестна. Вероятнее всего процентиль впервые стал использовать британский ученый Фрэнсис Гальтон (Francis Galton). В своих антропометрических исследованиях он активно использовал статистические методы, в том числе персентили.
Позже развитие статистического анализа продолжили Рональд Фишер (Ronald Fisher), Карл Пирсон (Ronald Pirson) и другие исследователи.
Уже в первой половине 20 века перцентили активно использовались в статистическом анализе. Расчет не особо сложный, с ним справлялись и вручную. Компьютеризация упростила эту задачу, появились отдельные программные комплексы для статистического анализа с функцией расчета в том числе и процентилей.
Среднее арифметическое, медиана и процентили

Малознакомые со статистикой люди любят использовать среднее арифметическое для характеристики любых данных. Слово «среднее» в названии намекает на то, что данные усредняются и им можно доверять. Создается ощущение, что за счет усреднения сглаживается разброс случайных величин и получаем некое значение, в большинстве случаев приближенное к реальности.
Это не совсем так.
Представьте, что есть массив с данными по зарплате – {900, 990, 1000, 1100, 1150, 1200, 1300, 1320, 1450, 90000}. Среднее арифметическое составит 10041. Этот показатель не характеризует буквально ничего, один человек с большой зарплатой сильно исказил средний результат.
Медиана – более информативный показатель.
Это центральный элемент массива, 50% данных меньше этого водораздела, 50% больше. Если в массиве четное количество элементов, то медиана рассчитывается как арифметическое среднее 2-х центральных элементов. При нечетном количестве элементов мединой становится центральный элемент. В примере выше в массиве 10 элементов, поэтому медиана составила (1150 + 1200)/2 = 1175.
Можно сказать, что медиана – это 50-й процентиль. По аналогии с этим можно выделить 100-й перцентиль – это максимальный элемент набора данных и 0-й перцентиль – это минимальный элемент массива.
В случае с процентилем мы не ограничены уровнями 0, 50 или 100. Можно выбрать любой порог, например 38-й процентиль и рассчитать его.
Если дать определение, что такое процентиль простыми словами, то его можно назвать инструментом «нарезающим» массив слоями. Аналитик сам выбирает какими будут эти слои, за счет этого один и тот же набор данных можно оценивать под любым углом.
Как найти процентиль
Для примера используем приведенный выше массив {900, 990, 1000, 1100, 1150, 1200, 1300, 1320, 1450, 90000}. В первой методике расчета исключаются минимальное и максимальное значение.
Порядок расчета:
Вычисляется позиция искомого процентиля. Используется формула вида –

Где Pk – позиция искомого процентиля, k – сам процентиль в долях единицы, n – количество элементов в массиве.

- Определяется целая и дробная части позиции перцентиля. В примере целая часть (i) равна 4, дробная (f) 4,18 – 4 = 0,18.
- Определяются значения массива, находящиеся на позиции xi и xi+1. В исходном массиве это числа 1100 и 1150.
- С учетом всего перечисленного рассчитывается непосредственно значение процентиля –

В этой формуле xi и xi+1 – значения массива на позициях i и i+1, f – дробная часть позиции процентиля, рассчитанная на первом шаге.

Если в расчет включены все значения, то несколько меняются расчетные формулы:
- Позиция процентиля

- Целая и дробная части – 4 и 0,42 соответственно.
- Значения на позициях i и i+1 – 1100 и 1150.
- Остается выполнить интерполяцию и определить точное значение перцентиля.

Из-за различий в формулах результат несколько отличается. В нашем примере значение 38-го процентиля составили 1109 и 1121.
Из-за особенностей расчета значение перцентиля может оказаться дробным несмотря на то, что в массиве есть только целые числа.
Виды процентилей
Если оценивать, что значит процентиль, то его можно назвать разделением набора данных на 100 равных частей. Но если делить массив данных на другое количество частей, то получаем частные случае перцентилей. К ним относятся:
- Децили, делят набор данных на 10 равных частей. Если речь идет, например, о первом дециле, то это то же самое, что и 10-й перцентиль. Это порог, отсекающий нижние 10% значений. Второй дециль – это 20-й процентиль или граница, отсекающая нижние 20% и далее по той же логике.
- Квартили. Набор данных делится на 4 равные части. Первый квартиль соответствует 25-му процентилю и отсекает нижнюю четверть значений. Второй квартиль – это 50-й процентиль или медиана и делить набор значений пополам. Третий квартиль – 75-й процентиль, 25% данных превышают это значение, 75% оказались ниже него.
Декали и квартили – не более чем другое название обычных перцентилей. Расчетные зависимости не меняются.
С процентилями тесно связана функция Гаусса (нормальное распределение). Это зависимость, описывающая распределение вероятностей случайной величины, график имеет форму колокола. В центре – среднее значение, по мере удаления от него снижается вероятность появления случайной величины.
В случае с функцией Гаусса процентили можно рассматривать как границы, ниже которых будет находиться некий процент наблюдений. Практика показала, что порядка 68% наблюдений попадает в диапазон одного стандартного отклонения от среднего арифметического значения. А в диапазоне трех стандартных отклонений попадает уже 99,7% наблюдений. Границы этих диапазонов можно рассматривать как процентили.
Как рассчитать персентиль в Excel
Чтобы рассчитать персентиль в Excel достаточно использовать одну из двух встроенных функций. ПРОЦЕНТИЛЬ.ВКЛ – включены все значения, ПРОЦЕНТИЛЬ.ИСКЛ – исключены «выбросы», экстремальные значения, способные сильно повлиять на результат.
В обоих случаях в параметрах функции указывается только диапазон данных и искомый процентиль в долях единицы. Для 38-го персентиля нужно указать 0,38.


Также в Excel есть отдельные функции для расчета квартилей. Логика та же, что и в обычных персентилях – есть вариант ВКЛ/ИСКЛ.
Отличается только способ задания параметров. Помимо таблицы указывается часть массива, 0 и 4 – минимальное и максимальное значение соответственно, 1, 2, 3 – 25-й процентиль (первая квартиль), медиана (вторая квартиль) и 75-й перцентиль (третья квартиль).

Пример использования перцентилей в реальных задачах
Зная, как посчитать перцентиль в Excel или вручную можно оценить, например, вероятность доходности акций. Все, что для этого нужно – статистика за адекватный период времени.
Представьте, что есть набор данных, соответствующих росту/падению акции за день. Опираясь на эту статистику, можно рассчитать вероятность роста/падения в следующий день.
Для произвольного набора данных рассчитаем децили (с 1-го по 9-й). Для наглядности к результатам расчета добавлен столбец «Вероятность», он рассчитан как 100% – дециль.

Трактовка полученных результатов:
- Первый дециль оказался равен -1,18%. Это означает, что с вероятностью 90% дневной результат акции окажется лучше чем -1,18%. Это может быть и рост на 5%, и падение на 1,17%. Главное – то, что скорее всего за день бумага подешевеет не более чем на 1,18%.
- С вероятностью в 10% дневная доходность бумаги превысит 3,12% (9-й дециль).
- С вероятностью в 60% дневная доходность превысит 0,56%.
По этой же логике можно рассчитать любой персентиль. Децили были взяты для удобства расчета, вы можете провести расчеты с шагом в 1% и получить более точный результат.

То же показано в виде диаграммы, так результаты расчетов воспринимаются лучше. Видно, что показатели акции не лучшие, с высокой долей вероятности рост будет слабым.
Нужно помнить, что все полученные выводы могут не оправдаться. В расчетах мы анализируем прошлое, пытаясь предвидеть события в будущем. Но анализ массива данных не гарантирует, что все пойдет именно так, как показали вычисления. В случае с инвестициями может вмешаться, например, квартальный отчет, заключение выгодного соглашения, форс-мажор.
Это простой и эффективный способ препарирования любого массива данных, намного более информативный по сравнению с оценкой по среднему арифметическому или медиане. Этот инструмент должен быть в арсенале не только аналитика, но и инвестора/трейдера, перцентили облегчают работу с любой статистикой.







