Как посчитать процентили в статистике
Описательные статистики
Упорядочим эти величины по возрастанию, иными словами, построим вариационный ряд:
Х(1) x более важны, чем другие. Мы присоединяем вес wi к каждому из значений xi в нашей выборке для того, чтобы учесть эту важность.
Например, предположим, что мы заинтересованы в определении средней продолжительности госпитализации в каком-либо районе и знаем средний реабилитационный период больных в каждой больнице. Учитываем количество информации, в первом приближении принимая за вес каждого наблюдения число больных в больнице.
Взвешенное среднее и среднее арифметическое идентичны, если каждый вес равен единице.
Размах (интервал изменения)
Размах — это разность между максимальным и минимальным значениями переменной в наборе данных; этими двумя величинами обозначают их разность. Обратите внимание, что размах вводит в заблуждение, если одно из значений есть выброс (см. раздел 3).
Размах, полученный из процентилей
Что такое процентили
Предположим, что мы расположим наши данные упорядоченно от самой маленькой величины переменной X и до самой большой величины. Величина X, до которой расположен 1% наблюдений (и выше которой расположены 99% наблюдений), называется первым процентилем.
Величина X, до которой находится 2% наблюдений, называется 2-м процентилем, и т. д.
Применение процентилей
Мы можем добиться такой формы описания рассеяния, на которую не повлияет выброс (аномальное значение), исключая экстремальные величины и определяя размах остающихся наблюдений.
Межквартильный размах — это разница между 1-м и 3-м квартилями, т.е. между 25-м и 75-м процентилями. В него входят центральные 50% наблюдений в упорядоченном наборе, где 25% наблюдений находятся ниже центральной точки и 25% — выше.
Интердецильный размах содержит в себе центральные 80% наблюдений, т. е. те наблюдения, которые располагаются между 10-м и 90-м процентилями.
Мы часто используем размах, который содержит 95% наблюдений, т.е. он исключает 2,5% наблюдений снизу и 2,5% сверху. Указание такого интервала актуально, например, для осуществления диагностики болезни. Такой интервал называется референтный интервал, референтный размах или нормальный размах.
Дисперсия
Один из способов измерения рассеяния данных заключается в том, чтобы определить степень отклонения каждого наблюдения от средней арифметической. Очевидно, что чем больше отклонение, тем больше изменчивость, вариабельность наблюдений.
Однако мы не можем использовать среднее этих отклонений как меру рассеяния, потому что положительные отклонения компенсируют отрицательные отклонения (их сумма равна нулю). Чтобы решить эту проблему, мы возводим в квадрат каждое отклонение и находим среднее возведенных в квадрат отклонений; эта величина называется вариацией, или дисперсией.
В случае, если мы имеем дело не с генеральной совокупностью, а с выборкой, то вычисляется выборочная дисперсия:
Теоретически можно показать, что получится более точная дисперсия по выборке, если разделить не на n, а на (n-1).
Единицы измерения (размерность) вариации — это квадрат единиц измерения первоначальных наблюдений.
Например, если измерения производятся в килограммах, то единица измерения вариации будет килограмм в квадрате.
Среднеквадратическое отклонение, стандартное отклонение выборки
Среднеквадратическое отклонение — это положительный квадратный корень из дисперсии.
Мы можем представить себе стандартное отклонение как своего рода среднее отклонение наблюдений от среднего. Оно вычисляется в тех же единицах (размерностях), что и исходные данные.
Если разделить стандартное отклонение на среднее арифметическое и выразить результат в процентах, получится коэффициент вариации.
Он является мерой рассеяния, не зависит от единиц измерения (безразмерный), но имеет некоторые теоретические неудобства и поэтому не очень одобряется статистиками.
Вариация в пределах субъектов и между субъектами
Если провести повторные измерения непрерывной переменной у исследуемого объекта, то можно увидеть ее изменения (внутрисубъектные изменения). Это можно объяснить тем, что объект не всегда может дать точные и те же самые ответы, и/или ошибкой, погрешностью измерения. Однако при измерениях у одного объекта вариация обычно меньше, чем вариация единичного измерения в группе (межсубъектные изменения).
Например, вместимость легкого 17-летнего мальчика составляет от 3,60 до 3,87 л, когда измерения повторяются не менее 10 раз; если провести однократное измерение у 10 мальчиков того же возраста, то объем будет между 2,98 и 4,33 л. Эти концепции важны в плане исследования.
Процентили
— это характеристики набора данных, которые выражают ранги элементов массива в виде чисел от 1 до 100, и являются показателем того, какой процент значений находится ниже определенного уровня.
Например, значение 30-й процентили указывает, что 30% значений располагается ниже этого уровня.
На конкретном примере поясним понятие процентиля:
Решение.
Формула процентиля
Процентиль = n(x≤X)/N*100
Для удобства вычислений ранжируем выборку балов от максимального значения до минимального ( в порядке убывания): 5,5,5,4,4,4,4,4,4,4,4,3,3,3,3,3,3,2,2,2
Допустим нам необходимо определить процентиль студента Иванова получившего на экзамене 5 баллов:
Процентиль (Иванова) = 20/20*100=100
Допустим необходимо определить процентиль студента Петрова получившего на экзамене 4 балла:
Процентиль (Петрова) = 17/20*100=85
Допустим необходимо определить процентиль студента Сидорова получившего на экзамене 3 балла:
Процентиль (Иванова) = 9/20*100=45
После расчета процентиля можно составить таблицу стандартизации. Для наших баллов она будет выглядеть следующим образом:
Бал | Процентили |
5 | 100 |
4 | 85 |
3 | 45 |
2 | 15 |
Алгоритм расчета процентилей
1. Для каждого человека посчитать, какое количество человек набрало столько же или меньше баллов.
2. Посчитать сколько процентов составляет это количество от всей выборки.
Процентиль – это процент людей из выборки, набравших столько же или меньше баллов, чем конкретный человек.
Процентиль является достаточно распространенной шкалой стандартизации, среди психологов, социологов, биологов, медиков и т.д., т.к. очень удобен и понятен. Его диапазон от 1 до 100.
Процентили указывают на относительное положение индивида в выборке стандартизации. Их также можно рассматривать, как ранговые градации, общее число которых равно 100, с той лишь разницей, что при ранжировании принято начинать отсчет сверху, т.е. с лучшего члена группы, получающего ранг 1. В случае же процентилей отсчет ведется снизу, поэтому, чем ниже процентиль, тем хуже позиция индивида.
Процентиль может использоваться для стандартизации как нормально распределенных случайных величин СВ, так и данных с ненормальным распределением.
Расчет процентилей в Excel
Для расчета процентилей нам понадобится функция СЧЕТЕСЛИ.
Для расчета, для каждого значения нужно ввести формулу:
Что такое процентиль?
Что такое процентиль?
Термин ″процентиль″ (percentile) часто встречается в зарубежной литературе про инвестиции и вообще в статистических исследованиях – одно из таких исследований я упоминал в этой статье. Другими вариантами русских названий являются ″персентиль″ и ″перцентиль″. Думаю, что небольшая известность термина в России не вполне заслужена, поскольку нередко именно в процентилях удобно выразить полученные результаты.
Процентиль это определенная часть выборки данных
Возьмем простой пример. Группа студентов из 200 человек пишет тест, состоящий из 100 вопросов. Проходной порог, когда тест считается сданным, составляет 2/3 правильных ответов, т.е. не менее 66. Что получается с точки зрения отдельного студента?
Допустим, Иван правильно ответил на 70 вопросов. Задачу он выполнил — тест засчитан. Результат каждого участника теста также сравнивается с числом 66: если правильных ответов больше, тест сдан. В результате формируется список сдавших и не сдавших: каждый студент проходил через это. Пока ничего нового.
Но задачу можно поставить и по-другому: нужно сравнить результаты студентов не с проходным баллом в 66 пунктов, а между собой. Зачем это нужно? В данном случае, например, для объективной оценки сложность теста, что достигается группировкой результатов.
Вернемся к Ивану, который получил 70 правильных ответов. Много это или мало по сравнению с остальными? Это и покажет процентиль.
Процентили делят всю выборку на определенные части. Например, пятый процентиль охватывает 5% объема выборки. Предположим, показатель Ивана равен пятому процентилю. Это означает, что Иван написал тест лучше, чем 5% студентов (10 человек из 200 получили от нуля до 70 баллов). Не густо, поскольку в этом случае остальные 190 человек набрали больше, чем 70. Значит, тест был очень легкий и порог в 66 баллов можно и повысить.
Но в том же самом тесте может быть и обратная ситуация: результат Ивана равен 90-ому процентилю. Это значит, что Иван написал тест лучше, чем 90% студентов. Или по другому: только 10% (20 человек) набрали более 70 правильных ответов. Следовательно, тест был весьма трудным. Преимущество метода еще и в том, что разбивкой на процентили можно сравнивать тесты с разным числом участников.
Функция Гаусса
Чем более высок процентиль, тем больше данных он включает
Расчет процентиля в Excel
Процентиль несложно вычислить по формуле:
но проще обрабатывать массив данных одноименной функцией Excel. Для примера возьмем произвольную выборку полученных баллов и рассчитаем в ней процентили:
Функция PERCENTILE (ПЕРСЕНТИЛЬ) включает в себя ввод диапазона ячеек данных (А1:А10) и значения процентиля К, деленного на 100%. Т.е. в данном случае ввод 0.3 означает нахождение тридцатого процентиля. Смысл расчета: к 30-му процентилю будут относиться все результаты, меньше или равные 7.9.
Если мы хотим узнать процентиль участника, получившего 10 баллов, то это несложно сделать, варьируя значение К до тех пор, пока значение в ячейке С12 не станет близким 10. Получится примерно 34-ый процентиль. При увеличении процентиля в выборку попадает больше табличных значений:
Итого, в 80-ый процентиль попадает уже 8 табличных значений из 10, которые меньше или равны 47.2. При этом подчеркнуть результат можно диапазоном процентилей — например, между восьмидесятым и сотым. В этом случае значения будут лежать между 47.2 и 67 (максимальным числом выборки).
Процентиль: как оцениваются результаты тестов
Как сравнить потенциал двух кандидатов из разных городов, с разными культурными ценностями и образованием? Стандартизированные выборки слишком неточны, а набор контрольных групп для каждой профессии и должности слишком дорого стоит. Гораздо проще оценить претендента по результатам других кандидатов на ту же должность. Это как раз то, для чего нужен процентиль.
Как оценивают персонал
Требования к уровню соискателей растут с каждым годом, что приводит к необходимости использования комплексных методов оценки при наборе на работу.
В международных компаниях остро стоит вопрос о стоимости одного собеседования.
Рекрутеру нужно не только отобрать подходящую анкету, но и созвониться с человеком, протестировать его, интерпретировать показатели и сравнить с другими соискателями на эту должность.
Чтобы упростить эту задачу, HR используют тесты способностей и потенциала:
Как только рекрутер получил показатели нескольких претендентов, ему приходится сравнивать их, выбирая подходящего.
Как сравнивают соискателей
Возникает вопрос – как сравнить между собой людей с разным уровнем образования, опытом, культурными ценностями. Одни и те же тесты используют для подбора менеджеров и директоров – очевидно, что нельзя интерпретировать оценку этих двух групп одинаково, устанавливая минимальное количество заданий, которые должен решить соискатель.
Ситуация усложняется, когда тесты используют для отбора людей на стажировки, кадровые конкурсы и т.д. Пример – всероссийский кадровый конкурс Лидеры России. Чтобы попасть во второй тур конкурса, придется пройти дистанционный этап, включающий тестирование потенциала (PiF) и способностей (числовые, вербальные, логические).
Пример отчета по тестам (результат с процентилями)
Классический подход здесь не работает – если устанавливать проходной балл для каждой должности, придется проводить исследования, набирать контрольные группы и выборки. Гораздо проще сравнивать показатели одного человека, основываясь на результатах других претендентов на ту же должность. Эту функцию в тестах при приеме на работу выполняет перцентиль.
Что такое процентиль
В математической статистике процентиль (или перцентиль, percentile) — это доля людей из выборки, результат которых ниже определенного показателя.
Если, 38% людей правильно ответят на 10 вопросов числового теста, показателю 10 соответствует 38-й перцентиль.
Таким образом, получит человек приглашение на собеседование или нет, зависит от того, как он пройдет испытание по сравнению с другими кандидатами на ту же должность.
Сколько набрать
Нижняя граница, при которой кандидаты не проходят на собеседование, определяется каждой компанией или разработчиком тестирования. Например, SHL рекомендует отсеивать кандидатов, если они не набирают 30-й перцентиль. Однако это справедливо для средних должностей, где не нужны развитые способности к анализу информации.
Перцентили используются не только в тестах SHL или TalentQ, но и в психологических опросниках, например, результат теста Кеттела также оценивается в процентилях.
Для должностей топ уровня, например, для директоров, начальников департаментов SHL рекомендует использовать 60-й перцентиль.
Тем не менее в большинстве российских компаний минимальный проходной балл установлен на уровне 65-го процентиля. То есть, чтобы попасть на очное собеседование, задания придется решить лучше, чем 65% кандидатов на ту же должность.
Стоит ли гнаться за 100%
Некоторые люди стремятся быть лучшими во всем, в том числе, в тестировании, пытаясь набрать 100%. Но такой подход лишен смысла.
Некоторые работодатели используют оценочные испытания чисто формально – главное, чтобы кандидат получил оценку выше проходной, а как он это сделал – неважно. Но большинство компаний относится к вопросам тестирования серьезно.
Работодатели начинают осознавать ценность тестирования и все серьезнее относятся к его результатам. Сегодня ретест уже не редкость — он проводится почти на каждом собеседовании.
Помимо дистанционного этапа, оценку подтверждают очно, на ретесте. Если на дистанционном этапе потенциальный сотрудник показал 98%, а придя в офис к работодателю, не набирает 30%, с ним прекращают диалог.
Так сколько нужно процентов?
Исследования показывают четкую связь между слабыми результатами тестов способностей и обучаемостью. Однако корреляции между высокой оценкой и его эффективностью нет. Соискатель, набравший 98% не лучше набравшего 70%.
На оценку влияет мотивация и способность выполнять рутинные задачи. Некоторым людям с потенциалом надоедают рутинные задачи. Поэтому идеальным считается оценка на 10-15% превышающая проходную.
Как пройти на собеседование
Работодатели, как правило, не сообщают о подробностях тестирования. Эта информация отвлекает кандидата, кроме того, если человек знает, сколько «баллов» ему придется набрать, он начинает сильнее волноваться, что искажает результат.
Иногда работодатели не ведут диалога с соискателем до очного собеседования, направляя ссылку на корпоративный портал с тестированием.
Но это не значит, что человек не может поинтересоваться о процедуре тестирования у рекрутера. Чаще всего рекрутеры охотно идут на диалог, давая дельные советы. Ведь рекрутер тоже заинтересован в том, чтобы «захантить» хорошего кандидата. А контакт — это показатель мотивации и целеустремленности.
Как использовать перцентиль в свою пользу
Хотя за процентилем гнаться не нужно, рекомендуется стремиться показать результат на 15-20% выше, чем проходной. В этом случае его используют в качестве дополнительного аргумента при трудоустройстве, ведь работодателю нужны сотрудники, обладающие потенциалом к развитию и навыками работы с информацией.
Независимо от исхода тестирования или процентиля, важно получить отчет соискателя – его используют при трудоустройстве в другие компании, ведь оценка действительна в течение 1-1,5 лет.
Как тренироваться
При использовании тренировочных упражнений, в Личном кабинете пользователю доступно сравнение показателей с другими пользователями.
Хотя это сравнение грубее, поскольку не учитывает должности или компании, оно с достаточной точностью предсказывает результаты реальной оценки. Нормативная выборка составляет десятки тысяч пользователей разных возрастов и профессий, которые когда-либо решали эти задачи.
В тренировочных задачах рекомендуется ориентироваться на 80-й перцентиль. Это гарантирует, что у работодателя результат окажется не ниже.
Для улучшения результата недостаточно следить за перцентилем, рекомендуется анализировать ошибки и следить за развитием навыка. Получив определенный балл в тренировочном тесте, выполняют работу над ошибками, смотрят правильное решение и пытаются понять, из-за чего возникла ошибка.
К этому вопросу возвращаются спустя несколько дней. Так повышается не только процентиль, но и навык решения задач.
Заключение
Процентиль – это не только оценка результатов теста, это еще и показатель готовности к собеседованию и эффективности тренировочного процесса. А если правильно тренироваться, отрабатывать ошибки и следить за своим прогрессом, никаких сложностей с тестами на собеседовании или на ретесте у кандидата не возникнет.
Статистика — это грамматика науки о данных. Часть 3
Mar 30, 2019 · 4 min read
Повторение статистики для начала путешествия по науке о данных
Меры расположения
Процентили
Процентили делят упорядоченные данные на сто равных частей. В рассортированных данных процентиль — это точка, показывающая процентное отношение значений в наборе данных, находящихся ниже данной точки.
50-й процентиль — это медиана.
Например, на графике ниже показано развитие ребенка от рождения до 2 лет. Получается, что 98% развития ребенка за первый год жизни составляет в весе меньше 11,5 кг.
Другим примером является ра с пределение доходов в стране. 99-й процентиль — это уровень дохода, при котором 99% населения зарабатывают меньше этого значения и 1% — больше. Так в Великобритании, как показано на графике ниже, 99-й процентиль составляет 75.000 фунтов стерлингов.
Квартили
Квартили — это процентили, которые делят набор данных на четверти. Первый квартиль, Q1, равен 25-ому процентилю, третий квартиль, Q3, равен 75-ому процентилю. Медиана может быть обозначена либо вторым квартилем, Q2, либо 50-ым процентилем.
Интерквартильный размах (IQR)
IQR — число, которое показывает разброс средней половины (т.е. средние 50%) набора данных и помогает определить выбросы. IQR — это разница между Q3 и Q1.
Выбросы — это, проще говоря, те значения данных, которые находятся за пределами следующих интервалов: Q1–1.5 x IQR и Q3 + 1.5 x IQR.
Диаграмма «ящик с усами»
Диаграмма «ящик с усами» показывает:
Ящик с усами имеет горизонтальную и вертикальную оси и прямоугольный ящик.
«Усы» (выделенные фиолетовым цветом) начинаются с концов ящика и заканчиваются на самом минимальном или максимальном значениях данных. Также бывают ящики с усами, у которых есть отмеченные значения выбросов (выделены красным цветом). В таких случаях, усы не достигают минимального и максимального значений.
Ящики с усами на графике нормального распределения Ящики с усами на нормальных распределениях имеют некоторые особенности: Несмотря на то, что первый и третий квартили (Q1 и Q3) имеют такие названия, они, на самом деле, не составляют 25% от числа данных! Они показывают 34,135%. Также второй квартиль (Q2) составляет не 50%, а 68,27%.
Моменты случайной величины
Моменты случайно величины описывают различные аспекты характера и формы нашего распределения.
#1 — первый момент случайной величины — среднее значение данных, которое показывает место распределения.
#2 — второй момент случайной величины — дисперсия, которая показывает разброс распределения. Большие значения имеют больший размах, чем маленькие.
#3 — третий момент случайной величины — коэффициент асимметрии — мера того, насколько неравномерным является распределение. Коэффициент асимметрии положителен, если распределение наклонено влево и левый хвост короче правого. То есть среднее значение находится правее. И наоборот:
#4 — четвертый момент случайной величины — коэффициент эксцесса, который описывает то, насколько толстый хвост и насколько острый пик распределения. Этот коэффициент показывает, насколько вероятно найти точки экстремума в данных. Чем выше значение, тем вероятнее выбросы. Это похоже на разброс (дисперсию), но между ними есть отличия.
Как видно на графике, чем выше значение пики, тем выше коэффициент эксцесса, т.е. у верхней кривой коэффициент эксцесса выше, чем у нижней.