Как построить кривую нормального распределения
Как построить кривую нормального распределения
Построение нормальной кривой распределения по опытным данным
Один из способов построения нормальной кривой по опытным данным наблюдений (либо экспериментов) заключается в следующем:
* находят и
например, по методу произведений;
* находят ординаты (выравнивающие частоты) теоретической кривой по формуле
где
сумма наблюдаемых частот,
разность между двумя соседними вариантами
и
* строят точки в прямоугольной системе координат и соединяют их плавной линией.
Близость выравнивающих частот к наблюдаемым подтверждает правильность допущения о том, что обследуемый признак распределен нормально.
В качестве иллюстрации, рассмотрим следующий пример.
Пример 8: Построим нормальную кривую по данным
варианта
Управление эффективностью: кривая нормального распределения
Сегодня многие консультанты и специалисты в сфере HRM говорят об управлении эффективностью, дают различные советы и делают выводы «космического масштаба» о том, как ее повысить. Но какова суть эффективности, ее природа? Каким правилам и законам она подчиняется?
Чем более глубокими теоретическими знаниями мы обладаем, тем более совершенна наша практическая деятельность. Действительно, управлять эффективностью можно только в том случае, если мы глубоко понимаем природу этого феномена.
Эффективность — это результативность процесса, операции, проекта. Она определяется как отношение полученного результата (достигнутого эффекта) к затратам — расходам на его получение. Для оценки этого параметра деятельности используется специальный математический аппарат (коэффициенты, формулы, методы расчета и т. д.). Использование метрик эффективности позволяет эйчарам разработать определенный алгоритм собственной работы.
Эффективность деятельности компании в целом зависит от эффективности работы каждого ее сотрудника. В крупном коллективе работают разные люди — естественно, они демонстрируют различную результативность. Количество людей с высокой/ средней/ низкой результативностью труда — математики используют термин «распределение» — подчиняется закономерности, которую называют кривой нормального распределения.
Закон нормального распределения сформулировал немецкий математик Фридрих Гаусс еще в начале XIX века. Суть его состоит в том, что заметные отклонения встречаются значительно реже, чем средние величины. Закон Гаусса начинает действовать в группе: чем больше элементов, тем нагляднее проявляется «нормальность» распределения (шире разброс крайних значений и более выражен «горб» средних). На рисунке 1 изображена кривая нормального распределения — гауссиана. Вся живая и неживая природа подчиняется этому закону. Например, в каждом классе любой школы (и во всех школах мира) подавляющее большинство составляют «середнячки», часть учеников учится немного лучше и немного хуже, и несколько процентов детей — очень способны (еще реже — одарены, талантливы) и столько же — плохо обучаемы и не имеют никакой мотивации к учебе. Рис. 1. Кривая нормального распределения Гаусса Но констатации факта, что наиболее эффективных сотрудников (в любом коллективе!) примерно столько же, сколько низкопроизводительных, а большая часть работников — «середнячки», недостаточно для того, чтобы управлять результативностью. Следствия закона нормального распределения могут показаться парадоксальными: в любом коллективе будут лучшие и худшие. Всегда! Иначе теряет смысл само определение «лучший»… Это не значит, что если уволить лодырей, то «разленятся» другие сотрудники, скорее — повысятся критерии оценки эффективности для этого коллектива. Любая система стремится к равновесию, и смысл управления в том, чтобы устанавливать это равновесие на все более высоком «базовом» уровне… Если мы посмотрим на результаты оценки сотрудников реальной компании (по критерию эффективности в достижении поставленных целей), то увидим, что они «выстраиваются» в гауссиану (рис. 2): в группу III входят 5% самых результативных сотрудников, в группу I — 5% самых неэффективных, а остальные (группа II) демонстрируют средние показатели. Рис. 2. Распределение сотрудников компании по показателю «эффективность» описывается кривой нормального распределения Далее рассмотрим графики на рисунке 3. Отсутствие «передовиков производства» (вариант на рис. 3а), «отстающих» (рис. 3б) или и тех и других одновременно (рис. 3в) — утопия. Если статистика противоречит закону Гаусса, значит, у компании есть серьезные проблемы с организацией труда, а также неудачно выстроена система оценки результативности деятельности. Скорее всего, работа на конкретных рабочих местах плохо описана, неправильно пронормированна и неэффективно стимулируется (то есть нормы выработки, рабочие задания завышены или занижены, а система оплаты не мотивирует к тому, чтобы люди прикладывали больше усилий). Возможно также, что в этих компаниях неудачно выбрана система показателей для оценки результатов (например, оценивается качество продукции, а реально оплачиваются объемы ее изготовления) и/или есть серьезные управленческие ошибки с постановкой целей и определением приоритетности задач. Рис 3. Графики распределения сотрудников компании по показателю «эффективность» Особый практический интерес (исходя из собственного опыта) представляет ситуация «все хорошие» (рис. 3в). Когда дело доходит до периодической оценки сотрудников, многие линейные менеджеры подходят к подчиненным «уравнительно», мотивируя свои решения «благими намерениями»: чтобы не осложнять отношения в коллективе, не провоцировать конфликты. Дело не только в том, что они не хотят задуматься над тем, что каждый человек уникален по своему, и работать одинаково «хорошо» все не могут. Это проблема качества управления: справедливая оценка ставит перед сотрудниками реалистичные цели, она сама по себе мотивирует людей, а значит, работает на повышение общей эффективности подразделения и компании в целом. Впервые с подобным подходом я столкнулся при внедрении периодической системы оценки деятельности сотрудников одного из предприятий тяжелой промышленности: начальник одного из цехов утверждал, что у него все работают хорошо, и он не может кого-либо выделить. О каком развитии, повышении эффективности может идти речь, если руководитель не может отличить плохую работу от хорошей, а хорошую от отличной? Он сам лишает своих подчиненных возможности развиваться (и, как следствие, препятствует повышению эффективности их труда). Нередко затратив огромные средства на внедрение системы управления эффективностью, компании не получают ожидаемого результата… Вывод один: пока линейные менеджеры не будут правильно применять инструменты и методы управления сотрудниками, которые им предлагают коллеги из службы по управлению персоналом, явного сдвига в повышении эффективности деятельности организации не будет. Вернемся к закону Гаусса. Что можно сделать для повышения эффективности компании? Как перевести сотрудников из разряда лодырей хотя бы в разряд «середнячков»? Я предлагаю вниманию коллег проверенные на практике рекомендации: Работать нужно со всем персоналом, повышая результативность каждого. Успеха можно добиться только в масштабах всей компании. Если сосредотачивать внимание на «воспитании» самых неэффективных работников или отдавать предпочтение лишь самым успешным, то в результате можно повысить только их личную эффективность. Затраты ресурсов и усилий в данном направлении приведут к частичным изменениям (рис. 4). Рис. 4. Работа только с одной категорией сотрудников приведет к частичным изменениям Отражение этого прогресса мы видим на рисунке 5: кривая распределения показателей эффективности сотрудников сместилась вправо по оси Х. По-прежнему 5% работников показывают лучшие в своей группе результаты, 5% — худшие, а подавляющее большинство, как и раньше, демонстрирует средние показатели. Но теперь: самые слабые сотрудники работают на уровне «середнячков»; «средние» уже подтянулись до уровня лидеров предыдущего периода; лидеры достигли суперэффективности. Рис. 5. Результат: повышение эффективности всей компании Так все — каждый сотрудник, подразделение и компания в целом — выходят на новый уровень развития. «Сдвинуть гору» с места, конечно, очень и очень непросто. Этого можно добиться, систематически проводя грамотную управленческую работу со всем персоналом, а не только с лучшими (кадровым резервом) или худшими. Для каждой группы сотрудников следует разрабатывать программы повышения эффективности. Непременное условие — они должны охватывать весь коллектив, тогда закон Гаусса будет работать на компанию! Хочу также акцентировать внимание читателей на том, что управление эффективностью компании — это не разовое событие или мероприятие, а процесс, ежедневный кропотливый труд линейных руководителей и эйчаров. Поэтому топ-менеджеры каждой компании, перед тем как стать на стезю управления эффективностью, должны ответить на вопрос: «Готовы ли мы инвестировать в эффективность? Готовы ли линейные менеджеры культивировать в своих подразделениях стремление к эффективности? Готовы ли рядовые сотрудники постоянно участвовать в гонке за повышение эффективности? Готов ли весь коллектив вступить в борьбу за результативность, буквально — с мировой энтропией*?» Если ответ положительный — дерзайте! Рост эффективности каждого отдельного сотрудника повышает эффективность подразделения, компании в целом. Как только количество высокорезультативных работников достигает критической отметки, наблюдается своего рода «квантовый скачок» повышения эффективности всей компании. Переход на качественно новый уровень происходит в соответствии с законами диалектики, которые сформулировал великий немецкий философ Фридрих Гегель. Задача менеджеров — по возможности приблизить момент «перехода количества в качество». Этот закон замечателен своей универсальностью: ему подчиняются не только процессы развития галактик и человеческих цивилизаций, но и профессиональный рост отдельного специалиста (например, эйчара). Здесь важно наблюдать за собственной результативностью. Анализируйте ее: ежедневные результаты скажут вам об эффективности больше, чем тысяча книг, лекций, разговоров, за которыми не следует действий. Распределение Гаусса – этоОбщие сведенияЕсли величина является суммой многих случайных слабо взаимозависимых величин, каждая из которых вносит малый вклад относительно общей суммы, то центрированное и нормированное распределение такой величины при достаточно большом числе слагаемых стремится к нормальному распределению. Это следует из центральной предельной теоремы теории вероятностей. В окружающем нас мире часто встречаются величины, значение которых определяется совокупностью многих независимых факторов. Этот факт, а также то, что распределение считалось типичным, обычным, привели к тому, что в конце XIX века стал использоваться термин «нормальное распределение». Нормальное распределение играет заметную роль во многих областях науки, например в математической статистике и статистической физике. Случайная величина, имеющая нормальное распределение, называется нормальной, или гауссовской, случайной величиной. Моделирование нормальных случайных величинИспользование точных методов предпочтительно, поскольку у них практически нет недостатков. В частности, преобразование Бокса — Мюллера является точным, быстрым и простым для реализации методом генерации. ВероятностьВероятность, что подброшенная монета упадёт орлом вверх 50%, что при броске шестигранного кубика выпадет 4 – 16,7%, что завтра на кого-нибудь упадёт метеорит – 0.00000000294%. Это простые примеры, достаточно разделить количество желаемых событий на общее количество случаев и мы получаем вероятность события, но когда результаты эксперимента могут быть не только орлом или решкой (что эквивалентно да/нет), а большим набором данных. Например, вес батона хлеба, если мы возьмём в магазине 1000 буханок хлеба и взвесим каждую, то мы узнаем, что на самом деле батон не весит 400 грамм, результаты будут варьироваться в диапазоне 384-416 грамм (допуск разброса веса предусмотрен ГОСТом). Плотность вероятности нормального распределенияВ случае таблицы Вы имеете дело с дискретными данными, т.е. для каждого веса есть определённая вероятность, но в случае графика дело немного меняется, теперь мы говорим не о 1000 буханок, которые мы взвесили, а обо всех буханках в мире сразу! Зачем? Что бы не взвешивать все буханки. Имея закон распределения, который мы получили взвесив 1000 буханок (мы могли взвесить 100, 200, 500, сколько угодно), мы можем предположить, что сколько бы мы буханок не взяли, замерив их, мы получим ту же форму колокола. Используя термины статистики, все буханки хлеба – это генеральная совокупность, 1000 замеренных буханок – выборка. Теперь, возьмём одну буханку хлеба, какова вероятность, что её вес будет между 390г и 400г?
Распределение вероятности – это функция, в которой для каждого события Х присваивается вероятность p, что событие произойдёт Распределение ГауссаНормальное распределение получило своё название абсолютно справедливо: по статистике, большинство событий происходят именно с вероятностью нормального распределения, но что это значит? Это означает, например, что когда Вы видите на упаковке хлеба обозначение “Вес: 400±16г” – вес батона имеет нормальное распределение со средним значением 400г и стандартным отклонением 16г. Таблица нормального распределенияТаблица нормального распределения – это затабулированные значения функции нормального распределения. Для нахождения вероятности события Z0 можно воспользоваться таблицей нормального распределения ниже. На пересечении строк (n) и столбцов (m) находится значение вероятности n+m.
Нормальное распределение. Построение графика в Excel. Концепция шести сигмНаверное, не все знают, что в Excel есть встроенная функция для построения нормального распределения. Графики нормального распределения часто используются для демонстрации идей статистической обработки данных. Функция НОРМРАСП имеет следующий синтаксис: НОРМРАСП (Х; среднее; стандартное_откл; интегральная) Х — аргумент функции; фактически НОРМРАСП можно трактовать как y=f(x); при этом функция возвращает вероятность реализации события Х Среднее (µ) — среднее арифметическое распределения; чем дальше Х от среднего, тем ниже вероятность реализации такого события Стандартное_откл (σ) — стандартное отклонение распределения; мера кучности; чем меньше σ, тем выше вероятность у тех Х, которые расположены ближе к среднему Например, для µ=0 имеем: Теперь, наверное, вам будет лучше понятен смысл выражения «качество шести сигм». Оно означает, что производство налажено таким образом, что случайная величина Х (например, диаметр вала) находясь в диапазон µ ± 6σ, всё еще удовлетворяет техническим условиям (допускам). Это достигается за счет значительного уменьшения сигмы, то есть случайная величина Х очень близка к нормативному значению µ. На графике ниже представлено три ситуации, когда границы допуска остаются неизменными, а благодаря повышению качества (уменьшению вариабельности, сужению сигма) доля брака сокращается: На первом рисунке только 1,5σ попадают в границы допуска, то есть только 86,6% деталей являются годными. На втором рисунке уже 3σ попадают в границы допуска, то есть 99,75% являются годными. Но всё еще 25 деталей из каждых 10 000 произведенных являются браком. На третьем рисунке целых 6σ попадают в границы допуска, то есть в брак попадут только две детали на миллиард изготовленных! Вообще-то говоря, измерение качества в терминах сигм использует не совсем нормальное распределение. Вот что пишет на эту тему Википедия: Опыт показывает, что показатели процессов имеют тенденцию изменяться с течением времени. В результате со временем в промежуток между границами поля допуска будет входить меньше, чем было установлено первоначально. Опытным путём было установлено, что изменение параметров во времени можно учесть с помощью смещения в 1,5 сигма. Другими словами, с течением времени длина промежутка между границами поля допуска под кривой нормального распределения уменьшается до 4,5 сигма вследствие того, что среднее процесса с течением времени смещается и/или среднеквадратическое отклонение увеличивается. Широко распространённое представление о «процессе шесть сигма» заключается в том, что такой процесс позволяет получить уровень качества 3,4 дефектных единиц на миллион готовых изделий при условии, что длина под кривой слева или справа от среднего будет соответствовать 4,5 сигма (без учёта левого или правого конца кривой за границей поля допуска). Таким образом, уровень качества 3,4 дефектных единиц на миллион готовых изделий соответствует длине промежутка 4,5 сигма, получаемых разницей между 6 сигма и сдвигом в 1,5 сигма, которое было введено, чтобы учесть изменение показателей с течением времени. Такая поправка создана для того, чтобы предупредить неправильною оценку уровня дефектности, встречающееся в реальных условиях. С моей точки зрения, не вполне внятное объяснение. Тем не менее, во всем мире принята следующая таблица соответствия числа дефектов и уровня качества в сигмах: Как построить график с нормальным распределением в ExcelТак как я часто имею дело с большим количеством данных, у меня время от времени возникает необходимость генерировать массивы значений для проверки моделей в Excel. К примеру, если я хочу увидеть распределение веса продукта с определенным стандартным отклонением, потребуются некоторые усилия, чтобы привести результат работы формулы СЛУЧМЕЖДУ() в нормальный вид. Дело в том, что формула СЛУЧМЕЖДУ() выдает числа с единым распределением, т.е. любое число с одинаковой долей вероятности может оказаться как у нижней, так и у верхней границы запрашиваемого диапазона. Такое положение дел не соответствует действительности, так как вероятность возникновения продукта уменьшается по мере отклонения от целевого значения. Т.е. если я произвожу продукт весом 100 грамм, вероятность, что я произведу 97-ми или 103-граммовый продукт меньше, чем 100 грамм. Вес большей части произведенной продукции будет сосредоточен рядом с целевым значением. Такое распределение называется нормальным. Если построить график, где по оси Y отложить вес продукта, а по оси X – количество произведенного продукта, график будет иметь колоколообразный вид, где наивысшая точка будет соответствовать целевому значению. Таким образом, чтобы привести массив, выданный формулой СЛУЧМЕЖДУ(), в нормальный вид, мне приходилось ручками исправлять пограничные значения на близкие к целевым. Такое положение дел меня, естественно, не устраивало, поэтому, покопавшись в интернете, открыл интересный способ создания массива данных с нормальным распределением. В сегодняшней статье описан способ генерации массива и построения графика с нормальным распределением. Нормальное распределение в ExcelВ Excel есть несколько функций для подсчета вероятностей или обратных значений нормального распределения. Функция НОРМ.СТ.РАСПФункция НОРМ.СТ.РАСП предназначена для расчета плотности ϕ( z ) или вероятности Φ(z) по нормированным данным (z). z – значение стандартизованной переменной интегральная – если 0, то рассчитывается плотность ϕ( z ) , если 1 – значение функции Ф(z), т.е. вероятность P(Z В реальности чаще приходится рассчитывать вероятность того, что случайная величина не выйдет за некоторые пределы от средней (в среднеквадратичных отклонениях, соответствующих переменной z), т.е. P(|Z| Определим, чему равна вероятность попадания случайной величины в пределы ±1z, ±2z и ±3z от нуля. Потребуется формула 2Ф(z)-1, в Excel =2*НОРМ.СТ.РАСП(A2;1)-1. На диаграмме отлично видны основные основные свойства нормального распределения, включая правило трех сигм. Функция НОРМ.СТ.РАСП – это автоматическая таблица значений функции нормального распределения в Excel. Может стоять и обратная задача: по имеющейся вероятности P(Z Например, при расчете доверительных интервалов задается доверительная вероятность, по которой нужно рассчитать величину z. Учитывая то, что доверительный интервал состоит из верхней и нижней границы и то, что нормальное распределение симметрично относительно нуля, достаточно получить верхнюю границу (положительное отклонение). Нижняя граница берется с отрицательным знаком. Обозначим доверительную вероятность как γ (гамма), тогда верхняя граница доверительного интервала рассчитывается по следующей формуле. Рассчитаем в Excel значения z (что соответствует отклонению от средней в сигмах) для нескольких вероятностей, включая те, которые наизусть знает любой статистик: 90%, 95% и 99%. В ячейке B2 укажем формулу: =НОРМ.СТ.ОБР((1+A2)/2). Меняя значение переменной (вероятности в ячейке А2) получим различные границы интервалов. Доверительный интервал для 95% равен 1,96, то есть почти 2 среднеквадратичных отклонения. Отсюда легко даже в уме оценить возможный разброс нормальной случайной величины. В общем, доверительным вероятностям 90%, 95% и 99% соответствуют доверительные интервалы ±1,64, ±1,96 и ±2,58 σ. В целом функции НОРМ.СТ.РАСП и НОРМ.СТ.ОБР позволяют произвести любой расчет, связанный с нормальным распределением. Но, чтобы облегчить и уменьшить количество действий, в Excel есть несколько других функций. Например, для расчета доверительных интервалов средней можно использовать ДОВЕРИТ.НОРМ. Для проверки статистической гипотезы о средней арифметической есть формула Z.ТЕСТ. Функция НОРМ.РАСПФункция НОРМ.РАСП отличается от НОРМ.СТ.РАСП лишь тем, что ее используют для обработки данных любого масштаба, а не только нормированных. Параметры нормального распределения указываются в синтаксисе. x – значение (или ссылка на ячейку), для которого рассчитывается плотность или значение функции нормального распределения среднее – математическое ожидание, используемое в качестве первого параметра модели нормального распределения стандартное_откл – среднеквадратичное отклонение – второй параметр модели интегральная – если 0, то рассчитывается плотность, если 1 – то значение функции, т.е. P(X Если последний параметр поставить 1, то получим вероятность того, что нормальная случайная величина окажется меньше 15 при заданных параметрах распределения. Таким образом, вероятности можно рассчитывать напрямую по исходным данным. Функция НОРМРАСПР в EXCELЩелкнем на кнопке ОК. В диапазоне А4:А16 будет сформирована последовательность значений х. Установим курсор в ячейку В4 и выполним команду меню Вставка/Функция. В открывшемся окне Мастер функций выберем категорию Статистические, а в списке функций – НОРМРАСП. Установим значения параметров функции НОРМРАСП: для параметра х установим ссылку на ячейку А4, для параметра Среднее – введем число 0, для параметра Стандартное_откл – число 1, для параметра Интегральное – число 0 (весовая).
|