Как построить гистограмму по интервалам
Создание гистограммы
Гистограмма — это столбчатая диаграмма, которая показывает частоту повторяемости значений.
Примечание: В этой статье рассматривается только создание гистограмм. Сведения о диаграммах Парето (отсортированных гистограммах) см. в статье Создание диаграммы Парето.
(Это типичный пример данных для гистограммы.)
Выберите Вставка > Вставить диаграмму статистики > Гистограмма.
Гистограмму также можно создать с помощью вкладки Все диаграммы в разделе Рекомендуемые диаграммы.
На вкладках Конструктор и Формат можно настроить внешний вид диаграммы.
Если они не отображаются, щелкните в любом месте гистограммы, чтобы добавить на ленту область Работа с диаграммами.
Правой кнопкой мыши щелкните горизонтальную ось диаграммы, выберите Формат оси, а затем щелкните Параметры оси.
Руководствуясь приведенной ниже таблицей, вы сможете выбрать параметры, которые нужно задать в области задач Формат оси.
Выберите этот вариант, если категории (горизонтальная ось) текстовые, а не числовые. На гистограмме одинаковые категории будут сгруппированы, а значения на оси значений — просуммированы.
Совет: Чтобы подсчитать количество появлений текстовых строк, добавьте столбец и укажите в нем значение «1», а затем отобразите гистограмму и выберите параметр По категориям.
Это вариант по умолчанию для гистограмм. Длина интервала вычисляется по формуле Скотта.
Введите положительное десятичное число, задающее количество точек данных в каждом диапазоне.
Введите количество интервалов гистограммы (включая интервалы для значений, выходящих за верхнюю и нижнюю границы).
Выход за верхнюю границу интервала
Установите этот флажок, чтобы создать интервал для всех значений, превышающих значение в поле справа. Чтобы изменить его, введите в поле другое десятичное число.
Выход за нижнюю границу интервала
Установите этот флажок, чтобы создать интервал для всех значений, не превышающих значение в поле справа. Чтобы изменить его, введите в поле другое десятичное число.
Совет: Дополнительные сведения о гистограммах и их пользе для визуализации статистических данных см. в этой записи о гисторамме, диаграммах Парето и «ящик с усами» блога группы разработчиков Excel. Дополнительные сведения о других новых типах диаграмм приведены в этой записи блога.
Вариант «Автоматическая» (формула Скотта)
Формула Скотта минимизирует отклонение вариационного ряда на гистограмме по сравнению с набором данных, исходя из предположения о нормальном распределении данных.
Вариант «Выход за верхнюю границу интервала»
Вариант «Выход за нижнюю границу интервала»
Загрузите надстройку «Пакет анализа». Дополнительные сведения см. в статье Загрузка надстройки «Пакет анализа» в Excel.
В один столбец на листе введите исходные данные. При необходимости добавьте в первую ячейку подпись.
Используйте количественные числовые данные, например, количество элементов или результаты тестов. Мастер гистограмм не будет работать с такими количественными числовыми данными, как идентификационные номера, введенные в виде текста.
В следующий столбец введите интервалы в возрастающем порядке. При необходимости добавьте в первую ячейку подпись.
Используйте собственные интервалы, поскольку они могут лучше соответствовать целям вашего анализа. Если вы не введете их, мастер гистограмм создаст равномерно распределенные интервалы, используя минимальное и максимальное значение во введенном диапазоне в качестве начальной и конечной точек.
Откройте вкладку Данные и выберите команду Анализ данных.
Выберите пункт Гистограмма и нажмите кнопку OK.
В разделе Ввод выполните указанные ниже действия:
В поле Формировать список по диапазону введите ссылку на ячейку с диапазоном данных, который содержит исходные числа.
В поле Интервал карманов введите ссылку на ячейку с диапазоном, который содержит числа интервала.
Если на листе использовались подписи столбцов, можно включать их в ссылки на ячейки.
Совет: Вместо того чтобы вводить ссылки вручную, щелкните , чтобы временно свернуть диалоговое окно, чтобы выбрать диапазоны на этом сайте. При повторном нажатии этой кнопки диалоговое окно опять разворачивается.
Если подписи столбцов были включены в ссылки на ячейки, установите флажок Подписи.
В группе Параметры вывода выберите местоположение выходных данных.
Гистограмму можно расположить на том же листе, новом листе в текущей книге или в новой книге.
Установите один или несколько флажков:
Если вы хотите настроить гистограмму, вы можете изменить подписи текста и щелкнуть в любом месте гистограммы, чтобы использовать кнопки Элементы диаграммы, Стили диаграмм и Фильтр диаграммы справа от диаграммы.
(Это типичный пример данных для гистограммы.)
На вкладке Вставка нажмите кнопку Диаграмма.
В диалоговом окне Вставка диаграммы в разделе Все диаграммы выберите пункт Гистограмма, а затем нажмите кнопку ОК.
С помощью параметров на вкладках Конструктор и Формат настройте внешний вид диаграммы.
Если они не отображаются, щелкните в любом месте гистограммы, чтобы добавить на ленту область Работа с диаграммами.
Правой кнопкой мыши щелкните горизонтальную ось диаграммы, выберите Формат оси, а затем щелкните Параметры оси.
Руководствуясь приведенной ниже таблицей, вы сможете выбрать параметры, которые нужно задать в области задач Формат оси.
Выберите этот вариант, если категории (горизонтальная ось) текстовые, а не числовые. На гистограмме одинаковые категории будут сгруппированы, а значения на оси значений — просуммированы.
Совет: Чтобы подсчитать количество появлений текстовых строк, добавьте столбец и укажите в нем значение «1», а затем отобразите гистограмму и выберите параметр По категориям.
Это вариант по умолчанию для гистограмм.
Введите положительное десятичное число, задающее количество точек данных в каждом диапазоне.
Введите количество интервалов гистограммы (включая интервалы для значений, выходящих за верхнюю и нижнюю границы).
Выход за верхнюю границу интервала
Установите этот флажок, чтобы создать интервал для всех значений, превышающих значение в поле справа. Чтобы изменить его, введите в поле другое десятичное число.
Выход за нижнюю границу интервала
Установите этот флажок, чтобы создать интервал для всех значений, не превышающих значение в поле справа. Чтобы изменить его, введите в поле другое десятичное число.
Чтобы создать гистограмму в Excel для Mac, выполните указанные Excel для Mac.
(Это типичный пример данных для гистограммы.)
На ленте на вкладке Вставка нажмите кнопку (статистический значок) и в области Гистограммавыберите гистограмма.
На вкладках Конструктор и Формат можно настроить внешний вид диаграммы.
Если они не отображаются, щелкните в любом месте гистограммы, чтобы добавить их на ленту.
Чтобы создать гистограмму в Excel 2011 для Mac, необходимо скачать сторонную надстройку. Дополнительные сведения см. в Excel 2011 для Mac.
В Excel Online вы можете просмотреть гистограмму (гистограмму с частотой), но не можете создать ее, так как для нее требуется надстройка Excel, не поддерживаемая в Excel в Интернете.
Если у вас есть Excel, вы можете нажать кнопку Изменить в Excel, чтобы открыть Excel на компьютере и создать гистограмму.
Коснитесь данных, чтобы выделить их.
Если вы на телефоне, коснитесь значка редактирования , чтобы отдемонстрировать ленту. и нажмите Главная.
Выберите элементы Вставка > Диаграммы > Гистограмма.
При необходимости вы можете настроить элементы диаграммы.
Примечание: Эта функция доступна только при наличии подписки на Microsoft 365.. Если вы являетесь подписчиком Microsoft 365, убедитесь, что у вас установлена последняя версия Office.
Коснитесь данных, чтобы выделить их.
Выберите элементы Вставка > Диаграммы > Гистограмма.
Чтобы создать гистограмму в Excel, необходимо предоставить данные двух типов: данные, которые нужно проанализировать, и интервалы, которые представляют интервалы для измерения частоты. Данные необходимо расположить в двух столбцах на листе. Ниже приведены типы данных, которые должны содержаться в этих столбцах.
Введенные данные. Это данные, которые вы хотите проанализировать с помощью мастера гистограмм.
Числовые интервалы. Они представляют диапазоны, на основании которых мастер гистограмм проводит оценку введенных данных во время их анализа.
При использовании инструмента Гистограмма Excel количество точек данных в каждом из них. Точка данных включается в определенный интервал, если соответствующее значение больше нижней границы интервала данных и меньше верхней. Если диапазон диапазонов диапазонов Excel создается набор равномерно распределенных диапазонов между минимальным и максимальным значениями входных данных.
Результат анализа гистограммы отображается на новом листе (или в новой книге) и содержит таблицу и гистограмму, которая отражает данные этой таблицы.
Дополнительные сведения
Вы всегда можете задать вопрос специалисту Excel Tech Community или попросить помощи в сообществе Answers community.
Гистограмма распределения в EXCEL
history 15 ноября 2016 г.
Гистограмма поможет визуально оценить распределение набора данных, если:
Примечание : Для удобства написания формул для диапазона А8:А57 создан Именованный диапазон Исходные_данные.
Построение гистограммы с помощью надстройки Пакет анализа
Как видно из рисунка, первый интервал включает только одно минимальное значение 113 (точнее, включены все значения меньшие или равные минимальному). Если бы в массиве было 2 или более значения 113, то в первый интервал попало бы соответствующее количество чисел (2 или более).
Почему 7? Дело в том, что количество интервалов гистограммы (карманов) зависит от количества данных и для его определения часто используется формула √n, где n – это количество данных в выборке. В нашем случае √n=√50=7,07 (всего 7 полноценных карманов, т.к. первый карман включает только значения равные минимальному).
Примечание : Похоже, что инструмент Гистограмма для подсчета общего количества интервалов (с учетом первого) использует формулу =ЦЕЛОЕ(КОРЕНЬ(СЧЕТ( Исходные_данные )))+1
Если выбор количества интервалов или их диапазонов не устраивает, то можно в диалоговом окне указать нужный массив интервалов (если интервал карманов включает текстовый заголовок, то нужно установить галочку напротив поля Метка ).
Для нашего набора данных установим размер кармана равным 100 и первый карман возьмем равным 150.
Построение гистограммы распределения без использования надстройки Пакет анализа
Порядок действий при построении гистограммы в этом случае следующий:
В итоге можно добиться вот такого результата.
Одной из разновидностей гистограмм является график накопленной частоты (cumulative frequency plot).
На этом графике каждый столбец представляет собой число значений исходного массива, меньших или равных правой границе соответствующего интервала. Это очень удобно, т.к., например, из графика сразу видно, что 90% значений (45 из 50) меньше чем 495.
Примечание : Когда количество значений в выборке недостаточно для построения полноценной гистограммы может быть полезна Блочная диаграмма (иногда она называется Диаграмма размаха или Ящик с усами ).
Гистограмма частот в Excel 2016
Excel 2016 обзавелся новыми типами графиков. Причем, это не какие-нибудь дизайнерские новшества, а самые настоящие статистические диаграммы.
Так, «ящик с усами» применяется для анализа выборки. Диаграмма Парето пригодится при анализе вклада отдельных элементов в общую сумму. В этой заметке рассмотрим еще одну новую диаграмму из Excel 2016 – гистограмму частот.
На первый взгляд и в более ранних версиях Excel можно изобразить частоты с помощью диаграмм. Можно, но для этого предварительно необходимо числовые данные сгруппировать. То есть для каждой категории (интервала, группы, года и т.д.) нужно посчитать частоту. Теперь появилась возможность изобразить распределение данных буквально в один клик без предварительных расчетов и группировок.
Строится такая диаграмма в один клик. Выделяем ряд данных и нажимаем кнопку гистограммы частот.
Собственно, все. Тут же появляется соответствующая диаграмма.
Возникает вопрос: как Excel делит данные на интервалы? Справка Excel говорит, что с помощью формулы.
Количество интервалов получается достаточным для того, чтобы визуально прикинуть, каков характер распределения анализируемых данных.
Интервалы легко перестроить под свои потребности. Можно, например, задать нижнюю и верхнюю границу, за пределами которых данные будут объединены в один интервал.
При выборе опции выхода за нижнюю и верхнюю границы, судя по той же справке, их значения рассчитываются, как расстояние ±3σ от средней арифметической.
Однако рассчитываемые автоматически значения легко изменить в окне настроек.
Это был пример, когда данные разбиваются на интервалы. Такой вариант группировки установлен по умолчанию (см. окно параметров настройки оси выше).
Распределение частот можно получить и по имеющимся категориям (должен быть указан соответствующий столбец). Выбираем в настройках «По категориям» и получаем новые частоты.
Проведем эксперимент. С помощью функции СЛУЧМЕЖДУ смоделируем равномерно распределенную выборку в пределах, скажем, от 0 до 200. Пусть выборка состоит из 100 значений. Теперь изобразим гистограмму частот.
Как видно, частоты примерно одинаковы.
3. Интервальный вариационный ряд.
Гистограмма относительных частот
На предыдущем уроке по математической статистике (Занятие 1) мы разобрали дискретный вариационный ряд (Занятие 2), и сейчас на очереди интервальный. Его понятие, графическое представление (гистограмма и эмпирическая функция распределения), а также рациональные методы вычислений, как ручные, так и программные. В том числе будут рассмотрены задачи с достаточно большим количеством (100-200) вариант – что делать в таких случаях, как обработать большой массив данных.
Предпосылкой построения интервального вариационного ряда (ИВР) является тот факт, что исследуемая величина принимает слишком много различных значений. Зачастую ИВР появляется в результате измерения непрерывной характеристики изучаемых объектов. Типично – это время, масса, размеры и другие физические характеристики. Подходящие примеры встретились в первой же статье по матстату, вспоминаем Константина, который замерял время на лабораторной работе и Фёдора, который взвешивал помидоры.
Для изучения интервального вариационного ряда затруднительно либо невозможно применить тот же подход, что и для дискретного ряда. Это связано с тем, что ВСЕ варианты многих ИВР различны. И даже если встречаются совпадающие значения, например, 50 грамм и 50 грамм, то связано это с округлением, ибо полученные значения всё равно отличаются хоть какими-то микрограммами.
Поэтому для исследования ИВР используется другой подход, а именно, определяется интервал, в пределах которого варьируются значения, затем данный интервал делится на частичные интервалы, и по каждому интервалу подсчитываются частоты – количество вариант, которые в него попали.
Разберём всю кухню на конкретной задаче, и чтобы как-то разнообразить физику, я приведу пример с экономическим содержанием, кои десятками предлагают студентам экономических отделений. Деньги, строго говоря, дискретны, но если надо, непрерывны :), и по причине слишком большого разброса цен, для них целесообразно строить интервальный ряд:
По результатам исследования цены некоторого товара в различных торговых точках города, получены следующие данные (в некоторых денежных единицах):
Требуется составить вариационный ряд распределения, построить гистограмму частот, гистограмму и полигон относительных частот + бонус – эмпирическую функцию распределения.
Такое обывательское исследование проводит каждый из нас, начиная с анализа цены на пакет молока вот это дожил в нескольких магазинах, и заканчивая ценами на недвижимость по гораздо бОльшей выборке. Что называется, не какие-то там унылые сантиметры.
Поэтому представьте свой любимый товар / услугу и наслаждайтесь решением🙂
Очевидно, что перед нами выборочная совокупность объемом наблюдений (таблица 10*3), и вопрос номер один: какой ряд составлять – дискретный или интервальный? Смотрим на таблицу: среди предложенных цен есть одинаковые, но их разброс довольно велик, и поэтому здесь целесообразно провести интервальное разбиение. К тому же цены могут быть округлёнными.
Начнём с экстремальной ситуации, когда у вас под рукой нет Экселя или другого подходящего программного обеспечения. Только ручка, карандаш, тетрадь и калькулятор.
Тактика действий похожа на исследование дискретного вариационного ряда. Сначала окидываем взглядом предложенные числа и определяем примерный интервал, в который вписываются эти значения. «Навскидку» все значения заключены в пределах от 5 до 11. Далее делим этот интервал на удобные подынтервалы, в данном случае напрашиваются промежутки единичной длины. Записываем их на черновик:
Теперь начинаем вычёркивать числа из исходного списка и записывать их в соответствующие колонки нашей импровизированной таблицы:
После этого находим самое маленькое число в левой колонке и самое большое значение – в правой. Тут даже ничего искать не пришлось, честное слово, не нарочно получилось:)
ден. ед. – хорошим тоном считается указывать размерность.
Вычислим размах вариации:
ден. ед. – длина общего интервала, в пределах которого варьируется цена.
Теперь его нужно разбить на частичные интервалы. Сколько интервалов рассмотреть? По умолчанию на этот счёт существует формула Стерджеса:
, где
– десятичный логарифм* от объёма выборки и
– оптимальное количество интервалов, при этом результат округляют до ближайшего левого целого значения.
* есть на любом более или менее приличном калькуляторе
В нашем случае получаем:
интервалов.
Следует отметить, что правило Стерджеса носит рекомендательный, но не обязательный характер. Нередко в условии задачи прямо сказано, на какое количество интервалов нужно проводить разбиение (на 4, 5, 6, 10 и т.д.), и тогда следует придерживаться именно этого указания.
Длины частичных интервалов могут быть различны, но в большинстве случаев использует равноинтервальную группировку:
– длина частичного интервала. В принципе, здесь можно было не округлять и использовать длину 0,96, но удобнее, ясен день, 1.
И коль скоро мы прибавили 0,04, то по 5 частичным интервалам у нас получается «перебор»: . Посему от самой малой варианты
отмеряем влево 0,1 влево (половину «перебора») и к значению 5,7 начинаем прибавлять по
, получая тем самым частичные интервалы. При этом сразу рассчитываем их середины
(например,
) – они требуются почти во всех тематических задачах:
– убеждаемся в том, что самая большая варианта вписалась в последний частичный интервал и отстоит от его правого конца на 0,1.
Далее подсчитываем частоты по каждому интервалу. Для этого в черновой «таблице» обводим значения, попавшие в тот или иной интервал, подсчитываем их количество и вычёркиваем:
Так, значения из 1-го интервала я обвёл овалами (7 штук) и вычеркнул, значения из 2-го интервала – прямоугольниками (11 штук) и вычеркнул и так далее.
Правило: если варианта попадает на «стык» интервалов, то её следует относить в правый интервал. У нас такая варианта встретилась одна: – и её нужно причислить к интервалу
.
В результате получаем интервальный вариационный ряд:
при этом обязательно убеждаемся в том, что ничего не потеряно: , ОК.
Изобразим ряд графически. Для этого по каждому интервалу нужно найти (не пугаемся): плотность частот , относительные частоты
(округляем их до 2 знаков после запятой), а также плотность относительных частот
. Поскольку длина частичного интервала
, то вычисления заметно упрощаются:
В том случае, если интервалы имеют разные длины , то при нахождении плотностей каждую частоту нужно делить на длину своего интервала:
. Но у нас популярная равноинтервальная группировка, да не абы какая, а с единичным частичным интервалом. Возьмите на заметку всю выгоду такого интервала.
Дело за чертежами. Один за другим.
Гистограмма частот – это фигура, состоящая из прямоугольников, ширина которых равна длинам частичных интервалов, а высота – соответствующим плотностям частот:
При этом вполне допустимо использовать нестандартную шкалу по оси абсцисс, в данном случае я начал нумерацию с четырёх.
Площадь гистограммы частот в точности равна объёму совокупности: . В нашем случае
и плотности
совпали с самими частотами
, таким образом:
Гистограмма относительных частот – это фигура, состоящая из прямоугольников, ширина которых равна длинам частичных интервалов, а высота – соответствующим плотностям относительных частот:
Площадь такой гистограммы равна единице: , и это статистический аналог функции плотности распределения непрерывной случайной величины. Построенный чертёж даёт наглядное и весьма точное представление о распределении цен на ботинки по всей генеральной совокупности. Но это при условии, что выборка представительна.
И для ИВР чаще всего строят гистограмму именно относительных частот. А вместе с ней нередко и полигон таковых частот. Без проблем, полигон относительных частот – это ломаная, соединяющая соседние точки , где
– середины интервалов:
По сути, здесь мы приблизили интервальный ряд дискретным, выбрав в качестве вариант середины интервалов. Это важнейший принцип и метод, который неоднократно встретится нам в последующих задачах.
Автоматизируем решение в Экселе:
Как составить ИВР и представить его графически? (Ютуб)
(видео с неточностями, скоро исправлю и перезалью)
И бонус – эмпирическая функция распределения. Она определяется точно так же, как в дискретном случае:
, где
– количество вариант СТРОГО МЕНЬШИХ, чем «икс», который «пробегает» все значения от «минус» до «плюс» бесконечности.
Но вот построить её для интервального ряда намного проще. Находим накопленные относительные частоты:
И строим кусочно-ломаную линию, с промежуточными точками , где
– правые концы интервалов, а
– относительная частота, которая успела накопиться на всех «пройденных» интервалах:
При этом если
и
если
.
Напоминаю, что данная функция не убывает, принимает значения из промежутка и, кроме того, для ИВР она ещё и непрерывна.
Эмпирическая функция распределения является аналогом функции распределения НСВ и приближает теоретическую функцию , которую теоретически, а иногда и практически можно построить по всей генеральной совокупности.
Помимо перечисленных графиков, вариационные ряды также можно представить с помощью кумуляты и огивы частот либо относительных частот, но в классическом учебном курсе эта дичь редкая, и поэтому о ней буквально пару абзацев:
Кумулята – это ломаная, соединяющая точки:
* либо
– для дискретного вариационного ряда;
либо
– для интервального вариационного ряда.
* – накопленные «обычные» частоты
В последнем случае кумулята относительных частот представляет собой «главный кусок» недавно построенной эмпирической функции распределения.
Огива – это обратная функция по отношению к кумуляте – здесь варианты откладываются по оси ординат, а накопленные частоты либо относительные частоты – по оси абсцисс.
С построением данных линий, думаю, проблем быть не должно, чего не скажешь о другой проблеме. Хорошо, если в вашей задаче всего лишь 20-30-50 вариант, но что делать, если их 100-200 и больше? В моей практике встречались десятки таких задач, и ручной подсчёт здесь уже не торт. Считаю нужным снять небольшое видео:
Как быстро составить ИВР при большом объёме выборки? (Ютуб)
Ну, теперь вы монстры 8-го уровня 🙂
Но не всё так сурово. В большинстве задач вам предложат готовый вариационный ряд, и на счёт молока, то, конечно, была шутка:
Выборочная проверка партии чая, поступившего в торговую сеть, дала следующие результаты:
Требуется построить гистограмму и полигон относительных частот, эмпирическую функцию распределения
Проверяем свои навыки работы в Экселе! (исходные числа и краткая инструкция прилагается) И на всякий случай краткое решение для сверки в конце урока. Должен признаться, я немного усложнил это задание, сделав интервалы разной длины – для лучшего понимания материала.
Что ещё важного по теме? Время от времени встречаются ИВР с открытыми крайними интервалами, например:
В таких случаях, что убийственно логично, интервалы «закрывают». Обычно поступают так: сначала смотрим на средние интервалы и выясняем длину частичного интервала: км. И для дальнейшего решения можно считать, что крайние интервалы имеют такую же длину: от 140 до 160 и от 200 до 220 км. Тоже логично. Но уже не убийственно:) Если внутренние интервалы имеют разные длины, то для крайних интервалов можно взять среднюю арифметическую известных длин.
Ну вот, пожалуй, и вся практически важная информация по ИВР.
На очереди числовые характеристики вариационных рядов и начнём мы с их центральных характеристик, а именно – Моды, медианы и средней.
Пример 7. Решение: в данной задаче интервалы имеют разные длины , заполним расчётную таблицу:
Построим гистограмму относительных частот:
Построим полигон относительных частот:
Построим эмпирическую функцию распределения:
Автор: Емелин Александр
(Переход на главную страницу)
Zaochnik.com – профессиональная помощь студентам
cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5
Tutoronline.ru – онлайн репетиторы по математике и другим предметам