Как построить кумуляту интервального ряда
Кумулята
Теперь построим кумуляту — график накопленных относительных частот. Расположим его под гистограммой.
Кумулята — это экспериментальная оценка формы графика функции распределения. Теоретическая кривая будет красивой и гладкой — мы познакомились с ней в начале работы, обсуждая свой вариант задания. Экспериментальная оценка — ломаная линия, да ещё и с погрешностями. Эти случайные ошибки вызваны ограниченным, не бесконечным объёмом выборки. В любом случае, эти графики начинаются в нуле и постепенно растут до 100%.
Напомним, что значения накопленных частот должны быть привязаны к верхним границам интервалов — в соответствии со стандартами и здравым смыслом. Идея в том, что накопленная частота накапливается именно к концу интервала, а не к середине.
Построим график в виде ломаной линии:
Insert — Charts — Insert Scatter (X, Y) or Bubble Chart
Вставка — Диаграммы — Вставить точечную (X, Y) или пузырьковую диаграмму
Вставка графика Y (X)
Выбираем тип графика
Scatter — Scatter with Straight Lines
Точечная — Точечная с прямыми отрезками
Это просто ломаная линия без маркеров точек.
Выбираем данные для графика:
Select Data — Select Data Source — Legend Entries (Series) — Add
Выбрать данные — Выбор источника данных — Элементы легенды (ряды) — Добавить
Edit Series
Изменение ряда
выбираем следующие данные.
Столбец «иксов» — верхние границы:
Series X Values
Значения Х
Столбец «игреков» — накопленные частоты:
Series Y Values
Значения Y
Убираем заголовок диаграммы:
Chart Elements — Chart Title
Элементы диаграммы — Название диаграммы
Настраиваем цвет линии на графике.
Format Data Series — Series options — Fill & Line — Line
Формат ряда данных —Параметры ряда — Заливка и границы — Линия
Line — Solid line
Линия — Сплошная линия
Color — Black
Цвет — Чёрный
Width = 0.5 pt
Ширина — 0,5 пт
Если отрезков много, то ломаная линия выглядит как гладкая кривая.
Настроим числовые метки на вертикальной оси, чтобы выводились целые числа:
Format Axis — Axis Options — Number — Decimal places — 0
Формат оси — Параметры оси — Число — Число десятичных знаков — 0
Установим диапазоны значений по осям.
Вертикальная ось — метки в процентах, а границы диапазона — числа. Поэтому пределы изменения будут от 0 до 1:
Category — Percentage
Категория — Процентный
Axis Options — Bounds
Параметры оси — Границы
Minimum — 0
Минимум — 0
Maximum — 1
Максимум — 1
Горизонтальная ось — в соответствии с интервалами группировки — от 190 до 310.
Подгоняем размеры графика и размещаем его под гистограммой. Можно сделать это вручную.
Если захочется особой точности, поработаем через меню параметров графика (числа условные).
Format Chart Area — Chart Options — Size & Properties — Size
Формат области диаграммы — Параметры диаграммы — Размер и свойства — Размер
Height — 1.8 in
Высота — 7,62 см
Width — 5.3 in
Ширина — 12,7 см
В английской версии пакета размеры измеряются в дюймах. В русской версии — в сантиметрах. Можем установить точные значения размеров вручную.
Окончательно совмещаем маштаб гистограммы и кумуляты: начало первого интервала 190, конец последнего интервала 310. Положения этих двух меток на обоих графиках должны совпадать.
Проблемы с масштабом решаем так. Значение 190 находится в начале интервала, обозначенного 193. Значение 310 находится в конце интервала, следующего за 303.
Интервальный вариационный ряд и его характеристики
п.1. Построение интервального вариационного ряда по данным эксперимента
Интервалы, \(\left.\left[a_ | \(\left.\left[a_<0>,a_1\right.\right)\) | \(\left.\left[a_<1>,a_2\right.\right)\) | . | \(\left.\left[a_ |
Частоты, \(f_i\) | \(f_1\) | \(f_2\) | . | \(f_k\) |
Скобка \(\lfloor\ \rfloor\) означает целую часть (округление вниз до целого числа).
Скобка \(\lceil\ \rceil\) означает округление вверх, в данном случае не обязательно до целого числа.
Заметим, что поскольку шаг h находится с округлением вверх, последний узел \(a_k\geq x_
\(\left.\left[a_ | \(\left.\left[142;150\right.\right)\) | \(\left.\left[150;158\right.\right)\) | \(\left.\left[158;166\right.\right)\) | \(\left.\left[166;174\right.\right)\) | \(\left.\left[174;182\right.\right)\) | \(\left.\left[182;190\right.\right)\) | \(\left[190;198\right]\) |
п.2. Гистограмма и полигон относительных частот, кумулята и эмпирическая функция распределения
Например:
Продолжим анализ распределения учеников по росту.
Выше мы уже нашли узлы интервалов. Пусть, после распределения всех 100 измерений по этим интервалам, мы получили следующий интервальный ряд:
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
\(\left.\left[a_ | \(\left.\left[142;150\right.\right)\) | \(\left.\left[150;158\right.\right)\) | \(\left.\left[158;166\right.\right)\) | \(\left.\left[166;174\right.\right)\) | \(\left.\left[174;182\right.\right)\) | \(\left.\left[182;190\right.\right)\) | \(\left[190;198\right]\) |
\(f_i\) | 4 | 7 | 11 | 34 | 33 | 8 | 3 |
Найдем середины интервалов, относительные частоты и накопленные относительные частоты:
\(x_i\) | 146 | 154 | 162 | 170 | 178 | 186 | 194 |
\(w_i\) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 |
\(S_i\) | 0,04 | 0,11 | 0,22 | 0,56 | 0,89 | 0,97 | 1 |
п.3. Выборочная средняя, мода и медиана. Симметрия ряда
Расположение выборочной средней, моды и медианы в зависимости от симметрии ряда аналогично их расположению в дискретном ряду (см. §65 данного справочника).
Например:
Для распределения учеников по росту получаем:
\(x_i\) | 146 | 154 | 162 | 170 | 178 | 186 | 194 | ∑ |
\(w_i\) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 | 1 |
\(x_iw_i\) | 5,84 | 10,78 | 17,82 | 57,80 | 58,74 | 14,88 | 5,82 | 171,68 |
$$ X_
Данные для расчета моды: \begin
Данные для расчета медианы: \begin
При этом \(\frac<|M_o-X_
п.4. Выборочная дисперсия и СКО
Например:
Для распределения учеников по росту получаем:
п.5. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
Подробней о том, почему и когда нужно «исправлять» дисперсию, и для чего использовать коэффициент вариации – см. §65 данного справочника.
п.6. Алгоритм исследования интервального вариационного ряда
На входе: все значения признака \(\left\
Шаг 1. Построить интервальный ряд с интервалами \(\left.\right[a_
Шаг 2. Составить расчетную таблицу. Найти \(x_i,w_i,S_i,x_iw_i,x_i^2w_i\)
Шаг 3. Построить гистограмму (и/или полигон) относительных частот, эмпирическую функцию распределения (и/или кумуляту). Записать эмпирическую функцию распределения.
Шаг 4. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 5. Найти выборочную дисперсию и СКО.
Шаг 6. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.
п.7. Примеры
Пример 1. При изучении возраста пользователей коворкинга выбрали 30 человек.
Получили следующий набор данных:
18,38,28,29,26,38,34,22,28,30,22,23,35,33,27,24,30,32,28,25,29,26,31,24,29,27,32,24,29,29
Постройте интервальный ряд и исследуйте его.
\(\left.\left[a_ | \(\left.\left[18;22\right.\right)\) | \(\left.\left[22;26\right.\right)\) | \(\left.\left[26;30\right.\right)\) | \(\left.\left[30;34\right.\right)\) | \(\left.\left[34;38\right.\right)\) |
Считаем частоты для каждого интервала. Получаем интервальный ряд:
\(\left.\left[a_ | \(\left.\left[18;22\right.\right)\) | \(\left.\left[22;26\right.\right)\) | \(\left.\left[26;30\right.\right)\) | \(\left.\left[30;34\right.\right)\) | \(\left.\left[34;38\right.\right)\) |
\(f_i\) | 1 | 7 | 12 | 6 | 4 |
2) Составляем расчетную таблицу:
\(x_i\) | 20 | 24 | 28 | 32 | 36 | ∑ |
\(f_i\) | 1 | 7 | 12 | 6 | 4 | 30 |
\(w_i\) | 0,033 | 0,233 | 0,4 | 0,2 | 0,133 | 1 |
\(S_i\) | 0,033 | 0,267 | 0,667 | 0,867 | 1 | — |
\(x_iw_i\) | 0,667 | 5,6 | 11,2 | 6,4 | 4,8 | 28,67 |
\(x_i^2w_i\) | 13,333 | 134,4 | 313,6 | 204,8 | 172,8 | 838,93 |
Кумулятивная кривая распределения
График эмпирической функции распределения для непрерывного вариационного ряда называют кумулятивной кривой или просто кумулятой. Название происходит от английского слова accumulation – накопление.
При нахождении значений функции Fn(x) в числителе записывалась сумма некоторых частот. Эта сумма также имеет свое название – кумулятивная или накопленная частота соответствующего интервала. Дадим более точное определение.
Пусть дан вариационный интервальный ряд распределения частот.
Накопленной частотойni нак. i–го интервала называется сумма частоты данного интервала и частот всех предшествующих интервалов, т.е.
.
Нетрудно понять, что накопленная частота последнего интервала совпадает с объемом выборочной совокупности.
Аналогично, для каждого интервала можно определить накопленные частости.
Накопленной частостьюwi нак. i–го интервала называется сумма частости данного интервала и частотей всех предшествующих интервалов, т.е.
.
Ясно, что накопленная частость последнего интервала равна 1.
Определив накопленные частости интервалов, можно иначе определить и кумуляту.
Пусть дан интервальный ряд распределения частостей
Кумулятой (кумулятивной кривой) интервального ряда распределения частостей называют графическое представление данного ряда в виде ломаной линии, вершины которой находятся в точках с координатами (ai+1; wi), i = 1, 2, …, m, при этом первая точка ломаной находится на оси абсцисс и имеет координаты (а1; 0).
В качестве графического представления интервального ряда может быть рассмотрена ломаная с вершинами в точках (а1; 0) и (ai+1; ni), i = 1, 2, …, m. В этом случае полученная кривая будет называться кумулятой распределения частот (а не частостей) интервального ряда.
Общий вид кумулят распределения частот и частостей будет один и тот же. Отличие состоит лишь в масштабе на оси ординат.
Пример 4.5. Для данного интервального ряда построить кумуляту распределения частот и кумуляту распределения частостей
Интервалы | 1-3 | 3-5 | 5-7 | 7-9 | 9-11 |
Частоты интервалов |
Решение. Объем статистической совокупности равен n = 20.
Дополним данный интервальный ряд тремя строками. В третьей строке запишем накопленные частоты интервалов, в четвертой – частости, в пятой – накопленные частости интервалов, получим
Интервалы | 1-3 | 3-5 | 5-7 | 7-9 | 9-11 |
ni | |||||
ni нак | |||||
wi | 0,15 | 0,3 | 0,35 | 0,15 | 0,05 |
wi нак | 0,15 | 0,45 | 0,8 | 0,95 |
Кумулята распределения частот имеет вид:
Кумулята распределения частостей имеет вид:
|
По правилу, связанному с накопленными частотами и частостями, строят кумуляту и для дискретного вариационного ряда. Аналогично определяется накопленная частота и накопленная частость для варианта. Ломаная линия с вершинами в точках (xi, ni нак ), i = 1, 2, …, m будет определять кумуляту распределения частот дискретного ряда, а ломаная линия с вершинами в точках (xi, wi нак ), i = 1, 2, …, m – кумуляту распределения частостей дискретного ряда.
Пример 4.6. Построить кумуляту распределения частот и кумуляту распределения частостей для следующего дискретного ряда
Варианты хi |
Частоты ni |
Решение.Объем статистической совокупности равен n = 10. Дополним данный дискретный ряд тремя строками. В третьей строке запишем накопленные частоты вариантов, в четвертой – частости, в пятой – накопленные частости вариантов, получим
Варианты хi | ||||
Частоты ni | ||||
ni нак | ||||
wi | 0,1 | 0,3 | 0,5 | 0,1 |
wi нак | 0,1 | 0,4 | 0,9 |
Строим кумуляту распределения частот:
и кумуляту распределения частостей:
Для вариационных рядов существуют и другие графические представления.
Полигон распределения
Полигон распределения чаще всего используют для графического представления дискретных рядов.
Пусть дан дискретный ряд распределения частот (частостей).
Пример 4.7. Построить полигон распределения частот и полигон распределения частостей для следующего дискретного ряда:
Решение. Объем статистической совокупности равен 20. Дополним ряд одной строкой, где определим для каждого варианта частость, получим
Вариант | ||||||
Частота | ||||||
Частость | 0,15 | 0,2 | 0,3 | 0,25 | 0,05 | 0,05 |
Полигон распределения частот имеет вид:
|
Полигон распределения частостей имеет вид:
|
Очевидно, что полигон распределения частостей дискретного ряда является статистическим (выборочным) аналогом многоугольника распределения дискретной случайной величины.
Для графического представления интервального ряда также может быть построен полигон. Однако вначале интервальный ряд преобразуют в дискретный, для чего каждый интервал заменяют на число, равное середине интервала и ставят в соответствие этому числу частоту (или частость) рассматриваемого интервала. Затем для полученного дискретного ряда строят полигон, который будет являться полигоном и для данного интервального ряда.
Пример 4.8. Построить полигон распределения частот для следующего интервального ряда:
Интервалы | 2-5 | 5-8 | 8-11 | 11-14 | 14-17 | 17-20 |
Частоты |
Решение.Объем статистической совокупности равен 16. Дополним таблицу одной строкой. В третьей строке запишем zi – середины соответствующих интервалов, получим
Интервалы | 2-5 | 5-8 | 8-11 | 11-14 | 14-17 | 17-20 |
Частоты | ||||||
zi | 3,5 | 6,5 | 9,5 | 12,5 | 15,5 | 18,5 |
Полигон распределения частот имеет вид:
|
|
|
Из теории вероятностей известно, что для непрерывной случайной величины имеется еще одна форма закона распределения – функция плотности распределения, график которой называется кривой распределения. Рассмотрим статистический аналог этого графика.
Ряды распределения
После определения группировочного признака, количества групп и интервалов группировки данные сводки и группировки представляются в виде рядов распределения и оформляются в виде статистических таблиц.
Ряд распределния является одним из видов группировок.
Ряд распределения — представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.
В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:
Частости ( ) — это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.
Графическое изображение рядов распределения
Наглядно ряды распределения представляются при помощи графических изображений.
Ряды распределения изображаются в виде:
Полигон
При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) — частоты или частости.
Полигон на рис. 1 построен по данным микропереписи населения России в 1994 г.
Домохозяйства, состоящие из: | одного человека | двух человек | трех человек | 5 или более | всего |
Число домохозяйств в % | 19,2 | 26,2 | 22,6 | 20,5 | 100,0 |
Рис. 1. Распределение домохозяйств по размеру
Условие: Приводятся данные о распределении 25 работников одного из предприятий по тарифным разрядам:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Задача: Построить дискретный вариационный ряд и изобразить его графически в виде полигона распределения.
Решение:
В данном примере вариантами является тарифный разряд работника. Для определения частот необходимо рассчитать число работников, имеющих соответствующий тарифный разряд.
Тарифный разряд Xi | Число работников fi |
1 | 3 |
2 | 5 |
3 | 4 |
4 | 6 |
5 | 3 |
6 | 4 |
Итого: | 25 |
Полигон используется для дискретных вариационных рядов.
Для построения полигона распределения (рис 1) по оси абсцисс (X) откладываем количественные значения варьирующего признака — варианты, а по оси ординат — частоты или частости.
Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.
Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.
Статистическая таблица
Условие: Приведены данные о размерах вкладов 20 физических лиц в одном банке (тыс.руб) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Задача: Построить интервальный вариационный ряд с равными интервалами.
Решение:
При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.
Гистограмма
Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).
На рис. 2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.
Все население | В том числе в возрасте | ||||||||
до 10 | 10-20 | 20-30 | 30-40 | 40-50 | 50-60 | 60-70 | 70 и старше | Всего | |
Численность населения | 12,1 | 15,7 | 13,6 | 16,1 | 15,3 | 10,1 | 9,8 | 7,3 | 100,0 |
Рис. 2. Распределение населения России по возрастным группам
Условие: Приводится распределение 30 работников фирмы по размеру месячной заработной платы
Размер заработной платы руб. в месяц | Численность работников чел. |
до 5000 | 4 |
5000 — 7000 | 12 |
7000 — 10000 | 8 |
10000 — 15000 | 6 |
Итого: | 30 |
Задача: Изобразить интервальный вариационный ряд графически в виде гистограммы и кумуляты.
Решение:
Для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.
Кумулята
Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.
Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости (рис. 3).
Рис. 3. Кумулята распределения домохозяйств по размеру
4. Рассчитаем накопленные частоты:
Наколенная частота первого интервала рассчитывается следующим образом: 0 + 4 = 4, для второго: 4 + 12 = 16; для третьего: 4 + 12 + 8 = 24 и т.д.
Размер заработной платы руб в месяц Xi | Численность работников чел. fi | Накопленные частоты S |
до 5000 | 4 | 4 |
5000 — 7000 | 12 | 16 |
7000 — 10000 | 8 | 24 |
10000 — 15000 | 6 | 30 |
Итого: | 30 | — |
При построении кумуляты накопленная частота (частость) соответствующего интервала присваивается его верхней границе:
Огива
Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака — на оси ординат.
Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат — накопленные значения доли (в процентах) по объему признака.
Равномерному распределению признака соответствует на графике диагональ квадрата (рис. 4). При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.