Как построить кумуляту интервального ряда

Кумулята

Теперь построим кумуляту — график накопленных относительных частот. Расположим его под гистограммой.

Кумулята — это экспериментальная оценка формы графика функции распределения. Теоретическая кривая будет красивой и гладкой — мы познакомились с ней в начале работы, обсуждая свой вариант задания. Экспериментальная оценка — ломаная линия, да ещё и с погрешностями. Эти случайные ошибки вызваны ограниченным, не бесконечным объёмом выборки. В любом случае, эти графики начинаются в нуле и постепенно растут до 100%.

Напомним, что значения накопленных частот должны быть привязаны к верхним границам интервалов — в соответствии со стандартами и здравым смыслом. Идея в том, что накопленная частота накапливается именно к концу интервала, а не к середине.

Построим график в виде ломаной линии:

Insert — Charts — Insert Scatter (X, Y) or Bubble Chart

Вставка — Диаграммы — Вставить точечную (X, Y) или пузырьковую диаграмму

Вставка графика Y (X)

Выбираем тип графика

Scatter — Scatter with Straight Lines

Точечная — Точечная с прямыми отрезками

Это просто ломаная линия без маркеров точек.

Выбираем данные для графика:

Select Data — Select Data Source — Legend Entries (Series) — Add

Выбрать данные — Выбор источника данных — Элементы легенды (ряды) — Добавить

Edit Series

Изменение ряда

выбираем следующие данные.

Столбец «иксов» — верхние границы:

Series X Values

Значения Х

Столбец «игреков» — накопленные частоты:

Series Y Values

Значения Y

Убираем заголовок диаграммы:

Chart Elements — Chart Title

Элементы диаграммы — Название диаграммы

Настраиваем цвет линии на графике.

Format Data Series — Series options — Fill & Line — Line

Формат ряда данных —Параметры ряда — Заливка и границы — Линия

Line — Solid line

Линия — Сплошная линия

Color — Black

Цвет — Чёрный

Width = 0.5 pt

Ширина — 0,5 пт

Если отрезков много, то ломаная линия выглядит как гладкая кривая.

Настроим числовые метки на вертикальной оси, чтобы выводились целые числа:

Format Axis — Axis Options — Number — Decimal places — 0

Формат оси — Параметры оси — Число — Число десятичных знаков — 0

Установим диапазоны значений по осям.

Вертикальная ось — метки в процентах, а границы диапазона — числа. Поэтому пределы изменения будут от 0 до 1:

Category — Percentage

Категория — Процентный

Axis Options — Bounds

Параметры оси — Границы

Minimum — 0

Минимум — 0

Maximum — 1

Максимум — 1

Горизонтальная ось — в соответствии с интервалами группировки — от 190 до 310.

Подгоняем размеры графика и размещаем его под гистограммой. Можно сделать это вручную.

Если захочется особой точности, поработаем через меню параметров графика (числа условные).

Format Chart Area — Chart Options — Size & Properties — Size

Формат области диаграммы — Параметры диаграммы — Размер и свойства — Размер

Height — 1.8 in

Высота — 7,62 см

Width — 5.3 in

Ширина — 12,7 см

В английской версии пакета размеры измеряются в дюймах. В русской версии — в сантиметрах. Можем установить точные значения размеров вручную.

Окончательно совмещаем маштаб гистограммы и кумуляты: начало первого интервала 190, конец последнего интервала 310. Положения этих двух меток на обоих графиках должны совпадать.

Проблемы с масштабом решаем так. Значение 190 находится в начале интервала, обозначенного 193. Значение 310 находится в конце интервала, следующего за 303.

Источник

Интервальный вариационный ряд и его характеристики

п.1. Построение интервального вариационного ряда по данным эксперимента

Интервалы, \(\left.\left[a_,a_i\right.\right)\) \(\left.\left[a_<0>,a_1\right.\right)\) \(\left.\left[a_<1>,a_2\right.\right)\) . \(\left.\left[a_,a_k\right.\right)\)
Частоты, \(f_i\) \(f_1\) \(f_2\) . \(f_k\)

Скобка \(\lfloor\ \rfloor\) означает целую часть (округление вниз до целого числа).

Скобка \(\lceil\ \rceil\) означает округление вверх, в данном случае не обязательно до целого числа.

Заметим, что поскольку шаг h находится с округлением вверх, последний узел \(a_k\geq x_\).

\(\left.\left[a_,a_i\right.\right)\) cм \(\left.\left[142;150\right.\right)\) \(\left.\left[150;158\right.\right)\) \(\left.\left[158;166\right.\right)\) \(\left.\left[166;174\right.\right)\) \(\left.\left[174;182\right.\right)\) \(\left.\left[182;190\right.\right)\) \(\left[190;198\right]\)

п.2. Гистограмма и полигон относительных частот, кумулята и эмпирическая функция распределения

Например:
Продолжим анализ распределения учеников по росту.
Выше мы уже нашли узлы интервалов. Пусть, после распределения всех 100 измерений по этим интервалам, мы получили следующий интервальный ряд:

i 1 2 3 4 5 6 7
\(\left.\left[a_,a_i\right.\right)\) cм \(\left.\left[142;150\right.\right)\) \(\left.\left[150;158\right.\right)\) \(\left.\left[158;166\right.\right)\) \(\left.\left[166;174\right.\right)\) \(\left.\left[174;182\right.\right)\) \(\left.\left[182;190\right.\right)\) \(\left[190;198\right]\)
\(f_i\) 4 7 11 34 33 8 3

Найдем середины интервалов, относительные частоты и накопленные относительные частоты:

\(x_i\) 146 154 162 170 178 186 194
\(w_i\) 0,04 0,07 0,11 0,34 0,33 0,08 0,03
\(S_i\) 0,04 0,11 0,22 0,56 0,89 0,97 1

п.3. Выборочная средняя, мода и медиана. Симметрия ряда

Расположение выборочной средней, моды и медианы в зависимости от симметрии ряда аналогично их расположению в дискретном ряду (см. §65 данного справочника).

Например:
Для распределения учеников по росту получаем:

\(x_i\) 146 154 162 170 178 186 194
\(w_i\) 0,04 0,07 0,11 0,34 0,33 0,08 0,03 1
\(x_iw_i\) 5,84 10,78 17,82 57,80 58,74 14,88 5,82 171,68

$$ X_=\sum_^k x_iw_i=171,68\approx 171,7\ \text <(см)>$$ На гистограмме (или полигоне) относительных частот максимальная частота приходится на 4й интервал [166;174). Это модальный интервал.
Данные для расчета моды: \begin x_o=166,\ f_m=34,\ f_=11,\ f_=33,\ h=8\\ M_o=x_o+\frac><(f_m-f_)+(f_m+f_)>h=\\ =166+\frac<34-11><(34-11)+(34-33)>\cdot 8\approx 173,7\ \text <(см)>\end На кумуляте значение 0,5 пересекается на 4м интервале. Это – медианный интервал.
Данные для расчета медианы: \begin x_o=166,\ w_m=0,34,\ S_=0,22,\ h=8\\ \\ M_e=x_o+\frac<0,5-S_>h=166+\frac<0,5-0,22><0,34>\cdot 8\approx 172,6\ \text <(см)>\end \begin \\ X_=171,7;\ M_o=173,7;\ M_e=172,6\\ X_\lt M_e\lt M_o \end Ряд асимметричный с левосторонней асимметрией.
При этом \(\frac<|M_o-X_|><|M_e-X_|>=\frac<2,0><0,9>\approx 2,2\lt 3\), т.е. распределение умеренно асимметрично.

п.4. Выборочная дисперсия и СКО

Например:
Для распределения учеников по росту получаем:

п.5. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации

Подробней о том, почему и когда нужно «исправлять» дисперсию, и для чего использовать коэффициент вариации – см. §65 данного справочника.

п.6. Алгоритм исследования интервального вариационного ряда

На входе: все значения признака \(\left\,\ j=\overline<1,N>\)
Шаг 1. Построить интервальный ряд с интервалами \(\left.\right[a_,\ a_i\left.\right)\) и частотами \(f_i,\ i=\overline<1,k>\) (см. алгоритм выше).
Шаг 2. Составить расчетную таблицу. Найти \(x_i,w_i,S_i,x_iw_i,x_i^2w_i\)
Шаг 3. Построить гистограмму (и/или полигон) относительных частот, эмпирическую функцию распределения (и/или кумуляту). Записать эмпирическую функцию распределения.
Шаг 4. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 5. Найти выборочную дисперсию и СКО.
Шаг 6. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.

п.7. Примеры

Пример 1. При изучении возраста пользователей коворкинга выбрали 30 человек.
Получили следующий набор данных:
18,38,28,29,26,38,34,22,28,30,22,23,35,33,27,24,30,32,28,25,29,26,31,24,29,27,32,24,29,29
Постройте интервальный ряд и исследуйте его.

\(\left.\left[a_,a_i\right.\right)\) лет \(\left.\left[18;22\right.\right)\) \(\left.\left[22;26\right.\right)\) \(\left.\left[26;30\right.\right)\) \(\left.\left[30;34\right.\right)\) \(\left.\left[34;38\right.\right)\)

Считаем частоты для каждого интервала. Получаем интервальный ряд:

\(\left.\left[a_,a_i\right.\right)\) лет \(\left.\left[18;22\right.\right)\) \(\left.\left[22;26\right.\right)\) \(\left.\left[26;30\right.\right)\) \(\left.\left[30;34\right.\right)\) \(\left.\left[34;38\right.\right)\)
\(f_i\) 1 7 12 6 4

2) Составляем расчетную таблицу:

\(x_i\) 20 24 28 32 36
\(f_i\) 1 7 12 6 4 30
\(w_i\) 0,033 0,233 0,4 0,2 0,133 1
\(S_i\) 0,033 0,267 0,667 0,867 1
\(x_iw_i\) 0,667 5,6 11,2 6,4 4,8 28,67
\(x_i^2w_i\) 13,333 134,4 313,6 204,8 172,8 838,93

Источник

Кумулятивная кривая распределения

График эмпирической функции распределения для непрерывного вариационного ряда называют кумулятивной кривой или просто кумулятой. Название происходит от английского слова accumulation – накопление.

При нахождении значений функции Fn(x) в числителе записывалась сумма некоторых частот. Эта сумма также имеет свое название – кумулятивная или накопленная частота соответствующего интервала. Дадим более точное определение.

Пусть дан вариационный интервальный ряд распределения частот.

Накопленной частотойni нак. iго интервала называется сумма частоты данного интервала и частот всех предшествующих интервалов, т.е.

.

Нетрудно понять, что накопленная частота последнего интервала совпадает с объемом выборочной совокупности.

Аналогично, для каждого интервала можно определить накопленные частости.

Накопленной частостьюwi нак. iго интервала называется сумма частости данного интервала и частотей всех предшествующих интервалов, т.е.

.

Ясно, что накопленная частость последнего интервала равна 1.

Определив накопленные частости интервалов, можно иначе определить и кумуляту.

Пусть дан интервальный ряд распределения частостей

Кумулятой (кумулятивной кривой) интервального ряда распределения частостей называют графическое представление данного ряда в виде ломаной линии, вершины которой находятся в точках с координатами (ai+1; wi), i = 1, 2, …, m, при этом первая точка ломаной находится на оси абсцисс и имеет координаты (а1; 0).

В качестве графического представления интервального ряда может быть рассмотрена ломаная с вершинами в точках (а1; 0) и (ai+1; ni), i = 1, 2, …, m. В этом случае полученная кривая будет называться кумулятой распределения частот (а не частостей) интервального ряда.

Общий вид кумулят распределения частот и частостей будет один и тот же. Отличие состоит лишь в масштабе на оси ординат.

Пример 4.5. Для данного интервального ряда построить кумуляту распределения частот и кумуляту распределения частостей

Интервалы 1-3 3-5 5-7 7-9 9-11
Частоты интервалов

Решение. Объем статистической совокупности равен n = 20.

Дополним данный интервальный ряд тремя строками. В третьей строке запишем накопленные частоты интервалов, в четвертой – частости, в пятой – накопленные частости интервалов, получим

Интервалы 1-3 3-5 5-7 7-9 9-11
ni
ni нак
wi 0,15 0,3 0,35 0,15 0,05
wi нак 0,15 0,45 0,8 0,95

Кумулята распределения частот имеет вид:

Кумулята распределения частостей имеет вид:

По правилу, связанному с накопленными частотами и частостями, строят кумуляту и для дискретного вариационного ряда. Аналогично определяется накопленная частота и накопленная частость для варианта. Ломаная линия с вершинами в точках (xi, ni нак ), i = 1, 2, …, m будет определять кумуляту распределения частот дискретного ряда, а ломаная линия с вершинами в точках (xi, wi нак ), i = 1, 2, …, m – кумуляту распределения частостей дискретного ряда.

Пример 4.6. Построить кумуляту распределения частот и кумуляту распределения частостей для следующего дискретного ряда

Варианты хi
Частоты ni

Решение.Объем статистической совокупности равен n = 10. Дополним данный дискретный ряд тремя строками. В третьей строке запишем накопленные частоты вариантов, в четвертой – частости, в пятой – накопленные частости вариантов, получим

Варианты хi
Частоты ni
ni нак
wi 0,1 0,3 0,5 0,1
wi нак 0,1 0,4 0,9

Строим кумуляту распределения частот:

и кумуляту распределения частостей:

Для вариационных рядов существуют и другие графические представления.

Полигон распределения

Полигон распределения чаще всего используют для графического представления дискретных рядов.

Пусть дан дискретный ряд распределения частот (частостей).

Пример 4.7. Построить полигон распределения частот и полигон распределения частостей для следующего дискретного ряда:

Решение. Объем статистической совокупности равен 20. Дополним ряд одной строкой, где определим для каждого варианта частость, получим

Вариант
Частота
Частость 0,15 0,2 0,3 0,25 0,05 0,05

Полигон распределения частот имеет вид:

Полигон распределения частостей имеет вид:

Очевидно, что полигон распределения частостей дискретного ряда является статистическим (выборочным) аналогом многоугольника распределения дискретной случайной величины.

Для графического представления интервального ряда также может быть построен полигон. Однако вначале интервальный ряд преобразуют в дискретный, для чего каждый интервал заменяют на число, равное середине интервала и ставят в соответствие этому числу частоту (или частость) рассматриваемого интервала. Затем для полученного дискретного ряда строят полигон, который будет являться полигоном и для данного интервального ряда.

Пример 4.8. Построить полигон распределения частот для следующего интервального ряда:

Интервалы 2-5 5-8 8-11 11-14 14-17 17-20
Частоты

Решение.Объем статистической совокупности равен 16. Дополним таблицу одной строкой. В третьей строке запишем zi – середины соответствующих интервалов, получим

Интервалы 2-5 5-8 8-11 11-14 14-17 17-20
Частоты
zi 3,5 6,5 9,5 12,5 15,5 18,5

Полигон распределения частот имеет вид:

Из теории вероятностей известно, что для непрерывной случайной величины имеется еще одна форма закона распределения – функция плотности распределения, график которой называется кривой распределения. Рассмотрим статистический аналог этого графика.

Источник

Ряды распределения

После определения группировочного признака, количества групп и интервалов группировки данные сводки и группировки представляются в виде рядов распределения и оформляются в виде статистических таблиц.

Ряд распределния является одним из видов группировок.

Ряд распределения — представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.

В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:

Частости ( ) — это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Графическое изображение рядов распределения

Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:

Полигон

При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) — частоты или частости.

Полигон на рис. 1 построен по данным микропереписи населения России в 1994 г.

Домохозяйства, состоящие из: одного человека двух человек трех человек 5 или более всего
Число домохозяйств в % 19,2 26,2 22,6 20,5 100,0

Рис. 1. Распределение домохозяйств по размеру

Условие: Приводятся данные о распределении 25 работников одного из предприятий по тарифным разрядам:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Задача: Построить дискретный вариационный ряд и изобразить его графически в виде полигона распределения.
Решение:
В данном примере вариантами является тарифный разряд работника. Для определения частот необходимо рассчитать число работников, имеющих соответствующий тарифный разряд.

Тарифный
разряд Xi
Число
работников fi
1 3
2 5
3 4
4 6
5 3
6 4
Итого: 25

Полигон используется для дискретных вариационных рядов.

Для построения полигона распределения (рис 1) по оси абсцисс (X) откладываем количественные значения варьирующего признака — варианты, а по оси ординат — частоты или частости.

Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.
Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.

Статистическая таблица

Условие: Приведены данные о размерах вкладов 20 физических лиц в одном банке (тыс.руб) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Задача: Построить интервальный вариационный ряд с равными интервалами.
Решение:

При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.

Гистограмма

Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

На рис. 2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.

Все население В том числе в возрасте
до 10 10-20 20-30 30-40 40-50 50-60 60-70 70 и старше Всего
Численность населения 12,1 15,7 13,6 16,1 15,3 10,1 9,8 7,3 100,0

Рис. 2. Распределение населения России по возрастным группам

Условие: Приводится распределение 30 работников фирмы по размеру месячной заработной платы

Размер заработной платы
руб. в месяц
Численность работников
чел.
до 5000 4
5000 — 7000 12
7000 — 10000 8
10000 — 15000 6
Итого: 30

Задача: Изобразить интервальный вариационный ряд графически в виде гистограммы и кумуляты.
Решение:

Для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.

Кумулята

Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости (рис. 3).

Рис. 3. Кумулята распределения домохозяйств по размеру

4. Рассчитаем накопленные частоты:
Наколенная частота первого интервала рассчитывается следующим образом: 0 + 4 = 4, для второго: 4 + 12 = 16; для третьего: 4 + 12 + 8 = 24 и т.д.

Размер заработной платы
руб в месяц Xi
Численность работников
чел. fi
Накопленные частоты
S
до 5000 4 4
5000 — 7000 12 16
7000 — 10000 8 24
10000 — 15000 6 30
Итого: 30

При построении кумуляты накопленная частота (частость) соответствующего интервала присваивается его верхней границе:

Огива

Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака — на оси ординат.

Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат — накопленные значения доли (в процентах) по объему признака.

Равномерному распределению признака соответствует на графике диагональ квадрата (рис. 4). При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.

Источник

Читайте также:  минорки с чем носить
Обучающий онлайн портал