Как посчитать корреляции в спсс
Корреляционный анализ
Глава 15. Корреляционный анализ
Если в качестве примера возьмём данные об уровне холестерина для первых двух моментов времени из исследования гипертонии (файл hyper.sav), то в данном случае следует ожидать довольно сильную связь: большие значения в исходный момент времени являются веским поводом для ожидания больших значений и через 1 месяц.
Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график, называемый «диаграммой рассеяния» (Scatterplot) для двух зависимых переменных можно построить путём вызова меню Graphs. (Графики) / Scatter plots. (Диаграммы рассеяния) (см. гл. 22.8).
Образовавшееся скопление точек показывает, что обследованные пациенты с высокими исходными показателями, как правило, имеют высокие значения холестерина и при повторном опросе через месяц.
Если коэффициент корреляции отрицательный, это означает наличие противоположной связи: чем выше значение одной переменной, тем ниже значение другой. Сила связи характеризуется также и абсолютной величиной коэффициента корреляции. Для словесного описания величины коэффициента корреляции используются следуюшие градации:
Значение | Интерпретация |
до 0,2 | Очень слабая корреляция |
до 0,5 | Слабая корреляция |
до 0,7 | Средняя корреляция |
до 0,9 | Высокая корреляция |
свыше 0,9 | Очень высокая корреляция |
Метод вычисления коэффициента корреляции зависит от вида шкалы, которой относятся переменные:
Типы шкал | Мера связи | |
Переменная X | Переменная Y | |
Интервальная (или отношений) | Интервальная (или отношений) | Коэффициент Пирсона |
Ранговая, интервальная (или отношений) | Ранговая, интервальная (или отношений) | Коэффициент Спирмена |
Ранговая | Ранговая | Коэффициент Кендалла |
Дихотомическая | Дихотомическая | Коэффициент φ (фи), четырёхполевая корреляция |
Дихотомическая | Ранговая | Рангово-бисериальный коэффициент |
Переменные с интервальной или с пропорциональной шкалой – коэффициент корреляции Пирсона.
По меньшей мере, одна из двух переменных имеет порядковую шкалу, либо с интервальной шкалой, но не нормально распределённой – ранговая корреляция по Спирману или τ (тау-грого-соая) Кендала (реже).
Одна из двух переменных является дихотомической – точечная двухрядная корреляция. Эта возможность в SPSS отсутствует. Вместо этого может быть применён расчёт ранговой корреляции по Спирману.
Обе переменные являются дихотомическими – четырёхполевая корреляция. Данный вид корреляции рассчитываются в SPSS на основании определения мер расстояния и мер сходства (см. гл 15.4).
Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, кода связь между ними линейна (однонаправлена). Если связь, к примеру, U-образная (неоднозначная), то коэффициент корреляции непригоден для использования в качестве меры силы связи: его значение стремится к нулю. В следующих разделах будут рассмотрены корреляции по Пирсону, Спирману и Кендалу. Ешё один раздел специально посвящён частной корреляции.
Иллюстрированный самоучитель по SPSS 10/11
Корреляции
В этой главе речь пойдет о связи (корреляции) между двумя переменными. Расчеты подобных двумерных критериев взаимосвязи основываются на формировании парных значений, которые образовываются из рассматриваемых зависимых выборок.
Если в качестве примера мы возьмем данные об уровне холестерина для первых двух моментов времени из исследования гипертонии (файл hyper.sav), то в данном случае следует ожидать довольно сильную связь: большие значения в исходный момент времени являются веским поводом для ожидания больших значений и через 1 месяц.
Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая; пара значений маркируется при помощи определенного символа. Такой график, называемый «диаграммой рассеяния» для двух зависимых переменных можно построить путем вызова меню Graphs… (Графики) › Scatter plots… (Диаграммы рассеяния) (см. гл. 22.8).
Образовавшееся скопление точек показывает, что обследованные пациенты с высокими исходными показателями, как правило, имеют высокие значения холестерина и при повторном опросе через месяц. Это, конечно же, не является неожиданностью; данный пример был выбран, чтобы продемонстрировать наличие явной связи.
Рис. 15.1.Диаграммы рассеяния
Если коэффициент корреляции отрицательный, это означает наличие противоположной связи: чем выше значение одной переменной, тем ниже значение другой. Сила связи характеризуется также и абсолютной величиной коэффициента корреляции. Для словесного описания величины коэффициента корреляции используются следующие градации:
Значение | Интерпретация |
до 0.2 | Очень слабая корреляция |
до 0.5 | Слабая корреляция |
до 0.7 | Средняя корреляция |
до 0.9 | Высокая корреляция |
свыше 0.9 | Очень высокая корреляция |
Метод вычисления коэффициента корреляции зависит от вида шкалы, которой относятся переменные.
Расчет коэффициента корреляции между двумя недихотомическими переменными не лишен смысла только тогда, кода связь между ними линейна (однонаправлена). Если связь, к примеру, U-образная (неоднозначная), то коэффициент корреляции непригоден для использования в качестве меры силы связи: его значение стремится к нулю. В следующих разделах будут рассмотрены корреляции по Пирсону, Спирману и Кендалу. Еше один раздел специально посвящен частной корреляции.
Расчет КОРРЕЛЯЦИЙ в SPSS
Корреляция (от лат. correlatio – соотношение):
— мера степени и направления связи между значениями двух переменных;
— статистический показатель вероятности связи между двумя переменными, измеренными в количественной шкале.
Корреляционный анализ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции.
Направление связи определяется прямым или обратным соотношением значений двух переменных: если возрастанию значений одной переменной соответствует возрастание значений другой переменной, то взаимосвязь называется прямой (положительной); если возрастанию значений одной переменной соответствует убывание значений другой переменной, то взаимосвязь является обратной (отрицательной). Показателем направления связи является знак коэффициента корреляции.
Коэффициент корреляции (r):
2. Мера прямой или обратной пропорциональности между двумя переменными.
3. Двумерная описательная статистика, количественная мера взаимосвязи (совместимой изменчивости) двух переменных.
Коэффициент Пирсона (r-Pearson). Мера корреляции, подходящая для двух непрерывных (метрических переменных), измеренных на одной и той же выборке.
Коэффициент Спирмена (r-Spearman’s). Мера корреляции, подходящая для двух переменных, измеренных в ранговой шкале.
Как посчитать корреляции в спсс
; Скорость смены (1-255)
; Смена рисунков со спецэффектами («YES» или «NO»)
;Произвольный рисунок поверх апплета
;X смещение наложенного рисунка
;Y смещение наложенного рисунка
;Задержка освобождения памяти
;Приоритет задачи (1..10)
Самоучитель по пакету SPSS
В этой главе речь пойдёт о связи (корреляции) между двумя переменными. Расчёты подобных двумерных критериев взаимосвязи основываются на формировании парных значений, которые образовываются из рассматриваемых зависимых выборок.
Если в качестве примера мы возьмём данные об уровне холестерина для первых двух моментов времени из исследования гипертонии (файл hyper.sav), то в данном случае следует ожидать довольно сильную связь: большие значения в исходный момент времени являются веским поводом для ожидания больших значений и через 1 месяц.
Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая; пара значений маркируется при помощи определенного символа. Такой график, называемый «диаграммой рассеяния» для двух зависимых переменных можно построить путём вызова меню Graphs. (Графики) Scatter plots. (Диаграммы рассеяния) (см. гл. 22.8).
Образовавшееся скопление точек показывает, что обследованные пациенты с высокими исходными показателями, как правило, имеют высокие значения холестерина и при повторном опросе через месяц. Это, конечно же, не является неожиданностью; данный пример был выбран, чтобы продемонстрировать наличие явной связи.
Если коэффициент корреляции отрицательный, это означает наличие противоположной связи: чем выше значение одной переменной, тем ниже значение другой. Сила связи характеризуется также и абсолютной величиной коэффициента корреляции. Для словесного описания величины коэффициента корреляции используются следуюшие градации:
что соответствует следующим нижней и верхней границам 95 % доверительного интервала:
и
.
Использование онлайн-калькулятора на странице http://faculty. vassar. edu/lowry/rho. html дает аналогичный результат (рис. 12), причем автоматически рассчитывается не только 95 %, но и 99 % доверительный интервал для коэффициента корреляции. Для «ручных» вычислений 99 % доверительного интервала 1,96 в формуле следует заменить на 2,58.
Рис. 12. Рассчитанные с помощью онлайн-калькулятора 95 % и 99 % доверительные интервалы для коэффициента корреляции Пирсона
Помимо доверительных интервалов с помощью преобразования Фишера и онлайн-калькуляторов можно рассчитать, отличается ли полученный коэффициент корреляции от известного или предполагаемого популяционного значения коэффициента корреляции (ρ). В основе расчетов лежит формула
в которой r – значение коэффициента корреляции, рассчитанное по данным выборочной совокупности, а ρ – популяционное значение, с которым проводится сравнение. Рассчитанное значение z сравнивается с табличными значениями. Для статистически значимых различий на уровне доверительной вероятности 95 % z = 1,96. Вышеприведенная формула используется в онлайн-калькуляторе на странице http://faculty. vassar. edu/lowry/VassarStats. html. На рис. 13 представлен пример ввода данных для сравнения коэффициента корреляции из данного примера с фиксированным значением 0,8. Расчет осуществляется путем нажатия на кнопку « Calculate ».
Рис. 13. Внешний вид онлайн-калькулятора (http://faculty. vassar. edu/lowry/VassarStats. html) для сравнения коэффициента корреляции Пирсона с фиксированным значением
Результаты расчетов представлены на рис. 14, из них видно, что выборочный коэффициент корреляции статистически значимо отличается от 0,8 (р = 0,009 для двустороннего теста), что неудивительно, так как рассчитанный ранее 95 % доверительный интервал (0,81–0,85) не включал в себя значение 0,8.
Рис. 14. Результаты сравнения выборочного коэффициента корреляции Пирсона с фиксированным значением с помощью онлайн-калькулятора (http://faculty. vassar. edu/lowry/VassarStats. html)
Описание методов и примеров сравнения коэффициентов корреляции Пирсона для двух независимых выборок (на примере оценки зависимости между индексом массы тела (ИМТ) и чувствительностью к инсулину для групп с наличием и отсутствием гипертиреоза) и для ситуаций, когда нужно сравнить степень тесноты взаимосвязи одной и той же переменной с двумя другими, представлены в [13].
Как интерпретировать коэффициент корреляции Пирсона и что он означает? Во многих учебных пособиях, например в [5], сообщается, что r ≥ 0,7 говорит о наличии сильной связи между признаками, 0,3 r r r 2), который, как следует из его обозначения, рассчитывается путем возведения коэффициента корреляции Пирсона во вторую степень. Коэффициент детерминации показывает, какую долю вариабельности одного из изучаемых признаков способен объяснить другой признак. Таким образом, видно, что приведенная выше классификация подразумевает под сильной связью ситуацию, когда одна из переменных способна объяснить от 49 % вариабельности другой переменной. Естественно, возникают сомнения в наличии сильных связей, если одна переменная способна объяснить лишь половину вариабельности другой. Еще один пример: коэффициент корреляции между ИМТ и систолическим артериальным давлением (САД) в некоторых странах Африки и Юго-Восточной Азии составляет в среднем 0,25 при уровне значимости p
Рис. 15. Значения коэффициента корреляции Пирсона для определения взаимосвязи между двумя признаками, изображенные в виде скаттерограмм (Источник: http://upload. wikimedia. org/wikipedia/ru/3/3f/Corr-example2.png)
Еще одним стимулом для использования скаттерограмм для графического представления данных перед принятием решения о применении коэффициента корреляции Пирсона является высокая чувствительность этого коэффициента к наличию выскакивающих величин (выбросов). Так, на рис. 16 слева изображена скаттерограмма взаимосвязи двух признаков для выборки объемом 25 человек. Рассчитанный коэффициент корреляции Пирсона составил 0,9. После включения всего лишь одного одного «нетипичного» случая (в левом верхнем углу правой скаттерограммы) r уменьшился до 0,5. Более существенные выбросы могут полностью «уничтожить» зависимость, однако всегда следует разбираться, является ли выброс следствием ошибки регистрации данных, или же это истинные значения переменных.
Из ошибок и неточностей, встречающихся при применении коэффициента корреляции Пирсона в отечественной медицинской периодике, можно упомянуть следующие:
- Применение метода при несоблюдении необходимых условий Интерпретация корреляционной связи как причинно-следственной Расчет коэффицентов корреляции для всех пар переменных по принципу «сравним все со всем, авось что и найдем» Неполное представление результатов корреляционного анализа (в некоторых работах авторы сообщают в разделе «Методы» о применении корреляционного анализа, однако не удается найти даже коэффициентов корреляции) Представление только точечных оценок (игнорирование доверительных интервалов) Использование шаблонной фразы об использовании «корреляционно-регрессионного анализа» в случаях, когда использовался только корреляционный анализ Отождествление статистически значимых коэффициентов корреляции с клинически важными Отсутствие обсуждения, почему были получены те или иные коэффициенты корреляции (истинная зависимость? ложная зависимость? наличие других переменных, тесно коррелирующих с обеими изучаемыми переменными?) Заключения о полном отсутствии взаимосвязи между признаками при r близком к 0 при наличии нелинейной взаимосвязи Редкое применение скаттерограмм.
Зарубежные исследователи, проводившие анализ применения корреляционного анализа в наиболее престижных медицинских журналах США и Великобритании, наиболее часто встречающимися проблемами называли игнорирование доверительных интервалов, неполное представление результатов, а именно отсутствие данных об объеме выборки, а также придание слишком большого значения статистической значимости при оценке важности коэффициентов [19, 22].
Всегда следует помнить, что в результате корреляционного анализа невозможно установить причинно-следственные связи, поэтому выводов о том, что один из изучаемых признаков вызывает другой лишь на основании корреляционного анализа, делать нельзя. Установленные корреляционные связи являются лишь статистическими, хотя некоторые из них могут быть и функциональными. В одном из часто используемых в качестве примера исследований была установлена сильная положительная корреляционная взаимосвязь между количеством гнезд аистов и количеством новорожденных в Копенгагене в ранние послевоенные годы, однако этот результат сложно считать доказательством того, что детей приносят аисты [цит. по 9]. Данная взаимосвязь авляется лишь статистической. Статистические взаимосвязи могут быть вызваны наличием третьей переменной, которая тесно связана с обеими изучаемыми в ходе корреляционного анализа переменными. Так, например, вероятность рождения ребенка с синдромом Дауна тесно коррелирует с количеством родов у матери до настоящей беременности. Эта взаимосвязь, как нетрудно догадаться, обусловлена тем, что возраст матери тесно связан с обеими переменными, что и приводит к обнаружению корреляционной, но никак не причинно-следственной связи между переменными.
При скошенных распределениях, а также при наличии истинных выбросов (если исследователи решают их оставить для анализа) лучше использовать непараметрические коэффициенты корреляции Спирмена или Кендалла, первый из которых в зарубежной литературе применяется значительно чаще [21]. В российской биомедицинской литературе коэффициент Кендалла применяется настолько редко, что складывается впечатление, будто отечественные исследователи с ним просто незнакомы.
Для расчета обоих непараметрических коэффициентов характерно использование не исходных значений признаков, а их рангов, что позволяет применять их для распределений, отличающихся от нормального. Использование рангов также позволяет применять непараметрические коэффициенты корреляции не только для количественных, но и для порядковых (ранговых, ординальных) данных. Технические подробности расчета коэффициента корреляции Спирмена в статье не приводятся, так как они описываются практически во всех пособиях по основам статистики.
Коэффициент корреляции Спирмена также является безразмерной величиной, принимающей значения от –1 до 1. Значение 1 говорит о наличии полного совпадения между рангами изучаемых переменных, –1 – о том, что ранги полностью противоположны. При полном отсутствии взаимосвязи между рангами переменных коэффициент корреляции Спирмена будет равен 0. Возведеный в квадрат, он также называется коэффициентом детерминации, который можно обозначить как ρ2. Его можно интерпретировать как долю вариабельности рангов одной переменной, которую можно объяснить с помощью рангов другой переменной. Данная интерпретация достаточно громоздка и не совсем понятна с практической точки зрения, поэтому, несмотря на большую популярность коэффициента Спирмена, многие авторы склонны считать его менее практичным, чем коэффициент Кендалла [10, 11, 20, 21]. Для нашего примера с длиной и массой тела новорожденных ρ2 = 0,822 = 0,67. Поскольку распределение обеих переменных в данном примере близко к нормальному, различия между коэффициентами корреляции Пирсона и Спирмена, а также их коэффициентами детерминации незначительны. В подобных ситуациях всегда лучше применять коэффициент корреляции Пирсона, так как он обладает большей статистической мощностью и его значительно проще интерпретировать.
после чего полученные значения следует подставить в уже известную формулу для расчета верхней и нижней границ 95 % доверительного интервала:
от до
а значение коэффициента корреляции для генеральной совокупности с 95 % надежностью будет располагаться в пределах
от до
.
Многие авторы считают, что из непараметрических коэффициентов корреляции наиболее просто интерпретировать коэффициент корреляции Кендалла [10, 11, 20, 21]. Учитывая, что этот коэффициент реже всего представлен в отечественной биомедицинской литературе, остановимся на нем несколько подробнее.
Коэффициент корреляции Кендалла рассчитывается по формуле [16, 18]:
Если С представляет собой количество конкордантных пар из возможных в выборочной совокупности n ( n – 1)/2 пар, то оценить вероятность того, что пара наблюдений будет конкордантной (πс), можно с помощью формулы:
Аналогично вероятность того, что пара наблюдений будет дискордантной ( ), можно оценить с помощью формулы:
Таким образом, для любой пары наблюдений, отобранных случайно, τ a Кендалла может интерпретироваться как разность между вероятностью того, что пара будет конкордантной, и того, что она будет дискордантной, то есть
Рис. 17. Графическое представление рангов для двух изучаемых признаков ( X и Y ) для 6 участников исследования.
Из рисунка видно, что некоторые линии, соединяющие ранги, пересекаются. Если посчитать количество пересечений и обозначить его как к, то коэффициент корреляции Кендалла можно рассчитать по формуле:
Доверительный интервал для τ a также можно рас c читать с помощью преобразования Фишера, которое дает достаточно адекватную интервальную оценку коэффициента корреляции Кендалла для генеральной совокупности при объеме выборки не менее 10 наблюдений и значении τ не более 0,8. Отличие будет заключаться в расчете вспомогательных значеий ZL и ZU :
которые затем подставляют в формулу для расчета 95 % доверительного интервала:
от до
.
Следует помнить, что вышеописанный коэффициент корреляции Кендалла (τ a ) применяется для определения степени тесноты связи между переменными без учета равных (связанных) рангов. При наличии таковых, то есть когда два или более наблюдений по любой из переменных имеют одинаковые ранги, лучше применять другие разновидности коэффициента корреляции Кендалла, которые при расчете равные ранги учитывают. Такие ситуации неибезжны при изучении порядковых признаков, таких как, например, образование, степень тяжести заболевания и т. п.
Помимо представленных в данной статье существует еще много других разновидностей корреляционного анализа как для количественных, так и для качественных переменных, как для двух, так и для нескольких переменных одновременно, с которыми можно ознакомиться в специализированной статистической литературе. Интересный обзор применения корреляционного анализа в медицинских исследований для различных типов переменных был недавно опубликован Н. Kraemer [17]. В следующем выпуске будут кратко представлены основы линейного регрессионного анализа.
1. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей / А. Бююль, П. Цёфель. – Минск : ДиаСофт, 2005. – 608 с.
National Institute of Public Health, Oslo, Norway
The article gives a brief introduction about correlation analysis and calculations of Pearson, Spearman and Kendall correlation coefficients using SPSS software. The paper provides only general introduction about the analysis of the strength of statistical association between variables. The readers are encouraged to consult statistical literature prior to analysing own data and preparing manuscripts.
Key words: correlation analysis, correlation coefficients, SPSS.
– старший советник Национального института общественного здоровья, г. Осло, Норвегия
Адрес: Nasjonalt folkehelseinstitutt, Pb 4404 Nydalen, 0403 Oslo, Norway
- с чего начать обучать ребенка английскому языку
- Видеть во сне стирать носки