Отметьте возможные значения коэффициента корреляции. Что такое корреляция и как трактовать значение коэффициента

При изучении общественного здоровья и здравоохранения в научных и практических целях исследователю часто приходится проводить статистический анализ связей между факторными и результативными признаками статистический совокупности (причинно-следственная связь) или определение зависимости параллельных изменений нескольких признаков этой совокупности от какой либо третьей величины (от общей их причины). Необходимо уметь изучать особенности этой связи, определять ее размеры и направление, а также оценивать ее достоверность. Для этого используются методы корреляции.

  1. Виды проявления количественных связей между признаками
    • функциональная связь
    • корреляционная связь
  2. Определения функциональной и корреляционной связи

    Функциональная связь - такой вид соотношения между двумя признаками, когда каждому значению одного из них соответствует строго определенное значение другого (площадь круга зависит от радиуса круга и т.д.). Функциональная связь характерна для физико-математических процессов.

    Корреляционная связь - такая связь, при которой каждому определенному значению одного признака соответствует несколько значений другого взаимосвязанного с ним признака (связь между ростом и массой тела человека; связь между температурой тела и частотой пульса и др.). Корреляционная связь характерна для медико-биологических процессов.

  3. Практическое значение установления корреляционной связи . Выявление причинно-следственной между факторными и результативными признаками (при оценке физического развития, для определения связи между условиями труда, быта и состоянием здоровья, при определении зависимости частоты случаев болезни от возраста, стажа, наличия производственных вредностей и др.)

    Зависимость параллельных изменений нескольких признаков от какой-то третьей величины. Например, под воздействием высокой температуры в цехе происходят изменения кровяного давления, вязкости крови, частоты пульса и др.

  4. Величина, характеризующая направление и силу связи между признаками . Коэффициент корреляции, который одним числом дает представление о направлении и силе связи между признаками (явлениями), пределы его колебаний от 0 до ± 1
  5. Способы представления корреляционной связи
    • график (диаграмма рассеяния)
    • коэффициент корреляции
  6. Направление корреляционной связи
    • прямая
    • oбратная
  7. Сила корреляционной связи
    • сильная: ±0,7 до ±1
    • средняя: ±0,3 до ±0,699
    • слабая: 0 до ±0,299
  8. Методы определения коэффициента корреляции и формулы
    • метод квадратов (метод Пирсона)
    • ранговый метод (метод Спирмена)
  9. Методические требования к использованию коэффициента корреляции
    • измерение связи возможно только в качественно однородных совокупностях (например, измерение связи между ростом и весом в совокупностях, однородных по полу и возрасту)
    • расчет может производиться с использованием абсолютных или производных величин
    • для вычисления коэффициента корреляции используются не сгруппированные вариационные ряды (это требование применяется только при вычислении коэффициента корреляции по методу квадратов)
    • число наблюдений не менее 30
  10. Рекомендации по применению метода ранговой корреляции (метод Спирмена)
    • когда нет необходимости в точном установлении силы связи, а достаточно ориентировочных данных
    • когда признаки представлены не только количественными, но и атрибутивными значениями
    • когда ряды распределения признаков имеют открытые варианты (например, стаж работы до 1 года и др.)
  11. Рекомендации к применению метода квадратов (метод Пирсона)
    • когда требуется точное установление силы связи между признаками
    • когда признаки имеют только количественное выражение
  12. Методика и порядок вычисления коэффициента корреляции

    1) Метод квадратов

    2) Ранговый метод

  13. Схема оценки корреляционной связи по коэффициенту корреляции
  14. Вычисление ошибки коэффициента корреляции
  15. Оценка достоверности коэффициента корреляции,полученного методом ранговой корреляции и методом квадратов

    Способ 1
    Достоверность определяется по формуле:

    Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n - 2), где n - число парных вариант. Критерий t должен быть равен или больше табличного, соответствующего вероятности р ≥99%.

    Способ 2
    Достоверность оценивается по специальной таблице стандартных коэффициентов корреляции. При этом достоверным считается такой коэффициент корреляции, когда при определенном числе степеней свободы (n - 2), он равен или более табличного, соответствующего степени безошибочного прогноза р ≥95%.

на применение метода квадратов

Задание: вычислить коэффициент корреляции, определить направление и силу связи между количеством кальция в воде и жесткостью воды, если известны следующие данные (табл. 1). Оценить достоверность связи. Сделать вывод.

Таблица 1

Обоснование выбора метода. Для решения задачи выбран метод квадратов (Пирсона), т.к. каждый из признаков (жесткость воды и количество кальция) имеет числовое выражение; нет открытых вариант.

Решение .
Последовательность расчетов изложена в тексте, результаты представлены в таблице. Построив ряды из парных сопоставляемых признаков, обозначить их через х (жесткость воды в градусах) и через у (количество кальция в воде в мг/л).

Жесткость воды
(в градусах)
Количество кальция в воде
(в мг/л)
d х d у d х х d у d x 2 d y 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
М х =Σ х / n М у =Σ у / n Σ d х x d у =7078 Σ d х 2 =982 Σ d y 2 =51056
М х =120/6=20 М y =852/6=142
  1. Определить средние величины M x ряду вариант "х" и М у в ряду вариант "у" по формулам:
    М х = Σх/n (графа 1) и
    М у = Σу/n (графа 2)
  2. Найти отклонение (d х и d у) каждой варианты от величины вычисленной средней в ряду "x" и в ряду "у"
    d х = х - М х (графа 3) и d y = у - М у (графа4).
  3. Найти произведение отклонений d x х d y и суммировать их: Σ d х х d у (графа 5)
  4. Каждое отклонение d x и d у возвести в квадрат и суммировать их значения по ряду "х" и по ряду "у": Σ d x 2 = 982 (графа 6) и Σ d y 2 = 51056 (графа 7).
  5. Определить произведение Σ d x 2 х Σ d y 2 и из этого произведения извлечь квадратный корень
  6. Полученные величины Σ (d x x d y) и √(Σd x 2 x Σd y 2) подставляем в формулу расчета коэффициента корреляции:
  7. Определить достоверность коэффициента корреляции:
    1-й способ. Найти ошибку коэффициента корреляции (mr xy) и критерий t по формулам:

    Критерий t = 14,1, что соответствует вероятности безошибочного прогноза р > 99,9%.

    2-й способ. Достоверность коэффициента корреляции оценивается по таблице "Стандартные коэффициенты корреляции" (см. приложение 1). При числе степеней свободы (n - 2)=6 - 2=4, наш расчетный коэффициент корреляции r xу = + 0,99 больше табличного (r табл = + 0,917 при р = 99%).

    Вывод. Чем больше кальция в воде, тем она более жесткая (связь прямая, сильная и достоверная : r ху = + 0,99, р > 99,9%).

    на применение рангового метода

    Задание: методом рангов установить направление и силу связи между стажем работы в годах и частотой травм, если получены следующие данные:

    Обоснование выбора метода: для решения задачи может быть выбран только метод ранговой корреляции, т.к. первый ряд признака "стаж работы в годах" имеет открытые варианты (стаж работы до 1 года и 7 и более лет), что не позволяет использовать для установления связи между сопоставляемыми признаками более точный метод - метод квадратов.

    Решение . Последовательность расчетов изложена в тексте, результаты представлены в табл. 2.

    Таблица 2

    Стаж работы в годах Число травм Порядковые номера (ранги) Разность рангов Квадрат разности рангов
    X Y d(х-у) d 2
    До 1 года 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 и более 6 5 1 +4 16
    Σ d 2 = 38,5

    Стандартные коэффициенты корреляции, которые считаются достоверными (по Л.С. Каминскому)

    Число степеней свободы - 2 Уровень вероятности р (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
    2. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
    3. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
    4. Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
    5. Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
    6. С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.

Коэффициент корреляции формула

В процессе хозяйственной деятельности человека постепенно сформировался целый класс задач по выявлению различных статистических закономерностей.

Требовалось оценивать степень детерминированности одних процессов другими, требовалось устанавливать тесноту взимозависимости между разными процессами, переменными.
Корреляция – это взаимосвязь переменных друг от друга.

Для оценки тесноты зависимости был введён коэффициент корреляции.

Физический смысл коэффициента корреляции

Чёткий физический смысл коэффициент корреляции имеет, если статистические параметры независимых переменных подчиняются нормальному распределению, графически такое распределение представляет кривую Гаусса. А зависимость линейна.

Коэффициент корреляции показывает, насколько один процесс детерминирован другим. Т.е. при изменении одного процесс как часто изменяется и зависимый процесс. Совсем не изменяется – нет зависимости, изменяется сразу каждый раз – полная зависимость.

Коэффициент корреляции может принимать значения в диапазоне [-1:1]

Нулевое значение коэффициента означает, что взаимосвязи между рассматриваемыми переменными нет.
Крайние значения диапазона означают полную зависимость между переменными.

Если значение коэффициента положительное, то зависимость прямая.

При отрицательном коэффициенте – обратная. Т.е. в первом случае при изменении аргумента функция пропорционально изменяется, во втором случае – обратно пропорционально.
При нахождении значения коэффициента корреляции в середине диапазона, т.е. от 0 до 1, либо от -1 до 0, говорят о неполной функциональной зависимости.
Чем ближе значение коэффициента к крайним показателям, тем большая взаимосвязь между переменными или случайными величинами. Чем ближе значение к 0, тем меньшая взаимозависимость.
Обычно коэффициент корреляции принимает промежуточные значения.

Коэффициент корреляции является безмерной величиной

Применяют коэффициент корреляции в статистике, в корреляционном анализе, для проверки статистических гипотез.

Выдвигая некоторую статистическую гипотезу зависимости одной случайной величины от другой – вычисляют коэффициент корреляции. По нему возможно вынести суждение — имеется ли взаимосвязь между величинами и насколько она плотная.

Дело в том, что не всегда можно увидеть взаимосвязь. Зачастую величины не связаны напрямую друг с другом, а зависят от многих факторов. Однако может оказаться, что через множество опосредованных связей случайные величины оказываются взаимозависимы. Конечно, это может не означать их непосредственную связь, так, к примеру, при исчезновении посредника может исчезнуть и зависимость.

КУРСОВАЯ РАБОТА

Тема: Корреляционный анализ

Введение

1. Корреляционный анализ

1.1 Понятие корреляционной связи

1.2 Общая классификация корреляционных связей

1.3 Корреляционные поля и цель их построения

1.4 Этапы корреляционного анализа

1.5 Коэффициенты корреляции

1.6 Нормированный коэффициент корреляции Браве-Пирсона

1.7 Коэффициент ранговой корреляции Спирмена

1.8 Основные свойства коэффициентов корреляции

1.9 Проверка значимости коэффициентов корреляции

1.10 Критические значения коэффициента парной корреляции

2. Планирование многофакторного эксперимента

2.1 Условие задачи

2.2 Определение центр плана (основной уровень) и уровня варьирования факторов

2.3 Построение матрицы планирования

2.4 Проверка однородности дисперсии и равноточности измерения в разных сериях

2.5 Коэффициенты уравнения регрессии

2.6 Дисперсия воспроизводимости

2.7 Проверка значимости коэффициентов уравнения регрессии

2.8 Проверка адекватности уравнения регрессии

Заключение

Список литературы

ВВЕДЕНИЕ

Планирование эксперимента -математико-статистическая дисциплина, изучающая методы рациональной организации экспериментальных исследований - от оптимального выбора исследуемых факторов и определения собственно плана эксперимента в соответствии с его целью до методов анализа результатов. Начало планирования эксперимента положили труды английского статистика Р.Фишера (1935), подчеркнувшего, что рациональное планирование экспериментадаёт не менее существенный выигрыш в точности оценок, чем оптимальная обработка результатов измерений. В 60-х годах 20 века сложилась современная теория планирования эксперимента. Её методы тесно связаны с теорией приближения функций и математическим программированием. Построены оптимальные планы и исследованы их свойства для широкого класса моделей.

Планирование эксперимента – выбор плана эксперимента, удовлетворяющего заданным требованиям, совокупность действий направленных на разработку стратегии экспериментирования (от получения априорной информации до получения работоспособной математической модели или определения оптимальных условий). Это целенаправленное управление экспериментом, реализуемое в условиях неполного знания механизма изучаемого явления.

В процессе измерений, последующей обработки данных, а также формализации результатов в виде математической модели, возникают погрешности и теряется часть информации, содержащейся в исходных данных. Применение методов планирования эксперимента позволяет определить погрешность математической модели и судить о ее адекватности. Если точность модели оказывается недостаточной, то применение методов планирования эксперимента позволяет модернизировать математическую модель с проведением дополнительных опытов без потери предыдущей информации и с минимальными затратами.

Цель планирования эксперимента – нахождение таких условий и правил проведения опытов при которых удается получить надежную и достоверную информацию об объекте с наименьшей затратой труда, а также представить эту информацию в компактной и удобной форме с количественной оценкой точности.

Среди основных методов планирования, применяемых на разных этапах исследования, используют:

Планирование отсеивающего эксперимента, основное значение которого выделение из всей совокупности факторов группы существенных факторов, подлежащих дальнейшему детальному изучению;

Планирование эксперимента для дисперсионного анализа, т.е. составление планов для объектов с качественными факторами;

Планирование регрессионного эксперимента, позволяющего получать регрессионные модели (полиномиальные и иные);

Планирование экстремального эксперимента, в котором главная задача – экспериментальная оптимизация объекта исследования;

Планирование при изучении динамических процессов и т.д.

Целью изучения дисциплины является подготовка студентов к производственно-технической деятельности по специальности с применением методов теории планирования и современных информационных технологий.

Задачи дисциплины: изучение современных методов планирования, организации и оптимизации научного и промышленного эксперимента, проведения экспериментов и обработки полученных результатов.

1. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

1.1 Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, может ли рост влиять на вес человека или может ли давление влиять на качество продукции?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Корреляционные связи - это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. Оба термина - корреляционная связь и корреляционная зависимость - часто используются как синонимы. Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

Корреляционные связи различаютсяпо форме, направлению и степени (силе).

По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (рисунок 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.

Рисунок 1 - Связь между эффективностью решения задачи и силой мотивационной тенденции

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (рисунок 2). При отрицательной корреляции соотношения обратные (рисунок 3). При положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак.

Рисунок 2 – Прямая корреляция

Рисунок 3 – Обратная корреляция


Рисунок 4 – Отсутствие корреляции

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

1.2 Общая классификация корреляционных связей

В зависимости от коэффициента корреляции различают следующие корреляционные связи:

Сильная, или тесная при коэффициенте корреляции r>0,70;

Средняя (при 0,50

Умеренная (при 0,30

Слабая (при 0,20

Очень слабая (при r<0,19).

1.3 Корреляционные поля и цель их построения

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i . Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: μ x , μ y – средние значения (математические ожидания); σ x ,σ y – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

Регрессионный анализ позволяет оценить, как одна переменная зависит от другой и каков разброс значений зависимой переменной вокруг прямой, определяющей зависимость. Эти оценки и соответствующие доверительные интервалы позволяют предсказать значение зависимой переменной и определить точность этого предсказания.

Результаты регрессионного анализа можно представить только в достаточно сложной цифровой или графической форме. Однако нас часто интересует не предсказание значения одной переменной по значению другой, а просто характеристика тесноты (силы) связи между ними, при этом выраженная одним числом.

Эта характеристика называется коэффициентом корреляции, обычно ее обозначают буквой г. Коэффициент корреляции мо-

жет принимать значения от -1 до +1. Знак коэффициента корреляции показывает направление связи (прямая или обратная), а абсолютная величина - тесноту связи. Коэффициент, равный -1, определяет столь же жесткую связь, что и равный 1. В отсутствие связи коэффициент корреляции равен нулю.

На рис. 8.10 приведены примеры зависимостей и соответствующие им значения г. Мы рассмотрим два коэффициента корреляции.

Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регресси
онный анализ, он требует нормальности распределения. Когда говорят просто о «коэффициенте корреляции», почти всегда имеют в виду коэффициент корреляции Пирсона, именно так мы и будем поступать.

Коэффициент ранговой корреляции Спирмена можно использовать, когда связь нелинейна-и не только для количественных, но и для порядковых признаков. Это непараметрический метод, он не требует какого-либо определенного типа распределения.

О количественных, качественных и порядковых признаках мы уже говорили в гл. 5. Количественные признаки - это обычные числовые данные, такие, как рост, вес, температура. Значения количественного признака можно сравнить между собой и сказать, какое из них больше, на сколько и во сколько раз. Например, если один марсианин весит 15 г, а другой 10, то первый тяжелее второго и в полтора раза и на 5 г. Значения порядкового признака тоже можно сравнить, сказав, какое из них больше, но нельзя сказать, ни на сколько, ни во сколько раз. В медицине порядковые признаки встречаются довольно часто. Например, результаты исследования влагалищного мазка по Папаниколау оценивают по такой шкале: 1) норма, 2) легкая дисплазия, 3) умеренная дисплазия, 4) тяжелая дисплазия, 5) рак in situ. И количественные, и порядковые признаки можно расположить по порядку - на этом общем свойстве основана большая группа непараметрических критериев, к которым относится и коэффициент ранговой корреляции Спирмена. С другими непараметрическими критериями мы познакомимся в гл. 10.

Коэффициент корреляции Пирсона

И все же, почему для описания тесноты связи нельзя воспользоваться регрессионным анализом? В качестве меры тесноты связи можно было бы использовать остаточное стандартное отклонение. Однако если поменять местами зависимую и независимую переменные, то остаточное стандартное отклонение, как и другие показатели регрессионного анализа, будет иным.

Взглянем на рис. 8.11. По известной нам выборке из 10 марсиан построены две линии регрессии. В одном случае вес - зависимая переменная, во втором - независимая. Линии регрессии заметно разли-



20

Если поменять местами х и у, уравнение регрессии получится другим, а коэф- ■ корреляции останется прежним.

чаются. Получается, что связь роста с весом одна, а веса с ростом - другая. Асимметричность регрессионного анализа - вот что мешает непосредственно использовать его для характеристики силы связи. Коэффициент корреляции, хотя его идея вытекает из регрессионного анализа, свободен от этого недостатка. Приводим формулу.

r Y(X - X)(Y - Y)

&((- X) S(y - Y)2"

где X и Y - средние значения переменных X и Y. Выражение для r «симметрично» -поменяв местами Xи Y, мы получим ту же величину. Коэффициент корреляции принимает значения от -1 до +1. Чем теснее связь, тем больше абсолютная величина коэффициента корреляции. Знак показывает направление связи. При r > 0 говорят о прямой корреляции (с увеличением одной переменной другая также возрастает), при r Возьмем пример с 10 марсианами, который мы уже рассматривали с точки зрения регрессионного анализа. Вычислим коэффициент корреляции. Исходные данные и промежуточные результаты вычислений приведены в табл. 8.3. Объем выборки n = 10, средний рост

X = £ X/n = 369/10 = 36,9 и вес Y = £ Y/n = 103,8/10 = 10,38.

Находим Щ- X)(Y- Y) = 99,9, Щ- X)2 = 224,8, £(Y - Y)2 = 51,9.

Подставим полученные значения в формулу для коэффициента корреляции:

224,8 х 51,9 ’ "

Величина r близка к 1, что говорит о тесной связи роста и веса. Чтобы лучше представить себе, какой коэффициент корреляции следует считать большим, а какой незначительным, взгляни-

Таблица 8.3. Вычисление коэффициента корреляции
X Y X -X Y-Y (X -X)(Y-Y) (X -X)2 (Y-Y)2
31 7,8 -5,9 -2,6 15,3 34,8 6,8
32 8,3 -4,9 -2,1 10,3 24,0 4,4
33 7,6 -3,9 -2,8 10,9 15,2 7,8
34 9,1 -2,9 -1,3 3,8 8,4 1,7
35 9,6 -1,9 -0,8 1,5 3,6 0,6
35 9,8 -1,9 -0,6 1,1 3,6 0,4
40 11,8 3,1 1,4 4,3 9,6 2,0
41 12,1 4,1 1,7 7,0 16,8 2,9
42 14,7 5,1 4,3 22,0 26,0 18,5
46 13,0 9,1 2,6 23,7 82,8 6,8
369 103,8 0,0 0,2 99,9 224,8 51,9


те на табл. 8.4 - в ней приведены коэффициенты корреляции для примеров, которые мы разбирали ранее.

Связь регрессии и корреляции

Все примеры коэффициентов корреляции (табл. 8.4) мы первоначально использовали для построения линий регрессии. Действительно, между коэффициентом корреляции и параметрами регрессионного анализа существует тесная связь, которую мы сейчас продемонстрируем. Разные способы представления коэффициента корреляции, которые мы при этом получим, позволят лучше понять смысл этого показателя.

Вспомним, что уравнение регрессии строится так, чтобы минимизировать сумму квадратов отклонений от линии регрессии.


Обозначим эту минимальную сумму квадратов S (эту величину называют остаточной суммой квадратов). Сумму квадратов отклонений значений зависимой переменной Y от ее среднего Y обозначим S^. Тогда:

Величина г2 называется коэффициентом детерминации - это просто квадрат коэффициента корреляции. Коэффициент детерминации показывает силу связи, но не ее направленность.

Из приведенной формулы видно, что если значения зависимой переменной лежат на прямой регрессии, то S = 0, и тем самым r = +1 или r = -1, то есть существует линейная связь зависимой и независимой переменной. По любому значению независимой переменной можно совершенно точно предсказать значение зависимой переменной. Напротив, если переменные вообще не связаны между собой, то Soci = SofSisi Тогда r = 0.

Видно также, что коэффициент детерминации равен той доле общей дисперсии S^, которая обусловлена или, как говорят, объясняется линейной регрессией.

Остаточная сумма квадратов S связана с остаточной дисперсией s2y\x соотношением Socj = (п - 2) s^, а общая сумма квадратов S^ с дисперсией s2 соотношением S^ = (п - 1)s2 . В таком случае

r2 = 1 _ n _ 2 sy\x п _1 sy

Эта формула позволяет судить о зависимости коэффициента корреляции от доли остаточной дисперсии в полной дисперсии

six/s2y Чем эта доля меньше, тем больше (по абсолютной величине) коэффициент корреляции, и наоборот.

Мы убедились, что коэффициент корреляции отражает тесноту линейной связи переменных. Однако если речь идет о предсказании значения одной переменной по значению другой, на
коэффициент корреляции не следует слишком полагаться. Например, данным на рис. 8.7 соответствует весьма высокий коэффициент корреляции (г = 0,92), однако ширина доверительной области значений показывает, что неопределенность предсказания довольно значительна. Поэтому даже при большом коэффициенте корреляции обязательно вычислите доверительную область значений.


И под конец приведем соотношение коэффициента корреляции и коэффициента наклона прямой регрессии b:

где b - коэффициент наклона прямой регрессии, sx и sY - стандартные отклонения переменных.

Если не брать во внимание случай sx = 0, то коэффициент корреляции равен нулю тогда и только тогда, когда b = 0. Этим фактом мы сейчас и воспользуемся для оценки статистической значимости корреляции.

Статистическая значимость корреляции

Поскольку из b = 0 следует г = 0, гипотеза об отсутствии корреляции равнозначна гипотезе о нулевом наклоне прямой регрессии. Поэтому для оценки статистической значимости корреляции можно воспользоваться уже известной нам формулой для оценки статистической значимости отличия b от нуля:

Здесь число степеней свободы v = n - 2. Однако если коэффициент корреляции уже вычислен, удобнее воспользоваться формулой:

Число степеней свободы здесь также v = п - 2.

При внешнем несходстве двух формул для t, они тождественны. Действительно, из того, что


r 2 _ 1 - n_ 2 Sy]x_

Подставив значение sy^x в формулу для стандартной ошибки

Животный жир и рак молочной железы

В опытах на лабораторных животных показано, что высокое содержание животного жира в рационе повышает риск рака молочной железы. Наблюдается ли эта зависимость у людей? К. Кэррол собрал данные о потреблении животных жиров и смертности от рака молочной железы по 39 странам. Результат представлен на рис. 8.12А. Коэффициент корреляции между потреблением животных жиров и смертностью от рака молочной железы оказался равен 0,90. Оценим статистическую значимость корреляции.

0,90 1 - 0,902 39 - 2

Критическое значение t при числе степеней свободы v = 39 - 2 = 37 равно 3,574, то Єсть меньше полученного нами. Таким образом, при уровне значимости 0,001 можно утверждать, что существует корреляция между потреблением животных жиров и смертностью от рака молочной железы.

Теперь проверим, связана ли смертность с потреблением растительных жиров? Соответствующие данные приведены на рис. 8.12Б. Коэффициент корреляции равен 0,15. Тогда

1 - 0,152 39 - 2

Даже при уровне значимости 0,10 вычисленное значение t меньше критического. Корреляция статистически не значима.

Транскрипт

1 Иткина А.Я. Коэффициенты корреляции и специфика их применения Основное назначение корреляционного анализа выявление связи между двумя или более изучаемыми переменными. Чаще всего анализируется совместное согласованное изменение двух исследуемых показателей, являющихся случайными величинами. Данная изменчивость обладает тремя основными характеристиками: формой, направлением и силой. По форме корреляционная связь может быть линейной или нелинейной. По направлению положительной или отрицательной. По силе тесной, слабой или отсутствовать. Корреляционный анализ возможен как на основе графического представления исходных данных, так и с помощью вычисления коэффициента корреляции и проверки его статистической значимости. Обычно одно исследование дополняет другое. В настоящее время разработано множество различных коэффициентов корреляции. Наиболее применяемыми являются r-пирсона, r-спирмена и τ-кендалла. В зависимости от решаемой задачи и от вида исходных данных стоит отдавать предпочтение одному из этих коэффициентов. Общим для них является то, что все упомянутые коэффициенты применяются для изучения взаимосвязи двух переменных, измеренных на одной и той же выборке. Они меняются в интервале от -1 до +1 и их знак показывает направление связи. Попробуем теперь разобраться в их различиях. Коэффициент корреляции Пирсона (Karl Pearson, английский математик, статистик, биолог и философ) применим, если обе переменные измерены в метрической (интервальной или абсолютной) шкале. Ограничением при использовании коэффициента корреляции Пирсона является отличие распределения хотя бы одной из переменных от нормального. Особенно сильно r- Пирсона реагирует на наличие выбросов. Для представленного на Рис. 1 облака точек r-пирсона равен,98, если учитывать только синие точки и,27, если считать по всем точкам, т.е. вместе с розовой точкой выбросом. Поскольку коэффициент r-пирсона есть мера 1

2 Коэффициенты корреляции и специфика их применения линейной связи, он неприменим для анализа нелинейных связей. Равенство r-пирсона означает, что линейная связь между переменными отсутствует r xy Рис. 1. Облако точек 1. Значение выборочного (x x)(y y) (x x) (y y) 2 2 r-пирсона может быть вычислено по формуле:. Равенство r-пирсона 1 говорит о функциональной линейной зависимости между изучаемыми переменными. Важным свойством r- Пирсона является нечувствительность к линейным преобразованиям переменных. значит Пусть kx b, тогда r y n n n n (kx b) kx b k x n b k x b, а n n n (kx b (k x b))(y y) (k(x x))(y y) (kx b (k x b)) (y y) (k (x x)) (y y) k (x x)(y y) k (x x)(y y) k r k (x x) (y y) k (x x) (y y) k положительном k коэффициенты корреляции совпадут, а при отрицательном ry xy, т.е. при r. xy Значимость r-пирсона, т.е. отличие его от, можно проверить с помощью статистики Стьюдента t r n r 2

3 Иткина А.Я. Гипотеза H:, rxy альтернативная H: 1 rxy. Соответственно, если t t n нулевая гипотеза отвергается в пользу альтернативной. Смысл (крит 2 ; 2) тестирования нулевой гипотезы, при условии репрезентативности имеющихся выборок, заключается в проверке предположения о случайности корреляционной связи между переменными, т.е. о независимости случайных величин (если связь линейна). Теория и практика Сложение 1 баррелей нефти и 1 км трубопроводов бессмысленно, но технически возможно (1+1=2). Вычисление коэффициента корреляции Пирсона для порядковых переменных, для переменных, имеющих произвольное распределение и даже для номинативных переменных технически возможно и даже имеет некоторый смысл. Итак, рассчитанный по формуле коэффициент корреляции является выборочной оценкой теоретической корреляции двух случайных величин r xy cov(xy ;) D(x) D(y). Для случайной величины, имеющей двумерное нормальное распределение, выборочный коэффициент корреляции при условии, что теоретический равен, имеет распределение Стьюдента с (n 2) степенями свободы. Именно на этом факте основана проверка гипотезы о равенстве коэффициента корреляции. Расчет коэффициента корреляции Пирсона в случаях нарушения условий его использования это попытка установить факт наличия или отсутствия связи между величинами. К сожалению в этих случаях распределение r-пирсона не известно. Поэтому выводы на основе такого анализа не надежны. Рангом наблюдения называют номер, который получит это наблюдение в упорядоченной по какому-либо признаку совокупности имеющихся данных. Например для выборки 3, 9, 26, -4, 11, 5, ранжированной по возрастанию рангами будут числа от 1 до 7: 3, 5, 7, 1, 6, 2, 4. Трудности в назначении рангов возникают, если среди элементов выборки встречаются совпадающие. Набор одинаковых наблюдений называют связкой, а количество наблюдений в одной связке ее размером. Связанным или средним рангом называется число, равное среднему арифметическому тех рангов, которые были бы у 3

4 Коэффициенты корреляции и специфика их применения чисел в связке, если бы они различались. Например для выборки 6, 15, 12, 6, 1, 15, 9, 15 соответствующие ранги будут 1 1 2, 7, 5, 1 1 2, 4, 7, 3, 7. Коэффициент корреляции Спирмена (Charles Edward Spearman, английский психолог, статистик) применим, если обе переменные измерены в количественной (метрической или порядковой) шкале. Отсутствие ограничений на вид распределения исходных данных (переменных) вызвано тем, что это ранговый коэффициент корреляции. Спирмена n 6 (k t) 1 r 1 3 n n 2 Коэффициент корреляции Спирмена проигрывает r-пирсона только в меньшей чувствительности к связи в случаях несущественного отклонения распределения переменных от нормального. Идея r-спирмена в том, что обе переменные ранжируются (обозначим ранги k и t). И вычисляются разности между рангами для одного и того же наблюдения. Если для всех наблюдений разности близки к, значит рост одной переменной почти всегда сопровождается увеличением другой. По формуле видно, что в этом случае r-спирмена будет близок к 1. Для ручного подсчета удобна формула r-, которую можно использовать при отсутствии связанных рангов или небольшом (<1% наблюдений) их количестве. Ту же самую величину r-спирмена, более того без ограничения на связанные ранги, можно получить применив формулу r-пирсона к ранжированным переменным. Значимость коэффициента корреляции Спирмена проверяется по тем же формулам, что и значимость r-пирсона для n 3. Для выборок небольшого размера лучше пользоваться таблицами критических значений. Коэффициент корреляции Кендалла (Maurce George Kendall, английский статистик) применим, если обе переменные измерены в количественной 4

5 Иткина А.Я. (метрической или порядковой) шкале. Он также как и коэффициент корреляции Спирмена является ранговым. Основная идея, заложенная в τ-кендалла, заключается в изучении направления связи между переменными путем попарных сравнений между собой наблюдений. Ситуацию, при которой изменение Х для двух наблюдений сонаправлено с изменением Y для тех же наблюдений, назовем совпадением. А разнонаправленное изменение назовем инверсией. Например, если ранги по Х - 2, 1, 3, 4, а по Y - 3, 1, 2, 4, то изменение рангов при переходе от 1-го наблюдения ко второму сонаправлено (уменьшение), а при переходе от 1-го к третьему разнонаправлено (по Х рост, а по Y падение). Таких попарных сравнений нужно выполнить N(N 1), что весьма 2 трудоемко. Поэтому для ручного ета τ-кендалла принято упорядочивать наблюдения по одной из переменных, например по Х. τ-кендалла это разность относительных частот совпадений и инверсий для всех наблюдений: P Q, в преобразованном виде N(N 1) / 2 4Q 4P 1 1, N (N 1) N (N 1) где P число совпадений, Q число инверсий, P Q N (N 1) / 2. В Таблица 1 приведен пример подсчета числа совпадений и инверсий. Столбцы с 6 по 9 приведены для лучшего понимания того, что направление сортировки не влияет на величину τ- Кендалла. Сравниваем каждый ранг в столбце 3 со значениями, расположенными ниже его. Поскольку столбец 2 упорядочен по возрастанию, совпадениями будут все случаи, когда наблюдение с меньшим рангом выше по столбцу, чем наблюдение с большим рангом. При заполнении столбца 8 совпадением окажется значение ранга большее (столбец 7), чем у наблюдения ниже по столбцу. Например ранг 4 больше, чем 2, 3 и 1, т.е. всего 3 совпадения. 5

6 Коэффициенты корреляции и специфика их применения Таблица 1. Наблюдения Ранги Совпадения Инверсии Ранги Совпадения Инверсии Х Y P Q Х Y P Q (6 1) / 2 15 Σ = 11 Σ = 4 Σ = 11 Σ = 4 Это означает, что совпадения встречаются почти на 47 процентов чаще, чем инверсии. Другими словами вероятность совпадения, а инверсии Значимость коэффициент корреляции Кендалла проверяется по таблице стандартного нормального распределения, для чего рассчитывается статистика PQ 1 N (N 1) (2N 5) /18 и ее величина сравнивается с табличным значением. Либо находится величина вероятности, соответствующая, и она сравнивается с уровнем значимости. При этом надо помнить, что нулевой гипотезе об отсутствии корреляционной связи соответствует двусторонняя альтернатива о ее наличии. Для представленного выше примера (6 1) (2 6 5) / ,13, табл (,25) 1,96, т.е. на уровне значимости 3 17 /18 28,3 α=,5 не обнаружено корреляционной связи между переменными Х и Y. Или через вероятность p () 2, поскольку альтернатива двусторонняя).,129*2 =,258 >,5, получаем тот же вывод (умножаем на 6

7 Иткина А.Я. Основная идея ранговых коэффициентов корреляции заключается в том, что возможное количество перестановок n чисел-рангов равно n! и любая перестановка равновероятна. Поэтому вероятность случайного совпадения рангов у двух выборок ничтожно мала. При верности H распределение коэффициентов r-спирмена и τ- Кендалла симметрично и концентрируется около нуля. Для небольших выборок имеются таблицы критических значений статистик Спирмена и Кендалла, а при увеличении n их распределение приближается к стандартному нормальному. Если же H неверна, то последовательность рангов k каким-то образом "влияет" на последовательность t. Например, если ранги полностью совпадают, то это означает, что рост одной переменной однозначно связан с ростом другой переменной. Именно поэтому особенностью ранговых коэффициентов является выявление не только линейной связи между переменными, но и любого вида монотонной связи. Для представленного на Рис. 2 облака точек r-спирмена/τ-кендалла равны 1, если учитывать только синие точки и,75/,76, если считать по всем точкам, т.е. вместе с розовой точкой выбросом. Возвращаясь к Рис. 1, мы видим, что выброс привел к уменьшению r-пирсона на,98-,27=,71; r-спирмена на,99-,53=,46; τ-кендалла на,95-,64=,31. Т.е. плюсом ранговых коэффициентов корреляции является их меньшая чувствительность к выбросам, чем у r-пирсона Рис. 2. Облако точек 2. Поскольку коэффициенты r-спирмена и τ-кендалла показывают меру монотонной связи, они неприменимы для анализа связей, меняющих свое направление. Равенство r-спирмена или τ-кендалла означает, что монотонная связь между переменными отсутствует. 7

8 Коэффициенты корреляции и специфика их применения Пример 1. Эксперты оценивали риски освоения площади N месторождения М. Риски упорядочены в порядке убывания (от 1 максимального до 8 минимального). Согласованы ли оценки экспертов? Риски Оценки эксперта 1 Оценки эксперта 2 P (совпадения) Таблица 2. Q (инверсии) Геологический Технологический Технический Кредитный Спекулятивный Политический 6 7 Падение спроса 7 7 Природный форс-мажор 8 7 Σ = 2 Σ = Расчет совпадений и инверсий приведен в Таблица 2, вычислим поправочные коэффициенты: K x 3 (31) 3 (31) 3 (3 1) N(N 1) 3; Ky 6; 28; Тогда коэффициент корреляции Кендалла Коэффициент корреляции Спирмена для экспертных оценок равен,923, τ- Кендалла,853. Несмотря на отсутствие инверсий, коэффициенты корреляции меньше 1, поскольку наличие связок уменьшает изменчивость данных и соответственно возможности оценки корреляционной связи. Выше был приведен ет для проверки значимости τ-кендалла, однако статистика только асимптотически имеет нормальное распределение (n 3), а для маленькой выборки (n = 8) корректнее пользоваться таблицей критических точек. H: корреляционная связь отсутствует. При альтернативе: корреляция положительна, критические значения r-спирмена,643; τ-кендалла,571. Т.е. на уровне 5% оба коэффициента положительные. При альтернативе: корреляция 8

9 Иткина А.Я. ненулевая, критические значения r-спирмена,738; τ-кендалла,643. Т.е. на уровне 5% оба коэффициента ненулевые. Проверка гипотез о различии корреляций 1 Рассмотрим два примера, в которых будет проверена гипотеза H о равенстве коэффициентов корреляции в генеральных совокупностях. Пример 2. Изучался вопрос о влиянии антикоррозийного покрытия S на частоту аварий на трубопроводах. В течение полугода на 5 линейных участках трубопровода без покрытия и на 36 участках с покрытием фиксировалось количество аварий и толщина стенки трубы в месте аварии. Корреляция Пирсона для первой выборки составила r1,59, для второй r2,42. Можно ли предположить, что связь между толщиной стенки и количеством аварий исчезает при использовании антикоррозийного покрытия? В данном примере два анализируемых коэффициента корреляции рассчитаны по независимым выборкам. Процедура проверки H для независимых выборок состоит из следующих шагов. 1. Z-преобразование Фишера исходных коэффициентов корреляции (функция ФИШЕР() в Excel): и r ln 2 1 r, для заданных в примере коэффициентов 1 1,59 1 ln,68 2 1,59 1 1,42 ln,42 2. Расчет статистики критерия по формуле:,68, N 3 N ,1. 3. Сравнение с крит. По таблице стандартных нормальных вероятностей находим крит 1,96 для уровня значимости 5% и получаем крит. 1 Методы и идеи этой части заимствованы из учебного пособия: Наследов А.Д. Математические методы психологического исследования. СПб.: Речь, 212. С

10 Коэффициенты корреляции и специфика их применения 4. Вывод: коэффициенты корреляции статистически не отличимы, а следовательно антикоррозийное покрытие не повлияло на связь аварий с толщиной стенки трубы. Пример 3. В Германии изучалась связь между количеством солнечных часов в неделю (x), выработкой электричества с фотоэлементов (y), а также выработкой электричества с ветрогенераторных установок (). Исследование проводилось в светлое время суток. Важно было понять часто ли совпадает увеличение и падение электрогенерации из нескольких ВИЭ, а также изучить степень предсказуемости ветрогенерации, поскольку метеостанции лучше предсказывают солнечные дни, нежели силу ветра. Была собрана информация за 39 недель и вычислены коэффициенты парной корреляции r,71; r,4; r,29. xy x y Процедура проверки гипотезы о совпадении корреляционной связи между зависимыми выборками, какими в данном случае являются количество солнечных часов и электрогенерация из двух разных источников в эти же часы состоит из ета Z-критерия и вывода на основе сравнения с крит. Использование алгоритма тестирования таких гипотез для независимых выборок может привести к ошибкам за счет меньшей мощности такой проверки. Формула для (r r) N xy x (1 rxy) (1 rx) 2 ry (2 ry rxy rx)(1 rxy rx ry). Для имеющихся данных получилось равным 2,13, что больше, чем 1,96. Соответственно мы делаем вывод о том, что на уровне значимости 5% крит гипотезу следует отвергнуть. При этом, если выбрать уровень значимости равный 1%, основания для отвержения гипотезы отсутствовали бы. вывода К сожалению в случае, когда исходные данные не позволяют сделать уверенного оказывается неустойчивым к небольшому изменению исходных данных. При проверке отказалось, что увеличение уменьшению r x всего на четыре сотые приводит к до 1,9. Т.е. только при заметном отклонении от крит можно сделать уверенный вывод о совпадении/несовпадении коэффициентов корреляции в генеральной совокупности данных. 1

11 Иткина А.Я. Частный коэффициент корреляций Поскольку коэффициент корреляции отражает лишь математически наличие/отсутствие связи между переменными, возникает вопрос об истинной и ложной корреляции. Т.е. действительно ли связь между переменными носит осмысленный характер или она вызвана лишь влиянием выбросов или третьей переменной. В первом случае ошибочных выводов по коэффициенту корреляции можно избежать, рассмотрев облако точек для переменных. Второй случай более сложный, поскольку требует догадаться, что могло вызвать ложную корреляцию. Чтобы проиллюстрировать данную проблему рассмотрим данные по связи энергопотребления на душу населения, квт*час на чел./год (х) в нескольких странах с размером территории этих стран, кв. км (у). По выборке из 44 стран был рассчитан коэффициент корреляции Пирсона, который оказался равен,79. На Рис. 3 видно, что облако распадается на отдельные части, что вызывает сомнения в правильности применения коэффициента корреляции. Внимательно изучив список стран, вошедших в выборку, было сделано предположение о необходимости разделить их по ВВП на душу населения, $ США () Рис. 3. Облако точек: по оси х площадь стран; по у энергопотребление. Частный коэффициент корреляции показывает, какова была бы связь между двумя переменными, при условии, что влияние другой (других) переменных исключается. Частные коэффициенты могут быть разных порядков. Порядок коэффициента определяется числом факторов, влияние которых исключается. Здесь мы 11

12 Коэффициенты корреляции и специфика их применения рассматриваем только частный коэффициент корреляции первого порядка. После введения дополнительной переменной получены rx,93 и ry,76. r xy/ rxy rx ry,79,93,76, (1 rx)(1 ry) (1,93)(1,76) Проверим статистическую значимость частного коэффициента корреляции. Число степеней свободы уменьшилось до n 3. t rxy / n3,39. 1r 1, xy/ Поскольку t t (,25;41) 2,2 гипотезу об отсутствии корреляционной крит связи между электропотреблением и площадью территории страны на уровне значимости 5% необходимо отвергнуть. Однако эта связь не столь существенна, как казалось вначале. 12

13 Иткина А.Я. ПРИЛОЖЕНИЕ 1 Таблица критических значений рангового коэффициента корреляции Спирмена 2 (для проверки односторонних альтернатив; n объем выборки; α уровень значимости) 2 С сайта Йоркского университета (Великобритания) 13

14 Коэффициенты корреляции и специфика их применения ПРИЛОЖЕНИЕ 2 Таблица критических значений рангового коэффициента корреляции Кендалла 3 (для проверки односторонних альтернатив; n объем выборки; α уровень значимости) 3 С сайта Йоркского университета (Великобритания) 14


ТЕСТОВЫЙ КОНТРОЛЬ ПО МОДУЛЮ 2 1. Предположение, проверяемое при помощи научных методов а) научная гипотеза; б) статистическая гипотеза; в) гипотеза исследования; г) задача исследования. 2. Проверяемое

Куда мне отсюда идти? А куда ты хочешь попасть? А мне все равно, только бы попасть куда-нибудь. Тогда все равно куда идти. Куда-нибудь ты обязательно попадешь. Льюис Кэрролл Выбор статистического критерия

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ Линейная корреляция Как показано выше, облако точек можно описать двумя линиями регрессии регрессией X на Y и Y на X. Чем меньше угол между этими прямыми, тем сильнее зависимость

3 Методы статистической обработки данных 3. Анализ таблиц сопряженности. Для исследования взаимосвязи пары качественных признаков между собой применяется анализ таблиц сопряженности. Таблица сопряженности

Лекция 0.3. Коэффициент корреляции В эконометрическом исследовании вопрос о наличии или отсутствии зависимости между анализируемыми переменными решается с помощью методов корреляционного анализа. Только

7. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ Линейная регрессия Метод наименьших квадратов () Линейная корреляция () () 1 Практическое занятие 7 КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ Для решения практических

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ

Эконометрическое моделирование Лабораторная работа Корреляционный анализ Оглавление Понятие корреляционного и регрессионного анализа... 3 Парный корреляционный анализ. Коэффициент корреляции... 4 Задание

Корреляция Материал из Википедии свободной энциклопедии Корреля ция статистическая взаимосвязь двух или нескольких случайных величин (либо величин которые можно с некоторой допустимой степенью точности

Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования «МАТИ» Российский государственный технологический университет им. К.Э. Циолковского

Лекция 8. Непараметрические критерии независимости. Корреляционный анализ Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2014 Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург,

Лекция Корреляционный анализ. Описательные статистики. Коэффициент корреляции определяется: xy Корреляционный анализ M mx Y m Коэффициент показывает меру линейной зависимости между x и y, где x и y среднеквадратичные

УДК...0 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ИЗМЕРЕНИЙ РЕЖИМНЫХ ПАРАМЕТРОВ В ЗАДАЧЕ УПРАВЛЕНИЯ ЭЛЕКТРИЧЕСКОЙ СИСТЕМЫ Павлюков В.С., Павлюков С.В. Южно-Уральский государственный университет, г. Челябинск, Россия Основные

СТАТИСТИЧЕСКИЙ ВЫВОД 1. Введение в проблему статистического вывода 2. Статистические гипотезы 3. Статистический критерий 4. Статистическая значимость 5. Классификация статистических критериев 6. Содержательная

Методические указания Корреляция Регрессией Y на X или условным математическим ожиданием случайной величины Y относительно случайной величины X называется функция вида М (Y/ x)=f(x). Регрессией X на Y

Лекция 6. Методы измерения тесноты парной корреляционной связи Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены признаки,

Лекция 7. Непараметрические критерии независимости. Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2015 Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 1 / 31 Cодержание

Методические указания для выполнения лабораторной работы Найти выборочное уравнение линейной регрессии Y на X на основании корреляционной таблицы. Методические указания Регрессией Y на X или условным математическим

Проверка статистических гипотез 1 Основные понятия. Нулевая гипотеза (H 0) утверждение о параметре генеральной совокупности (параметрах генеральных совокупностей) или распределении, которое необходимо

Лекция 8. Непараметрические критерии однородности и независимости Буре В.М., Грауэр Л.В. ШАД Санкт-Петербург, 2013 Буре В.М., Грауэр Л.В. (ШАД) Непараметрические критерии... Санкт-Петербург, 2013 1 / 39

7 Корреляционный и регрессионный анализ. Корреляционный анализ статистических данных.. Регрессионный анализ статистических данных. Статистические связи между переменными можно изучать методами дисперсионного,

Лекция 7 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ ЦЕЛЬ ЛЕКЦИИ: определить понятие статистических гипотез и правила их проверки; провести проверку гипотез о равенстве средних значений и дисперсий нормально распределенной

Поволжский государственный технологический университет Кафедра РТиМБС Методические указания к выполнению лабораторной работы 4 по дисциплине «Автоматизация обработки экспериментальных данных» Анализ сходства

МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ЗЕМЛЕУСТРОЙСТВЕ Карпиченко Александр Александрович доцент кафедры почвоведения и земельных информационных систем Литература elib.bsu.by Математические методы в землеустройстве [Электронный

11 Тесты по математической статистике Тест 1 P 1 Для любого x имеет место соотношение F x правую часть Заполните Дана выборка (3,1,3,1,4, 5) Составьте вариационный ряд 3 Что оценивают x и выборочная

Лекция 7 ЭКОНОМЕТРИКА 7 Анализ качества эмпирического уравнения множественной линейной регрессии Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа Построенное

МИНОБРНАУКИ РОССИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» КАМЫШИНСКИЙ ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ (ФИЛИАЛ)

Проверка статистической гипотезы о математическом ожидании нормального распределения при известной дисперсии. Пусть имеется нормально распределенная случайная величина N, определенная на множестве объектов

3.4. СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ВЫБОРОЧНЫХ ЗНАЧЕНИЙ ПРОГНОЗНЫХ МОДЕЛЕЙ До сих пор мы рассматривали способы построения прогнозных моделей стационарных процессов, не учитывая одной весьма важной особенности.

Теория вероятностей и медицинская статистика АНАЛИЗ ЗАВИСИМОСТЕЙ Лекция 7 Кафедра медицинской информатики РУДН Содержание лекции 1. Шкалы измерений 2. Обзор статистических методов анализа 3. Корреляционный

Иткина А.Я. Эконометрика на практике Введение. Исследование в любой области знания предполагает получение результатов обычно в виде чисел. Однако просто собрать данные недостаточно. Даже объективно и корректно

Лекция 10. Методы измерения тесноты парной корреляционной связи. Часть 1 Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены

Содержание задачи: Исследовать влияние денежных доходов населения на оборот розничной торговли - Денежные доходы населения (в среднем на душу населения в месяц), руб. y - Оборот розничной торговли, млрд.

Лекция 5 ЭКОНОМЕТРИКА 5 Проверка качества уравнения регрессии Предпосылки метода наименьших квадратов Рассмотрим модель парной линейной регрессии X 5 Пусть на основе выборки из n наблюдений оценивается

МВДубатовская Теория вероятностей и математическая статистика Лекция 4 Регрессионный анализ Функциональная статистическая и корреляционная зависимости Во многих прикладных (в том числе экономических) задачах

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ПСИХОЛОГИИ И СОЦИАЛЬНОЙ РАБОТЫ Факультет прикладной психологии Очно-заочная форма обучения САМОСТОЯТЕЛЬНАЯ РАБОТА По дисциплине: «МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ»

Медицинская статистика Специальность «Лечебное дело» Проверка статистических гипотез Критерии согласия Определение статистической гипотезы Статистическая гипотеза - предположение о виде распределения или

Проверка статистических гипотез 1. Статистические гипотезы; 2. Критерии проверки гипотез; 3. Проверка параметрических гипотез; 4. Критерий Пирсона Завершить показ Статистические гипотезы. Статистические

Информационные технологии в физической культуре и спорте Процессы преобразования информации связаны с информационными технологиями. Технология в переводе с греческого - искусство, умение, а это не что

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего образования «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ СТРОИТЕЛЬНЫЙ

Домашнее задание. Обработка результатов наблюдений двухмерного случайного вектора.1. Содержание и порядок выполнения работы Дана парная выборка (x i ; y i) объема 50 из двумерного нормально распределенного

Тема 4. Анализ матрицы корреляции и его место в регрессионном анализе 4.1. Коэффициент корреляции Коэффициент парной корреляции (Пирсона) показывает меру линейной связи между переменными он принимает значения

Корреляционный и регрессионный анализ. План. 1. Понятие корреляции. Функциональная и корреляционная зависимость. Графики рассеяния. 2. Коэффициент корреляции и его свойства. Коэффициент детерминации. 3.

65 4 ДИСПЕРСИОННЫЙ АНАЛИЗ Дисперсионный анализ разработан для сельскохозяйственных и биологических исследований Р.А. Фишером на основе открытого им закона распределения отношения средних квадратов (дисперсий)

Лукьянова Е.А. Медицинская статистика Специальность «Лечебное дело» 3 Проверка статистических гипотез Критерии согласия Критерий Стьюдента для связанных выборок Критерий Стьюдента для несвязанных выборок

ИЗУЧЕНИЕ СТАТИСТИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ РАДИОАКТИВНОГО РАСПАДА Лабораторная работа 8 Цель работы: 1. Подтверждение случайного, статистического характера процессов радиоактивного распада ядер.. Ознакомление

55 3 РЕГРЕССИОННЫЙ АНАЛИЗ 3 Постановка задачи регрессионного анализа Экономические показатели функционирования предприятия (отрасли хозяйства) как правило представляются таблицами статистических данных:

РЕГРЕССИОННЫЙ АНАЛИЗ Пусть у нас есть серии значений двух параметров. Подразумевается, что у одного и того же объекта измерены два параметра. Нам надо выяснить есть ли значимая связь между этими параметрами.

МУЛЬТИКОЛЛИНЕАРНОСТЬ МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Серьезной проблемой при построении моделей множественной регрессии на основе метода наименьших квадратов (МНК) является мультиколлинеарность Мультиколлинеарность

Федеральное агентство воздушного транспорта Федеральное государственное образовательное учреждение высшего профессионального образования МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ ГРАЖДАНСКОЙ АВИАЦИИ

Задача.Имеются следующие данные: Вариант 8 Номер семьи 3 4 5 6 7 8 9 0 Число совместно проживающих членов семьи, 3 3 4 4 4 5 6 7 7 чел. Годовое потребление электроэнергии, тыс. кв.- час 5 8 0 4 6 9 3 8.

Практическая работа Обработка и анализ результатов коллективных решений Цель работы определить коллективную оценку объектов (факторов и пр с точки зрения их воздействия на некоторую цель или показатель

Квантили Выборочная квантиль x p порядка p (0 < p < 1) определяется как элемент вариационного ряда выборки x (1), x () с номером [p]+1, где [a] целая часть числа а В статистической практике используется

ТЕСТОВЫЙ КОНТРОЛЬ ПО МОДУЛЮ 1 1. Множество объектов, в отношении которого формулируется исследовательская гипотеза а) случайная выборка; б) генеральная совокупность; в) зависимая выборка; г) независимая

3 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 3 Основные понятия статистической проверки гипотезы Статистическая проверка гипотез тесно связана с теорией оценивания параметров распределений В экономике, технике, естествознании,

Лекция 11. Методы измерения тесноты парной корреляционной связи. Часть Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПРОМЫШЛЕННЫХ