Основы анализа данных.
Типичной задачей, возникающей на практике, является определение зависимостей или связей между переменными. В реальной жизни переменные связаны друг с другом . Например, в маркетинге количество денег, вложенных в рекламу, влияет на объемы продаж; в медицинских исследованиях доза лекарственного препарата влияет на эффект; в текстильном производстве качество окрашивания ткани зависит от температуры, влажности и др. параметров; в металлургии качество стали зависит от специальных добавок и т.д. Найти зависимости в данных и использовать их в своих целях - задача анализа данных.
Предположим, вы наблюдаете значения пары переменных X и Y и хотите найти зависимость между ними. Например:
X - количество посетителей интернет магазина, Y - объем продаж;
X - диагональ плазменной панели, Y - цена;
X - цена покупки акции, Y- цена продажи;
X - стоимость алюминия на Лондонской бирже, Y – объемы продаж;
X - количеством прорывов на нефтепроводах, Y - величина потерь;
X - «возраст» самолета, Y - расходы на его ремонт;
X - торговая площадь, Y - оборот магазина;
X - доход, Y - потребление и т. д.
Переменная X обычно носит название независимой переменной (англ. independent variable), переменная Y называется зависимой переменной (англ. dependent variable). Иногда переменную X называют предиктором, переменную Y - откликом.
Мы хотим определить именно зависимость от X или предсказать, какими будут значения Y при данных значениях X. В данном случае мы наблюдаем значения X и соответствующие им значения Y. Задача состоит в том, чтобы построить модель, позволяющую по значениям X, отличным от наблюдаемых, определить Y. В статистике подобные задачи решаются в рамках регрессионного анализа.
Существуют различные регрессионные модели , определяемые выбором функции f(x 1 ,x 2 ,…,x m):
1) Простая линейная регрессия
2) Множественная регрессия
3) Полиномиальная регрессия
Коэффициенты называются параметрами регрессии.
Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными.
Последовательность этапов регрессионного анализа
1. Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений.
2. Определение зависимых и независимых (объясняющих) переменных.
3. Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель.
4. Формулировка гипотезы о форме связи (простая или множественная, линейная или нелинейная).
5. Определение функции регрессии (заключается в расчете численных значений параметров уравнения регрессии)
6. Оценка точности регрессионного анализа.
7. Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов.
8. Предсказание неизвестных значений зависимой переменной.
При помощи регрессионного анализа возможно решение задачи прогнозирования и классификации. Прогнозные значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. Решение задачи классификации осуществляется таким образом: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та, где оно меньше нуля, - к другому классу.
Основные задачи регрессионного анализа: установление формы зависимости, определение функции регрессии, оценка неизвестных значений зависимой переменной.
Линейная регрессия
Линейная регрессия сводится к нахождению уравнения вида
Или . (1.1)
x - называется независимой переменной или предиктором.
Y – зависимая переменная или переменная отклика. Это значение, которое мы ожидаем для y (в среднем), если мы знаем величину x , т.е. это «предсказанное значение y »
· a – свободный член (пересечение) линии оценки; это значение Y , когда x=0 (Рис.1).
· b – угловой коэффициент или градиент оценённой линии; она представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем x на одну единицу.
· a и b называют коэффициентами регрессии оценённой линии, хотя этот термин часто используют только для b .
· e - ненаблюдаемые случайные величины со средним 0, или их еще называют ошибками наблюдений, предполагается что ошибки не коррелированы между собой.
Рис.1. Линия линейной регрессии, показывающая пересечение a и угловой коэффициент b (величину возрастания Y при увеличении x на одну единицу)
Уравнение вида позволяет по заданным значениям фактора х иметь теоретические значения результативного признака, подставляя в него фактические значения фактора х . На графике теоретические значения представляют линию регрессии.
В большинстве случав (если не всегда) наблюдается определенный разброс наблюдений относительно регрессионной прямой.
Теоретической линией регрессии называется та линия, вокруг которой группируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи.
Важным этапом регрессионного анализа является определение типа функции, с помощью которой характеризуется зависимость между признаками. Главным основанием для выбора вида уравнения должен служить содержательный анализ природы изучаемой зависимости, ее механизма.
Для нахождения параметров а и b уравнения регрессии используем метод наименьших квадратов (МНК) . При применении МНК для нахождения такой функции, которая наилучшим образом соответствует эмпирическим данным, считается, что сумма квадратов отклонений (остаток) эмпирических точек от теоретической линии регрессии должна быть величиной минимальной.
Подгонка оценивается, рассматривая остатки (вертикальное расстояние каждой точки от линии, например, остаток = наблюдаемому y – предсказанный y , Рис. 2).
Линию лучшей подгонки выбирают так, чтобы сумма квадратов остатков была минимальной.
Рис. 2. Линия линейной регрессии с изображенными остатками (вертикальные пунктирные линии) для каждой точки.
После несложных преобразований получим систему нормальных уравнений способа наименьших квадратов для определения величины параметров a и b уравнения прямолинейной корреляционной связи по эмпирическим данным:
. (1.2)
Решая данную систему уравнений относительно b , получим следующую формулу для определения этого параметра:
(1.3)
Где и - средние значения y, x.
Значение параметра а получим, разделив обе части первого уравнения в данной системе на n :
Параметр b в уравнении называют коэффициентом регрессии. При наличии прямой корреляционной зависимости коэффициент регрессии имеет положительное значение, а в случае обратной зависимости коэффициент регрессии – отрицательный.
Если знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной.
Если знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).
Коэффициент регрессии показывает, на сколько в среднем изменяется величина результативного признака y при изменении факторного признака х на единицу, геометрический коэффициент регрессии представляет собой наклон прямой линии, изображающей уравнение корреляционной зависимости, относительно оси х (для уравнения ).
Из-за линейного соотношения и мы ожидаем, что изменяется, по мере того как изменяется , и называем это вариацией, которая обусловлена или объясняется регрессией. Остаточная вариация должна быть как можно меньше.
Если это так, то большая часть вариации будет объясняться регрессией, а точки будут лежать близко к линии регрессии, т.е. линия хорошо соответствует данным.
Количественной характеристикой степени линейной зависимости между случайными величинами X и Y является коэффициент корреляции r ( Показатель тесноты связи между двумя признаками) .
Коэффициент корреляции:
где x - значение факторного признака;
y - значение результативного признака;
n - число пар данных.
Рис.3 - Варианты расположения «облака» точек
Если коэффициент корреляции r=1 , то между X и Y имеет место функциональная линейная зависимость, все точки (x i ,y i) будут лежать на прямой.
Если коэффициент корреляции r=0 (r~0) , то говорят, что X и Y некоррелированы, т.е. между ними нет линейной зависимости.
Связь между признаками (по шкале Чеддока) может быть сильной, средней и слабой. Тесноту связи определяют по величине коэффициента корреляции, который может принимать значения от -1 до +1 включительно . Критерии оценки тесноты связи показаны на рис. 1.
Рис. 4. Количественные критерии оценки тесноты связи
Любая зависимость между переменными обладает двумя важными свойствами: величиной и надежностью. Чем сильнее зависимость между двумя переменными, тем больше величина зависимости и тем легче предсказать значение одной переменной по значению другой переменной. Величину зависимости легче измерить, чем надежность.
Надежность зависимости не менее важна, чем ее величина. Это свойство связано с представительностью исследуемой выборки. Надежность зависимости характеризует, насколько вероятно, что эта зависимость будет снова найдена на других данных.
С ростом величины зависимости переменных ее надежность обычно возрастает.
Долю общей дисперсии , которая объясняется регрессией называют коэффициентом детерминации , обычно выражают через процентное соотношение и обозначают R 2 (в парной линейной регрессии это величина r 2 , квадрат коэффициента корреляции), позволяет субъективно оценить качество уравнения регрессии.
Коэффициент детерминации измеряет долю разброса относительно среднего значения, которую «объясняет» построенная регрессия. Коэффициент детерминации лежит в пределах от 0 до 1. Чем ближе коэффициент детерминации к 1, тем лучше регрессия «объясняет» зависимость в данных, значение близкое к нулю, означает плохое качество построенной модели. Коэффициент детерминации может максимально приближаться к 1, если все предикторы различны.
Разность представляет собой процент дисперсии, который нельзя объяснить регрессией.
Множественная регрессия
Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать влияние нескольких факторов. Например, объем выпуска продукции определяется величиной основных и оборотных средств, численностью персонала, уровнем менеджмента и т. д., уровень спроса зависит не только от цены, но и от имеющихся у населения денежных средств.
Основная цель множественной регрессии – построить модель с несколькими факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.
Множественной регрессией называют уравнение связи с несколькими независимыми переменными:
При наличии корреляционной связи между факторными и результативными признаками врачам нередко приходится устанавливать, на какую величину может измениться значение одного признака при изменении другого на общепринятую или установленную самим исследователем единицу измерения.
Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод регрессионного анализа.
Наиболее часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.
С этой целью применяется коэффициент регрессии и целый ряд других параметров. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.
В нашем примере ;
σ х = 4,6 (среднеквадратическое отклонение температуры воздуха в осенне-зимний период;
σ у = 8,65 (среднеквадратическое отклонение числа инфекционно-простудных заболеваний).
Таким образом, R у/х - коэффициент регрессии.
R у/х = -0,96 х (4,6 / 8,65) = 1,8, т.е. при снижении среднемесячной температуры воздуха (x) на 1 градус среднее
число инфекционно-простудных заболеваний (у) в осенне-зимний период будет изменяться на 1,8 случаев.
Например, среднее число инфекционно-простудных заболеваний (у) можно определить без специальных измерений при любом среднем
значении среднемесячной температуры воздуха (х). Так, если х = - 9°, R у/х = 1,8 заболеваний, М х = -7°,
М у = 20 заболеваний, то
у = 20 + 1,8 х (9-7) = 20 + 3,6 = 23,6 заболеваний.
Данное уравнение применяется в случае прямолинейной связи между двумя признаками (х и у).
Так, если σ у - среднеквадратическое отклонение числа простудных заболеваний = 8,65; r ху - коэффициент корреляции между числом простудных заболеваний (у) и среднемесячной температурой воздуха в осенне-зимний период (х) равен - 0,96, то
Например, характеризует разнообразие числа простудных заболеваний при определенном значении среднемесячной температуры воздуха
в осеннне-зимний период. Так, среднее число простудных заболеваний при температуре воздуха х 1 = -6° может колебаться
в пределах от 15,78 заболеваний до 20,62 заболеваний.
При х 2 = -9° среднее число простудных заболеваний может колебаться в пределах от 21,18 заболеваний до 26,02
заболеваний и т.д.
Сигма регрессии используется при построении шкалы регрессии, которая отражает отклонение величин результативного признака от среднего его значения, отложенного на линии регрессии.
При этом средние значения массы тела и роста (М х, и М у) для определенного возраста и пола известны
Для графического изображения шкалы регрессии на графике сначала отмечаются значения х, х 2 , х 3 (ось ординат), т.е. строится линия регрессии, например зависимости массы тела (у) от роста (х).
Затем в соответствующих точках у 1 , y 2 , y 3 отмечаются числовые значения сигмы регрессии, т.е. на графике находят наименьшее и наибольшее значения у 1 , y 2 , y 3 .
Физическое развитие считается дисгармоничным по массе тела, если масса тела ребенка для определенного роста находится в пределах второй сигмы регрессии: (у ± 2 σ Ry/x)
Физическое развитие будет резко дисгармоничным как за счет избыточной, так и за счет недостаточной массы тела, если масса тела для определенного роста находится в пределах третьей сигмы регрессии (у ± 3 σ Ry/x).
По результатам статистического исследования физического развития мальчиков 5 лет известно, что их средний рост (х) равен 109 см, а средняя масса тела (у) равна 19 кг. Коэффициент корреляции между ростом и массой тела составляет +0,9, средние квадратические отклонения представлены в таблице.
Требуется:
Условие задачи и результаты ее решения представлены в сводной таблице.
Таблица 1
Условия задачи | Pезультаты решения задачи | ||||||||
уравнение регрессии | сигма регрессии | шкала регрессии (ожидаемая масса тела (в кг)) | |||||||
М | σ | r ху | R у/x | х | У | σ R x/y | y - σ Rу/х | y + σ Rу/х | |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Рост (х) | 109 см | ± 4,4см | +0,9 | 0,16 | 100см | 17,56 кг | ± 0,35 кг | 17,21 кг | 17,91 кг |
Масса тела (y) | 19 кг | ± 0,8 кг | 110 см | 19,16 кг | 18,81 кг | 19,51 кг | |||
120 см | 20,76 кг | 20,41 кг | 21,11 кг |
Решение .
Вывод.
Таким образом, шкала регрессии в пределах расчетных величин массы тела позволяет определить ее при любом другом
значении роста или оценить индивидуальное развитие ребенка. Для этого следует восстановить перпендикуляр к линии регрессии.
КОЭФФИЦИЕНТ РЕГРЕССИИ
- англ. coefficient, regression; нем. Regressionskoeffizient. Одна из характеристик связи между зависимой у и независимой переменной х. К. р. показывает, на сколько единиц увеличивается значение, принимаемое у, если переменная х изменится на единицу своего изменения. Геометрически К. р. является угловым коэффициентом наклона прямой линии у.
Antinazi. Энциклопедия социологии , 2009
коэффициент регрессии - — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN regression coefficient … Справочник технического переводчика
Коэффициент регрессии - 35. Коэффициент регрессии Параметр модели регрессионного анализа Источник: ГОСТ 24026 80: Исследовательские испытания. Планирование эксперимента. Термины и определения …
коэффициент регрессии - Коэффициент при независимой переменной в уравнении регрессии … Словарь социологической статистики
КОЭФФИЦИЕНТ РЕГРЕССИИ - англ. coefficient, regression; нем. Regressionskoeffizient. Одна из характеристик связи между зависимой у и независимой переменной х. К. р. показывает, на сколько единиц увеличивается значение, принимаемое у, если переменная х изменится на… … Толковый словарь по социологии
выборочный коэффициент регрессии - 2.44. выборочный коэффициент регрессии Коэффициент при переменной в уравнении кривой или поверхности регрессии Источник: ГОСТ Р 50779.10 2000: Статистические методы. Вероятность и основы статистики. Термины и определения … Словарь-справочник терминов нормативно-технической документации
Частный коэффициент регрессии - статистическая мера, обозначающая степень влияния независимой переменной на зависимую в ситуации, когда взаимовлияние всех остальных переменных в модели находится под контролем исследователя … Социологический словарь Socium
РЕГРЕССИИ, ВЕС - Синоним понятия коэффициент регрессии … Толковый словарь по психологии
КОЭФФИЦИЕНТ НАСЛЕДУЕМОСТИ - Показатель относительной доли генетической изменчивости в общей фенотипической вариации признака. Наиболее распространены следующие методы оценки наследуемости хозяйственно полезных признаков: где h2 коэффициент наследуемости; r внутриклассовая… … Термины и определения, используемые в селекции, генетике и воспроизводстве сельскохозяйственных животных
- (R квадрат) это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной… … Википедия
Коэффициент при независимой переменной в уравнении регрессии. Так, напр., в уравнении линейной регрессии, связывающей случайные величины Yи X, Р. к. b0 и b1 равны: где r корреляции коэффициент X и Y, . Вычисление оценок Р. к. (в ы б о р о ч н… … Математическая энциклопедия
Регрессионный анализ — это статистический метод исследования, позволяющий показать зависимость того или иного параметра от одной либо нескольких независимых переменных. В докомпьютерную эру его применение было достаточно затруднительно, особенно если речь шла о больших объемах данных. Сегодня, узнав как построить регрессию в Excel, можно решать сложные статистические задачи буквально за пару минут. Ниже представлены конкретные примеры из области экономики.
Само это понятие было введено в математику в 1886 году. Регрессия бывает:
Рассмотрим задачу определения зависимости количества уволившихся членов коллектива от средней зарплаты на 6 промышленных предприятиях.
Задача. На шести предприятиях проанализировали среднемесячную заработную плату и количество сотрудников, которые уволились по собственному желанию. В табличной форме имеем:
Количество уволившихся | Зарплата |
||
30000 рублей |
|||
35000 рублей |
|||
40000 рублей |
|||
45000 рублей |
|||
50000 рублей |
|||
55000 рублей |
|||
60000 рублей |
Для задачи определения зависимости количества уволившихся работников от средней зарплаты на 6 предприятиях модель регрессии имеет вид уравнения Y = а 0 + а 1 x 1 +…+а k x k , где х i — влияющие переменные, a i — коэффициенты регрессии, a k — число факторов.
Для данной задачи Y — это показатель уволившихся сотрудников, а влияющий фактор — зарплата, которую обозначаем X.
Анализу регрессии в Excel должно предшествовать применение к имеющимся табличным данным встроенных функций. Однако для этих целей лучше воспользоваться очень полезной надстройкой «Пакет анализа». Для его активации нужно:
Если все сделано правильно, в правой части вкладки «Данные», расположенном над рабочим листом «Эксель», появится нужная кнопка.
Теперь, когда под рукой есть все необходимые виртуальные инструменты для осуществления эконометрических расчетов, можем приступить к решению нашей задачи. Для этого:
В результате программа автоматически заполнит новый лист табличного процессора данными анализа регрессии. Обратите внимание! В Excel есть возможность самостоятельно задать место, которое вы предпочитаете для этой цели. Например, это может быть тот же лист, где находятся значения Y и X, или даже новая книга, специально предназначенная для хранения подобных данных.
В Excel данные полученные в ходе обработки данных рассматриваемого примера имеют вид:
Прежде всего, следует обратить внимание на значение R-квадрата. Он представляет собой коэффициент детерминации. В данном примере R-квадрат = 0,755 (75,5%), т. е. расчетные параметры модели объясняют зависимость между рассматриваемыми параметрами на 75,5 %. Чем выше значение коэффициента детерминации, тем выбранная модель считается более применимой для конкретной задачи. Считается, что она корректно описывает реальную ситуацию при значении R-квадрата выше 0,8. Если R-квадрата<0,5, то такой анализа регрессии в Excel нельзя считать резонным.
Число 64,1428 показывает, каким будет значение Y, если все переменные xi в рассматриваемой нами модели обнулятся. Иными словами можно утверждать, что на значение анализируемого параметра оказывают влияние и другие факторы, не описанные в конкретной модели.
Следующий коэффициент -0,16285, расположенный в ячейке B18, показывает весомость влияния переменной Х на Y. Это значит, что среднемесячная зарплата сотрудников в пределах рассматриваемой модели влияет на число уволившихся с весом -0,16285, т. е. степень ее влияния совсем небольшая. Знак «-» указывает на то, что коэффициент имеет отрицательное значение. Это очевидно, так как всем известно, что чем больше зарплата на предприятии, тем меньше людей выражают желание расторгнуть трудовой договор или увольняется.
Под таким термином понимается уравнение связи с несколькими независимыми переменными вида:
y=f(x 1 +x 2 +…x m) + ε, где y — это результативный признак (зависимая переменная), а x 1 , x 2 , …x m — это признаки-факторы (независимые переменные).
Для множественной регрессии (МР) ее осуществляют, используя метод наименьших квадратов (МНК). Для линейных уравнений вида Y = a + b 1 x 1 +…+b m x m + ε строим систему нормальных уравнений (см. ниже)
Чтобы понять принцип метода, рассмотрим двухфакторный случай. Тогда имеем ситуацию, описываемую формулой
Отсюда получаем:
где σ — это дисперсия соответствующего признака, отраженного в индексе.
МНК применим к уравнению МР в стандартизируемом масштабе. В таком случае получаем уравнение:
в котором t y , t x 1, … t xm — стандартизируемые переменные, для которых средние значения равны 0; β i — стандартизированные коэффициенты регрессии, а среднеквадратическое отклонение — 1.
Обратите внимание, что все β i в данном случае заданы, как нормируемые и централизируемые, поэтому их сравнение между собой считается корректным и допустимым. Кроме того, принято осуществлять отсев факторов, отбрасывая те из них, у которых наименьшие значения βi.
Предположим, имеется таблица динамики цены конкретного товара N в течение последних 8 месяцев. Необходимо принять решение о целесообразности приобретения его партии по цене 1850 руб./т.
номер месяца | название месяца | цена товара N |
|
1750 рублей за тонну |
|||
1755 рублей за тонну |
|||
1767 рублей за тонну |
|||
1760 рублей за тонну |
|||
1770 рублей за тонну |
|||
1790 рублей за тонну |
|||
1810 рублей за тонну |
|||
1840 рублей за тонну |
|||
Для решения этой задачи в табличном процессоре «Эксель» требуется задействовать уже известный по представленному выше примеру инструмент «Анализ данных». Далее выбирают раздел «Регрессия» и задают параметры. Нужно помнить, что в поле «Входной интервал Y» должен вводиться диапазон значений для зависимой переменной (в данном случае цены на товар в конкретные месяцы года), а в «Входной интервал X» — для независимой (номер месяца). Подтверждаем действия нажатием «Ok». На новом листе (если так было указано) получаем данные для регрессии.
Строим по ним линейное уравнение вида y=ax+b, где в качестве параметров a и b выступают коэффициенты строки с наименованием номера месяца и коэффициенты и строки «Y-пересечение» из листа с результатами регрессионного анализа. Таким образом, линейное уравнение регрессии (УР) для задачи 3 записывается в виде:
Цена на товар N = 11,714* номер месяца + 1727,54.
или в алгебраических обозначениях
y = 11,714 x + 1727,54
Чтобы решить, адекватно ли полученное уравнения линейной регрессии, используются коэффициенты множественной корреляции (КМК) и детерминации, а также критерий Фишера и критерий Стьюдента. В таблице «Эксель» с результатами регрессии они выступают под названиями множественный R, R-квадрат, F-статистика и t-статистика соответственно.
КМК R дает возможность оценить тесноту вероятностной связи между независимой и зависимой переменными. Ее высокое значение свидетельствует о достаточно сильной связи между переменными «Номер месяца» и «Цена товара N в рублях за 1 тонну». Однако, характер этой связи остается неизвестным.
Квадрат коэффициента детерминации R 2 (RI) представляет собой числовую характеристику доли общего разброса и показывает, разброс какой части экспериментальных данных, т.е. значений зависимой переменной соответствует уравнению линейной регрессии. В рассматриваемой задаче эта величина равна 84,8%, т. е. статистические данные с высокой степенью точности описываются полученным УР.
F-статистика, называемая также критерием Фишера, используется для оценки значимости линейной зависимости, опровергая или подтверждая гипотезу о ее существовании.
(критерий Стьюдента) помогает оценивать значимость коэффициента при неизвестной либо свободного члена линейной зависимости. Если значение t-критерия > t кр, то гипотеза о незначимости свободного члена линейного уравнения отвергается.
В рассматриваемой задаче для свободного члена посредством инструментов «Эксель» было получено, что t=169,20903, а p=2,89Е-12, т. е. имеем нулевую вероятность того, что будет отвергнута верная гипотеза о незначимости свободного члена. Для коэффициента при неизвестной t=5,79405, а p=0,001158. Иными словами вероятность того, что будет отвергнута верная гипотеза о незначимости коэффициента при неизвестной, равна 0,12%.
Таким образом, можно утверждать, что полученное уравнение линейной регрессии адекватно.
Множественная регрессия в Excel выполняется с использованием все того же инструмента «Анализ данных». Рассмотрим конкретную прикладную задачу.
Руководство компания «NNN» должно принять решение о целесообразности покупки 20 % пакета акций АО «MMM». Стоимость пакета (СП) составляет 70 млн американских долларов. Специалистами «NNN» собраны данные об аналогичных сделках. Было принято решение оценивать стоимость пакета акций по таким параметрам, выраженным в миллионах американских долларов, как:
Кроме того, используется параметр задолженность предприятия по зарплате (V3 П) в тысячах американских долларов.
Прежде всего, необходимо составить таблицу исходных данных. Она имеет следующий вид:
Отмечают пункт «Новый рабочий лист» и нажимают «Ok».
Получают анализ регрессии для данной задачи.
«Собираем» из округленных данных, представленных выше на листе табличного процессора Excel, уравнение регрессии:
СП = 0,103*СОФ + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.
В более привычном математическом виде его можно записать, как:
y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844
Данные для АО «MMM» представлены в таблице:
Подставив их в уравнение регрессии, получают цифру в 64,72 млн американских долларов. Это значит, что акции АО «MMM» не стоит приобретать, так как их стоимость в 70 млн американских долларов достаточно завышена.
Как видим, использование табличного процессора «Эксель» и уравнения регрессии позволило принять обоснованное решение относительно целесообразности вполне конкретной сделки.
Теперь вы знаете, что такое регрессия. Примеры в Excel, рассмотренные выше, помогут вам в решение практических задач из области эконометрики.
Коэффициент регрессии - абсолютная величина, на которую в среднем изменяется величина одного признака при изменении другого связанного с ним признака на установленную единицу измерения. Определение регрессии. Связь между у и x определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе — обратная). Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике.
1.4. Ошибка аппроксимации.Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя. Таким образом, коэффициенты регрессии характеризуют степень значимости отдельных факторов для повышения уровня результативного показателя.
Рассмотрим теперь задачу 1 из заданий по анализу регрессии, приведенную на с. 300-301. Один из математических результатов теории линейной регрессии говорит, что оценка N, является несмещенной оценкой с минимальной дисперсией в классе всех линейных несмещенных оценок. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.
Сигма регрессии используется при построении шкалы регрессии, которая отражает отклонение величин результативного признака от среднего его значения, отложенного на линии регрессии. 1, х2, х3 и соответствующих им средних значений у1, у2 у3, а также наименьших (у - σrу/х)и наибольших (у + σrу/х) значений (у) построить шкалу регрессии. Вывод. Таким образом, шкала регрессии в пределах расчетных величин массы тела позволяет определить ее при любом другом значении роста или оценить индивидуальное развитие ребенка.
В матричной форме уравнение регрессии (УР) записывается в виде: Y=BX+U{\displaystyle Y=BX+U}, где U{\displaystyle U} - матрица ошибок. Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему, приписываемого сэру Френсису Гальтону (1889).
Парную линейную регрессию можно расширить, включив в нее более одной независимой переменной; в этом случае она известна как множественная регрессия. И для выбросов, и для «влиятельных» наблюдений (точек) используют модели, как с их включением, так и без них, обращают внимание на изменение оценки (коэффициентов регрессии).
Из-за линейного соотношения и мы ожидаем, что изменяется, по мере того как изменяется, и называем это вариацией, которая обусловлена или объясняется регрессией. Если это так, то большая часть вариации будет объясняться регрессией, а точки будут лежать близко к линии регрессии, т.е. линия хорошо соответствует данным. Разность представляет собой процент дисперсии который нельзя объяснить регрессией.
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Причины существования случайной ошибки: 1. Невключение в регрессионную модель значимых объясняющих переменных; 2. Агрегирование переменных. Система нормальных уравнений. В нашем примере связь прямая. Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов. Если расчетное значение с lang=EN-US>n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов. Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот.
2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
Если проведена предварительная стандартизация факторных показателей, то b0 равняется среднему значению результативного показателя в совокупности. Конкретные значения коэффициентов регрессии определяют по эмпирическим данным согласно методу наименьших квадратов (в результате решения систем нормальных уравнений).
Линейное уравнение регрессии имеет вид y = bx + a + ε Здесь ε — случайная ошибка (отклонение, возмущение). Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве регрессии. Подставив в уравнение регрессии соответствующие значения x, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Лечение акне в домашних условиях: как избавиться от угрей и прыщей своими силами?
Стадии развития болезни и их исходы Типические патологические процессы
Эти упражнения восстановит работу желчного пузыря, печени и не только!
Судебная Генетическая Экспертиза ДНК Днк экспертиза на установление родства и отцовства
Занесение жизни из космоса на Землю. (Панспермия).Панспермия: развитие идеи. Если попытаться кратко охарактеризовать панспермию, суть ее можно свести к следующему: существуют зародыши жизни, рассеянные по всей Вселенной и в принципе способные заселить люб
Муниципальное бюджетное общеобразовательное учреждение «Средняя образовательная школа № 5» Пластилиновая история Творческий проект Выполнил: обучающийся 3 г класс, Скляров Дмитрий Руководитель: Демиденко Татьяна Геннадьевна, учитель начальных к
Арзамасова Г.А. Управление денежными средствами и их учет в бюджетных учреждениях // Международный журнал гуманитарных и естественных наук – 2017. – №10. – С. 104-108 УПРАВЛЕНИЕ ДЕНЕЖНЫМИ СРЕДСТВАМИ И ИХ УЧЕТ В БЮДЖЕТНЫХ УЧРЕЖДЕНИЯХ Г.А. Арзамасова ,
Блюда из морских обитателей получаются вкусными и полезными. Салат из печени минтая в разных его проявлениях - это блюдо питательное и диетическое. Калорий в главном ингредиенте мало, в его составе присутствует Омега-3, которая необходима для человеческог
Корригирующая остеотомия - один из видов оперативного вмешательства, направленный на устранение деформационных изменений в костной ткани. Если рассматривать суть хирургического вмешательства подобного плана, то это искусственное ломание кости на необход