Что такое гомоскедастик?
Гомоскедастик (также пишется как «гомоскедастик») относится к состоянию, при котором дисперсия остатка или погрешности в регрессионной модели является постоянной. То есть термин ошибки не сильно изменяется при изменении значения переменной предиктора. Тем не менее, отсутствие гомоскедастичности может указывать на то, что регрессионная модель может потребовать включения дополнительных предикторных переменных для объяснения эффективности зависимой переменной.
Ключевые вынос
- Гомоскедастичность возникает, когда дисперсия члена ошибки в регрессионной модели постоянна. Если дисперсия члена ошибки гомоскедастична, модель была четко определена. Если есть слишком большое отклонение, модель может быть не определена хорошо. Добавление дополнительных переменных-предикторов может помочь объяснить эффективность зависимой переменной. И наоборот, гетероскедастичность возникает, когда дисперсия члена ошибки не постоянна.
Как работает гомоскедастик
Гомоскедастичность является одним из предположений линейного регрессионного моделирования. Если дисперсия ошибок вокруг линии регрессии сильно различается, модель регрессии может быть плохо определена. Противоположностью гомоскедастичности является гетероскедастичность так же, как противоположностью «гомогенного» является «гетерогенный». Гетероскедастичность (также называемая «гетероскедастичность») относится к состоянию, при котором дисперсия члена ошибки в уравнении регрессии не является постоянной.
Принимая во внимание, что дисперсия - это измеренная разница между прогнозируемым исходом и фактическим исходом данной ситуации, определение гомоскедастичности может помочь определить, какие факторы необходимо скорректировать для точности.
Особые соображения
Простая регрессионная модель или уравнение состоит из четырех членов. С левой стороны находится зависимая переменная. Он представляет собой явление, которое модель стремится «объяснить». Справа находятся константа, переменная предиктора и остаточный или ошибочный термин. Термин ошибки показывает величину изменчивости в зависимой переменной, которая не объясняется переменной-предиктором.
Пример гомоскедастика
Например, предположим, что вы хотите объяснить результаты тестов, используя количество времени, которое каждый студент потратил на изучение. В этом случае результаты теста будут зависимой переменной, а время, потраченное на изучение, будет переменной предиктора.
Термин ошибки будет показывать количество отклонений в результатах тестов, которое не объясняется количеством времени обучения. Если эта дисперсия однородна или гомоскедастична, то это может указывать на то, что модель может быть адекватным объяснением эффективности теста - объясняя это с точки зрения времени, потраченного на изучение.
Но дисперсия может быть гетероскедастичной. График данных о сроках ошибки может показать, что большое количество времени обучения очень близко соответствовало высоким оценкам теста, но что низкие оценки времени обучения варьировались в широких пределах и даже включали некоторые очень высокие оценки. Таким образом, дисперсия баллов не может быть хорошо объяснена просто одной предикторной переменной - количеством времени обучения. В этом случае, вероятно, работает какой-то другой фактор, и модель может потребоваться улучшить, чтобы идентифицировать ее или их. Дальнейшее расследование может выявить, что некоторые учащиеся раньше видели ответы на тест или что они ранее проходили аналогичный тест, и поэтому им не нужно было учиться для этого конкретного теста.
Поэтому, чтобы улучшить регрессионную модель, исследователь добавил бы еще одну объяснительную переменную, указывающую, видел ли студент ответы до теста. Тогда модель регрессии будет иметь две объясняющие переменные: время обучения и наличие у ученика предшествующего знания ответов. С этими двумя переменными будет объяснена большая часть дисперсии результатов теста, и тогда дисперсия термина ошибки может быть гомоскедастичной, что предполагает, что модель была четко определена.
