Что такое сумма квадратов?
Сумма квадратов - это статистический метод, используемый в регрессионном анализе для определения дисперсии точек данных. В регрессионном анализе цель состоит в том, чтобы определить, насколько хорошо ряд данных может быть приспособлен к функции, которая может помочь объяснить, как был создан ряд данных. Сумма квадратов используется в качестве математического способа найти функцию, которая лучше всего подходит (меньше всего меняется) из данных.
Формула для суммы квадратов
Для набора X из n элементов: сумма квадратов = i = 0∑n (Xi -X) 2 где: Xi = i-й элемент в наборе X = среднее значение всех элементов в наборе (Xi -X) = Отклонение каждого элемента от среднего
Сумма квадратов также известна как вариация.
Что говорит вам сумма квадратов?
Сумма квадратов является мерой отклонения от среднего. В статистике среднее значение представляет собой среднее из набора чисел и является наиболее часто используемым показателем центральной тенденции. Среднее арифметическое значение просто рассчитывается путем суммирования значений в наборе данных и деления на количество значений.
Допустим, цены закрытия Microsoft (MSFT) за последние пять дней составляли 74, 01, 74, 77, 73, 94, 73, 61 и 73, 40 в долларах США. Сумма общих цен составляет 369, 73 долл. США, а средняя или средняя цена учебника составит 369, 73 долл. США / 5 = 73, 95 долл. США.
Но знание среднего значения набора измерений не всегда достаточно. Иногда полезно знать, насколько сильно варьируется набор измерений. То, насколько далеко отдельные значения находятся от среднего значения, может дать некоторое представление о том, насколько подходят наблюдения или значения к создаваемой регрессионной модели.
Например, если аналитик хотел знать, движется ли цена акций MSFT в тандеме с ценой Apple (AAPL), он может перечислить набор наблюдений за процессом обеих акций в течение определенного периода, скажем 1, 2. или 10 лет и создайте линейную модель с каждым записанным наблюдением или измерением. Если взаимосвязь между обеими переменными (т. Е. Ценой AAPL и ценой MSFT) не является прямой линией, то существуют различия в наборе данных, которые необходимо изучить.
В статистике говорят, что если линия в созданной линейной модели не проходит все измерения стоимости, то некоторая изменчивость, которая наблюдалась в ценах на акции, не объясняется. Сумма квадратов используется для расчета, существует ли линейная связь между двумя переменными, и любая необъяснимая изменчивость называется остаточной суммой квадратов.
Сумма квадратов - это сумма квадрата вариации, где вариация определяется как разброс между каждым отдельным значением и средним значением. Чтобы определить сумму квадратов, расстояние между каждой точкой данных и линией наилучшего соответствия возводится в квадрат, а затем суммируется. Линия наилучшего соответствия минимизирует это значение.
Как рассчитать сумму квадратов
Теперь вы можете понять, почему измерение называется суммой квадратов отклонений или для краткости суммой квадратов. Используя наш пример MSFT выше, сумма квадратов может быть рассчитана как:
- SS = (74, 01 - 73, 95) 2 + (74, 77 - 73, 95) 2 + (73, 94 - 73, 95) 2 + (73, 61 - 73, 95) 2 + (73, 40 - 73, 95) 2 SS = (0, 06) 2 + (0, 82) 2 + (- 0, 01) 2 + (-0, 34) 2 + (-0, 55) 2 SS = 1, 0942
Добавление суммы отклонений без квадратуры приведет к получению числа, равного или близкого к нулю, поскольку отрицательные отклонения почти полностью компенсируют положительные отклонения. Чтобы получить более реалистичное число, сумма отклонений должна быть возведена в квадрат. Сумма квадратов всегда будет положительным числом, потому что квадрат любого числа, будь то положительный или отрицательный, всегда положительный.
Пример использования суммы квадратов
На основании результатов вычисления MSFT высокая сумма квадратов указывает на то, что большинство значений находятся дальше от среднего значения, и, следовательно, в данных имеется большая изменчивость. Низкая сумма квадратов относится к низкой изменчивости в наборе наблюдений.
В приведенном выше примере 1.0942 показывает, что изменчивость цены акций MSFT за последние пять дней очень низкая, и инвесторы, желающие инвестировать в акции, характеризующиеся стабильностью цен и низкой волатильностью, могут выбрать MSFT.
Ключевые вынос
- Сумма квадратов измеряет отклонение точек данных от среднего значения. Результат с более высокой суммой квадратов указывает на большую степень изменчивости в наборе данных, тогда как более низкий результат указывает на то, что данные значительно отличаются от среднего значения.,
Ограничения использования суммы квадратов
Принятие инвестиционного решения о том, какую акцию приобретать, требует гораздо большего количества наблюдений, чем перечисленные здесь. Аналитику, возможно, придется работать с годами данных, чтобы с большей уверенностью знать, насколько высока или низка изменчивость актива. Чем больше точек данных добавляется в набор, сумма квадратов становится больше по мере того, как значения будут более разбросаны.
Наиболее широко используемыми измерениями вариации являются стандартное отклонение и дисперсия. Однако для расчета любой из двух метрик сначала необходимо вычислить сумму квадратов. Дисперсия - это средняя сумма квадратов (т. Е. Сумма квадратов, деленная на количество наблюдений). Стандартное отклонение - это квадратный корень из дисперсии.
Существует два метода регрессионного анализа, в которых используется сумма квадратов: метод линейных наименьших квадратов и метод нелинейных наименьших квадратов. Метод наименьших квадратов относится к тому факту, что функция регрессии минимизирует сумму квадратов отклонения от фактических точек данных. Таким образом, можно нарисовать функцию, которая статистически обеспечивает наилучшее соответствие данных. Обратите внимание, что функция регрессии может быть линейной (прямая линия) или нелинейной (криволинейная линия).
