НОВЫЙ МЕТОД НАХОЖДЕНИЯКОЭФФИЦИЕНТОВ ЛИНЕЙНОЙ РЕГРЕССИИМЕЖДУ ДВУМЯ ФИЗИЧЕСКИМИ ВЕЛИЧИНАМИ | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2010. № 4(13).

НОВЫЙ МЕТОД НАХОЖДЕНИЯКОЭФФИЦИЕНТОВ ЛИНЕЙНОЙ РЕГРЕССИИМЕЖДУ ДВУМЯ ФИЗИЧЕСКИМИ ВЕЛИЧИНАМИ

Представлена обобщенная формула, позволяющая находить коэффициенты регрессии линейного уравнения Y = K0 + K1 X для общего случая, когда разброс точек в корреляционной связи величин X и Y обусловлен как их случайными погрешностями измерений, так и неконтролируемыми физическими факторами. Все известные выражения для коэффициентов регрессии оказались частными случаями полученной формулы.

New method of a finding of the linear regression coefficients betweentwo physical parameters.pdf При работе с разными массивами данных часто возникает необходимость на-хождения коэффициентов линейной регрессии между двумя случайными физиче-скими величинами. В большинстве случаев коэффициенты регрессии имеют кон-кретный физический смысл и для корректной интерпретации полученных резуль-татов очень важно найти их значения наилучшим образом. Существует несколько формул для нахождения коэффициентов регрессии [1 - 3], но не для всех есть об-щее понимание, в каких случаях их следует использовать. В настоящее время от-сутствует единый подход к нахождению коэффициентов линейной регрессии для общего случая, т.е. когда разброс точек в корреляционной связи между двумя ве-личинами обусловлен как их случайными погрешностями измерений, так и не-контролируемыми физическими факторами.Цель настоящей работы заключается в том, чтобы представить обобщенную формулу для вычисления коэффициентов линейной регрессии.1. Постановка задачиРассмотрим две случайные физические величины X0 и Y0, между которыми существует статистическая корреляционная связь. Предположим, что эта связь может быть описана линейной зависимостьюY0 = K0 + K1 X0,и требуется найти коэффициенты регрессии K0 и K1, которые наилучшим образом отражают физическую взаимосвязь между ними.Так как X0 и Y0 измеряются со случайными погрешностями, то на практике мы имеем дело с величинами X и Y, для которых уравнение регрессии запишется в видеY = K0 + K1 X.Запись уравнений (1) и (2) с одинаковыми коэффициентами регрессии говорит о том, что последние не должны зависеть от случайных погрешностей измерен-92Н.Н. Щелкановных величин X и Y. В дальнейшем будем говорить о нахождении только коэффициента регрессии K 1, так как K0 вычисляется после нахождения K 1 по известной формулеK0=Y-K1X, где X и Y - средние значения X и Y .2. Новый подходНовый подход к нахождению коэффициента регрессии K 1 заключается в следующих двух моментах:1.Предлагается случайные величины X и Y нормировать соответственно назначения Jd2X + 82X 0 и JdY 2 +5Y 20 . Здесь 8X и 5Y - случайные среднеквадратиче-ские погрешности измерения X и Y для рассматриваемого массива данных; 8X 0 и 5Y 0 - некоторые величины, характеризующие разброс точек в корреляционной связи физических величин X0 и Y0 за счет неконтролируемых физических параметров.2.При нахождении коэффициента регрессии K 1 используется ортогональнаясреднеквадратическая регрессия, т.е. минимизируется сумма квадратов отклонений, перпендикулярных искомой прямой.Тогда уравнение линейной регрессии запишется в видеYXп2 = K 0 +K 1 ,.V8Y+8Y0V8X+8X0Здесь величины 8X 0 и 5Y 0 находятся из решения системы двух уравнений. Первое уравнение имеет вид|рX 0 Y 0 | /СТX 0 -Ъ2 X 0 ■ >R -5Y 20 ,где аX 0 = у]о2X -Ъ2X и аY 0 = ^aY 2 - 8Y - среднеквадратические отклонения величин X0 и Y0; аX иаY - среднеквадратические отклонения величин X и Y; рX 0 Y 0 - коэффициент корреляции между X0 и Y0. Коэффициент корреляции рX 0 Y 0 находится из известного уравнения [1]:PXY ^X CTY = PX0Y0 ^X0 ^Y0,(6)где рXY - коэффициент корреляции между X и Y . Заметим, что из уравнения (6) следует уравнение (5).Второе уравнение запишем в виде5ЪY 0X 0(7)и назовем условием пропорциональности величин 8X 0, 8Y 0 и аX 0, стY 0. Введение величин 8X 0, 8Y 0 и запись условия (7) являются ключевыми моментами в данной работе, так как это позволило получить обобщенное решение для коэффициентов линейной регрессии уравнения (2).Новый метод нахождения коэффициентов линейной регрессии933. РезультатыПосле решения системы уравнений (5) и (7) получимXY1-1 8XXX.2 X Jа1-#Xh2 X ){1-bY 2l/8X+8X0 =°X-Aи J52Y + 5Y 20 в следующем виде:;^82Y+82Y 0=аY.BгдеA = 1-\PX 0 Y 0[(1X )=J1-|PXYh-1-5X MX1-д2Y/а2Y(12)1-5Y 2/стY 2■§X/стXB1-K0 Y0|-(1-Y)=1-|PXYi-J1(13С учетом (10) и (11) уравнение линейной регрессии (4) запишется в видеаY-BY' XаX-AУравнение (14) легко привести к виду (2):0Y1аX-A' аY-BY=K -a-B + K -^X = K+K-X,(гдеK0 = K0 -A-аYB;11аX-AПрименяя ортогональную среднеквадратическую регрессию к уравнению (14) и используя соотношение (17), получим выражение для искомого коэффициента регрессии:A B +IA - B) + 2 XYK1аY B 1аX A 2-PXy \\B A) \\B A(18)где А и В определяются выражениями (12) и (13). Впервые формула (18) была представлена в [4] и подробно описана в [5].94Н.Н. Щелканов4. АнализВыражение (18) позволяет устанавливать однозначную связь между величинами X и Y и определять условия использования известных типов линейной регрессии.Покажем, что все известные аналитические выражения для коэффициента регрессии K1 уравнения (2) являются частными случаями формулы (18).4.1. Так, для случая, когда разброс точек в корреляционной связи X и Y обусловлен только их случайными погрешностями, т.е. рX 0 Y0 = 1, получим известное выражение для коэффициента регрессии K1, приведенное в [1]:K12'РXYтX 8YстX 8Y аY 8XСТY 8XаX 8YСТX-|Y]2 +4.РXY. (19)СТY 8X4.1.1. Прир,K1XY 00= 1, 8X = 0 и SY ^ 0 имеем1аY 8Xlim^СТY 8X +СТX 8YаY 8XтX 8YаY 5XSx->05X 2-pXY \\РX 8Y1+4-РXYСТX 8Y,Разлагая выражение под квадратным корнем в ряд Маклорена [6] и оставляя первые два члена, получимK11lim 8Y8x->0 5X 2 РXYY 8XX YX YY 8X+СТY 8X , СТX Y(20)РXY.1 + 2.рXY^.ЁXаY 5XXY1СТX 8YЭто известная формула для коэффициента K 1 уравнения прямой регрессии Y = K0 + K 1 X, которая находится путем минимизации суммы квадратов отклонений вдоль оси Y от искомой прямой [2].4.1.2. ПрирX 0 Y 0 = 1, 8Y = 0 и8X^0 имеем1аY 5XK = lim8Y->05X 2-pXY |^стX 8YX8Y + СТY 8XаX YаY 5XаY 5X1+4-РXYСТY 8X,Проведя процедуру разложения выражения под квадратным корнем в ряд Маклорена [6] и оставляя первые два члена, получимK18Y^0 5X 2-РXYСТY 8XаX 5YстX 8Y аY 5XСТY 8XаX 5YjY 5X1 + 2-РXYстX 8Y аY 5XctРXY(21)Формула (21) - также известная формула для коэффициента 1/ K 1 * уравнения обратной регрессии X =K 0+K 1* -Y, которая получается путем минимизации суммы квадратов отклонений вдоль оси X от искомой прямой [2].4.1.3. При рX0Y0 = 1 и 8X = 8y *■ 0 получим известную формулуНовый метод нахождения коэффициентов линейной регрессии952K 1=

Ключевые слова

random errors, linear regression, случайные погрешности, линейная регрессия

Авторы

ФИООрганизацияДополнительноE-mail
Щелканов Николай НиколаевичИнститут оптики атмосферы им. В.Е. Зуева СО РАНкандидат физико-математических наук, старший научный сотрудник лаборатории оптики аэрозоляsnn@iao.ru
Всего: 1

Ссылки

Кудрявцев В.А., Демидович Б.П. Краткий курс высшей математики. М.: Наука, 1975. 624 с.
Щелканов Н.Н. Обобщенный метод построения линейной регрессии и его применение для построения однопараметрических моделей аэрозольного ослабления // Оптика атмосферы и океана. 2005. Т.18. № 1-2. С. 86-90.
Щелканов Н.Н. Построение регрессионной зависимости между аэрозольными оптическими толщами атмосферы с учетом их случайных погрешностей // II заседание рабочей группы проекта «Аэрозоли Сибири»: тезисы докладов. Томск. Изд-во ИОА СО РАН, 1995. С. 16.
Крамер Г. Математические методы статистики. М.: Мир, 1975. 648 с.
Зайдель А.Н. Погрешности измерений физических величин. Л.: Наука, 1985. 112 с.
Кендалл М., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973. Т. 2. 900 с.
 НОВЫЙ МЕТОД НАХОЖДЕНИЯКОЭФФИЦИЕНТОВ ЛИНЕЙНОЙ РЕГРЕССИИМЕЖДУ ДВУМЯ ФИЗИЧЕСКИМИ ВЕЛИЧИНАМИ | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2010. № 4(13).

НОВЫЙ МЕТОД НАХОЖДЕНИЯКОЭФФИЦИЕНТОВ ЛИНЕЙНОЙ РЕГРЕССИИМЕЖДУ ДВУМЯ ФИЗИЧЕСКИМИ ВЕЛИЧИНАМИ | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2010. № 4(13).

Полнотекстовая версия