Regresja metodą najmniejszych kwadratów - jak stworzyć linię najlepszego dopasowania?

Definicja metody regresji metodą najmniejszych kwadratów

Metoda regresji najmniejszych kwadratów jest formą analizy regresji, która ustala zależność między zmienną zależną i niezależną wraz z linią liniową. Ta linia jest nazywana „linią najlepszego dopasowania”.

Analiza regresji to metoda statystyczna, za pomocą której można oszacować lub przewidzieć nieznane wartości jednej zmiennej na podstawie znanych wartości innej zmiennej. Zmienna używana do przewidywania zmiennej stopy procentowej nazywana jest zmienną niezależną lub objaśniającą, a przewidywana zmienna nazywana jest zmienną zależną lub wyjaśnioną.

Rozważmy dwie zmienne, x i y. Są one przedstawiane na wykresie z wartościami x na osi x wartości y na osi y. Te wartości są reprezentowane przez kropki na poniższym wykresie. Przez kropki przebiega prosta linia - nazywana linią najlepszego dopasowania.

Celem regresji najmniejszych kwadratów jest zapewnienie, że linia poprowadzona przez zestaw podanych wartości ustanowi najbliższą zależność między wartościami.

Formuła regresji metodą najmniejszych kwadratów

Linię regresji w metodzie najmniejszych kwadratów oblicza się według następującego wzoru -

ŷ = a + bx

Gdzie,

  • ŷ = zmienna zależna
  • x = zmienna niezależna
  • a = punkt przecięcia z osią y
  • b = nachylenie linii

Nachylenie linii b oblicza się według następującego wzoru -

Lub

Punkt przecięcia z osią Y, „a” oblicza się według następującego wzoru -

Linia najlepszego dopasowania w regresji metodą najmniejszych kwadratów

Linia najlepszego dopasowania to linia prosta poprowadzona przez rozproszone punkty danych, które najlepiej odzwierciedlają relację między nimi.

Rozważmy następujący wykres, na którym zestaw danych jest wykreślany wzdłuż osi x i y. Te punkty danych są przedstawiane za pomocą niebieskich kropek. Przez te punkty rysowane są trzy linie - zielona, ​​czerwona i niebieska. Zielona linia przechodzi przez pojedynczy punkt, a czerwona linia przechodzi przez trzy punkty danych. Jednak niebieska linia przechodzi przez cztery punkty danych, a odległość między punktami rezydualnymi a niebieską linią jest minimalna w porównaniu z pozostałymi dwoma liniami.

Na powyższym wykresie niebieska linia przedstawia linię najlepszego dopasowania, ponieważ leży najbliżej wszystkich wartości, a odległość między punktami poza linią do linii jest minimalna (tj. Odległość między resztami a linią najlepszego dopasowania - nazywane również sumami kwadratów reszt). W pozostałych dwóch liniach, pomarańczowej i zielonej, odległość między resztami do linii jest większa w porównaniu z linią niebieską.

Metoda najmniejszych kwadratów zapewnia najbliższą zależność między zmiennymi zależnymi i niezależnymi, minimalizując odległość między resztami, a linią najlepszego dopasowania, tj. Suma kwadratów reszt jest minimalna w tym podejściu. Stąd termin „najmniejsze kwadraty”.

Przykłady linii regresji metodą najmniejszych kwadratów

Zastosujmy te formuły w poniższym pytaniu -

Przykład 1

Szczegóły dotyczące doświadczenia techników w firmie (na przestrzeni kilku lat) i ich oceny wydajności przedstawiono w poniższej tabeli. Korzystając z tych wartości, oszacuj ocenę wydajności dla technika z 20-letnim doświadczeniem.

Doświadczenie technika (w latach) Ocena wydajności
16 87
12 88
18 89
4 68
3 78
10 80
5 75
12 83

Rozwiązanie -

Aby obliczyć najpierw najmniejsze kwadraty, obliczymy punkt przecięcia z osią Y (a) i nachylenie prostej (b) w następujący sposób -

Nachylenie linii (b)

  • b = 6727 - ((80 * 648) / 8) / 1018 - ((80) 2 /8)
  • = 247/218
  • = 1,13

Punkt przecięcia osi Y (a)

  • a = 648 - (1,13) (80) / 8
  • = 69,7

Linia regresji jest obliczana w następujący sposób -

Podstawiając 20 za wartość x we ​​wzorze,

  • ŷ = a + bx
  • ŷ = 69,7 + (1,13) (20)
  • ŷ = 92,3

Ocenę wydajności dla technika z 20-letnim doświadczeniem szacuje się na 92,3.

Przykład nr 2

Równanie regresji metodą najmniejszych kwadratów w programie Excel

Równanie regresji metodą najmniejszych kwadratów można obliczyć za pomocą programu Excel, wykonując następujące kroki:

  • Wstaw tabelę danych w programie Excel.
  • Wstaw wykres punktowy, używając punktów danych.
  • Wstaw linię trendu na wykresie punktowym.
  • W opcjach linii trendu - wybierz liniową linię trendu i wybierz wyświetlanie równania na wykresie.
  • Równanie regresji metodą najmniejszych kwadratów dla danego zestawu danych programu Excel jest wyświetlane na wykresie.

W ten sposób obliczane jest równanie regresji metodą najmniejszych kwadratów dla danego zestawu danych programu Excel. Korzystając z równania, można przeprowadzić prognozy i analizy trendów. Narzędzia programu Excel umożliwiają również szczegółowe obliczenia regresji.

Zalety

  • Metoda najmniejszych kwadratów analizy regresji najlepiej nadaje się do modeli predykcyjnych i analizy trendów. Najlepiej sprawdza się w ekonomii, finansach i giełdach, w których wartość każdej przyszłej zmiennej jest prognozowana za pomocą istniejących zmiennych i relacji między nimi.
  • Metoda najmniejszych kwadratów zapewnia najbliższą zależność między zmiennymi. W tej metodzie różnica między sumami kwadratów reszt do linii najlepszego dopasowania jest minimalna.
  • Mechanizm obliczeniowy jest prosty i łatwy do zastosowania.

Niedogodności

  • Metoda najmniejszych kwadratów polega na ustaleniu najściślejszej relacji między danym zestawem zmiennych. Mechanizm obliczeniowy jest wrażliwy na dane, aw przypadku jakichkolwiek wartości odstających (wyjątkowych danych) wyniki mogą mieć znaczny wpływ.
  • Ten typ obliczeń najlepiej nadaje się do modeli liniowych. W przypadku równań nieliniowych stosuje się bardziej wyczerpujące mechanizmy obliczeniowe.

Wniosek

Metoda najmniejszych kwadratów jest jedną z najczęściej stosowanych metod modeli predykcyjnych i analizy trendów. Po odpowiednim obliczeniu zapewnia najlepsze wyniki.

Interesujące artykuły...