Regresja (znaczenie, typy) - Co to jest analiza regresji?

Spisie treści

Co to jest regresja?

Analiza regresji to pomiar oparty na statystyce stosowany w finansach, inwestowaniu itp., Którego celem jest ustanowienie związku między zmienną zależną a innymi seriami zmiennych niezależnych, a głównym celem jest określenie siły powyższej zależności.

Wyjaśnienia

  • Aby wyjaśnić analizę regresji w kategoriach laika, załóżmy, że szef sprzedaży w firmie z trudem stara się przewidzieć sprzedaż na kolejny miesiąc. Istnieje wiele czynników, które napędzają sprzedaż produktu, począwszy od pogody, po nową strategię konkurenta, festiwal i zmianę stylu życia konsumentów.
  • Jest to metoda wyrównywania kilku czynników wpływających na sprzedaż, które mają największy wpływ. Może pomóc w odpowiedzi na wiele pytań, np. Jakie czynniki są najważniejsze, jakie czynniki są mniej ważne, jaki jest związek między tymi czynnikami, a co najważniejsze, jaka jest pewność tych czynników.
  • Czynniki te nazywane są zmiennymi. Główny czynnik, który próbujemy prognozować, nazywamy zmienną zależną, a pozostałe czynniki, które mają wpływ na zmienną zależną, nazywamy zmiennymi niezależnymi.

Formuła

Prostą analizę regresji liniowej w programie Excel można wyrazić wzorem poniżej i mierzy ona związek między zmienną zależną a jedną zmienną niezależną.

Y = a + bX + ϵ

Tutaj:

  • Y - zmienna zależna
  • X - zmienna niezależna (objaśniająca)
  • a - Przechwycenie
  • b - nachylenie
  • ϵ - reszta (błąd)

Jak interpretować analizę regresji?

Można to zinterpretować, zakładając prosty scenariusz. Tutaj bierzemy pod uwagę zależność między cenami licytowanych kolekcji antyków a czasem ich wieku. Im bardziej zabytek się starzeje, tym wyższa jest cena. Zakładając, że ustaliliśmy dane dla ostatnich 50 pozycji, które były licytowane, możemy przewidzieć, jakie będą przyszłe ceny aukcyjne na podstawie wieku przedmiotu. Korzystając z tych danych, możemy zbudować równanie regresji.

Wzór regresji, który może ustalić zależność między wiekiem a ceną, wygląda następująco:

y = β0 + β1 x + błąd
  • Tutaj czynnikiem zależnym jest Y. Y reprezentuje cenę każdego przedmiotu wystawionego na aukcję, podczas gdy niezależnym czynnikiem jest X, który określa wiek.
  • Parametry β0 i β1 to parametry, które nie są znane i zostaną oszacowane za pomocą równania.
  • β0 jest stałą używaną do definiowania liniowej linii trendu przecinającej oś Y.
  • β1 jest stałą, która pokazuje wielkość zmiany wartości zmiennej zależnej jako pokrewną funkcję zmiany implikowanej dla zmiennych niezależnych.
  • Zasadniczo nazywa się to nachyleniem równania. Gdy nachylenie jest linią liniową, oznacza to, że istnieje proporcjonalna zależność między wiekiem a ceną, a gdy nachylenie jest odwrotne, oznacza to, że zależność jest pośrednio proporcjonalna.
  • Błędu może być zdefiniowany jako hałas lub zmienności zmiennej docelowej i jest przypadkowy charakter.

Przykłady analizy regresji z życia wzięte

Załóżmy, że musimy ustalić zależność między zrealizowaną sprzedażą a kwotą wydaną na reklamę produktu.

Generalnie możemy zaobserwować pozytywną zależność między wielkością sprzedaży a kwotą wydaną na reklamę. Opierając się na prostym równaniu regresji liniowej, otrzymujemy:

Y = a + bX

Załóżmy, że otrzymujemy wartość jako

Y = 500 + 30X

Interpretacja wyników:

Przewidywane nachylenie 30 pomaga nam wyciągnąć wniosek, że średnia sprzedaż wzrasta o 30 USD rocznie wraz ze wzrostem wydatków na reklamę.

Rodzaje analizy regresji

# 1 - Liniowy

Można to wyrazić wzorem poniżej i mierzy on związek między zmienną zależną a jedną zmienną niezależną.

# 2 - Wielomian

W tej metodzie analiza służy do pomiaru związku między pojedynczymi czynnikami zależnymi a wieloma zmiennymi niezależnymi.

# 3 - Logistyka

Tutaj czynnik lub zmienna zależna ma charakter binarny. Zmienne niezależne mogą być ciągłe lub binarne. W wielomianowej regresji logistycznej możemy pozwolić sobie na posiadanie więcej niż dwóch kategorii przy wyborze naszej zmiennej niezależnej.

# 4 - Kwantyle

Jest to addytywna koncepcja regresji liniowej i jest stosowana przede wszystkim, gdy w danych występują wartości odstające i skośność.

# 5 - Elastyczna siatka

Jest to przydatne w przypadku obsługi bardzo silnie skorelowanych zmiennych niezależnych.

# 6 - Regresja głównych komponentów (PCR)

Jest to technika, która ma zastosowanie, gdy w danych jest zbyt wiele zmiennych niezależnych lub istnieje współliniowość

# 7 - Częściowe najmniejsze kwadraty (PLS)

Jest to metoda odwrotna do głównej składowej, w której mamy wysoce skorelowane zmienne niezależne. Ma również zastosowanie, gdy istnieje wiele zmiennych niezależnych.

# 8 - Wektor wsparcia

Może to stanowić rozwiązanie dla modeli liniowych i nieliniowych. Wykorzystuje nieliniowe funkcje jądra, aby znaleźć optymalne rozwiązanie dla modeli nieliniowych.

# 9 - Porządkowy

Ma zastosowanie do przewidywania wartości rankingowych. Zasadniczo jest to odpowiednie, gdy zmienna zależna ma charakter porządkowy

# 10 - Poisson

Ma to zastosowanie, gdy zmienna zależna zawiera dane liczbowe.

# 11 - Negatywny dwumian

Ma również zastosowanie do zarządzania danymi zliczania tylko wtedy, gdy ujemna regresja dwumianowa nie zakłada rozkładu zliczeń o wariancji równej średniej, podczas gdy regresja Poissona zakłada wariancję równą średniej.

# 12 - Quasi Poisson

Jest substytutem ujemnej regresji dwumianowej. Ma to również zastosowanie do rozproszonych danych zliczeniowych. Wariancja modelu quasi-Poissona jest liniową funkcją średniej, podczas gdy wariancja ujemnego modelu dwumianowego jest kwadratową funkcją średniej.

# 13 - Cox

Jest bardziej przydatny do analizy danych dotyczących czasu do zdarzenia.

Różnica między regresją a korelacją

  • Regresja ustala związek między niezależną wariancją a zmienną zależną, w której obie zmienne są różne, podczas gdy korelacja określa związek lub zależność dwóch zmiennych, gdy nie ma różnicy między obiema zmiennymi.
  • Głównym celem regresji jest stworzenie linii najlepszego dopasowania, a estymacji jednej zmiennej dokonuje się na podstawie innych, natomiast w korelacji wykazuje liniową zależność między dwiema zmiennymi.
  • W tym przypadku szacujemy wielkość pewnej zmiany rozpoznanej zmiennej (X) na szacowanej zmiennej (Y), podczas gdy w korelacji współczynnik jest używany do pomiaru, w jakim stopniu dwie zmienne poruszają się razem.
  • Jest to proces szacowania wielkości losowych zmiennych niezależnych na podstawie wielkości statycznej zmiennej zależnej, podczas gdy korelacja pomaga nam zdecydować o konkretnej wartości, aby wyrazić współzależność między obiema zmiennymi.

Wniosek

  • Analiza regresji wykorzystuje dane głównie w celu ustalenia związku między dwiema lub więcej zmiennymi. W tym przypadku zakłada się, że relacje istniejące w przeszłości będą również odzwierciedlać teraźniejszość lub przyszłość. Niewielu uważa to za opóźnienie między przeszłością a teraźniejszością / przyszłością.
  • Jest to jednak szeroko stosowana technika prognozowania i szacowania. Chociaż obejmuje matematykę, która może być trudna dla wielu użytkowników, technika ta jest stosunkowo łatwa w użyciu, zwłaszcza gdy dostępny jest model.

Interesujące artykuły...