Przykłady prognozy ekonomicznej
prof. dr hab. Andrzej Sokołowski
Akademia Ekonomiczna w Krakowie

Spis treści:

Identyfikacja trendu
Analiza wahań sezonowych
Prognoza 1 - model klasyczny
Prognoza 2 - model ze zmiennymi zero - jedynkowymi
Prognoza 3 - model autoregresyjny
Prognoza 4 - trendy jednoimiennnych miesięcy
Podsumowanie prognoz


Postawiono zadanie sporządzenia prognozy wyjazdów obywateli polskich za granicę w poszczególnych miesiącach roku 1998, na podstawie danych opisujących kształtowanie się takich wyjazdów w latach 1993-1997. Dane te zostały opublikowane przez Główny Urząd Statystyczny.


Rysunek 1

Już z pobieżnej oceny wykresu szeregu oraz z charakteru zjawiska możemy wstępnie przypuszczać, że w szeregu występuje trend oraz wahania sezonowe. Szereg czasowy, którym dysponujemy liczy 60 obserwacji. Jest on więc za krótki, aby zastosować bardziej zaawansowane techniki badawcze, takie jak analiza widmowa, wyrównywanie wykładnicze i modele ARIMA z uwzględnieniem wahań sezonowych. Nawet automatyczne szacowanie wskaźników wahań sezonowych napotyka trudności. Mimo to możemy zaproponować trzy różne modele prognostyczne. Najpierw jednak zidentyfikujemy postać analityczną funkcji trendu oraz zweryfikujemy istotność i opiszemy kształt wahań sezonowych. Pomocnym narzędziem, niezwykle ułatwiającym sprawne testowanie hipotez, jest tzw. prawdopodobieństwo testowe (wartość p). W pewnym uproszczeniu można twierdzić, że jeżeli liczba ta jest mniejsza od przyjętego poziomu istotności a (najczęściej jest to 0,05), to uzyskany wynik uznaje się za istotny statystycznie, czyli spowodowany występowaniem pewnej ogólniejszej prawidłowości i nie będący jedynie rezultatem splotu przyczyn losowych.

Identyfikacja trendu

Przebieg wykresu sugeruje, że tendencja rozwojowa zjawiska może mieć postać liniową lub wielomianu drugiego stopnia. Do pliku danych wprowadzamy dwie nowe zmienne oznaczające czas (numer kolejnego miesiąca okresu obserwacji) T oraz jego kwadrat T2. W module Regresja wieloraka podejmujemy próbę oszacowania trendu o postaci


Otrzymujemy następujące wyniki estymacji:


Rysunek 2

Duża wartość prawdopodobieństwa testowego przy zmiennej T wskazuje, że nie wnosi ona istotnego wkładu w wyjaśnianie kształtowania się trendu wyjazdów obywateli polskich za granicę w latach 1993-1997. Usuwamy ją więc z modelu i powtarzamy proces estymacji. Tym razem otrzymany wynik ma postać:


Rysunek 3

Obydwie wartości p są więcej niż zadowalające, wobec czego uzyskany model trendu możemy uznać za ostateczny. Parametry dobroci dopasowania mają małe znaczenie, gdyż spodziewamy się, że w szeregu obok trendu występują jeszcze wyraźne wahania sezonowe. Nasz model trendu można zapisać jako:


Wykorzystując podaną wyżej formułę, wyliczamy wartości nowej zmiennej, a następnie dla uzyskania graficznej formy funkcji trendu z menu Wykresy wybieramy kolejno Wykresy statystyczne 2W oraz Wykresy liniowe (Zmienne), a następnie jako rodzaj wykresu Wykres wielokrotny.

Otrzymany rysunek po drobnej obróbce redakcyjnej ma postać:


Rysunek 4

Powrót do spisu treści


Analiza wahań sezonowych

W badanym okresie najwięcej wyjazdów zanotowano w lipcu i sierpniu 1996 roku. Wielkości te odbiegają od "wzorca" sezonowości zaobserwowanego w trzech poprzednich latach. Ponieważ w kolejnym roku w tych miesiącach poziom wyjazdów był nieco mniejszy, zatem raczej jeszcze nie można sądzić, że obserwowane wahania mają charakter multiplikatywny. Przed analizą wahań sezonowych należy wyeliminować trend. Dokonamy tego na dwa sposoby - poprzez odejmowanie wartości trendu od szeregu empirycznego oraz poprzez wyrażenie w procentach stosunku wartości szeregu do teoretycznej wartości funkcji trendu. Zgodnie z tym utworzyliśmy dwie zmienne: ODCH_ADD (odchylenia od trendu przy założeniu sezonowości addytywnej otrzymane przez odejmowanie) i ODCH_MUL (odchylenia od trendu przy założeniu sezonowości multiplikatywnej otrzymane przez dzielenie).

Teraz zweryfikujemy hipotezę o istotności wahań sezonowych występujących w naszym szeregu czasowym. Zastosujemy w tym celu jednoczynnikową analizę wariancji (ANOVA). Test ten służy do weryfikowania hipotezy o równości wielu wartości przeciętnych. Przy analizie wahań sezonowych taka hipoteza głosi, że odchylenia od trendu są we wszystkich miesiącach, średnio rzecz biorąc, takie same, a hipoteza alternatywna, że przynajmniej jeden miesiąc różni się istotnie od innych. Przy stosowaniu ANOVA potrzebna jest zmienna wskazująca numer miesiąca, pozwalająca programowi znaleźć odchylenia od trendu we wszystkich styczniach, wszystkich lutych itd. Wprowadziliśmy tę zmienną do zbioru danych, nazywając ją NR_MIES.

Test analizy wariancji wymaga spełnienia dwóch założeń: badana zmienna powinna mieć w każdej grupie rozkład normalny, a wariancje w grupach powinny być takie same. Założenie normalności sprawdzimy przy pomocy testu Shapiro-Wilka. Jest on dostępny w module Podstawowe statystyki. W części Statystyki opisowe zaznaczamy opcję Test W Shapiro-Wilka i po naciśnięciu klawisza Tabele liczebności oprócz szeregu rozdzielczego otrzymujemy też wartość prawdopodobieństwa testowego w teście normalności. Wcześniej trzeba zdefiniować testowaną zmienną (ODCH_ADD). Przy pomocy klawisza Select cases ("wybierz przypadki") wybieramy kolejno poszczególne miesiące, wpisując v8=1 dla stycznia, potem v8=2 dla lutego, v8=3 dla marca itd. Wyniki, które otrzymujemy w ten sposób, przedstawia poniższa tabela:

Prawdopodobieństwa testowe w teście Shapiro-Wilka


Dla czterech miesięcy hipotezę o normalności trzeba odrzucić na poziomie istotności α=0,10. W tej sytuacji można ufać w odporność testu ANOVA na odstępstwo od normalności lub zastosować test nieparametryczny nie wymagający tego założenia. Najpierw pójdziemy tą pierwszą drogą. Test ANOVA dla celów sprawdzania równości wartości przeciętnych najlepiej jest przywoływać w ramach modułu Podstawowe statystyki. Wybieramy opcję Przekroje, prosta ANOVA. W okienku Zmienne grupujące wybieramy NR_MIES, a w okienku Zmienne zależne - ODCH_ADD. Okno wyników wygląda następująco:


Rysunek 5

Klikając przycisk Analiza wariancji znajdujemy między innymi wartość p równą 0,0000. Oznacza to, że średnie odchylenia od trendów w poszczególnych miesiącach różnią się istotnie, a zatem w analizowanym szeregu czasowym występują wahania sezonowe. W pokazanym powyżej oknie mamy dostęp do dwóch testów pozwalających sprawdzić założenie o równości wariancji. Prawdopodobieństwo testowe w teście Levene'a wynosi 0,4183, a w teście Browna-Forsythe'a - 0,9402. Nie ma więc podstaw do kwestionowania prawdziwości założenia o jednorodności wariancji.

"Wielkość" wahań sezonowych możemy ocenić przywołując Zestawienie średnich.


Rysunek 6

Widzimy, że w lipcu wyjeżdżało z Polski średnio ponad 700 tysięcy osób więcej, a w sierpniu ponad milion osób więcej niż by to wynikało z trendu. Największe odchylenia in minus występowały w trzech pierwszych miesiącach roku. Bardzo dobrą ilustracją składnika sezonowości jest Skategoryzowany wykres ramkowy.


Rysunek 7

Procentowe wskaźniki sezonowości uzyskamy wprowadzając ODCH_MUL jako zmienną zależną do ANOVY.

W związku z niespełnieniem założenia normalności dla wszystkich miesięcy istotność wahań sezonowych możemy sprawdzić jeszcze przy pomocy nieparametrycznego testu analizy wariancji. W module Stat. Nieparametryczne/Rozkłady mamy Test ANOVA rang Kruskala-Wallisa. Po jego zastosowaniu znajdujemy, że wartość prawdopodobieństwa wynosi tu 0,0000 co kolejny raz potwierdza istotność wahań sezonowych.

Powrót do spisu treści


Prognoza 1 - model klasyczny

Pierwszą prognozę zbudujemy przy wykorzystaniu modelu klasycznego, który zakłada, że szereg czasowy jest sumą pewnych składników - w naszym przypadku są to: trend, wahania sezonowe oraz wahania przypadkowe. Równanie obejmujące składniki nielosowe ma postać:


gdzie przez f(t) oznaczono trend, a przez St wahania sezonowe. Wcześniej stwierdziliśmy, że trend daje się opisać funkcją drugiego stopnia (zmienna TREND), a składniki sezonowości podane są w przytoczonej powyżej tabeli Zestawienie średnich. Wprowadziliśmy te składniki do pliku danych jako zmienną SKŁ_SEZ, wcześniej dokonując korekty poprzez odjęcie od wszystkich składników surowych ich sumy. Po tym zabiegu wskaźniki sezonowości dla każdego roku sumują się do zera. Wartości teoretyczne modelu klasycznego uzyskujemy dodając wartości zmiennej SKŁ_SEZ do zmiennej TREND. Zapisujemy to jako zmienną PROGN_1.


Rysunek 8

Powrót do spisu treści


Prognoza 2 - model ze zmiennymi zero-jedynkowymi

W tym podejściu model szeregu czasowego zawiera też trend i wahania sezonowe, lecz tym razem wahania sezonowe reprezentowane są przez zmienne zero-jedynkowe oznaczające poszczególne miesiące. Jeden z miesięcy musi reprezentować tzw. "poziom odniesienia" i powinien to być miesiąc, w którym wartość szeregu zazwyczaj najmniej odbiega od linii trendu. Wybiera się więc taki miesiąc, który ma najmniejszy składnik sezonowości (u nas jest to czerwiec). Zastosowanie procedury regresji krokowej daje możliwość wybrania tylko tych zmiennych zero-jedynkowych, które wskazują miesiące, w których zjawisko istotnie odchyla się od funkcji trendu. Obliczenia wykonujemy w module Regresja wielokrotna. Najpierw definiujemy zmienne. Zmienną zależną jest oczywiście zmienna WYJAZDY, a jako niezależne wprowadzamy dwie zmienne czasowe (T i T2) oraz dziesięć zmiennych zero-jedynkowych odpowiadających kolejnym miesiącom poza czerwcem. Estymujemy model i w Wynikach regresji wielokrotnej naciskamy przycisk Podsumowanie regresji. Otrzymujemy tabelę wartości ocen parametrów modelu i związanych z nimi wielkości. W kolumnie poziom p sprawdzamy, czy wszystkie wartości są mniejsze od przyjętego poziomu istotności α. Jeżeli w kolumnie tej są wartości większe od a, to z modelu usuwamy zmienną, której odpowiada największa wartość p. Procedurę te kontynuujemy, aż do momentu, gdy wszystkie zmienne objaśniające wykazują istotność statystyczną. W naszym przykładzie w ostatecznym modelu pozostała druga potęga zmiennej czasowej oraz zmienne zero-jedynkowe oznaczające styczeń, luty, marzec, kwiecień, lipiec i sierpień. Tworzymy nową zmienną PROGN_2 i otrzymane równanie wpisujemy do rubryki Długa nazwa zmiennej (formuła). Wygląda to następująco:

=2599,055+0,515*t2-649,649*v10-554,753*v11- 352,366*v12-289,448*v13+723,291*v15+ 1008,972*v16

Na wykresie model ten wygląda następująco:


Rysunek 9

Powrót do spisu treści


Prognoza 3 - model autoregresyjny

W modelu autoregresji zakłada się, że realizacje zjawiska zależą od wartości, jakie przyjęło ono w poprzednich okresach. Przy czym nie sięga się do wszystkich tych wartości, tak jak to ma miejsce przy wyrównywaniu wykładniczym, lecz tylko do wybranych momentów z przeszłości. Do oszacowania modelu autoregresyjnego wykorzystamy znów moduł Regresji wielokrotnej. Wcześniej jednak zdefiniujemy tzw. zmienne opóźnione, podające wartości "miesiąc temu", "dwa miesiące temu", "trzy miesiące temu" oraz "przed rokiem". Ta ostatnia zmienna ma być pomocna w uchwyceniu efektu wahań sezonowych. Zmienne te utworzyliśmy przy wykorzystaniu przycisku Zmienne z paska poleceń i opcji Przesuń (opóźnij) i nazwaliśmy je WYJ_1, WYJ_2, WYJ_3, WYJ_12. Wstawiamy je do modelu jako potencjalne zmienne objaśniające i, kolejno eliminując zmienne nieistotne, znajdujemy ostateczny model autoregresyjny, który sięga pamięcią tylko do miesiąca poprzedniego oraz rok wstecz. Model ma postać:


Rysunek 10

Na wykresie powyższym model "zaczyna się" później niż szereg empiryczny, bo do oszacowania pierwszej wartości teoretycznej potrzeba obserwacji sprzed roku.

Powrót do spisu treści


Prognoza 4 - trendy jednoimiennych miesięcy

Możemy rozsądnie spodziewać się, że jeżeli rozważymy kształtowanie się badanego zjawiska w miesiącach o tej samej nazwie, to przy założeniu sezonowości addytywnej powinniśmy się spodziewać trendu o takiej samej postaci analitycznej, jak w całym szeregu w naszym przykładzie. Powinien to być model zawierający wyraz wolny i składową ze zmienną oznaczającą numer roku, czyli model o postaci:


Oto tabela zawierająca oceny parametrów takich modeli oraz charakterystyki ich struktury stochastycznej.


Wszystkie modele są istotne statystycznie. Przy pomocy każdego z nich prognozujemy wartość jednego miesiąca. Obraz całego modelu i prognozy przedstawia rysunek.


Rysunek 11

Powrót do spisu treści


Podsumowanie prognoz

Niewątpliwie interesujące jest porównanie czterech prognoz uzyskanych różnymi metodami.


Rysunek 12

Na podstawie czterech prognoz zbudowano prognozę ostateczną jako średnią ważoną procentowymi odwrotnościami średnich błędów dopasowania.


Rysunek 13