Co będzie?
dr inż. Adam Walanus
StatSoft Polska

Predykcja metodą wyrównywania wykładniczego za pomocą STATISTICA

Okazało się, że zmiana aż 75% cyfr w liczbie lat AD nie pociągnęła za sobą tak samo radykalnych zmian w rzeczywistości. Nic się nie stało. I to jest dobre dla racjonalnych przewidywaczy przyszłości. Wróżki i inni wahadełkowcy wolą mieć do czynienia z sensacjami, które przyciągają uwagę, a które zawsze można przeinterpretować na swój sposób. Zwykła, szara codzienność nie jest interesująca, nie zajmuje pierwszych stron gazet, ale zajmować się nią trzeba. Zwykła codzienność, cotygodniowość, comiesięczność i coroczność są nudne dlatego, że przewidywalne. Jutro słońce wzejdzie o 555, ale z drugiej strony, jutro deszcz będzie padał, a może nie. Za miesiąc dostanę wypłatę, ale może i premię? Za rok będzie zima, i sprzedaż lodów znowu spadnie, ale o ile?

Jaka jest najprostsza odpowiedź na pytanie "Co będzie?"? Brzmi ona: "Co było". Będzie, co było. Uwaga! Tej prostej recepty, nie należy mylić z fatalistycznym: "co ma być to będzie". To ostatnie, wyklucza właściwie przewidywanie. Jeżeli gdzieś jest zapisane, co będzie, to nie ma się co wysilać. Ale, z drugiej strony, może warto jakoś się domyślać co Tam jest zapisane. Bardziej niebezpieczna jest koncepcja historii mówiąca o zasadniczym wpływie pojedynczych przywódców i decydentów. Jeżeli wszystko toczy się według pojedynczych decyzji, rodzących się w niezależnych umysłach, to przewidywać będzie trudno. Natomiast, jeżeli decydują masy, to wtedy zapotrzebowanie rynku na nasze produkty będzie łatwiejsze do przewidzenia. Bo Masami rządzi statystyka, tzn. masowe reakcje dają się statystycznie opisywać. Można przewidzieć, że osiedle się starzeje, i za parę lat popyt na pampersy spadnie, ale decyzja budowy, w pobliżu hipermarketu jest mniej przewidywalna, a wpływ na sprzedaż będzie miała większy.

Przyjrzyjmy się bliżej regule "będzie, co było". Weźmy przykład: jadę do pracy, chcę być punktualnie, a nie chcę wyjechać za wcześnie, muszę więc przewidzieć czas jazdy w korku. Wczoraj jechałem pół godziny (mam dość blisko), to dziś pewnie też tyle pojadę. No tak, ale przedwczoraj jechałem 40 minut, to może lepiej wyjechać 35 minut wcześniej. A może uwzględnić również przed-przedwczorajszy dojazd? Pewnie warto. A może uwzględnić to co było tydzień, albo i miesiąc temu. Im więcej danych uwzględnimy tym lepsza "statystyka" tym większa pewność przewidywań. Jednak tylko przy założeniu stabilności, przy założeniu, że korki są mniej więcej takie same (w tygodniu) na przestrzeni, powiedzmy miesiąca. Na przełomie sierpnia/września prawdą to nie będzie. Ale stabilność w okresie, rzędu kilku tygodni jest, chyba rozsądnym założeniem.

Można by więc tak postępować: wziąć, jako przewidywanie na dziś, średni czas dojazdu do pracy z ostatnich, powiedzmy, dwudziestu dojazdów. Dane są takie [minuty]: 34, 30, 30, 29, 46, 21, 31, 26, 22, 32, 30, 29, 29, 24, 36, 30, 34, 36, 29, 40. Wyniki są takie:


Rysunek 1. Okno STATISTICA podstawowych statystyk serii danych o czasach dojazdu do pracy

Średnia wynosi 30.9 minuty, czyli 31 minut. Dlaczego 30.9 - to po prostu 31 wynika z wartości błędu standardowego średniej, który wynosi 1.3 (czego, niestety nie możesz, czytelniku sprawdzić, bo nie przesunie się suwak na powyższym zrzucie). Jeżeli dokładność jest 1.3, to nie ma się co upierać przy różnicy 0.1. Innym, trochę precyzyjniejszym sposobem podejścia do precyzji jest przedział ufności ("P.ufn." w dwóch prawych kolumnach na zrzucie). Liczby 28.2 i 33.6 są granicami, takimi, że z prawdopodobieństwem 95% (0.95), pomiędzy nimi właśnie znajduje się oczekiwana wartość czasu dojazdu. Ta oczekiwana wartość, to nie jest wartość, która dziś się nam przydarzy, jest to hipotetyczna, średnia wartość w bardzo długim okresie czasu. Oczywiście nie ma sensu mówić o bardzo długim okresie czasu, bo, w międzyczasie zbudowano rondo. Reasumując, spodziewać się musimy trzydziestojednominutowego czasu dojazdu, ale spodziewać się też powinniśmy odchyłki od 31 wynoszącej 6 minut (pozycja "Odchylenie standardowe"). Tak więc spodziewać się powinniśmy czasu typu: 25, 37, 30, ale, prawdopodobny (p=0.02, dwa na sto) jest też czas większy od 43 minut (=31+2*6).

Jeżeli zdecydowaliśmy się na uśrednienie dwudziestu ostatnich dojazdów do pracy, to w ogóle nie uwzględniliśmy dojazdu nr 21, licząc wstecz. Z drugiej strony, dojazd sprzed trzech tygodni (nr 20) tak samo decyduje o średniej, ma taką samą wagę, jak dojazd ostatni. To nie jest w porządku. Przede wszystkim dlatego, że liczba dwudziestu pomiarów (tak! To są pomiary) została wybrana raczej arbitralnie, trochę "na oko". Jeżeli jakieś, niezbyt szybkie, ale jednak, zmiany w ruchu ulicznym zachodzą, np. dlatego, że ludzie ciągle kupują więcej aut niż złomują, to najważniejszy powinien być najaktualniejszy pomiar, a starsze powinny, stopniowo tracić na znaczeniu. Przy czym szybkość utraty wpływu dawniejszych danych na przewidywanie powinna dać się ustawiać. Jak to zrobić? Wyrównywaniem wykładniczym w STATISTICA.

Czym jest wyrównywanie wykładnicze? Wyrówywnanie ma tu sens zwykły; wyrównuje, podobnie jak średnia arytmetyczna, przed chwilą używana. Wykładnicze oznacza, że jest wykładnik, czyli potęgowanie, np. 0.95=0.9*0.9*0.9*0.9*0.9=0.59 (wykładnikiem jest tu 5). Znaczenie szóstego pomiaru (nie piątego), czyli jego waga wynosi 59% wagi pierwszego pomiaru. Wzór dla wyrównywania wykładniczego jest taki:

St=a*Xt+(1-a)St-1 .

We wzorze tym: Xt jest pomiarem w dniu t, S jest wyrównaną wartością a wielkość a jest parametrem. Niechby a=0.1, wtedy 1-a=0.9. Widać więc, że na ostatnie (t-te) S składa się w 10% z ostatniego pomiaru (X) i w 90% z poprzedniego S. A w poprzednim S zawarte są wszystkie poprzednie pomiary, tyle, że z coraz mniejszą wagą, bo wchodziły z poprzedniego (przed-poprzedniego) S, które było mnożone przez 0.9.


Rysunek 2. Tak maleje wpływ coraz dalszych pomiarów, w wyrównaniu wykładniczym. Są to funkcje wykładnicze


Rysunek 3. Szereg danych i wartość wyrównana wykładniczo, dla dwóch wartości parametru a. Wyrównanie jest przedłużone by działać jako prognoza.

Jedyny parametr prostego wyrównywania wykładniczego; liczba a, określa jak szybko starsze pomiary będą traciły znaczenie. Na rysunku 3 widać odpowiedni efekt. Dla większego a wartość wyrównana wyraźniej odpowiada na wahania pojedynczych pomiarów. Dla a=1, w ogóle nie byłoby wyrównywania, krzywa przerywana pokrywałaby się z ciągłą, a przewidywaną wartością byłaby wartość ostatnio zaobserwowana. Upraszczając nieco, można przyjąć, że zakres wyrównywania jest równy odwrotności a. Dla a=0.1, po około dziesięciu (=1/a) krokach wpływ starszych pomiarów maleje dwukrotnie.

Co jednak, jeśli jeździmy do pracy codziennie. Dosłownie codziennie, a więc i w soboty i w niedziele (żeby tylko zajrzeć do biura, ale jeździmy). Pomiary czasu dojazdu będą wyglądały jak na rysunku 4.


Rysunek 4. Czas dojazdu z uwzględnieniem sobót i niedziel, kiedy korków nie ma. Linia przerywana daje przewidywane wartości na dni 75 -84. Parametr wyrównywania prostego a=0.1, parametr wyrównania składnika sezonowego d=0.1

Proste wyrównanie wykładnicze zafałszowałoby rzeczywistość. Dla niedzieli przewidywałoby dość poważnie zawyżoną wartość, a dla dni powszednich nieco zaniżoną. Oczywiście trzeba uwzględnić weekendy. To, że co siedem dni jest inaczej jest znaną prawdą, którą trzeba uwzględnić w kalkulacjach. Mamy tu sezonowość, nazwa, co prawda bierze się z pór roku, ale stosowana jest do wszelkich regularności. Na przykład takich:

Okres Zjawisko
godzina Słuchamy wiadomości, spada wydajność pracy
8 godzin zmianowość (w dobrze prosperujących zakładach)
doba Ziemia się kręci, raz jest jasno, a raz ciemno
miesiąc (ok. 30 dni) wpływ wypłaty, wpływ księżyca
rok Słońce się kręci wokół Ziemi, jest zima i lato
40 tys. lat obrót osi ziemi, epoki lodowcowe

oraz wszelkich innych cykliczności występujących w technice (np. o okresie 20ms wynikającej z częstości sieci energetycznej). Cykliczność dotyczyć może również przestrzeni, nie tylko czasu. Na przykład, pod szynami kolejowymi, systematycznie, co parędziesiąt centymetrów pojawia się belka.

Wyrównywanie sezonowe wykonywane jest za pomocą wzoru podobnego do tego cytowanego wyżej, tu też wkład dawniejszych pomiarów maleje wykładniczo. Ważną zmianą jest to, że do prognozy poniedziałku bierze się poprzednie poniedziałki, a nie wszystkie dni tygodnia. Szczególnie ważne jest to przy niedzieli, która różni się najbardziej.

Uwzględnić sezonowość daje się tam, gdzie dokładnie znany jest okres zmian. W przypadku zmian tygodniowych jest to zupełnie jasne, tydzień ma 7 dni. Podobnie jest z latami, choć tu już precyzja jest mniejsza, bo w przypadku posiadania danych z każdego dnia trzeba by uwzględnić lata przestępne. Choć praktycznie znaczenia to raczej nie ma, ze względu na ograniczoną dokładność danych. Z miesiącami jest jeszcze gorzej niż z latami, różnice dochodzą do 10%. Tylko doby i tygodnie są dokładne.

Poza sezonowością jest jeszcze jeden typ zmienności możliwy do uwzględnienia przy prognozowaniu metodą wyrównywania wykładniczego. Jest to zmienność prostsza od sezonowości, mianowicie trend, czyli systematyczny wzrost, albo (oby nie) spadek.

Trend może być liniowy, czyli, co tydzień jedzie się średnio o 2 minuty dłużej, albo nieliniowy, czyli najpierw szybszy a potem wolniejszy, albo odwrotnie. Na trend nałożona może być właśnie sezonowość. Nałożona może być na dwa sposoby, może być dodana (addytywna) albo pomnożona (multiplikatywna). Składniki zmienności dodają się zwykle wtedy, gdy są od siebie niezależne. Model z mnożeniem potrzebny jest tam, gdzie amplituda zmian sezonowych ma trend, czyli systematycznie rośnie, na przykład. Tak będzie z dojazdami, jeżeli w niedzielę w ogóle korków niema, to czas dojazdu jest stały, niezależny od wzrastającej na osiedlu liczby aut. Natomiast w poniedziałek, co miesiąc jest gorzej, bo na osiedlu co miesiąc oddaje się nowe mieszkania i korek zaczyna się coraz wcześniej. Rośnie więc amplituda, różnica między niedzielą i poniedziałkiem.


Rysunek 5. Okno wyboru modelu. Program STATISTICA, moduł Szeregi czasowe i prognozowanie, analiza Wyrównanie wykładnicze i prognozowanie. Zaznaczony wybór odpowiada danym i wynikom z rysunku 4.


Rysunek 6. Prognozowanie przez wyrównanie wykładnicze z uwzględnieniem trendu i sezonowości.

Jak widać na rysunku 5, w STATISTICA dostępny jest też model wykładniczego wzrostu. Jest to model wybuchowy albo lawinowy. Jeden kamyk popycha dwa, z których każdy popycha dwa następne itd. Po 10 krokach toczą się 1024 kamienie. Podobnie z upadkiem obyczajów, albo innymi sprawami socjalnymi, gdzie ludzie obserwują się wzajemnie. Na przykład, do modelu wykładniczego wzrostu dość dobrze pasują dane o urodzeniach pozamałżeńskich (rys. 7). Aczkolwiek, model, jak to model, nie opisuje dokładnie wszystkich cech zbioru danych. Na rysunku widać, na przykład spadek dynamiki wzrostu od roku 1994. Tak więc predykcja wykładnicza jest chyba zbyt pesymistyczna. Poza tym istnieje tu matematyczne ograniczenie, odsetek nie może być większy niż 100%, a przewidywanie na rok 2005 przekracza już 20%, i 100% osiąga w 2024. Model jest więc dobry w pewnym zakresie. Zawsze będzie tak, że im dalej w przyszłóść tym większa niepewność.

Największą przeszkodą w przewidywaniu przyszłości są efekty nieliniowe. Gdyby było tak, że odsetek urodzeń pozamałżeńskich zależy od milionów pojedynczych decyzji wynikających z ogólnego stanu zdrowia społecznego i tolerancji, to przewidywanie byłoby łatwe. Jednak zdarzyć się może, że w pewnym momencie uruchomiony zostanie, przez jednego posła, proces tworzenia nowego prawa zwiększającego pomoc dla samotnych matek. Będzie to oczywiście miało wpływ na przyszłe wartości omawianego odsetku. Taki efekt nieliniowy, wynikający np. z przekroczenia magicznej granicy 10% nie da się przewidzieć. Tym bardziej, że łatwo sobie wyobrazić odwrotną akcję, mającą na celu zahamowanie wzrostu odsetku. Jednostkowych decyzji jednostek decydujących o życiu społeczeństwa przewidzieć się nie da, z jakąś sensowną dokładnością. Zawiłości ludzkiej psychiki i bogactwo danych podkorowych uniemożliwiają zastosowanie metod statystycznych do pojedynczych decyzji. Jednak, wobec pewnej stabilności społecznej spodziewać się można, że jednostkowe decyzje będą zmieniały rzeczywistość w niewielkim stopniu, modyfikowały ją będą raczej niż rewolucyjnie wywracały. Dlatego z optymizmem pochodzić można do zastosowania regularnych, naukowych metod statystycznych służących do przewidywania przyszłości, jak i do jak najdokładniejszego poznania teraźniejszości.


Rysunek 7. Odsetek urodzeń pozamałżeńskich (Wiadomości Statystyczne, 12/99, str. 24) i przewidywanie na przyszłość metodą wyrównania wykładniczego, z modelem wykładniczego wzrostu.