Analiza skupień
Drzewa klasyfikacyjne
Są to metody służące grupowaniu i klasyfikacji obiektów. Obie metody są również metodami eksploracyjnymi (poszukiwawczymi) pozwalającymi dokonywać wartościowych analiz nawet badaczom bez formalnego statystycznego wykształcenia (niektórzy nawet twierdzą nawet, że nie są to metody statystyczne w ścisłym tego słowa znaczeniu) Oznacza to, że ich celem jest poszukiwanie (eksploracja) "ukrytej" informacji zawartej w danych, której badacz nie ma często świadomości istnienia.
Metod tych nie należy w zasadzie stosować do weryfikacji hipotez czy uzyskiwania odpowiedzi potwierdzających na postawione uprzednio pytania badawcze. Są jednak cennymi metodami pomagającymi w tworzeniu hipotez i pytań badawczych. Metody te są metodami opisowymi, nie pozwalającymi na wnioskowanie statystyczne (brak jest statystycznych podstaw wnioskowania na podstawie próby losowej o populacji generalnej). Ostatnim, bardziej formalnym, podobieństwem obu metod jest drzewkowa postać prezentacji wyników analizy (na tym jednak konczy się wszelkie podobieństwo ponieważ całkowicie inna jest interpretacja drzewek w obu wykresach).
Z drugiej strony metody analizy skupisk i drzewek decyzyjnych są metodami dopełniającymi się. Pierwsza metoda jest przedstawicielem tzw. metod analizy współzależności. Oznacza to, że wszystkie zmienne w analizie traktowane są jako współzależne bez wydzielenia spośród nich zmiennych zależnych (skutków) i niezależnych (przyczyn). Celem analizy jest w takim przypadku zazwyczaj sama identyfikacja struktury badanego zbioru zmiennych lub obiektów. Metoda druga jest natomiast metodą analizy zależności, w której wyróżnia się zmienną zależną (skutek) oraz zestaw zmiennych niezależnych (przyczyny).
Podstawową metodą grupowania, która pozwala na wyodrębnienie spójnych wewnętrznie grup obiektów jest analiza skupisk (cluster analysis). Jej zastosowania wiążą się z taksonomicznym opisem obiektów oraz budową typologii a także redukcją i upraszczaniem danych, a przede wszystkim poszukiwaniem ukrytych wymiarów czy też struktur w ramach prowadzonych obserwacji. Stosowanie tej metody odbywa się w czterech podstawowych etapach:
1. Wybór zmiennych i sposobu określania podobieństw między obiektami
2. Wybór sposobu przyporządkowania danych obiektów (np.konsumentów) do homogenicznej grupy,
3. Wybór liczby identyfikowanych skupisk
4. Interpretacja i profilowanie uzyskanych skupisk
Wybór zmiennych i miary podobieństwa
Wybór odpowiednich zmiennych służących jako podstawa dla grupowania obiektów (konsumentów, sklepów, firm itp.) jest bardzo ważny w analizie skupisk. Efekt analizy jest bowiem całkowicie zależny od typu zmiennych użytych jako podstawa grupowania. Należy wybrać tylko te zmienne, które poprawnie opisują grupowane obiekty i odnoszą się trafnie do celów analizy. Należy wyeliminować te zmienne, które niezbyt silnie różnicują badanych. Analiza skupisk jest także bardzo wrażliwa na tzw. "przypadki odstające" czyli obiekty, które są wyraźnie inne od pozostałych.
Po "wyczyszczeniu" danych z przypadków odstających i nietrafnych zmiennych należy wybrać odpowiednią miarę odległości. Zazwyczaj zmienne będące podstawą klasyfikacji są standaryzowane. Jest to zabieg pozwalający na porównywanie i klasyfikację obiektów z punktu zmiennych różnomianowych (np. dochodów i wieku). Standaryzacja zmiennych powoduje, że wszystkie one mają wariancję równą 1 i średnią arytmetyczną równą 0. Procesu standaryzacji dokonuje się zazwyczaj gdy występują zmienne jednocześnie o dużym i małym rzędzie pomiaru (wtedy te o dużym mogą zdominować analizę). Jednocześnie należy pamiętać, że standaryzacja zmniejsza różnice między klasyfikowanymi obiektami. Większość metod określających symboliczne dystanse między konsumentami ma charakter metryczny i ich zastosowanie ograniczone jest do zmiennych interwałowych i stosunkowych. Zakłada się więc, że np. skale do mierzenia postaw, jak skala Likerta czy dyferencjału semantycznego są skalami silnymi.
Wybór sposobu przyporządkowania danych obiektów (np.konsumentów) do homogenicznych grup
Drugi problem wiąże się ze sposobem wyodrębniania skupisk. Wyróżnia się dwa podstawowe podejścia do problemu grupowania: hierarchiczne i niehierarchiczne. W podejściu hierarchicznym otrzymujemy strukturę hierarchiczną podobieństw między obiektami. Ma ona postać drzewa zwanego dendrogramem. Wypracowano wiele sposobów uzyskiwania drzewek hierarchicznych odzwierciedlających relacje podobieństw między obiektami. Można je podzielić na trzy podstawowe grupy metod: metody powiązań, centroidalne i Warda.Zazwyczaj stosowanie różnych metod daje różne przyporządkowanie badanych do segmentów. Jednakże przyjąć należy, że im bardziej identyfikowane skupiska zależą od zastosowanej metody aglomeracji konsumentów, tym w większym stopniu uzyskane segmenty mają charakter "sztuczny", tj. są efektem procedury obliczeniowej, nie zaś realnie istniejących różnorodnych preferencji, postaw, dyspozycji czy cech konsumentów.
Wśród metod niehierarchicznych wyróżnić należy metodę k-średnich pozwalającą na szybsze i bardziej efektywne grupowanie przypadków. Jest to metoda iteracyjna, która pozwala na grupowanie zbiorów obiektów liczących nawet kilka lub kilkanaście tysięcy obserwacji. W metodzie tej badacz musi jednak podać z góry liczbę skupisk. Dlatego w badaniach segmentacyjnych bardzo powszechne jest podejście dwuetapowe. W pierwszym etapie stosowana jest na wylosowanej podpróbie analizia hierarchiczna w celu określenia wstępnej liczby skupisk a w drugim kroku właściwa klasyfikacja obiektów przy pomocy metody k-średnich.
Wybór liczby identyfikowanych skupisk
Trzeci problem w stosowaniu analizy skupisk w badaniach segmentacyjnych wiąże się z zastosowaniem odpowiedniego tzw. kryterium stopu. Homogeniczne, odrębne segmenty otrzymuje się najczęściej odcinając "gałęzie" dendogramu w miejscach o względnie długich "wąsach".
W praktyce badań segmentacyjnych ilość skupisk powinna się wahać od trzech do sześciu.
Interpretacja i profilowanie uzyskanych skupisk
Ostatnim problemem do rozwiązania jest oszacowanie rzetelności i trafności analizy. Podobnie jak w poprzedniej procedurze, również i w przypadku analizy skupisk algorytm komputerowy znajdzie rozwiązanie numeryczne nawet wówczas, gdy nie będą istnieć żadne naturalne segmenty. Rozwiązanie problemu polega na określeniu w jakim stopniu skupiska otrzymane na podstawie danych empirycznych różnią się w od skupisk stworzonych na podstawie danych losowych. Podobnie jak w analizie rzetelności skal zastosować można test połówkowy polegający na przeprowadzeniu analizy skupisk osobno na dwóch, losowo wybranych połówkach próby. Miernikiem korelacji między połówkowej może być współczynnik
Kendalla
Mając wyodrębnione spójne grupy obiektów, ostatnim krokiem w badaniach segmentacyjnych jest ich opis. W badaniach segmentacyjnych są to cechy charakteryzujące postępowanie konsumentów i ich pozycję społeczno-demograficzną. Podstawowym wyróżnikiem poprawnego opisu segmentów jest stopień w jakim te segmenty są identyfikowalne poprzez postawy wobec produktu i cechy demograficzne, geograficzne czy psychograficzne konsumentów oraz stopień, w jakim segmenty różnią się w swoich reakcjach lub elastycznościach reakcji na zmienne marketingowe (produkt, typ reklamy, cenę, kanał dystrybucji). Profilowanie to odbywa się najczęściej z wykorzystaniem trzech podstawowych technik: tabulacji krzyżowej (lub analizy korespondencji), wielorakiej analizy dyskryminacyjnej oraz metody drzew klasyfikacyjnych. Najprostszą z nich (lecz najmniej dokładną) jest tabulacja krzyżowa.
| Powrót do spisu treści | ||
Podobnie jak poprzednia metoda, drzewka klasyfikacyjne stosuje się do rozwiązywania problemów klasyfikacji danych. Podstawowym celem tej metody jest przewidywanie lub wyjaśnienie kształtowania się kategorialnej zmiennej zależnej (np. odpowiedzi typu "tak"-"nie") przez zestaw różnych zmiennych niezależnych (zarówno ciągłych jak i kategorialnych). Jest to metoda podobna do takich metod statystycznych jak analiza dyskryminacji czy regresji lecz mniej restrykcyjna jeżeli chodzi o jej statystyczne założenia. Charakterystyczną cechą metody drzewek klasyfikacyjnych jest jej hierarchiczność i elastyczność w stosowaniu. Pierwsza cecha związana jest z samym matematycznym algorytmem uzyskiwania współczynników równań klasyfikacyjnych. W metodzie drzewkowej jest on oparty na zasadzie "jeżeli... to..." (np. "jeżeli konsument kupił A, to posiada dochody X lub jeżeli konsument kupił C to posiada dochody X"). Drugą cechą metody jest jej elastyczność. Jak wspomniano zmiennymi niezależnymi (predyktorami) mogą być zarówno zmienne ciągłe (np. dochody, wiek, continnum postawy) jak i kategorialne (np. płeć, wykształcenie. Wzajemne relacje między zmienną zależną i niezależnymi mogą być również wielorakie. Analiza drzewkowa jest poprawna zarówno dla dwukategorialnej zmiennej zależnej i wielu zmiennych niezależnych, jak również wielokategorialnej zmiennej zależnej i niewielkiej liczby predyktorów.
Jakość przewidywania lub wyjaśniania zachowań zmiennej zależnej przez predyktory jest przedstawiana dla każdej zmiennej niezależnej na 100 punktowej skali. Siła ocen wskazuje na stopień ważności poszczególnych zmiennych niezależnych w wyjaśnianiu zmiennej zależnej.
Przeprowadzając klasyfikację danych metodą drzewkową należy uwzględnić trzy podstawowe etapy analizy:
1. Określenie kryteriów trafności predykcyjnej
2. Wybór algorytmu podziału
3. Określenie kryterium stopu i wybór ostatecznej postaci drzewka klasyfikacyjnego
Określenie kryteriów trafności predykcyjnej
Określenie najlepszej kryterium wiarygodności predykcji nie jest rzeczą łatwą. Najczęściej kryterium to oznacza predykcję przeprowadzoną przy minimalnym koszcie. Jako koszt zwykle przyjmuje się procent błędnie sklasyfikowanych obserwacji. Jest on różny od tych ostatnich jeżeli prawdopodobieństwo a priori przynależności danej obserwacji do klasy nie jest proporcjonalne do rozmiarów klas i nie jest równe dla każdej klasy. Prawdopodobieństwo a priori określa na ile jest prawdopodobne, że dany przypadek znajdzie się w danej klasie (bez wzięcia pod uwagę żadnej uprzedniej wiedzy na ten temat).
Wybór algorytmu podziału
Program STATISTICA oferuje trzy podstawowe typy podziału obiektów z punktu widzenia zmiennej zależnej. Dwa z nich to podziały podobne do metody analizy dyskryminacyjnej (ściślej kwadratowej analizy dyskryminacyjnej) oparte na metodzie QUEST (Quick Unbiased Efficient Statistical Trees). Trzeci typ, to metoda CART uwzględniająca wszystkie możliwe kombinacje poziomów zmiennych niezależnych w celu odnalezienia najlepszego podziału obiektów z punktu widzenia zmiennej zależnej.
Określenie kryterium stopu
Kryterium pozwala na uzyskanie drzewka klasyfikacyjnego właściwej wielkości. Spośród trzech poniższych metod, dwie pierwsze są metodami przycinania, gdzie od kompletnego drzewa odcinane są kolejne gałęzie aż do osiągnięcia odpowiedniego parametru zatrzymania.
Dokonajmy analizy drzewkowej na przykładzie danych z badań lojalności i zadowolenia z okien za pomocą algorytmu CART i jako kryterium stopu - bezpośrednim zatrzymaniem typu FACT. Jako zmienną zależną przyjęto skategoryzowany indeks lojalności, a zmiennymi niezależnymi są liczne zmienne społeczno-demograficzne oraz indeks zadowolenia. nominalna zmienna opisująca znajomość różnic między markami oraz porządkowa zmienna opisująca indeks zadowolenia.
W pierwszym węźle nastąpił podział na dwie grupy: 60 respondentów o indeksie zadowolenia powyżej 5.5 oraz 24 badanych spełniających podany poniżej węzła warunek (indeks zadowolenia mniejszy od 5.5). Obie grupy zostały w dalszym etapie podzielone na następne dwie. Pierwsza o indeksie zadowolenia <5.5 została podzielona z punktu widzenia płci na 12 mężczyzn o przewadze lojalnych oraz 12 kobiet nielojalnych wobec marki. Druga grupa o indeksie zadowolenia > 5.5 rozdzieliła się na 4 osoby nielojalne (emeryci) oraz 56 osób lojalnych pracujących zawodowo. Ostatni podział dotyczy grupy o dominacji lojalnych mężczyzn. Podzielona ona została na przedstawicieli mniejszych gospodarstw domowych (lojalnych) oraz nielojalnych wobec marki mieszkających w liczniejszych rodzinach.
Charakteryzując lojalnych wobec marki okien należy zauważyć, że kształtują ją przede wszytkim osoby zadowolone z produktu, pracownicy. Lojalnych - niezadowolonych respondentów znajdujemy przede wszystkim wśród mężczyzn znajdujących się gospodarstwach domowych liczących poniżej 4 osób.
| Powrót do spisu treści | ||||
| Poprzedni artykuł | Następny artykuł | |||