![]() |
|
Metody Data Mining
![]()
Wyniki mogą być wyświetlane w tabelach, a także na unikalnych
wykresach 2W i 3W, na których mocne powiązania są wyróżniane grubymi
liniami łączącymi odpowiednie pozycje. ![]()
![]() Jak działa Interakcyjne drążenie danych. Określenie "drążenie danych" dobrze oddaje sposób działania tej metody data mining. Program pozwala wybierać obserwację poprzez wskazanie grup według wartości lub przedziałów wartości pewnej zmiennej (np. Płeć lub Średni zakup); w tym sensie drążymy dane, schodząc w coraz niższe pokłady lub poziomy danych, przeglądając coraz mniejsze podzbiory danych przy coraz bardziej złożonych warunkach wyboru obserwacji. Drążenie "w górę". Interakcyjna natura drążenia danych umożliwia nie tylko zagłębianie się w coraz bardziej szczegółowe grupy danych (z coraz bardziej złożonymi warunkami wyboru obserwacji do badanej grupy), ale również wędrówkę "w górę": na każdym kroku możemy wybrać jedną ze zmiennych wyznaczających podzbiory i unieważnić określony dla niej warunek. Przy przetwarzaniu danych program uwzględni, że poszliśmy w "górę". Zastosowania Interakcyjnego drążenia danych. Przedstawiony wcześniej przykład jest bardzo prosty i pokazuje tylko podstawowe funkcje programu. Prawdziwą siłę modułu Interakcyjne drążenie danych stanowią różnorodne wyniki pomocnicze, które mogą być automatycznie na bieżąco aktualizowane podczas interakcyjnego drążenia danych: możemy wybrać badane zmienne i wyznaczać dla wskazanej grupy obserwacji: Przykładowo możemy analizować zakupy dokonane przez klienta razem z różnymi cechami demograficznymi, badać skuteczność leku dla różnych terapii, grup wiekowych itp. lub wyodrębnić klientów prawdopodobnie zainteresowanych nowym produktem na podstawie dogłębnej analizy wcześniejszych klientów. Interakcyjne drążenie danych a OLAP (On-Line
Analytic Processing). W swoich podstawach najprostsze
funkcje Interakcyjnego drążenia danych (badanie wielowymiarowych tabel)
są bardzo podobne do tych, które oferują narzędzia OLAP.
Narzędzia OLAP służą do szybkiego pobierania danych zagregowanych (podsumowań)
z baz danych (za pomocą odpowiednich zapytań) z wykorzystaniem
zoptymalizowanych serwerów OLAP przeznaczonych dla konkretnej bazy danych (np.
Oracle lub MS SQL Server) i są zdecydowanie bardziej wydajne niż
tradycyjne (nieolapowe) przetwarzanie zapytań do baz danych. Główne przewagi Interakcyjnego
drążenia danych nad aplikacjami typu OLAP to:
Rozkłady i funkcje wiążące. W programie można stosować wiele rozkładów dla opisania zmiennej zależnej. Podobnie wiele funkcji wiążących (ang. link function ) może być użytych do opisu zależności zmiennej zależnej od predyktorów. Dostępne są następujące funkcje wiążące: Dla rozkładów normalnego, gamma i Poissona:
Dla rozkładu dwumianowego:
Wygładzanie na wykresie rozrzutu. Program do wyznaczenia optymalnego przekształcenia zmiennych predykcyjnych używa funkcji sklejanych trzeciego stopnia, z liczbą stopni swobody wybieraną przez użytkownika. Statystyki wynikowe. Dla ułatwienia weryfikacji adekwatności modelu, oceny dopasowania i interpretacji wyników program podaje kompletny zestaw statystyk wynikowych: zapis przebiegu iteracji przy dopasowywaniu modelu, statystyki podsumowujące (włączając ogólne R-kwadrat obliczone ze statystyki odchyleń), liczbę stopni swobody modelu, szczegółowe statystyki obserwacji wpływających na wynikową odpowiedź, reszty i wygładzanie zmiennych predykcyjnych. Na wynikowych wykresach przeglądać można zależność obserwowanych odpowiedzi od reszt odpowiedzi, przewidywanych wartości od reszt, histogramy wartości obserwowanych i resztowych. Dostępne są wykresy normalności reszt, wykresy reszt cząstkowych dla każdej zmiennej predykcyjnej i wykresy funkcji sklejanych trzeciego stopnia wygładzających dopasowanie końcowego rozwiązania.
OGÓLNE MODELE
DRZEW KLASYFIKACYJNYCH I REGRESYJNYCH (GTrees). Moduł ten zawiera
kompletną implementacje metod CART® Breimana, Friedmana, Olshena
i Stone'a. Ponadto moduł GTrees ma też wiele rozszerzeń
i opcji, jakich raczej nie spotyka się w typowych implementacjach
tego algorytmu, a które są szczególnie przydatne w data mining.
Środowisko pracy użytkownika, definiowanie "modeli". Dodatkowo, poza standardową analizą (wg Breimana i innych), implementacja omawianych metod w STATISTICA pozwala określać układy typu ANOVA/ANCOVA z ciągłymi lub skategoryzowanymi zmiennymi predykcyjnymi i ich interakcjami. Układy te określamy za pośrednictwem jednego z trzech dostępnych w programie alternatywnych środowisk, analogicznych do tego, co oferują GLM (Ogólne modele liniowe), GLZ (Uogólnione modele liniowe i nieliniowe), GRM (Ogólne modele regresji), GDA (Ogólne modele analizy dyskryminacyjnej) i PLS (Modele cząstkowych najmniejszych kwadratów). Szczegółowy ich opis znaleźć można w rozdziałach odpowiadających tym modułom. W skrócie: układy typu ANOVA/ANCOVA dla predyktorów określa się w oknach dialogowych, za pomocą kreatorów lub składni poleceń. Przy tym składnia poleceń zachowuje zgodność pomiędzy modułami, tak że łatwo można stosować te same układy w zupełnie różnych analizach (np. porównując klasyfikację wykonaną w GDA z klasyfikacją wg GTrees ). Przycinanie drzew, wybór, walidacja. Program ma bardzo wiele opcji sterujących budową drzew, opcji przycinania, jak i wyboru najlepiej dopasowanego rozwiązania. Dla ciągłych zmiennych zależnych (kryterialnych) przycinanie drzewa może bazować na wariancji albo być przycinaniem typu FACT. Natomiast dla zmiennych zależnych skategoryzowanych podstawą do przycinania może być liczba błędnych klasyfikacji, wariancja, można też zastosować przycinanie typu FACT. Użytkownik może określić maksymalną liczbę węzłów drzewa, jak i minimalne n dla węzła. Dostępne są opcje walidacji najlepszego drzewa decyzyjnego: poprzez V-krotne sprawdzenia krzyżowe lub poprzez użycie drzewa do nowych obserwacji pochodzących z próby walidacyjnej. Dla skategoryzowanych (kryterialnych) zmiennych zależnych, czyli w zagadnieniach klasyfikacyjnych, używać można wielu różnych miar do modyfikacji drzewa (tj. algorytmu klasyfikacji) i oceny jakości końcowego drzewa klasyfikacyjnego. Dostępne są opcje ustalania przez użytkownika prawdopodobieństw a priori klasyfikacji, jak i kosztu błędnych klasyfikacji; miary dopasowania, w tym miara Giniego, chi-kwadrat i G-kwadrat. Brakujące dane i podziały zastępcze. Braki wartości w zmiennych predykcyjnych można "omijać", pozwalając programowi wyznaczać podziały dla zmiennych zastępczych, tj. zmiennych podobnych do konkretnej zmiennej wyznaczającej dany podział (węzeł). Układy typu ANOVA/ANCOVA. Dodatkowo, względem tradycyjnej analizy typu C&RT®, zmienne predykcyjne ciągłe i skategoryzowane można łączyć w układy typu ANOVA/ANCOVA i prowadzić analizę, używając macierzy eksperymentu. Można w ten sposób szacować i porównywać złożone modele predykcyjne oraz oceniać zdolność predykcyjną i klasyfikacyjną modeli otrzymanych przy użyciu różnych technik analitycznych (np. Ogólnych modeli liniowych, Uogólnionych modeli nieliniowych, Ogólnej analizy dyskryminacyjnej ). Eksplorator drzewa. Do przeglądania wynikowego drzewa (poza prostym wykresem drzewa) używać można intuicyjnego, interaktywnego eksploratora, który pozwala na zwijanie i rozwijanie węzłów i daje szybki dostęp do najistotniejszej informacji o danym węźle i odpowiedniej klasyfikacji. I tak na przykład klikając węzeł, otrzymujemy informację o liczbie prawidłowych i nieprawidłowych klasyfikacji w tym węźle. Eksplorator drzewa pozwala w bardzo efektywny, a jednocześnie intuicyjny sposób przeglądać drzewa o skomplikowanej strukturze za pomocą typowego w Windows mechanizmu przeglądania struktur hierarchicznych. Równocześnie wyświetlić można wiele eksploratorów zawierających końcowe drzewo i różne, odcięte drzewa składowe. Rozmieszczając różne drzewa obok siebie, porównywać można różne części drzewa i drzewa składowe. STATISTICA Eksplorator drzewa stanowi ważną innowację, pomocną przy interpretowaniu skomplikowanych drzew decyzyjnych. Interakcyjne przeglądanie drzew. Udostępniono także opcje przeznaczone do interakcyjnego przeglądania drzew. Można to robić za pomocą narzędzi graficznego wyróżniania w STATISTICA lub przez umieszczenie dużych wykresów drzewa w obrębie przewijanego okna graficznego, w którym duże wykresy można badać za pomocą małego (przesuwalnego) okna. Statystyki wyników. Moduł STATISTICA GTrees oferuje wiele opcji dotyczących wyników. Dla każdego węzła dostępne są wyniki podsumowujące, obliczane są szczegółowe statystyki opisujące klasyfikację (jak koszt klasyfikacji, zysk itd.) Bardzo efektywne podsumowanie charakterystyki odpowiedzi w zagadnieniach klasyfikacyjnych uzyskuje się dzięki unikalnym rozwiązaniom graficznym, obejmującym histogramy dla każdego węzła, szczegółowe wykresy podsumowujące dla zmiennych ciągłych (np. wykresy normalności, rozrzutu), wykresy z wieloma układami współrzędnych dla każdego węzła. Podobnie jak dla wszystkich innych procedur statystycznych w STATISTICA, tak i tu wszystkie wyniki liczbowe mogą być wejściem następnych analiz, co pozwala na dalszą eksplorację wyników i analizowanie obserwacji zaklasyfikowanych do konkretnych węzłów (można na przykład za pomocą modułu GTrees otrzymać wstępną klasyfikacje przypadków, by następnie użyć w GDA metody najlepszego podzbioru do znalezienia dodatkowych zmiennych, które mogłyby być pomocne w dalszej klasyfikacji). Generatory kodów C (C++, C#), STATISTICA Visual Basic oraz SQL. Informacja zawarta w końcowym drzewie może zostać szybko dołączona do własnych programów lub zapytań za pomocą opcji generatora kodu języka C (C++, C#), STATISTICA Visual Basic lub zapytania w języku SQL. Kod języka STATISTICA Visual Basic zostanie wygenerowany w postaci szczególnie wygodnej do włączenia do własnych węzłów w programie STATISTICA Data Miner.
OGÓLNE MODELE CHAID
(Chi-square Automatic Interaction Detection). Podobnie jak to jest
w Ogólnych modelach drzew klasyfikacyjnych
i regresyjnych STATISTICA (patrz wyżej), tak
i moduł Ogólne modele CHAID jest nie tylko kompletną implementacją
oryginalnej techniki, lecz również jej rozszerzeniem o analizowanie
układów typu ANOVA/ANCOVA.
Układy typu ANOVA/ANCOVA. Rozszerzeniem w stosunku do tradycyjnej
analizy CHAID jest możliwość umieszczania w jednym planie typu
ANOVA/ANCOVA zmiennych ciągłych i skategoryzowanych oraz wykonywania
analizy na bazie macierzy eksperymentu. Pozwala to testować
i porównywać, pod względem zdolności predykcyjnej i klasyfikacyjnej,
złożone modele predykcyjne uzyskiwane za pomocą najróżniejszych technik
analitycznych, takich jak Ogólne modele liniowe, Uogólnione modele
liniowe, Ogólne modele drzew klasyfikacyjnych i regresyjnych
itp.). Statystyki wyników. Moduł STATISTICA Ogólne modele CHAID oferuje wiele opcji dotyczących wyników. Dla każdego węzła dostępne są wyniki podsumowujące, obliczane są szczegółowe statystyki opisujące klasyfikację, koszt klasyfikacji itp. Bardzo efektywne podsumowanie charakterystyki odpowiedzi w zagadnieniach klasyfikacyjnych uzyskuje się dzięki ilustracji graficznej, obejmującej histogramy dla każdego węzła, szczegółowe wykresy podsumowujące dla zmiennych ciągłych (np. wykresy normalności, rozrzutu), wykresy z wieloma układami współrzędnych dla każdego węzła. Podobnie jak dla wszystkich innych procedur statystycznych w STATISTICA, tak i tu wszystkie wyniki liczbowe można poddawać dalszej analizie, co pozwala na dalszą eksplorację wyników i analizowanie obserwacji zaklasyfikowanych do konkretnych węzłów (można na przykład za pomocą modułu GTrees otrzymać wstępną klasyfikację przypadków, by następnie użyć w GDA metody najlepszego podzbioru do znalezienia dodatkowych zmiennych, które mogłyby być pomocne w dalszej klasyfikacji).
Metodę MAR Splines można traktować jako rozwinięcie drzew regresyjnych i regresji wielorakiej. Moduł MAR Splines (Multivariate Adaptive Regression Splines) został zaprojektowany do analizy dużych zbiorów danych. Jakość uzyskanego modelu można ocenić za pomocą dużej liczby wynikowych statystyk i wykresów. Generatory kodów C (C++, C#), STATISTICA Visual
Basic, PMML. Model można szybko wbudować we własny program,
korzystając z generatora kodu C (C++, C#), STATISTICA Visual Basic lub PMML
(bazującego na XML). Kod STATISTICA Visual Basic w szczególności
nadaje się bardzo dobrze do wykorzystania we własnych węzłach STATISTICA Data
Miner. Natomiast pliki PMML (Predictive Models Markup Language) mogą
być wykorzystane w module Szybkie wdrażanie
modeli predykcyjnych do wydajnego obliczania wartości
przewidywanych dla nawet bardzo dużych zbiorów danych. PMML jest standardem
pozwalającym przenieść modele ze standardowej wersji STATISTICA Data Miner
do wersji klient-serwer (WebSTATISTICA Data Miner)
i odwrotnie.
Poniżej przedstawiono podstawowe informacje o metodach modułu Inne metody uczenia maszyn (Machine Learning). . Metoda wektorów nośnych (SVM). Ta metoda rozwiązywania problemów regresyjnych i klasyfikacyjnych polega na budowaniu nieliniowych granic decyzyjnych (oddzielających obszary w przestrzeni predyktorów, odpowiadające różnym wartościom zmiennej zależnej). Ze względu na właściwości przestrzeni cech (predyktorów) metoda SVM wykazuje dużą elastyczność przy rozwiązywaniu zadań klasyfikacyjnych i regresyjnych o różnej złożoności. Algorytm SVM zaimplementowany w STATISTICA umożliwia stosowanie czterech typów modeli SVM z różnymi funkcjami bazowymi i jądrowymi: liniową wielomianową, RBF i sigmoidalną. Ponadto pozwala radzić sobie z danymi niezrównoważonymi. Czasami stosuje się również nazwy Metoda wektorów wspierających i Metoda wektorów podpierających. Naiwny klasyfikator Bayesa (Naive Bayes). Jest to ogólnie przyjęta metoda zaprojektowana dla zadań klasyfikacyjnych. Metoda ta ma proste założenie: przyjmujemy, że rozkład cech (predyktorów) w klasach jest niezależny. Naiwny model Bayesa jest efektywny, łatwy w użyciu i interpretacji. Podejście to jest szczególnie odpowiednie przy dużej liczbie predyktorów. W praktyce Naiwny klasyfikator Bayesa często daje dużo trafniejsze przewidywania niż inne, wyrafinowane metody. Implementacja tej metody w STATISTICA Data Miner umożliwia wykorzystywanie różnych rozkładów warunkowych zmiennych niezależnych (normalnego, lognormalnego, gamma i Poissona). Metoda k-najbliższych sąsiadów. Jest to metoda, w której zamiast dopasowywać model, wyszukujemy podobne obiekty. Metody takie nazywane są pamięciowymi (memory-based) lub analogowymi. Podstawą tej metody jest intuicyjne przeświadczenie, że podobne obiekty trafią do tej samej klasy. Przewidywania metody k-najbliższych sąsiadów wyznaczane są na podstawie k obiektów z próby uczącej, które są najbardziej podobne do obiektu, dla którego wyznaczamy wartość zmiennej zależnej. W przypadku zadań klasyfikacyjnych wykorzystywane jest głosowanie (voting), a dla problemów regresyjnych uśrednianie odpowiedzi dla k obiektów.
SZYBKIE
WDRAŻANIE MODELI PREDYKCYJNYCH. Moduł ten wczytuje jeden
lub wiele plików PMML (Predictive Models Markup Language)
z zapisanymi modelami i bardzo szybko (w jednym przebiegu) stosuje te
modele dla bardzo dużej liczby obiektów (obserwacji). W systemie STATISTICA
Data Miner można generować pliki PMML (Predictive Models Markup
Language) dla większości procedur predykcyjnego data mining, jak również dla Analizy
skupień uogólnioną metodą EM i k-średnich. PMML to bazujący
na XML (Extensible Markup Language) standard, który jest w szczególności
bardzo użyteczny przy wdrażaniu modeli w architekturze klient-serwer
(wykorzystującej WebSTATISTICA).
Moduł Szybkie wdrażanie modeli predykcyjnych (Rapid Deployment of Predictive Models) jest najszybszą i najwydajniejszą metodą obliczania wartości przewidywanych na podstawie oszacowanych wcześniej modeli. Ogólne postacie wszystkich typów modeli są zaprogramowane i skompilowane jako wysoce zoptymalizowane procedury. Kod PMML stanowi wyłącznie źródło wartości parametrów dla procedur obliczeniowych. Dzięki temu moduł Szybkie wdrażanie modeli predykcyjnych bardzo szybko wyznacza przewidywane wartości, przynależność do klas lub skupień w jednym przebiegu przez dane. W istocie trudno jest uzyskać lepszą wydajność obliczeń, nawet pisząc własny program w języku C++ (korzystając z kodu C wygenerowanego przez odpowiedni moduł). Warto zwrócić uwagę, że moduł Szybkie wdrażanie modeli predykcyjnych
automatycznie oblicza statystyki podsumowujące każdy model, a jeśli znane
są wartości rzeczywiste, to wyznaczane są również wskaźniki jakości
dopasowania dla każdego modelu (m.in. wykresy zysku (gain chart), przyrostu
(lift chart) dla klasyfikacji z dwiema i więcej kategoriami).
Warto przeczytać:
|
|