Powiązane informacje
 Portal data mining
 Metody data mining
 Systemy data mining
 Szkolenia data mining
 Konsulting data mining
 Data mining Cię wyróżni
 Krótki kurs data mining
 Czytelnia - Data mining
 Filmy demo
Spis treści
 Wyjątkowe cechy
programu STATISTICA
Data Miner

 Przepisy STATISTICA Data
Miner

 Efektywny i elegancki
interfejs użytkownika

 Obsługa olbrzymich
zbiorów danych

 Narzędzia data mining
    Kostki, przekroje
i drążenie danych
    Ogólna klasyfikacja
    Ogólne modelowanie i
eksploracja
wielowymiarowa z
kreatorem modeli
    Ogólne prognozowanie
    Ogólna eksploracja za
pomocą sieci
neuronowych
 Moduły data mining
    Dobór i eliminacja
zmiennych (dla dużych
zbiorów danych)
    Analiza koszykowa
    Interakcyjne drążenie
danych
    Analiza skupień
uogólnioną metodą EM
 i k-średnich
    Uogólnione modele
addytywne
    Ogólne modele drzew
klasyfikacyjnych i
regresyjnych (GTrees)
    Ogólne modele CHAID
(Chi-square Automatic
Interaction Detection)
    Interakcyjne drzewa
klasyfikacyjne
i regresyjne
    Drzewa klasyfikacyjne
i regresyjne ze
wzmacnianiem (boosted
trees
)
    Multivariate Adaptive
Regression Splines
(MAR Splines)

    Inne metody uczenia
maszyn (Machine
Learning)
    Analiza składowych
niezależnych (ICA)
    Ocena dobroci
dopasowania
    Szybkie wdrażanie
modeli predykcyjnych
 Wersja klient-serwer
systemu STATISTICA Data
Miner
i data mining za
pomocą WebSTATISTICA

 Pytania i odpowiedzi
 STATISTICA QC Miner
Ogólne cechy systemu
 Podsumowanie cech
STATISTICA

 Opis ogólny
 Przykłady cech
STATISTICA

 Środowisko użytkownika
 Zarządzanie wynikami
analiz

 Rodzaje dokumentów
 Grafika
 STATISTICA Visual Basic
 STATISTICA Query
 Opis programu
 STATISTICA Data Miner
 w języku angielskim
Filmy demo obszarów zastosowań programów z rodziny STATISTICA Filmy demo


Data Miner
STATISTICA Data Miner oferuje wszechstronny wybór
rozwiązań data mining, z opartym na ikonach,
prostym w obsłudze interfejsem użytkownika.


    Odkryj ukryte trendy
    Wyjaśnij rozpoznane struktury
    Przewiduj przyszłość







Wyjątkowe cechy systemu STATISTICA Data Miner

STATISTICA Data Miner to najefektywniejszy, kompletny zestaw przyjaznych użytkownikowi narzędzi do realizacji całego procesu data mining - od budowy zapytań do baz danych do końcowego raportu.

Cechy systemu:

  • Z tego co wiemy, najszerszy wybór metod data mining dostępny na rynku (np. bardzo rozbudowany zestaw technik analizy skupień (segmentacji), architektur sieci neuronowych, drzew klasyfikacyjnych i regresyjnych, modelowania wielowymiarowego (w tym MARSplines) i wielu innych technik predykcyjnych, szeroka gama narzędzi graficznych).
  • Zestaw wszechstronnych, kompletnych projektów data mining, gotowych do uruchomienia i oceny uzyskanych modeli (za pomocą głosowania, uśredniania, metauczenia itp.), generujących raporty podsumowujące wysokiej jakości.
  • Bardzo łatwy w użyciu interfejs użytkownika, bazujący na konwencji przeciągnij i upuść, z którego mogą korzystać nawet nowicjusze, a który jednocześnie jest wysoce elastyczny, dostosowywalny i umożliwia dostęp do skryptów sterujących przetwarzaniem.
  • Wyjątkowy sposób tworzenia modeli w Przepisach STATISTICA Data Miner
  • Wydajne narzędzia interakcyjnej eksploracji danych, w tym szeroka gama interakcyjnych narzędzi graficznej eksploracji danych.
  • Możliwość jednoczesnego przetwarzania wielu źródeł danych.
  • Dostosowany do przetwarzania olbrzymich zbiorów danych - zawiera narzędzia wstępnej eliminacji zmiennych (spośród nawet ponad miliona potencjalnych predyktorów) i wyboru losowych podzbiorów danych z wykorzystaniem procedur, które przeszły testy DIEHARD.
  • Wysoce zoptymalizowany dostęp do dużych baz danych (zapis i odczyt), system wykorzystuje technologię IDP, co pozwala na asynchroniczny odczyt bezpośrednio ze zdalnej bazy danych (z wykorzystaniem przetwarzania rozproszonego, jeśli umożliwia to serwer) bez konieczności "importowania danych" i tworzenia lokalnej kopii.
  • Elastyczne narzędzia do wdrażania i stosowania (deployment) modeli, zintegrowane ze środowiskiem tworzenia projektów, które umożliwia sterowanie przetwarzaniem w obiektach analizy (węzłach) data mining za pomocą poręcznych, zgodnych ze standardami przemysłu informatycznego skryptów Visual Basic (VB jest wbudowany w system).
  • Bardzo wydajne stosowanie modeli dla nowych danych, za pomocą przenaszalnego, bazującego na XML, języka PMML (Predictive Models Markup Language), który można stosować dla modeli klasyfikacyjnych i regresyjnych nawet dla ogromnych zbiorów danych. Ponadto PMML umożliwia łatwe przenoszenie modeli pomiędzy wersją standardową a klient-serwer.
  • Możliwość zapisu przewidywanych wartości, prawdopodobieństw, reszt itp. bezpośrednio w bazie danych za pomocą IDP, dzięki czemu można wydajnie klasyfikować dużą liczbę obiektów lub przewidywać wartości ich cech (i zapisywać je w zewnętrznych bazach danych).
  • Wersja standardowa i klient-serwer
  • Architektura wielowątkowa i przetwarzanie rozproszone, dzięki którym korporacyjna wersja klient-serwer wyróżnia się wysoką wydajnością i może wykorzystywać wiele serwerów równocześnie przetwarzających jeden złożony projekt.
  • Dostęp do praktycznie wszystkich funkcji systemu za pośrednictwem Internetu (za pomocą opcji WebSTATISTICA Server, która pozwala wykonywać wszystkie operacje data mining, w tym interakcyjne budowanie modelu, w oknie przeglądarki internetowej na dowolnym komputerze połączonym z Internetem). To potężne narzędzie analizy danych i data mining pozwala pracować nad projektami przez Internet i współpracować z osobami w tym samym biurze i na innym kontynencie.

    STATISTICA Data Miner jest jedyną w swoim rodzaju aplikacją pod względem zakresu dostępnych metod i procedur, wydajności, zaawansowania technologicznego oraz elastyczności środowiska użytkownika. Oprócz wymienionych wyżej unikalnych zalet systemu, warto zwrócić uwagę na:

    • Możliwość zapisu ogromnych ilości danych w lokalnych plikach STATISTICA. Ponieważ zapytania pobierające dane do analizy bywają bardzo skomplikowane, czasami bardziej opłacalne i wygodne może być zaimportowanie danych z nawet bardzo dużej bazy danych na stację roboczą użytkownika, a następnie analizowanie ich w środowisku STATISTICA (bez obciążania serwera bazy danych, sieci i korzystania z pomocy administratora bazy danych przy konstruowaniu zapytań).
    • Możliwość stosowania różnych metod i technik w jednym projekcie data mining. Przykładowo, jeden projekt może wykorzystywać karty kontrolne, analizę Weibulla, modelowanie liniowe i nieliniowe oraz różnorodne architektury sieci neuronowych. Procedury programów z rodziny STATISTICA mogą być użyte jako węzły w projekcie data mining, bez konieczności programowania.
    • Graficzny (wizualny) data mining: w systemie STATISTICA Data Miner dostępne są wszystkie narzędzia graficzne STATISTICA, można skorzystać z setek typów wykresów ilustrujących dane po czyszczeniu, z przekrojów, po analizie struktur.
    • Szybkość wykonywania analiz zapewnia intuicyjny interfejs i pełna integracja z programami z rodziny STATISTICA (które były wielokrotnie uznawane za najlepsze w swojej dziedzinie).
    • Pełna integracja ze zwykłą (pracująca lokalnie) i internetową wersją programu STATISTICA (wykorzystującą WebSTATISTICA).
    • Czytelne i dobrze zorganizowane wyniki umieszczane są w arkuszach (tabelach), raportach i wykresach, które można publikować w sieci WWW.
    • Rozbudowane i wszechstronne biblioteki STATISTICA.
    • Automatyczna aktualizacja wyników analiz przy zmianie danych źródłowych.

      Kliknij tu, aby dowiedzieć się więcej o unikalnych cechach STATISTICA Data Miner

      Powrót na początek

      Przepisy STATISTICA Data Miner

      Przepis STATISTICA Data Miner jest to sposób wykonywania analizy krok po kroku, w którym użytkownik jest prowadzany przez wszystkie etapy analizy:
      • Połączenie z danymi
      • Przekształcanie i przygotowanie danych
      • Przeprowadzenie obliczeń
      • Podsumowanie wyników
      • Zapis i wdrożenie
      W każdym momencie analizy można stworzyć i zapisać pliki projektu, w celu uzyskania skoringu Przepisy STATISTICA Data Miner mogą być wdrożone do STATISTICA Enterprise



      Ogólną tendencją w zgłębianiu danych (data mining) jest przywiązywanie coraz większej wagi raczej do ułatwienia wykonywania analizy, niż do opracowywania coraz bardziej wyrafinowanych metod. Przepisy STATISTICA Data Miner (ang. STATISTICA Data Miner Recipe, w skrócie SDMR) umożliwiają wykonywanie zgłębiania danych osobom bez dużego doświadczenia i gruntownego przygotowania w tej dziedzinie. W Przepisach użytkownik tworzy model, wykonując krok po kroku pewien ogólny przepis, pozwalający uzyskać poprawne rozwiązanie. Środowisko Przepisów prowadzi użytkownika przez cały proces analizy. Przepisy mają zastosowanie do rozwiązywania rozmaitych problemów zgłębiania danych. Ponadto istnieje możliwość opracowania specjalnego Przepisu wykonującego specjalistyczne algorytmy i metody (np. opracowane w danej organizacji). Rozwiązanie (model) uzyskany na bazie Przepisu Data Miner można zastosować dla nowych danych Przepis Data Miner obejmuje cały proces zgłębiania danych, od połączenia się ze źródłem danych do zastosowania wyników dla nowych obiektów. Ogólnie Przepis obejmuje następujące etapy:
      1. Wskazanie źródła danych do analizy:
        • tabeli zdalnego przetwarzania (IDP), reprezentującej połączenie z bazami danych (zgodnymi z OLE DB lub ODBC),
        • arkusza STATISTICA.
      2. Czyszczenie danych i usuwanie zbędnych predyktorów:
        • wygodne metody tworzenia losowych próbek danych (losowanie proste, warstwowe, systematyczne),
        • rozpoznawanie i wypełnianie braków danych,
        • wykrywanie nietypowych (odstających) wartości zmiennych i ich zastępowanie,
        • przekształcanie danych,
        • rozpoznawanie i usuwanie nadmiarowych predyktorów (tzn. zbędnych cech przenoszących tę samą informację co inne zmienne).
      3. Znajdowanie wśród wszystkich cech tych, które rzeczywiście wpływają na zmienną zależną:
        • szybki dobór zmiennych dla ogromnych zbiorów danych zawierających dosłownie tysiące zmiennych,
        • wykorzystujące drzewa decyzyjne narzędzie doboru zmiennych, które uwzględnia zależności wielowymiarowe (interakcje) i nieliniowe.
      4. Tworzenie zestawu modeli z wykorzystaniem:
        • szerokiego zestawu najnowocześniejszych narzędzi zgłębiania danych,
        • możliwości przesłania złożonych obliczeniowo zadań na serwer WebSTATISTICA, aby umożliwić wykonywanie innych prac na stacji roboczej.

      1. Porównawcza ocena modeli w celu znalezienia najlepszego z nich.
      2. Wdrożenie modeli w celu wyznaczania przewidywanych wartości dla nowych danych.
      Program prowadzi użytkownika przez proces zgłębiania danych od połączenia z danymi wejściowymi, przez przygotowanie danych i tworzenie modeli, aż do wybrania najlepszego modelu i zastosowania go. Aby wykonać cały projekt użytkownik musi wykonać tylko kilka kliknięć myszą.

      Przepisy STATISTICA Data Miner automatycznie rozwiązują wiele problemów, co umożliwia szybkie przejście od sformułowania zadania do jego rozwiązania, nawet jeśli użytkownik nie ma dużego doświadczenia w analizie danych. Program stosuje i sprawdza zaawansowane techniki modelowania i automatycznie wybiera najlepszą z nich.

      Metodyka i środowisko użytkownika Przepisów STATISTICA Data Miner ułatwiają zastosowanie zaawansowanych metod zgłębiania danych (data mining) do rozwiązywania praktycznych problemów.

      Wersja klient-sewer systemu STATISTICA Data Miner bazująca na WebSTATISTICA.
      Wersja standardowa systemu STATISTICA Data Miner jest przeznaczona dla środowiska Windows. Wersja typu klient-serwer jest niezależna od platformy używanej po stronie klienta i posiada interfejs użytkownika bazujący na przeglądarce internetowej; po stronie serwera pracuje we wszystkich najważniejszych systemach operacyjnych serwerów WWW (np. UNIX Apache) i serwerach Wintel jako serwerach aplikacji STATISTICA.

      • Bezproblemowa współpraca wersji standardowej i klient-serwer: model możemy budować na jednej platformie (wersji standardowej lub korzystającej z WebSTATISTICA,) a wykonywać na innej; podobnie model wyuczony na jednej platformie może być stosowany na drugiej.
      • Przetwarzanie rozproszone i wielowątkowe obliczanie projektów: program automatycznie wykorzystuje architektury wieloprocesorowe lub wiele serwerów do przetwarzania złożonych modeli jako wiele, jednocześnie działających procesów, dzięki czemu wersja klient-serwer w pełni wykorzystuje dostępną moc obliczeniową i może wykonywać nawet bardzo złożone projekty dla ogromnych zbiorów danych.
      • Elastyczność: dane mogą być analizowane w trybie wsadowym (po zakończeniu obliczeń użytkownik otrzymuje e-mail); użytkownicy mogą wspólnie korzystać z tych samych folderów.
      • Współpraca i wspólne korzystanie z danych, projektów i analiz przez użytkowników z dowolnego miejsca na świecie. WebSTATISTICA umożliwia połączenie się z danymi na jednym serwerze, wykonywanie analizy wspólnie z innymi specjalistami i dostarczenie uzyskanych rozwiązań i raportów użytkownikom, nawet znajdującym się w bardzo odległych miejscach, pod warunkiem, że dysponują oni połączeniem z Internetem.
      • Doskonały do uczenia data mining: uczestnicy kursu mogą w najbardziej odpowiednim dla nich czasie wykonywać analizy z domu lub swojego biura, jeżeli tylko mają dostęp do Internetu. Dzięki WebSTATISTICA wszyscy uczestnicy kursu mogą nabrać doświadczenia w korzystaniu z najbardziej zaawansowanych metod data mining.
      Powrót na początek



      Oprogramowanie o zaawansowanej technologii. Efektywny i elegancki interfejs użytkownika

      "Obiekty" i węzły analiz w programie STATISTICA. Jądro systemu STATISTICA Data Miner tworzy zbiór ponad 300 wysoce zoptymalizowanych, efektywnych i niezwykle szybkich procedur programu STATISTICA, wywoływanych za pomocą skryptów Visual Basic (dostępnych jako kod źródłowy), które są wykorzystywane do określania relacji pomiędzy procedurami (obiektami) i do sterowania wykonywaniem projektu (oraz "przepływem" danych). Ta elastyczna, dostosowywalna architektura udostępnia pełną funkcjonalność wszystkich procedur statystycznych i analitycznych dla środowiska data mining w postaci obiektów zawierających analizy. Skrypty (obiekty analizy) służą jako "pojemniki" lub szablony definiujące sposób przepływu danych w projekcie, podczas gdy rzeczywiste analizy numeryczne są przeprowadzane za pomocą niezwykle szybkich procedur analitycznych programu STATISTICA. Obiekty, które mogą być wykorzystywane w charakterze węzłów dla operacji "czyszczenia" i filtrowania danych oraz do analizy danych, są zawarte w Przeglądarce węzłów.
      Dostępne są następujące typy węzłów:
      • Węzły do wprowadzania i akwizycji danych. Reprezentują one skrypty niezbędne do połączenia z zewnętrznymi (chronionymi) źródłami danych na serwerze. Oczywiście możemy także analizować pliki danych STATISTICA lub wstawiać elementy obrazujące pliki danych do zdalnego przetwarzania zewnętrznych baz danych (patrz IDP). W tym drugim przypadku nie trzeba tworzyć żadnych specjalnych węzłów (skryptów).
      • Węzły do filtrowania, czyszczenia i weryfikacji poprawności danych oraz do wyboru cech i tworzenia podpróbek. Procedury te są kluczowe dla data mining - jeśli do analizy wykorzystamy błędne dane, to zapewne wyciągniemy błędne wnioski. Wykorzystuje się je do wykrywania i korygowania błędnych informacji, które mogą obciążać końcowe wnioski. Narzędzia do tworzenia podpróbek są użyteczne w przypadku przeprowadzania analizy dużych zbiorów danych, do wybierania losowych próbek do dalszych analiz (dostępne jest losowanie proste i warstwowe). Opcje przeznaczone do wyboru cech umożliwiają automatyczny wybór najbardziej użytecznych zmiennych (predyktorów), np. spośród setek lub tysięcy potencjalnych predyktorów (patrz także Dobór i eliminacja zmiennych).
      • Węzły dla analizy danych. Węzły te umożliwają korzystanie z pełnej funkcjonalności wszystkich narzędzi analitycznych i graficznych programu STATISTICA; dostępne są setki procedur zaspokajających zasadniczo wszystkie potrzeby analityczne, które mogą pojawić się w projekcie data mining.

      Tworzenie projektu data mining. Węzły mogą być w prosty sposób łączone w obszarze projektów data mining.

      Obszar projektów data mining ma określoną strukturę i stanowi bardzo efektywne, przyjazne dla użytkownika środowisko analizy danych, w którym możemy przenosić i wzajemnie łączyć dane, analizy i wyniki przez proste przeciąganie ikon i strzałek symbolizujących połączenia. Możemy jednocześnie otwierać, modyfikować i uruchamiać dowolną liczbę obszarów projektów data mining, a także przeciągać węzły (obiekty) pomiędzy różnymi obszarami i przeglądarkami węzłów. Obszar projektów data mining został wstępnie podzielony na cztery panele:

    • Źródło danych. Tu określamy źródła danych (np. pliki danych programu STATISTICA, elementy obrazujące bazy danych przeznaczone do zdalnego przetwarzania na serwerach zewnętrznych, programy automatycznie generujące dane do zastosowania w procesie zaawansowanego modelowania).
    • Przygotowywanie, czyszczenie i przekształcanie danych. Węzły występujące w tej części akceptują na wejściu jedno lub większą liczbę źródeł danych i tworzą jedno lub większą liczbę (odfiltrowanych, oczyszczonych i przekształconych) źródeł danych dla dalszych, bardziej "dogłębnych" analiz.
    • Analiza danych, modelowanie, klasyfikacja i prognozowanie. Węzły występujące w tej części służą do przeprowadzania analiz liczbowych.
    • Raporty. W tej części obszaru projektów data mining umieszczane są wyniki poszczególnych analiz.


      Tworzenie projektu data mining jest łatwe: w pierwszym kroku wybieramy źródło danych, w drugim kroku stosujemy wymagane operacje przygotowywania, oczyszczania i przekształcania danych, w trzecim kroku łączymy wymagane przez nas analizy z oczyszczonymi danymi i w czwartym kroku przeglądamy lub publikujemy wyniki. Wielu spośród użytkowników programu STATISTICA Data Miner nie będzie musiało wychodzić poza ten prosty, interakcyjny interfejs (działający w stylu "wskaż i kliknij").




      Definiowanie bardziej złożonych modeli. Prosty interfejs użytkownika - bazujący na wybieraniu pozycji z menu lub przeglądarek metodą "wskaż i kliknij" - umożliwia stosowanie nawet bardzo zaawansowanych metod. Dla łatwego wykonywania niektórych najbardziej typowych zadań data mining dostępnych jest kilka obszernych i jednocześnie elastycznych "szablonów". Przykładowo w celu znalezienia dobrego modelu pozwalającego na przewidywanie ryzyka kredytowego nowych klientów na podstawie historycznych danych zawierających różne, potencjalnie użyteczne predyktory możemy po prostu wybrać szablon Zaawansowany projekt dla ogólnych modeli regresyjnych.




      Po jego wybraniu pozostaje nam tylko przyłączenie naszych historycznych danych, określenie interesujących nas zmiennych i proces "uczenia" projektu. Tak więc zaledwie w ciągu kilku sekund (potrzebnych na wskazanie pliku danych, wybranie zmiennych oraz wskazanie narzędzia do przyłączenia danych) zdefiniujemy projekt, a program automatycznie:

      • Utworzy dwie próby: do uczenia i sprawdzianu krzyżowego, tak aby zapobiec zjawisku "przeuczenia";
      • Znajdzie najlepsze modele przeznaczone do przewidywania ryzyka kredytowego, bazujące na różnych metodach modelowania:
        • regresji liniowej z predyktorami dobranymi metodą najlepszego podzbioru,
        • drzewach regresyjnych,
        • algorytmie CHAID i wyczerpującym algorytmie CHAID,
        • sieci neuronowej o architekturze perceptronu trójwarstwowego,
        • sieci neuronowej o radialnej funkcji bazowej;
      • Połączy wszystkie odpowiedzi w ramach meta-nauczyciela, który wybierze najlepszy model lub połączy prognozy z wielu modeli.

      Po zastosowaniu tych przełomowych technik do modelowania liniowych, nieliniowych, a nawet nieregularnych współzależności jesteśmy przygotowani do etapu wdrożenia i stosowania projektu. W tym celu musimy połączyć źródło danych dla nowych danych (dotyczących nowych klientów) do węzła Oblicz najlepszą prognozę na podstawie wszystkich modeli, a program automatycznie zastosuje całkowicie wyuczone modele do wyznaczania najlepszej możliwej prognozy.

      Szybkość. Węzły analizy (obiekty) umożliwiają korzystanie z wszystkich funkcji programu STATISTICA oraz specjalistycznych metod data mining (zawartych wyłącznie w systemie STATISTICA Data Miner). Chociaż działanie węzła sterowane jest przez kod STATISTICA Visual Basic, to właściwe obliczenia wykonywane są przez wysoce zoptymalizowane procedury STATISTICA, jedynie wywoływane przez kod STATISTICA Visual Basic. Procedury obliczeniowe STATISTICA były udoskonalane przez blisko 20 lat w celu uzyskania maksymalnej szybkości, wydajności i dokładności (patrz także Testy wzorcowe dokładności).

      Wielkie zbiory danych. System STATISTICA Data Miner wykorzystuje wiele technologii zaprojektowanych z myślą o szybkim przetwarzaniu dużych ilości danych. Cały system zbudowano z myślą o rozwiązywaniu największych problemów obliczeniowych i przetwarzaniu ogromnych baz danych. Przykładowo: ze zbioru danych zawierającego nawet ponad milion zmiennych (cech) system automatycznie może wybrać najlepsze predyktory (patrz także Dobór i eliminacja zmiennych).

      Dostosowywanie analiz. Analizy oraz operacje doboru i eliminacji zmiennych zaimplementowane za pomocą węzłów w systemie STATISTICA Data Miner mogą być dalej dostosowywane do potrzeb i upodobań użytkownika. W tym celu wystarczy dwukrotnie kliknąć węzeł. Dla każdego węzła zdefiniowano parametry, pozwalające w pełni dostosowywać działanie węzła do potrzeb bieżącego projektu data mining. Na przykład dwukrotne kliknięcie węzła sieci neuronowej przywołuje okno (wraz z Pomocą do niego) służące do dostosowywania danej analizy (do zmiany liczby iteracji, liczby warstw w sieci, szczegółów wyników podawanych w raporcie itp.).

      Zapisywanie projektu. Cały projekt (obszar roboczy) można zapisać wraz ze wszystkimi modyfikacjami, pośrednimi źródłami danych, komentarzami itp. Rutynowe analizy (np. mające na celu regularną aktualizację odpowiednio wyuczonego złożonego zbioru modeli dla wskazywania klasyfikacji z wykorzystaniem różnych metod) mogą być zapisywane, a później stosowane poprzez kliknięcie jednego przycisku ("aktualizuj").

      Uwaga techniczna: skrypty węzła w systemie STATISTICA Data Miner. Procedury zawarte w systemie są nadzwyczaj szybkie i wysoce zoptymalizowane (np. wersja klient-serwer do analizy dużych projektów automatycznie wykorzystuje architekturę wieloprocesorową i wiele serwerów). Zaawansowani użytkownicy mogą bardzo łatwo modyfikować działanie węzłów, ponieważ jest ono określone za pomocą skryptu STATISTICA Visual Basic. Skrypt taki możemy zbudować korzystając z kodu makr, nagranych podczas interakcyjnego wykonywania analiz (zob. Nagrywanie makr). Skrypt węzła może być modyfikowany, co pozwala dowolnie zmieniać sposób wykonywania analizy. Modyfikowanie skryptów najczęściej nie będzie potrzebne, ale jest możliwe. Dzięki dostępności skryptów i węzłów użytkownik może wbudować do systemu STATISTICA Data Miner własne procedury. Za pomocą skryptu można wykonywać dowolną liczbę własnych operacji numerycznych, co pozwala zmieniać praktycznie wszystkie aspekty danych lub stosować dowolne spośród tysięcy funkcji analitycznych, dostępnych w języku STATISTICA Visual Basic (funkcje można wywoływać również z innych języków programowania, np. C++). Ogólna, otwarta architektura programu STATISTICA Data Miner posiada wiele wyjątkowych (dla oprogramowania przeznaczonego do data mining) zalet. Zostały one dokładniej omówione w części Wyjątkowe cechy.

      • Każdy z węzłów może obsługiwać wiele źródeł danych na wejściu oraz wiele źródeł danych na wyjściu. Za pomocą pojedynczego węzła możemy wykonywać identyczne operacje na wielu źródłach danych.
      • Źródłem danych może być zdalna bazy danych, która nie musi rzeczywiście (fizycznie) rezydować na komputerze, na którym jest uruchamiany program STATISTICA Data Miner, ani nie musi być na ten komputer kopiowana. Jest to szczególnie ważne przy przetwarzaniu dużych zbiorów danych, a takie zazwyczaj występują w przypadku data mining (patrz technologia IDP).
      • Możemy przeprowadzać operacje w obrębie danego źródła danych oraz pomiędzy różnymi źródłami danych. Przykładowo za pomocą węzłów programu STATISTICA Data Miner możemy scalić dane zawarte w różnych zewnętrznych bazach danych w jeden plik danych wykorzystywany do dalszego przetwarzania.
      • Visual Basic jest prostym, zorientowanym obiektowo językiem, dostępnym dla wielu standardowych programów aplikacyjnych. Język ten jest bardzo popularny, jest wielu doświadczonych programistów, którzy mogą tworzyć aplikacje za pomocą Visual Basic. Ponadto dostępne są również gotowe aplikacje, które możemy zintegrować ze STATISTICA Data Miner. System STATISTICA Data Miner może być integrowany z innymi aplikacjami, na przykład w celu automatycznego dostarczania wyników poprzez sieć WWW lub pocztą elektroniczną, albo eksportowania wyników do innych aplikacji. Dostępna jest także wersja systemu STATISTICA Data Miner w pełni bazująca na sieci WWW, wspomagana przez program WebSTATISTICA Server.
      • Narzędzia do tworzenia makr w programie STATISTICA w sposób automatyczny zapisują przebieg interakcyjnych analiz. Zapisy te możemy w łatwy sposób przekształcać w skrypty własnych węzłów.
      • Wszędzie tam, gdzie ma to zastosowanie, analizy zawierają opcje służące do generowania kodu języka STATISTICA Visual Basic, z przeznaczeniem do wdrożenia i stosowania (np. wyuczonych sieci neuronowych). Wspomniane skrypty możemy stosować bezpośrednio w skryptach węzłów własnych wdrożeń.
      Wdrażanie i stosowanie modeli. Wyniki uzyskiwane w wyniku przeprowadzania analiz w systemie STATISTICA Data Miner mogą być wdrażane (stosowane w odniesieniu do nowych danych lub wewnątrz innych automatycznych systemów przetwarzania danych) na wiele sposobów.
      • Automatyczne wdrażanie modeli. Dla standardowych analiz przygotowano szablony projektów data mining z wdrożeniem. Korzystanie z takich projektów i wdrażanie ich jest bardzo proste: wybieramy szablon z menu, dołączamy do niego źródło danych i szacujemy modele. Aby zastosować najlepsze rozwiązanie (uzyskane np. przez głosowanie), wystarczy podłączyć nowe dane (oznaczone jako dane, dla których model ma być stosowany, a nie szacowany) do węzła wybierającego najlepszą predykcję.
      • Wydajne wdrażanie modeli z wykorzystaniem standardu PMML. W system wbudowano narzędzie do stosowania modeli wykorzystujące standard PMML. Jest to najszybsza metoda obliczania prognoz w oparciu o uzyskany model. Trudno jest uzyskać lepszą wydajność obliczeń, nawet pisząc własny program w języku C++. Wbudowany w system moduł Rapid Deployment of Predictive Models może wczytywać wiele plików PMML i bardzo szybko oblicza (w jednym przebiegu dla wszystkich modeli) wartości przewidywane przez modele nawet dla ogromnych plików danych. W systemie STATISTICA Data Miner można generować pliki PMML (Predictive Models Markup Language) dla większości procedur predykcyjnego data mining, jak również dla Analizy skupień uogólnioną metodą EM i k-średnich. PMML to bazujący na XML (Extensible Markup Language) standard, który jest w szczególności bardzo użyteczny przy wdrażaniu modeli w architekturze klient-serwer (wykorzystującej WebSTATISTICA).
      • Generator kodu C, C++, C#, Visual Basic. Dla zagadnienia regresji (przewidywanie wartości zmiennych ciągłych), klasyfikacji (przewidywanie wartości zmiennych jakościowych) i analizy skupień dostępne są opcje umożliwiające generowanie kodu. Przykładowo możemy zapisać kod w języku C++ lub kod w języku Visual Basic, który implementuje prognozę w oparciu o algorytmy analizy drzew klasyfikacyjnych, MARSplines (multivariate adaptive regression splines), analizy liniowych funkcji dyskryminacyjnych, uogólnionych modeli liniowych i nieliniowych, uogólnioną analizę skupień metodą EM i k-średnich, sieci neuronowe itd. Kod generowany przez te procedury może zostać szybko zintegrowany z programami użytkownika dla wdrożenia i stosowania. Przykładowo kod programu Visual Basic, generowany za pomocą modułów analitycznych STATISTICA, może być bezproblemowo wbudowywany do środowiska systemu STATISTICA Data Miner (patrz Uwaga techniczna). Przy wykorzystaniu generowanego przez STATISTICA kodu Visual Basic zaprojektowane przez użytkownika węzły wdrożenia mogą być tworzone w krótkim czasie nawet przez niedoświadczonych programistów.

      Wykorzystanie systemu STATISTICA Data Miner dla olbrzymich zbiorów danych

      Wszystkie programy z rodziny STATISTICA, a STATISTICA Data Miner w szczególności, są zoptymalizowane do wydajnego przetwarzania nawet bardzo dużych zbiorów danych, zwierających miliony obserwacji i miliony zmiennych (pól).

      Przetwarzanie baz danych większych niż lokalnie dostępne miejsce na dysku. STATISTICA Data Miner (również inne produkty z rodziny STATISTICA można rozbudować o tę funkcję) jest w stanie analizować dane ze zdalnej bazy danych bez tworzenia lokalnej kopii danych. W tym celu wykorzystywana jest wysoce zoptymalizowana technologia In-place Database Processing (IDP). IDP wykorzystuje moc obliczeniową serwera do wykonania zapytania (pobierającego dane źródłowe), a jednocześnie zasoby stacji roboczej używane są do przetwarzania ("w locie") rekordów przesłanych na stację roboczą. Dzięki temu, możemy wykonywać analizy danych, które nie zmieściłyby się na dysku twardym wykorzystywanym przez naszą stację roboczą. Ponadto zastosowanie IDP w wielu sytuacjach daje znaczący przyrost wydajności, ponieważ oszczędzamy czas potrzebny na zaimportowanie danych na lokalny komputer, a potem odczytywanie ich z lokalnego dysku (mówiąc w skrócie: korzystając z IDP, odczytujemy dane tylko raz). IDP obsługuje zdecydowaną większość formatów baz danych, a ponadto dostępne jest potężne narzędzie do definiowania połączenia i budowy zapytania.

      Analiza baz danych o bardzo dużej liczbie zmiennych (pól): Jedyny w swoim rodzaju moduł Dobór i eliminacja zmiennych. Jeżeli analizowane przez nas dane zawierają ogromną liczbę zmiennych (pól, kolumn), to system STATISTICA Data Miner może wybrać, spośród nawet milionów kolumn, podzbiór zmiennych, które możemy wykorzystać do predykcyjnego data mining. W module Dobór i eliminacja zmiennych zastosowano bardzo szybki i efektywny algorytm, wybierający zmienne (cechy), które prawdopodobnie będą najlepszymi predyktorami dla bieżącego zbioru danych, a jednocześnie nie wprowadzą szumów do budowanych później modeli.

      Przetwarzanie danych złożonych z olbrzymiej liczby przypadków (rekordów): Elastyczne i wydajne próbkowanie losowe. Programy z rodziny STATISTICA (w tym STATISTICA Data Miner) są w stanie przetwarzać zbiory danych o praktycznie dowolnej liczbie przypadków, a procedury dostępu do danych są wysoce zoptymalizowane. Niemniej jednak, gdy mamy do czynienia z wielką liczbą przypadków uwzględnianie ich wszystkich w analizie jest (a) zbyteczne, (b) czasochłonne i (c) często niepraktyczne i niemożliwe (w pewnych przypadkach, aby zaledwie odczytać dane, potrzebne jest wiele godzin). W celu przyspieszenia procesu data mining możemy skorzystać z wyrafinowanych narzędzi STATISTICA Data Miner, służących do wybrania reprezentatywnego, w pełni losowego podzbioru spośród ogromnego zbioru danych (bazy danych). Użytkownik może szybko wylosować próbkę o wybranej liczności, z lub bez zwracania, stosując różne algorytmy. Podzbiór możemy wyodrębnić z ogromnej bazy danych (np. zawierającej miliony przypadków) i analizować go później, stosując wyrafinowane techniki modelowania wymagające wielokrotnego odczytywania danych (np. sieci neuronowe lub uogólniony model liniowy). Losowe próbkowanie wykorzystuje sprawdzone generatory liczb pseudolosowych STATISTICA . Warto zwrócić uwagę, że program STATISTICA jest jedną z bardzo niewielu komercyjnych aplikacji, która przeszła pomyślnie zaawansowane i cenione testy losowości (testy DIEHARD).

      Przetwarzanie rozproszone i wielowątkowa realizacja projektów w środowisku klient-serwer. Bazująca na WebSTATISTICA wersja klient-serwer systemu STATISTICA Data Miner ma dalsze zalety, szczególnie cenne przy przetwarzaniu dużych zbiorów danych. Program w wersji klient-serwer automatycznie wykorzystuje architektury wieloprocesorowe lub wiele serwerów do przetwarzania złożonych modeli jako wiele, jednocześnie działających procesów. Dzięki temu wersja klient-serwer w pełni wykorzystuje dostępną moc obliczeniową i może wykonywać nawet bardzo złożone projekty dla ogromnych zbiorów danych.

      Powrót na początek

      Narzędzia Data Mining

      STATISTICA Data Miner oferuje prawdopodobnie najszerszy (spośród dostępnych na rynku programów) wybór technik statystycznych, eksploracyjnych i wizualizacyjnych, w tym wysoce specjalistyczne i zaawansowane techniki sieci neuronowych i procedury klasyfikacji. Narzędzia analityczne STATISTICA wykorzystywane są do technik data mining, zawartych w ponad 300 węzłach, które można wybierać w obrębie odpowiednio zorganizowanej i modyfikowalnej Przeglądarki węzłów oraz przeciągać do obszaru roboczego projektów data mining. Narzędzia te zostały zoptymalizowane pod względem wydajności i szybkości działania; mogą one być zaklasyfikowane do jednej z pięciu grup wymienionych niżej narzędzi data mining (każde zawiera zestaw modułów STATISTICA, przy czym niektóre z tych modułów oferowane są tylko przez system STATISTICA Data Miner):

      Kostki, przekroje i drążenie danych. Do tworzenia wykresów eksploracyjnych, do obliczania statystyk opisowych, tabelaryzacji itp. dostępnych jest wiele węzłów analizy. Węzły te mogą być przyłączane do źródeł danych wejściowych lub do wszystkich pośrednich wyników. Dostępny jest specjalistyczny moduł programu STATISTICA (Interakcyjne drążenie danych (Interactive drill-down explorer)) służący do interaktywnej eksploracji wybranych zmiennych oraz kategorii lub zakresów danych w obrębie tych zmiennych techniką drążenia. Możemy na przykład poddać drążeniu zmienną Płeć, aby przeanalizować rozkład zmiennej Dochód tylko w grupie kobiet. Moglibyśmy następnie poddać drążeniu określona grupę dochodową dla eksploracji (np. utworzenie graficznych zestawień) wybranych zmiennych, tylko dla kobiet z wybranej grupy dochodowej. Wyjątkową cechą modułu STATISTICA Interakcyjne drążenie danych jest możliwość wybierania i anulowania wyboru kolejności drążonych zmiennych i kategorii. Dzięki temu moglibyśmy następnie anulować wybór zmiennej Płeć i od razu wyświetlić wybrane wykresy i statystyki dla wybranej grupy Dochodu, ale tym razem dla kobiet i mężczyzn łącznie. Inną wyjątkową cechą opisywanego modułu jest różnorodność dostępnych metod kategoryzacji ("przekrojów"). Tak więc moduł STATISTICA Interakcyjne drążenie danych oferuje dużą elastyczność w zakresie tworzenia "kostek i przekrojów" danych. Moduł ten może być stosowany w odniesieniu do surowych danych, połączeń z bazą danych dla zdalnego przetwarzania danych umieszczonych w zewnętrznych bazach danych lub do dowolnych wyników pośrednich obliczanych w projekcie data mining.

      Ogólna klasyfikacja. To specjalistyczne narzędzie zawiera szeroką gamę technik klasyfikacyjnych data mining oraz budowy i implementacji odpowiednich modeli. W skład modułu wchodzą: Drzewa klasyfikacyjne, Ogólne modele drzew klasyfikacyjnych i regresyjnych (GTrees), Ogólne modele CHAID, Analiza skupień, Analiza skupień uogólnioną metodą EM i k-średnich (ze sprawdzianem krzyżowym) i Ogólne modele analizy dyskryminacyjnej. W STATISTICA Data Miner jest wiele technik klasyfikacyjnych bazujących na sieciach neuronowych, które mogą być używane w połączeniu z innymi technikami klasyfikacji lub niezależnie.

      • Wdrożenie. Tam, gdzie to ma zastosowanie, program może generować kod w języku C, C++, PMML (XML) lub STATISTICA Visual Basic, aby wdrożyć i zastosować końcowe rozwiązanie we własnych programach. Modele są także automatycznie dostępne do wdrożenia po procesie uczenia, tak że jedyne co pozostaje do zrobienia, to połączenie nowych danych do specjalnego węzła wdrożenia w celu wyznaczenia prognozowanych klasyfikacji.

      Ogólne modelowanie i eksploracja wielowymiarowa z kreatorem modeli. Jest to specjalistyczne narzędzie pozwalające na budowę liniowych i nieliniowych modeli data mining, eksplorowanie danych i budowanie modeli prognostycznych na bazie ogólnych metod wielowymiarowych, włączając Zaawansowane ogólne modele regresyjne liniowenieliniowe, GLM, GLZ, GPLS, log-liniowe, przeżycia, drzewa regresyjne, CHAID (Chi-square Automatic Interaction Detection), Multivariate Adaptive Regression Splines (MAR Splines)) i sieci neuronowe. Narzędzie to zawiera również inne specjalistyczne techniki, takie jak analiza ścieżkowa i szczególnie duży wybór wielowymiarowych technik eksploracyjnych (włączając tak wysoce specjalizowane i potężne metody, jak kombinacja Analizy korespondencjiAnalizy składowych głównych, Skalowanie wielowymiarowe czy Konfirmacyjna analiza czynnikowa) i wiele innych.

      • Wdrożenie. Tam, gdzie to ma zastosowanie, program może generować kod w języku C, C++, PMML (XML) lub STATISTICA Visual Basic, aby wdrożyć i zastosować końcowe rozwiązanie we własnych programach. Modele są także automatycznie dostępne do wdrożenia po procesie uczenia, tak że jedyne co pozostaje do zrobienia, to połączenie nowych danych do specjalnego węzła wdrożenia w celu obliczenia prognozowanych klasyfikacji.
      Ogólne prognozowanie. To specjalistyczne narzędzie obejmuje szeroki wybór tradycyjnych (tzn. bez sieci neuronowych) technik prognozowania (włączając modele ARIMA, wyrównywania wykładniczego, dekompozycji sezonowej, regresji i analizy z uwzględnieniem opóźnień), jak również techniki sieci neuronowych dla szeregów czasowych.
      • Wdrożenie. W projekcie data mining można automatycznie obliczać prognozy dla wielu modeli oraz umieszczać je na jednym wykresie dla oceny porównawczej. Możemy na przykład obliczać i porównywać prognozy na podstawie wielu modeli ARIMA, różnych metod sezonowego i niesezonowego wygładzania wykładniczego oraz najlepszych architektur sieci neuronowych dla szeregów czasowych (np. po przeszukaniu 100 różnych architektur).

      Ogólna eksploracja za pomocą sieci neuronowych. Moduł ten zawiera wszechstronny zestaw narzędzi bazujących na metodach sieci neuronowych. Pakiet Ogólna eksploracja za pomocą sieci neuronowych umożliwia rozwiązywanie wszelkich problemów data mining (łącznie z klasyfikacją, wykrywaniem ukrytych struktur, prognozowaniem). Jedną z wyjątkowych funkcji eksploratora neuronowego jest zestaw automatycznych projektantów sieci i kreatorów, które korzystając z metod sztucznej inteligencji, pomagają rozwiązywać najtrudniejsze zagadnienia pojawiające się przy budowie sieci neuronowych (jak wybór najlepszej architektury sieci i najlepszego podzbioru zmiennych). Eksplorator dysponuje najnowocześniejszymi procedurami sieci neuronowych i zoptymalizowanymi algorytmami: perceptrony wielowarstwowe, sieci o radialnych funkcjach bazowych, probabilistyczne sieci neuronowe, sieci neuronowe uogólnionej regresji, samoorganizujące się mapy cech, modele liniowe, sieci z analizą składowych głównych i sieci klasyfikujące. Zespoły sieci o takich architekturach mogą być oceniane pod względem jakości. Metody uczenia to: wsteczna propagacja błędów, metoda gradientów sprzężonych, quasi-Newtona, Levenberga-Marquardta, szybkiej propagacji, delta-bar-delta, LVQ; są też algorytmy czyszczenia, walidacji, bootstrappingu, próbkowania, analizy wrażliwości itd.

      • Wdrożenie. Program STATISTICA Sieci Neuronowe zawiera opcje pozwalające na generowanie kodu w języku C, C++ lub STATISTICA Visual Basic dla jednej lub wielu wyuczonych sieci, jak również zbiorów sieci. Kod ten może być szybko połączony z własnymi programami do wdrożenia i stosowania. Ponadto całkowicie wyuczone sieci neuronowe i ich zbiory można zapisywać w celu ich późniejszego wykorzystywania do obliczania przewidywanych odpowiedzi lub klasyfikacji w przypadku nowych danych. Węzeł wdrożeniowy można przeciągać do obszaru roboczego projektu data mining, aby automatycznie uzyskać prognozy lub przewidywane klasyfikacje z wykorzystaniem wyuczonych sieci neuronowych. Jedyne co należy zrobić (po przeprowadzeniu uczenia branych pod uwagę architektur sieci), to podłączenie do projektu danych do wdrożenia.
      Powrót na początek

      Moduły zaprojektowane dla data mining

      Dużą część funkcji STATISTICA Data Miner realizują procedury i moduły będące częścią innych produktów STATISTICA (patrz odpowiednie fragmenty rozdziału Produkty STATISTICA). Wyróżnić jednak trzeba moduły zawierające wysoko specjalizowane techniki data mining, które znajdują się tylko w STATISTICA Data Miner. W następujących rozdziałach podane są techniczne informacje o tych modułach.

      Wersja klient-serwer systemu STATISTICA Data Miner i data mining za pomocą WebSTATISTICA

      Zwykła (lokalna) wersja systemu STATISTICA Data Miner wykonuje wszystkie obliczenia lokalnie, a zasoby innych komputerów wykorzystywane są jedynie przy korzystaniu ze zdalnych baz danych przez In-Place Database Processing (IDP). IDP umożliwia asynchroniczny, bezpośredni dostęp do bazy danych (z możliwością wykorzystania przetwarzania rozproszonego, jeśli oferuje je serwer bazy danych) i pozwala uniknąć zapisywania na lokalnym dysku kopii danych wymaganych do analizy w postaci pliku danych (importowania danych). Gdy korzystamy z IDP, serwer bazy danych generuje rekordy danych i przesyła je do STATISTICA Data Miner, który jednocześnie przetwarza dane na stacji roboczej użytkownika.

      Architektura klient-serwer

      W przypadku wersji klient-serwer systemu STATISTICA Data Miner wszystkie obliczenia odbywają się na serwerze, a stacja robocza użytkownika obsługuje wyłącznie interfejs użytkownika. Architektura klient-serwer daje wyraźne korzyści przy pracy z dużymi projektami, które wymagają złożonych obliczeń dla ogromnych zbiorów danych. Wykonanie takich projektów w skrajnych przypadkach może być realne tylko na specjalnym komputerze (wyposażonym w wiele procesorów) lub na zespole komputerów, a ponadto przeniesienie długotrwałych zadań na serwer pozwala korzystać z lokalnego komputera w czasie wykonywania zadania.

      Technologia WebSTATISTICA Data Miner

      Bazująca na WebSTATISTICA architektura klient-serwer systemu STATISTICA Data Miner ma wiele istotnych zalet.

      WebSTATISTICA wykorzystuje przetwarzanie rozproszone i wielowątkowość, co pozwala optymalnie wykonywać bardzo duże zadania obliczeniowe. Technologia WebSTATISTICA umożliwia szybkie wykonywanie nawet bardzo dużych projektów z pełnym wykorzystaniem wielu procesorów serwera lub wielu serwerów pracujących równolegle. Na rysunku poniżej przedstawiono wykonywanie pojedynczego projektu na czteroprocesorowym serwerze oraz okno Menadżera zadań z informacjami o wykorzystaniu zasobów serwera. Jak widać, w pełni wykorzystywane są wszystkie cztery procesory.

      Ponadto WebSTATISTICA pozwala korzystać ze środowiska użytkownika niezależnego od wykorzystywanego systemu operacyjnego i komputera. Inną bardzo ważna zaletą architektury WebSTATISTICA jest to, że daje ona możliwość zarządzania projektami i pracy grupowej w skali całej organizacji. Dzięki temu równie łatwo mogą ze sobą współpracować osoby z różnych pokoi i z różnych kontynentów.

      Interfejs użytkownika WebSTATISTICA Data Miner

      Użytkownik wersji klient-serwer systemu STATISTICA Data Miner może tworzyć i zmieniać projekty data mining, korzystając z interfejsu w ramach przeglądarki internetowej uruchomionej na swoim komputerze (kliencie). Interfejs ten jest w zasadzie identyczny jak środowisko pracy w zwykłej (lokalnej) wersji systemu STATISTICA Data Miner. Interfejs użytkownika WebSTATISTICA Data Miner może pracować na dowolnym komputerze, który ma połączenie z Internetem. Bez względu na to, na jakim komputerze pracuje użytkownik, wszystkie obliczenia wykonywane są na serwerze, który zazwyczaj będzie miał wydajniejsze procesory i więcej zasobów dyskowych (ponadto operacje na serwerze są wykonywane z zastosowaniem zoptymalizowanej, wielowątkowej architektury systemu WebSTATISTICA Data Miner, z możliwością wykorzystania przetwarzania rozproszonego).

      W istocie interfejs WebSTATISTICA Data Miner może pracować jednocześnie na wielu komputerach, znajdujących się w dowolnych miejscach na całym świecie (pod warunkiem, że są one połączone z Internetem, nawet niezbyt szybkim łączem). System, działając na serwerze (lub wielu serwerach), wykonuje wszystkie obliczenia przy zachowaniu bezpieczeństwa i kontroli uprawnień dostępu do projektów przez określone grupy użytkowników.

      Warto przeczytać: