Ogólne cechy systemu
 Wspólne cechy systemów
korporacyjnych
STATISTICA

 Podsumowanie cech
STATISTICA

 Opis ogólny
 Przykłady cech
STATISTICA

 Środowisko użytkownika
 Zarządzanie wynikami
analiz

 Rodzaje dokumentów
 Grafika
 STATISTICA Visual Basic
 STATISTICA Query
Zastosowania
STATISTICA Text Miner
Do czego można użyć STATISTICA Text Miner ?

Analiza treści stron WWW. System może automatycznie przetwarzać zawartość stron i portali internetowych oraz grup dyskusyjnych, np. w celu odnalezienia tekstów poświęconych pewnemu tematowi.
Przewidywanie na podstawie nieuporządkowanego tekstu. W projektach data mining możemy uwzględnić odpowiedzi na pytania otwarte, takie jak opis dolegliwości uzyskany od pacjenta (wynikiem analizy może być klasyfikacja pacjentów i objawów).
Analiza dużych repozytoriów dokumentów. Przykładowo przy wykrywaniu nadużyć ubezpieczeniowych można przeanalizować repozytorium zawierające opisy szkód, aby w przyszłości móc rozpoznać podejrzane opisy.
Opis systemu STATISTICA Text Miner w języku angielskim

Text Miner (rozszerzenie programu STATISTICA Data Miner)

Odnajdź bezcenną wiedzę
w pozbawionych struktury
danych rzeczywistych
za pomocą STATISTICA Text Miner

STATISTICA Text Miner jest rozszerzeniem systemu STATISTICA Data Miner, służącym do przekształcania pozbawionych struktury tekstów w użyteczna wiedzę, wspomagającą podejmowanie decyzji. W projektach data mining wykorzystuje się dane o różnej postaci - nie zawsze mają one strukturę umożliwiającą łatwe wykonanie analizy. System STATISTICA Text Miner wgłębia się w dane, które nie mają tradycyjnej struktury "arkusza danych" i odnajduje w nich użyteczną informację.

System STATISTICA Text Miner można bez trudności łączyć z innymi programami z rodziny STATISTICA. Podobnie jak inne produkty StatSoft, STATISTICA Text Miner zawiera wyjątkowo szeroki zestaw metod o bardzo dużych możliwościach w dziedzinie, dla której został przygotowany (tzn. w text mining). Metody te zostały zaimplementowane ze szczególną uwagą poświęconą skalowalności i wydajności, a także z zastosowaniem technologii wielowątkowej zapewniającej maksymalne wykorzystanie mocy obliczeniowej maszyn wieloprocesorowych.

Podobnie jak system STATISTICA Data Miner, STATISTICA Text Miner zaprojektowano jako otwarte oprogramowanie data mining. Narzędzia pobierania, selekcji i analizy można stosować nie tylko w odniesieniu do dokumentów tekstowych i stron WWW, ale również do klasyfikacji, segmentacji i innych sposobów analizy danych pozbawionych struktury, takich jak (wstępnie obrobione) obrazy, pliki dźwiękowe itd.



Zachęcamy do zapoznania się z wprowadzeniem do text mining i przykładem wykonywania text mining w STATISTICA Text Miner

Najważniejsze możliwości STATISTICA Text Miner:

Odczytywanie dokumentów
  • System zawiera narzędzia dostępu do dokumentów tekstowych w formatach tekstowym (.txt), Adobe Acrobat (.pdf), PostScript (.ps), HTML i XML (powszechnie wykorzystywane w Internecie) oraz formatach Microsoft Office (.doc i .rtf).
  • Środowisko użytkownika umożliwia łatwy wybór dużej ilości dokumentów (np. za pomocą symboli zastępczych i w obrębie wybranego drzewa podkatalogów).
  • System może, poczynając od wybranej strony WWW, wędrować przez wszystkie połączone z nią strony, a także strony połączone z tymi stronami (tzw. "Web-crawling"). Wszystkie dokumenty wchodzące w skład takiego drzewa odwołań zostaną uwzględnione w analizie, aż do zadanego poziomu "zagłębienia" (liczby kroków, które trzeba wykonać, aby dotrzeć do danej strony WWW).
  • Nazwy plików i adresy stron (URL) mogą być również odczytywane ze zmiennej tekstowej w pliku STATISTICA. System właściwie traktuje zmienne z danymi (liczbowymi lub tekstowymi) i zmienne z odwołaniami do plików i stron. Dzięki temu można w poszczególnych obserwacjach przechowywać zarówno dane liczbowe, jak i duże dokumenty tekstowe, a co za tym idzie wykonywać poprawną analizę "mieszanych" danych (zawierających np. wiek, wzrost i wagę pacjenta oraz tekstowy opis objawów sporządzony przez lekarza).
  • Wygodne i uniwersalne procedury importu list nazw dokumentów lub adresów stron (URL) do arkusza STATISTICA.
Przetwarzanie dokumentów
    Dokumenty mogą być wstępnie przetwarzane (faktycznie analiza i wstępne przetwarzanie może odbywać się równolegle):
  • Pomijanie nieistotnych słów. Możemy pomijać słowa i frazy, które są popularne, ale bezużyteczne w danej analizie (np. takie jak "się", spójniki "i", "lub" itp.)
  • Redukcja do rdzenia (ang. "stemming"). Polega ona na utożsamieniu różnych form gramatycznych wyrazów (angielskie słowa "traveled" i "traveling" utożsamia się z "travel").
  • STATISTICA Text Miner wykonuje redukcję do rdzenia dla dokumentów w językach: holenderskim, angielskim, francuskim, niemieckim, włoskim, portugalskim, hiszpańskim, szwedzkim (w sprawie innych języków prosimy o kontakt). Listy redukowanych słów są dostępne do edycji przez użytkownika; ponadto program umożliwia stosunkowo łatwe dodawanie obsługi innych języków.
  • Po wstępnym przetworzeniu tekstów program zlicza wystąpienia wyrazów we wszystkich dokumentach. Uzyskane w ten sposób dane surowe są podstawą dalszych ("liczbowych") analiz.
  • Przed utworzeniem pliku danych STATISTICA z liczbami wystąpień wyrazów można zastosować różne przekształcenia, przykładowo liczba wystąpień słowa w dokumencie może zostać podzielona przez długość dokumentu lub zlogarytmowana. Ponadto można zastosować różnorodne algorytmy wyboru cech, w tym rozkład według wartości osobliwych (SVD, singular value decomposition).
  • Wynikowy plik danych z wartościami liczbowymi (np. wartościami wymiarów SVD, surowymi licznościami, częstościami względnymi, częstościami najpopularniejszych wyrazów itp.) jest gotowy do analizy.
  • Informacje wydobyte z tekstu mogą zostać zapisane do pliku lub do bazy danych (zob. IDP).
Analiza dokumentów
    Do uzyskanych w powyższy sposób danych (liczbowej reprezentacji zawartości dokumentów) możemy zastosować wszystkie metody analityczne:
  • Proste podsumowania mogą wskazać najczęściej używane słowa.
  • Po zastosowaniu SVD (np. poprzez analizę składowych głównych) uzyskuje się mapę dokumentów, służącą do oceny podobieństwa dokumentów itp.
  • Mapowanie dokumentów w oparciu o liczności wyrazów umożliwia uzyskanie mapy podobieństwa jednocześnie między dokumentami i słowami.
  • Analiza skupień (metody EM i k-średnich) identyfikuje grupy podobnych dokumentów.
  • Predykcyjny data mining umożliwia znajdowanie związku między liczbową reprezentacją dokumentu a interesującymi cechami, np. diagnozą medyczną, informacją, czy dana transakcja była zgodna z prawem itp.
  • Kluczowe etapy analizy wymagające intensywnego przetwarzania danych zostały wdrożone z wykorzystaniem technologii wielowątkowej, aby uzyskać maksymalne wykorzystanie maszyn wieloprocesorowych.



Współpraca z programami STATISTICA, STATISTICA Data Miner i WebSTATISTICA

Oprogramowanie do text mining jest w pełni zintegrowane ze STATISTICA: nie jest to produkt innego wytwórcy, luźno połączony ze STATISTICA! Z tego powodu STATISTICA Text Miner jest wyjątkowym rozwiązaniem: narzędzia text mining są "jeszcze jednym modułem" wbudowanym w środowisko STATISTICA Data Miner, WebSTATISTICA lub własnej aplikacji bazującej na STATISTICA (z użyciem SVB; przykładowo aplikacja będzie regularnie odczytywać dane z hurtowni danych za pomocą IDP, następnie wykonywać analizy i udostępniać je w Internecie za pomocą WebSTATISTICA, tak że będą z nich mogły korzystać uprawnione osoby na całym świecie).