Przeszukaj Internetowy Podręcznik Statystyki



Data mining (zgłębianie danych). Data mining jako proces analityczny, przeznaczony jest do eksploracji dużych zbiorów danych (zazwyczaj odnoszących się do zjawisk gospodarczych lub rynkowych), w poszukiwaniu reguł i systematycznych zależności pomiędzy zmiennymi, a następnie do oceny wyników poprzez zastosowanie wykrytych prawidłowości do nowych podzbiorów danych. Ostatecznym celem data mining jest przewidywanie.

Data mining wykorzystuje wiele technik określanych jako Eksploracyjna analiza danych. Więcej informacji można znaleźć w rozdziale Techniki Data Mining.
Dekompozycja efektywnych hipotez. W przypadku gdy w kompletnym układzie czynnikowym ANOVA występują podklasy o brakujących danych, wówczas mamy do czynienia z niejasnością co do szczegółowych porównań pomiędzy średnimi podklas (oczekiwanymi średnimi brzegowymi), które tworzą efekty główne i efekty interakcji. Szczegółowe omówienie metod określanych jako sumy kwadratów Typu I, II, III, IV i unikalna suma Typu V zawiera rozdział Ogólne modele liniowe.

Ponadto, w przypadku modeli z sigma-ograniczeniami (w niektórych pakietach statystycznych moduł GLM daje wybór pomiędzy modelem z sigma-ograniczeni a modelem przeparametryzowanym) można wybrać opcję sum kwadratów typu VI; jest to identyczne podejście jak opisana przez Hockinga (1996) metoda hipotez efektywnych. Szczegóły dotyczące tych metod można znaleźć w temacie Sześć typów sum kwadratów lub w GLM.

Dekompozycja wartości osobliwej. Efektywny algorytm służący do uzyskiwania najlepszego modelu liniowego.

Patrz także algorytm pseudoodwrotności.

DFFITS. Do sprawdzania wartości wskaźników wpływu i wpływu określonego przypadku, w modelu regresji stosowanych jest wiele miar (w tym studentyzowane reszty, studentyzowane usunięte reszty, DFFITS oraz standaryzowane DFFITS). Belsley i wsp. (1980) zaproponowali wielkość DFFITS, miarę która daje większą wagę odstającym obserwacjom niż odległość Cooka. Przy obliczaniu wartości DFFITS stosowany jest wzór:

DFFITi = iei/(1-i)

gdzie
ei    oznacza błąd dla i-tego przypadku
hi    oznacza wskaźnik wpływu dla i-tego przypadku

oraz   i = 1/N + hi.

Więcej na ten temat, patrz Hocking (1996) i Ryan (1997).

Diagram Ishikawy. Diagram Ishikawy nazywany jest też diagramem przyczynowo-skutkowym, albo, z powodu podobieństwa do szkieletu ryby, po prostu diagramem ryby. Jego pomysłodawcą jest prof. Kaoru Ishikawa z Uniwersytetu Tokijskiego.

Więcej informacji można znaleźć pod hasłem diagram przyczynowo-skutkowy oraz w opisie diagram przyczynowo-skutkowy we wstępie do Analizy procesu.


Diagram przyczynowo-skutkowy Ishikawy. Diagram Ishikawy jest rodzajem podsumowania czynników oddziałujących na proces, przydatnym w działaniach mających na celu poprawę jakości. Jest on jednym z ważnych narzędzi etapu Definiowania strategii Sześć sigma. Diagram ten, ze względu na swój wygląd nazywany też "diagramem ryby", znany jest pod nazwą diagramu Ishikawy. Profesor Kaoru Ishikawa z Uniwersytetu w Tokio wprowadził ten diagram do wykazywania zmiennych oddziałujących na proces. Ogólna idea wykresu jest prosta. Przypuśćmy, że próba zapalenia lampki nocnej nie powiodła się. Rozważamy cechy i parametry, które zwykle powodują świecenie lampki, a które mogły zawieść:

Powyższy diagram przyczynowo-skutkowy (przykład za podręcznikiem Rath & Strong, Six Sigma, 2000) pokazuje potencjalne przyczyny napotkanego problemu. Diagram tworzy się rozpoznając (1) główne przyczyny (w tym przypadku Zasilanie, Żarówka, Kabel i Lampa) oraz (2) szczegółowe przyczyny przynależne głównym przyczynom (np. Brak prądu na osiedlu, Spalony bezpiecznik itd.). Diagramu używamy jako przewodnika przy lokalizowaniu przyczyny problemu ze światłem do czytania. Diagram można dalej wzbogacać dodając np. przyczyny podrzędne do szczegółowych, wykreślając wyeliminowane przyczyny, zaznaczając podjęte testy itp.

Diagram przyczynowo-skutkowy pełni kluczową rolę w programach poprawy jakości Sześć sigma. W pierwszym etapie cyklu Definiowanie-Pomiar-Analiza-Udoskonalenie-Kontrola (DMAIC) diagram jest najbardziej przydatny. Pomaga rozpoznać obszary, wydziały, procesy, osoby, które trzeba włączyć do działań na rzecz jakości. Szczegóły, patrz Harry i Schroeder (2000), Pyzdek (2001), lub Rath i Strong (2000); patrz też temat Sześć sigma.

DIEHARD - testy liczb losowych. W wielu analizach statystycznych, w badaniach, w modelach symulacyjnych używa się liczb losowych. Generatory tych liczb losowych muszą spełniać odpowiednie wymagania. Większość programów do statystycznej analizy danych ma funkcje służące do generowania równomiernych liczb losowych. W przeglądach pakietów statystycznych (McCullough, 1998, 1999), jakie ukazały się w The American Statistician do testowania generatorów liczb losowych zastosowano zestaw testów nazywany DIEHARD (Marsaglia, 1998). Testowane są tam różnorodne układy równomiernych liczb losowych, w poszukiwaniu znaczących odchyleń od czystej losowości. Ten zestaw testów stał się standardem w dziedzinie testowania procedur generujących równomierne liczby losowe.

Dobór cech. Jeden ze wstępnych etapów procesu data mining, stosowany gdy zbiór danych zawiera więcej zmiennych niż można ich włączyć do analizy (by pozostała ona sprawna i efektywna).

Uzupełniające informacje problem wymiarowości.

Dobroć dopasowania (zgodność, jakość dopasowania). Zarówno dla zmiennych ciągłych jak i skategoryzowanych obliczanych może być wiele różnych statystyk. Większość z nich omówiona jest w pracy Wittena i Franka (2000), w kontekście przewidywania; inne statystyki są opisane również w pracy Makridakis i Wheelwright (1983).

Statystyki dobroci dopasowania w zagadnieniach regresyjnych (zmienne ilościowe):

Statystyki dobroci dopasowania w zagadnieniach klasyfikacyjnych (zmienne jakościowe):

Docelowa moc. Minimalna moc, jaka ma być osiągnięta przy poszukiwaniu akceptowalnego rozmiaru próby. Akceptowalny rozmiar próby musi dawać moc większą lub równą niż ta wartość.

Dodatkowe informacje można znaleźć w rozdziale Analiza mocy testu, a także pod hasłem moc testu statystycznego.

Dołącz przypadki lub zmienne. Funkcje umożliwiające dodanie nowych przypadków (tzn. wierszy danych) lub zmiennych (tzn. kolumn danych) na końcu zbioru danych. Przypadki i zmienne mogą być również wstawiane w dowolnym miejscu zbioru danych.

Dołącz sieć. Funkcja umożliwiająca połączenie dwóch sieci neuronowych (w których warstwy wyjściowe i wejściowe są kompatybilne) w pojedynczą sieć.

Dołączenie sieci (w sieciach neuronowych). Czasami przydatna jest możliwość łączenia dwóch sieci i utworzenie z nich jednej złożonej sieci. Można wskazać na szereg powodów takiego postępowania:

Uwaga:Sieci mogą być łączone tylko wtedy, gdy liczba wejść w drugiej sieci jest zgodna z liczbą wyjść w pierwszej sieci. Podczas łączenia dwóch sieci, neurony wejściowe pochodzące z drugiej sieci są odrzucane, zaś wychodzące od nich drogi przesyłania sygnałów (i związane z nimi wagi) są przyłączane do neuronów wyjściowych pierwszej sieci.

Ostrzeżenie: Podczas łączenia sieci tracone są informacje dotyczące post-procesingu danych wyjściowych w pierwszej sieci jak również informacje dotyczące pre-procesingu danych wejściowych w drugiej sieci. Jakkolwiek by odpowiednie parametry były ustawione - nie są one uwzględniane w wynikowej sieci powstającej w następstwie połączenia.

Dopasowanie normalne. Histogram rozkładu normalnego/zaobserwowanego stanowi najbardziej powszechny graficzny test normalności. Kiedy wybierzemy to dopasowanie, wówczas na rozkład liczebności zostanie nałożona krzywa normalna. Funkcja rozkładu normalnego dopasowywana do histogramów jest zdefiniowana jako:

f(x) = LP * krok * normal(x, średnia, odch.std.)

Funkcja rozkładu normalnego dopasowywana do histogramów skumulowanych jest zdefiniowana jako:

f(x) = LP * inormal(x, średnia, odch.std.)

gdzie
LP           oznacza liczbę przypadków.
krok        oznacza wielkość kroku kategoryzacji (np. liczba całkowita 1).
normal     oznacza funkcję rozkładu normalnego.
inormal    oznacza całkę z funkcji rozkładu normalnego.

Dodatkowe informacje można znaleźć także pod hasłami rozkład normalny, dwuwymiarowy rozkład normalny.

Drążenie danych. Pojęcie "drążenia danych" odnosi się do data mining i oznacza interakcyjną eksplorację danych, w szczególności dużych baz danych. Drążenie zaczyna się od prostego dzielenia zbioru danych wg ważnych zmiennych klasyfikacyjnych (np. Płeć, Województwo itp.). Różne statystyki, tabele, histogramy i inne podsumowania obliczać można osobno dla każdej grupy danych. W następnych krokach drążymy dane "głębiej", możemy np. przyglądać się mężczyznom konkretnie z województwa małopolskiego. Po otrzymaniu dla tej grupy pewnych opisowych wyników, okazać się może, że warto przyjrzeć się osobno mężczyznom z małopolski starszym (po 40) i młodszym (przed 40) albo zasobniejszym i uboższym (wg zmiennej Dochód). W pewnym momencie dochodzimy do "dna", do surowych danych. Możemy np. przejrzeć adresy klientów z konkretnego województwa, płci męskiej, o wysokich dochodach, młodych, itd. by skierować do nich bardzo dobrze dopasowaną ofertę.

Drzewa klasyfikacyjne. Drzewa klasyfikacyjne wykorzystuje się do wyznaczania przynależności przypadków (obiektów) do klas jakościowej zmiennej zależnej, na podstawie wartości jednej lub więcej zmiennych predykcyjnych.

Szczegółowy opis drzew klasyfikacyjnych można znaleźć w rozdziale Drzewa klasyfikacyjne.

DV. Skrót DV oznacza zmienną zależną - ang. Dependent Variable. Zobacz także, zmienne niezależne a zmienne zależne.

Dwuwymiarowy rozkład normalny. Dwie zmienne podlegają dwuwymiarowemu rozkładowi normalnemu, jeśli dla każdej wartości jednej zmiennej, odpowiadające im wartości drugiej zmiennej posiadają rozkład normalny. Funkcja gęstości dwuwymiarowego rozkładu normalnego dla dwóch zmiennych losowych (X i Y) określona jest wzorem:

f(x,y) = {1/[212 * (1-)1/2]} * exp[-1/2(1-2)] * {[(x-1)/1]2 -
2[(x-1)/1] * [(y-2)/2] + [(y-2)/2]2}
- < x < , - < y < , - < 1 < , - < 2 < , 1 > 0, 2 > 0, oraz -1 < < 1

gdzie
1, 2    są odpowiednimi wartościami oczekiwanymi zmiennych losowych X i Y
1, 2   są odpowiednimi odchyleniami standardowymi zmiennych losowych X i Y
            jest współczynnikiem korelacji dla X i Y
e             jest podstawą logarytmu naturalnego (o wartości 2.71...) czasami nazywaną e Eulera
          jest stałą Pi (3.14...)

Patrz także, rozkład normalny, Podstawowe pojęcia statystyki (Dlaczego rozkład normalny jest ważny)






© Copyright StatSoft, Inc., 1984-2011
STATISTICA is a trademark of StatSoft, Inc.