Szczegółowe informacje
 O seminariach
 Tematy seminariów
 Streszczenia
 Wykładowcy
 Lista referencyjna
 Materiały
 Prezentacje
 Zdjęcia
 Inne seminaria
Powiązane informacje
 Ogólne cechy systemu
 Kursy
 Usługi konsultingowe
 Studia podyplomowe

Seminaria
ZASTOSOWANIA STATYSTYKI I DATA MINING

Październik 2009



Zastosowania narzędzi StatSoft do analizy danych w przemyśle

Będzie to wstęp do kolejnych wystąpień. Słuchacze zostaną wprowadzeni w zagadnienia analizy danych w przemyśle. Oprócz powszechnie stosowanych narzędzi statystycznego sterowania jakością (SPC) zostaną także w skrócie omówione inne narzędzia (wykorzystujące np. zaawansowane techniki data mining), które są szczególnie przydatne w analizie oraz optymalizacji skomplikowanych, wieloparametrycznych procesów. Stosowanie tych zaawansowanych narzędzi może znacznie zwiększyć szanse powodzenie projektów innowacyjnych. W trakcie wystąpienia uwaga zostanie zwrócona na praktyczne aspekty zastosowania analizy danych w przemyśle. Program wystąpienia:

  • Analiza danych w przemyśle – wstęp
  • SPC i Six Sigma
  • Modelowanie i optymalizacja procesu z wykorzystaniem zaawansowanych narzędzi analitycznych
  • Przykładowe zastosowania

Normy i jakość z pakietem STATISTICA: od kontroli odbiorczej po Six Sigma

W prezentacji przedstawiony zostanie przegląd norm i regulacji w których spełnieniu może pomóc oprogramowanie z rodziny STATISTICA lub inne systemy tworzone przez StatSoft i wykorzystujące oprogramowanie STATISTICA jako motor analityczny. Często osoby zajmujące się zagadnieniem, w którym wymagane jest postępowanie według określonych norm nie wiedzą o istnieniu narzędzi, które w istotny sposób mogą usprawnić ich pracę. Prezentacja ma na celu przybliżenie zwiazków obowiązujących regulacji z produktami StatSoft.

  • Ogólne normy dotyczące obliczeń statystycznych i program STATISTICA
  • Laboratoria i badania biegłości laboratoriów
  • Kontrola odbiorcza i jej wspomaganie
  • Karty kontrolne
  • Analiza procesu norma DIN
  • Normy samochodowe
  • Normy farmaceutyczne
  • FDA 21 CFR PART 11

O korzyściach z SPC

Statystyczne sterowanie procesami (SPC) jest zwykle stosowane z uwagi na oczekiwania klientów, obowiązek wynikający z wymagań wdrażanych norm lub z uwagi na podobne czynniki. Jest też zwykle postrzegane jako metoda skomplikowana, trudna do zrozumienia i generalnie mało przydatna. A przecież może być zupełnie inaczej. Przykłady projektów, gdzie do wdrożenia SPC firmy podeszły na poważnie pokazują, jak wiele korzyści może przynieść SPC i informacje płynące z kart kontrolnych. I nie chodzi tylko o stabilizację procesów, ale o ograniczenie faktycznych wydatków ponoszonych na produkcję. Warto wzorować się na tych przykładach.

Przykład wdrożenia kart kontrolnych krok po kroku

Przykład przedstawia tworzenie karty kontrolnej p dla nowego procesu, określanie wartości granic kontrolnych i linii centralnej, wykrywanie próbek wskazujących na rozregulowanie, a następnie stosowanie karty do monitorowania procesu i badania skutków zmian wprowadzanych do procesu. Przedstawione zostaną również podstawowe wskazówki odnośnie właściwego doboru liczności próbki dla karty p oraz wykorzystanie kraty kontrolnej do optymalizacji procesu. Na koniec omówimy, jak stosować karty kontrolne przy małej frakcji elementów wadliwych. Karty kontrolne tworzone będą na bieżąco w STATISTICA, będzie można zobaczyć m.in. jak określić kartę, przypisać przyczyny do próbek i utworzyć kartę dla procesu, w którym wprowadzono zmianę specyfikacji.

Planowanie doświadczeń jako droga do innowacyjności - przykład optymalizacji procesu produkcyjnego.

Celem prezentacji będzie pokazanie w jaki sposób wykorzystując planowanie doświadczeń poprawić proces produkcyjny. Optymalizowano pewien proces chemiczny ze względu na jego wydajność. Oprócz poprawy wydajności dbano o jakość procesu oraz jego realizowalność w praktyce, dlatego też ocena optymalnych parametrów analizowanego procesu była wielokryterialna. Podczas prezentacji omówione zostaną wybrane elementy planowania doświadczeń i analizy uzyskanych wyników.

Systemowe podejście do zbierania i analizowania danych kluczem do redukcji kosztów

W prezentacji przedstawiony zostanie kompleksowy system który został oparty na systemie STATISTICA Enterprise i pozwala na połączenie w jedną całość wszystkich aspektów związanych ze statystycznym sterowaniem jakością procesów (SPC). Omówiona zostanie przykładowa architektura takiego systemu, przedstawione zostaną aspekty zbierania i analizowania danych które sa dostępne tylko w odpowiednio zaprojektowanym systemie i wreszcie omówione zostaną długofalowe korzyści dla firmy wynikające z wdrożenia.

  • Historia systemów SPC
  • Omówienie architektury systemu
  • Omówienie elementów systemu związanych bezpośrednio z użytkownikiem
  • Omówienie wartości jaką wprowadza system do przedsiębiorstwa
  • Przykłady wdrożeń

Wykrywanie przyczyn i przewidywanie problemów z jakością na przykładzie przemysłu poligraficznego

Wystąpienie poświecone jest tworzeniu modelu procesu w celu wykrycia przyczyn powstawanie problemów z jakością i przewidywaniu czy dla konkretnego cyklu procesu istnieje zagrożenie wystąpieniem wad. Przedstawiony przykład dotyczy druku rotograwiurowego, w którym z niewyjaśnionych przyczyn co jakiś czas pojawiały się pasy na wydrukach. Za pomocą narzędzi data mining zostanie zbudowany model wskazujący czynniki wpływające na zagrożenie wystąpieniem wady oraz umożliwiający przewidzenie wystąpienia takiego zjawiska. Uzyskane rozwiązanie zostanie wdrożone w STATISTICA Enterprise.

Metody analizy preferencji konsumenckich w STATISTICA. Analiza conjoint i mapy percepcji

Badania preferencji konsumentów stanowią podstawowe pole zainteresowań badaczy marketingowych. Stanowią one podstawową kategorię badawczą w modelowaniu zachowań konsumentów na rynku, uwzględniającą racjonalność procesu podejmowania decyzji. Podczas wystąpienia zostaną przedstawione zastosowania programu STATISTICA w trzech typach analiz związanych z badaniami preferencji konsumentów:

  • analizie conjoint,
  • budowie skali V ocen porównawczych Thurstone’a
  • analizie dopasowania własności (property fitting – PROFIT) z wykorzystaniem połączonych metod wielowymiarowego skalowania percepcji i analizy regresji.

Od kwestionariusza do raportu – system zbierania danych i narzędzia analityczne w badaniach ankietowych

W prezentacji przedstawiony zostanie system wprowadzania danych ankietowych, który umożliwia umieszczenie kwestionariuszy w sieci internetowej i gromadzenie odpowiedzi w centralnej bazie danych. W programie STATISTICA zebrane odpowiedzi ankietowe poddane będą wstępnej obróbce i sprawdzeniu poprawności danych. Następnie do przedstawienia prostych zestawień i podsumowania wyników kwestionariusza wykorzystane zostaną podstawowe narzędzia analityczne stosowane w badaniach ankietowych.

Zastosowanie technik analizy skupień i drzew decyzyjnych do segmentacji rynku

Segmentacja rynku jest jednym z kluczowych zadań realizowanych podczas opracowania strategii marketingowych. Dzięki segmentacji możemy wyróżnić grupy klientów podobnych do siebie i co ważniejsze podobnie reagujących na stosowane wobec nich instrumenty marketingowego oddziaływania. Podczas wystąpienia zaprezentowane zostaną zaawansowane techniki analityczne zawarte w programie STATISTICA używane do segmentacji rynku. Przedstawiony zostanie także przykład segmentacji opisowej za pomocą analizy skupień oraz segmentacji predykcyjnej za pomocą drzew klasyfikacyjnych.

Analiza migracji klientów (churn analysis)

Termin churn w praktyce oznaczać utratę klientów na rzecz konkurencji. podczas wystąpienia zaprezentowane zostaną strategie szacowania wskaźnika odejścia oraz metody budowy modeli pozwalających na przewidywanie skłonności klientów do odejścia ze szczególnym uwzględnieniem problemu niezrównoważonych proporcji modelowanych klas zmiennej zależnej. Zaprezentowane zostaną również specyficzne własności migracji klientów z branży telekomunikacyjnej, finansowej oraz handlu detalicznego.

Wykorzystanie skoringu marketingowego do optymalizacji kampanii sprzedażowych

Znajomość wzorców zachowania klientów oraz czynników, jakie na nie wpływają, jest jednym z krytycznych warunków sukcesu każdej kampanii sprzedażowej. Bardzo pomocne w poznawaniu klientów są narzędzia służące do zgłębiania danych (data mining).Jednym z najczęstszych podejść do optymalizacji kampanii marketingowych jest stworzenie modelu wskazującego klientów, do których warto skierować ofertę. Modele te określamy mianem modeli skoringowych, ponieważ rezultatem ich działania jest ocena (scoring) szansy zakupu przez danego klienta określonego produktu. Podczas wystąpienia zaprezentowany zostanie przykład budowy i oceny modelu skoringowego oceniającego skłonność klientów do zakupu karty kredytowej.

Analiza koszykowa i analiza sekwencji - Wielki Brat czuwa

Podczas wystąpienia zaprezentowane zostaną analiza koszykowa oraz analiza sekwencji metody zaliczane do grupy metod rozpoznawanych bez nauczyciela pozwalające na generowanie reguł skojarzeniowych opisujących na przykład zwyczaje klientów. Wystąpienie przybliży także specyfikę wykorzystywania tych metod w handlu elektronicznym oraz marketingu bezpośrednim. Zaprezentowany zostanie także przykład stosowania reguł asocjacyjnych w analizie danych ankietowych.

Najnowsza wersja STATISTICA 9

Przedstawione zostaną najważniejsze składniki oferty StatSoft Polska w zakresie analizy danych: oprogramowanie STATISTICA oraz usługi szkoleniowe, konsultingowe, wdrożeniowe itp. Szczególna uwaga zostanie poświęcona zmianom, jakie zostały wprowadzone w najnowszej, już dziewiątej wersji oprogramowani STATISTICA.
Program wystąpienia:

  • Wstęp
  • Oprogramowanie STATISTICA
    • Najważniejsze cechy
    • Wybrane zestawy narzędzi analitycznych STATISTICA i rozszerzenia
    • Dedykowane rozwiązania
  • Usługi StatSoft w zakresie analizy danych
    • Kursy otwarte i na zamówienie, warsztaty
    • Konsulting, wdrożenia i inne

Ankieta i co dalej? - system wprowadzania danych i podstawowe narzędzia analizy w badaniach ankietowych

W prezentacji przedstawiony zostanie system wprowadzania danych ankietowych, który umożliwia umieszczenie kwestionariuszy w sieci internetowej i gromadzenie odpowiedzi w centralnej bazie danych. W programie STATISTICA zebrane odpowiedzi ankietowe poddane będą wstępnej obróbce i sprawdzeniu poprawności danych. Następnie do przedstawienia prostych zestawień i podsumowania wyników kwestionariusza wykorzystane zostaną podstawowe narzędzia analityczne stosowane w badaniach ankietowych.

Eksploracja danych, testowanie hipotez badawczych i modelowanie zależności – przykłady w STATISTICA 9

Praktyczne przeprowadzenie analizy zgromadzonych danych składa się zazwyczaj z kilku etapów. Na każdym z tych etapów analityk potrzebuje różnych narzędzi wspomagających przebieg analizy. Przy wstępnej eksploracji danych przydatne są narzędzia do łatwej (analitycznej i graficznej) identyfikacji obserwacji nietypowych oraz możliwość szybkiej oceny ich wpływu na charakterystyki liczbowe rozkładów analizowanych zmiennych. Z kolei na etapie testowania postawionych hipotez badawczych potrzebny jest dostęp do metod sprawdzania założeń, występujących w przypadku określonych testów oraz szeroki zakres wyboru różnych testów parametrycznych i ich nieparametrycznych odpowiedników. W przypadku modelowania zależności pomiędzy analizowanymi zmiennymi wymagany jest zarówno dostęp do predefiniowanych modeli jak również możliwość estymacji parametrów modelu, zdefiniowanego samodzielnie przez użytkownika. W trakcie wystąpienia zostaną pokazane przykłady stosowania wspomnianych powyżej narzędzi analiz statystycznych w środowisku najnowszej wersji programu STATISTICA.

Dopasowanie rozkładu i eksperyment symulacyjny na przykładzie danych o wypadkach drogowych

W prezentacji omówione zostaną możliwości nowego modułu w programie STATISTICA 9 służącego do dopasowywania rozkładów i eksperymentów symulacyjnych. Działanie modułu zostanie przedstawione na żywo na danych dotyczących wypadków drogowych. Przedstawiony zostanie przykładowy scenariusz wypłat z polis AC/OC dla osób poszkodowanych w wypadkach.

  • Krótki wstęp omawiający cel powstania i ogólną funkcjonalność modułu.
    • Dopasowanie rozkładów
      • Dostępne rozkłady ciągłe
      • Dostępne rozkłady dyskretne
      • Informacje o dopasowaniu
    • Eksperymenty symulacyjne – bootstrap parametryczny
      • Sposób generowania nowych danych
      • Zachowanie struktury korelacji
    • Zastosowania
      • Modelowanie zjawisk
      • Analiza ryzyka – tworzenie scenariuszy, analiza „what-if”
      • Testowanie wytrzymałości systemu po drobnej zmianie parametrów modeli
  • Prezentacja danych wykorzystywanych w prezentacji
    • Dane o wypadkach drogowych oraz rannych i zabitych w tych wypadkach
      • Źródło danych: strona WWW Policji
      • Prezentacja danych na wykresie
    • Omówienie struktury danych o wypadkach, osobach rannych i zabitych
      • Obliczenie współczynników korelacji
      • Podkreślenie wysokiej i istotnej korelacji i konieczności jej zachowania przy losowaniu
    • Dane o wysokości szkód
      • Źródło danych – symulacja danych o zadanym rozkładzie
      • Charakterystyka i szczególnie użyteczne własności rozkładów o ciężkich ogonach
  • Opis mechanizmu generowania szkód w wypadkach komunikacyjnych.
    • Złożony rozkład zmiennej losowej
      • Definicja rozkładu złożonego
      • Przykład rozkładu złożonego
    • Rozkłady ilości szkód
      • Omówienie rozkładów dyskretnych wykorzystywanych do modelowania ilości wypadków
    • Rozkłady wysokości szkody
      • Omówienie rozkładów ciągłych wykorzystywanych do modelowania wysokości szkody
  • Dopasowanie ręczne rozkładów do danych o wypadkach wraz z omówieniem opcji modułu, prezentacją wykresów i zestawu generowanych wyników
    • Dopasowanie do ilości wypadków, liczby rannych i zabitych rozkładu Poissona
    • Dopasowanie do wysokości szkody rozkładu GEV
  • Omówienie mechanizmu generowania danych i uruchomienie makra
    • Omówienie sposobu działania makra
  • Prezentacja otrzymanych wyników.

Tworzenie i stosowanie modelu data mining za pomocą Przepisów STATISTICA Data Miner na przekładzie wykrywania nadużyć

Przykład poświecony będzie wykorzystaniu Przepisów STATISTICA Data Miner do tworzenia modelu i stosowania go dla nowych danych. Zadaniem będzie wskazanie transakcji w sklepie internetowym, które najprawdopodobniej wiążą się próbą wyłudzenia. Do budowy modelu przewidującego, czy transakcja jest, czy nie jest nadużyciem wykorzystane zostaną drzewa klasyfikacyjne, drzewa wzmacniane (boosted trees) oraz rożne architektury sieci neuronowych. Modele uzyskane różnymi metodami zostaną ocenione, a najlepszy z nich zostanie wdrożony w STATISTICA Enterprise.

  • Wczytanie danych z bazy danych przez konfigurację analizy STATISTICA Enterprise
  • Zbudowanie modelu w Przepisach SDM
    • Połączenie z plikiem danych i wybór zmiennych
    • Próba testowa: losowy wybór 20% przypadków
    • Eliminacja nieważnych zmiennych
    • Uczenie modeli
  • Wdrożenie w STATISTICA Enterprise

Zrozumieć dane i wyniki (na przykładach badań epidemiologicznych)

Celem prezentacji jest przybliżenie problemów związanych z przeprowadzeniem badania statystycznego, startując od A (A może by tak zacząć od zaplanowania badania) a kończąc na Z (Zaprezentujmy i zinterpretujmy uzyskane wyniki). Pomiędzy A i Z znajdą się także uwagi na temat: gromadzenia danych (m. in. cechy dobrego kwestionariusza, sposób zapisu danych), metod weryfikacji danych, zastosowanie metod statystyki opisowej (budowa tabel dla cech jakościowych i ilościowych) oraz zastosowanie odpowiednich, bardziej zaawansowanych analiz statystycznych.

Sondaże w prasie. O pożytku z badań ilościowych w mediach

Sondaże opinii publicznej są ważnym elementem debaty publicznej w Polsce. Odgrywają istotną rolę w diagnozie społecznej, a przez polityków i dziennikarzy są wykorzystywane jako argument w dyskusjach, przesłanka lub uzasadnienie decyzji. Wielu z nich sądzi, że sondaże mogą w istotny sposób wpłynąć na wyniki wyborów, przy czym ów wpływ jest nieokreślony, a empirycznie słabo uzasadniony. Podstawowym problemem jest sposób prezentacji sondaży w mediach. W trakcie wystąpienia zaprezentowane zostaną wyniki analizy publikowanych w prasie sondaży w kampaniach parlamentarnych w Polsce. Skupiono się na analizie jakości informacji metodologicznych i sposobem wykorzystania sondaży w mediach. Część empiryczną wystąpienia stanowi analiza 589 artykułów odwołujących się do sondaży i publikowanych w „Rzeczpospolitej” i „Gazecie Wyborczej” w latach 1991-2007. W odróżnieniu od badań europejskich i amerykańskich nie zaobserwowano poprawy jakości informacji dotyczących badań i sposobów interpretacji wyników, choć – podobnie jak w innych krajach – zanotowano znaczący wzrost ich obecności w mediach. Zestawiając sposób prezentacji wyników sondaży przedwyborczych, „Rzeczpospolita” rzetelniej niż „Gazeta Wyborcza” przedstawiała podstawowe dane dotyczące relacjonowanych badań. Jednocześnie okazało się, że badania własne, zlecane przez wydawców są w mediach nie tylko częściej ale i rzetelniej przedstawiane.

Wspomaganie statystycznej analizy wyników badań empirycznych w STATISTICA 9

Badania empiryczne to proces wieloetapowy. Dla poprawnej ich realizacji badacz musi rozwiązać wiele problemów, w tym także takich, które nie dotyczą bezpośrednio dziedziny, w której są one prowadzone. Taka sytuacja może mieć miejsce w przypadku potrzeby zastosowania metod analizy danych. Dwie stosunkowo najczęściej zgłaszane trudności to: (1) dobór odpowiednich metod opracowania danych oraz (2) poprawna interpretacja wyników analiz. Waga problemu wynika z tego, że zarówno nieodpowiedni wybór metod jak i błędna interpretacja wyników prowadzą zwykle do formułowania błędnych wniosków końcowych z badań.

W artykule omówiono wybrane zagadnienia związane z powyższymi trudnościami. Zwrócono uwagę na kryteria decydujące o wyborze stosownych technik analizy danych oraz na przykładach zilustrowano sposób interpretacji wyników. Przy okazji zaprezentowano również narzędzia programu STATISTICA, wspomagające kolejne etapy analizy danych.

Wykorzystanie metod statystycznych w badaniach wpływu spękań na anizotropię prędkości fal sejsmicznych

Spękania występują w skałach powszechnie i mają znaczący wpływ na własności sprężyste masywu skalnego i związane z nimi prędkości propagacji fal sejsmicznych. Zależności te umożliwiają wykorzystanie metod sejsmicznych do określenia kierunków i gęstości spękań, co ma duże znaczenie w geologii inżynierskiej dla oceny stabilności i jakości masywów skalnych przy budowie tuneli, fundamentowaniu obiektów przemysłowych itp. W hydrogeologii rozpoznanie systemów spękań umożliwia określenie właściwości zbiornikowych skał i dróg przepływu wód podziemnych. Ze względu na znaczenie szczelinowatości istotnym zagadnieniem jest możliwość wyznaczenia parametrów spękań w masywach niedostępnych bezpośrednim obserwacjom geologicznym. Pomocny jest tutaj rachunek tensorowy, który określa zależność pomiędzy anizotropią spękań a anizotropią prędkości fal sejsmicznych. W wystąpieniu na przykładach zostanie przedstawiona istota zagadnienia anizotropii, związek anizotropii spękań z anizotropią prędkości fal sejsmicznych oraz zastosowanie metod statystycznych przydatnych przy rozwiązywaniu tego zagadnienia.

Rozmyte metody klasyfikacji w analizie segmentów rynkowych na przykładzie rynku motoryzacyjnego

W zagadnieniu segmentacji rynku jedne z częściej stosowanych metod statystycznych to metody klasyfikacji. Właściwością tych metod jest jednoznaczne przyporządkowywanie obiektów do wyodrębnionych segmentów. Okazuje się, że takie podejście nie zawsze odzwierciedla faktyczny stan rzeczy. Przykładem może być rynek samochodów osobowych gdzie często ten sam model samochodu pozycjonowany jest w dwóch różnych segmentach. Rozwiązaniem w takiej sytuacji może być zastosowanie rozmytych metod klasyfikacji, które pozwalają odejść od orzekania czy samochód należy do określonego segmentu czy nie poprzez określenie jego stopnia przynależności do różnych segmentów. W prezentacji zostaną przedstawione wyniki badania segmentacyjnego przeprowadzonego dla polskiego rynku samochodów osobowych za pomocą rozmytych metod klasyfikacji.




Patronat nad seminariami objęło:




Patronat medialny: