U podstaw metody wektorów nośnych (Support Vector Machines - SVM) leży koncepcja przestrzeni decyzyjnej, którą dzieli się budując granice separujące obiekty o różnej przynależności klasowej, czego przykład widzimy na poniższym rysunku. Mamy tu dwie klasy kółek: zielone i czerwone. Linia graniczna rozdziela je wyraźnie. Nowy, nieznany obiekt, jeżeli znajdzie się po prawej stronie granicy zostanie zaklasyfikowany jako zielony, a w przeciwnym wypadku, jako czerwony.

Powyższy rysunek jest ilustracją bardzo prostego przykładu klasyfikatora liniowego, dzielącego obszar prób na dwie części za pomocą prostej. Większość praktycznych zadań klasyfikacyjnych jednak nie jest tak oczywista. Do poprawnego klasyfikowania potrzebne są bardziej skomplikowane struktury niż linia prosta. Przykładem może być poniższy rysunek, który porównany z poprzednim jasno wskazuje, że do rozdzielenia kółek zielonych i czerwonych konieczna jest teraz krzywa (obiekt bardziej skomplikowany niż prosta). Krzywa ta (ale również poprzednia prosta) są przykładami klasyfikatorów hiperpłaszczyznowych. Tego typu klasyfikatory otrzymujemy stosując Metodę wektorów nośnych.

Rysunek niżej ilustruje główną ideę Metody wektorów nośnych. Oryginalne obiekty z lewej strony rysunku zostały "zmapowane" (przetransformowane) za pomocą funkcji jądrowych (kernels) na przestrzeń ilustrowaną po prawej. Co ważne, w nowej przestrzeni dwie klasy są liniowo separowalne, co pozwala uniknąć skomplikowanej postaci granicy klas. Białe kółko, to nowy, nieznany przypadek.

| Indeks |
Uwagi techniczne
Metoda wektorów nośnych realizuje zadania klasyfikacyjne konstruując w wielowymiarowej przestrzeni hiperpłaszczyzny oddzielające przypadki należące do różnych klas. Możemy tu jednak również wykonać regresję, a oba te zadania, dla wielu zmiennych, ciągłych i skategoryzowanych. Dla każdej zmiennej skategoryzowanej tworzony jest zestaw zmiennych z kodami określającymi przynależność każdego przypadku (0 lub 1). Na przykład zmienna przyjmująca trzy wartości: A, B i C reprezentowana będzie przez trzy zmienne, o wartościach, odpowiednio:
A: {1 0 0}, B: {0 1 0}, C: {0 0 1}
Optymalną hiperpłaszczyznę separującą buduje się w iteracyjnym algorytmie uczącym, minimalizującym pewną funkcję błędu. Modele wektorów nośnych (SVM) należą, wg typu funkcji błędu, do jednej z czterech grup:
Poniżej, krótkie omówienie wyszczególnionych typów.
| Indeks |
Klasyfikacja SVM
Klasyfikacja SVM typu 1
Przy tym typie klasyfikacji, w trakcie uczenia modelu minimalizowana jest następująca funkcja błędu:

podlegająca ograniczeniom:

gdzie C jest stałą, którą nazywa się pojemnością, w jest wektorem współczynników, b jest stałą, a
to parametry "obsługujące" przypadki nakładające się. Indeks i numeruje N uczących przypadków. Zauważmy, że
są etykietami klas, a xi to zmienne niezależne. Funkcja jądrowa
przekształca dane wejściowe do nowej przestrzeni cech. Trzeba podkreślić, że C ma duży wpływ na błąd i jego wartość dobierana musi być ostrożnie, ze względu na niebezpieczeństwo nadmiernego dopasowania modelu.
Klasyfikacja SVM typu 2
W tym wypadku, minimalizowana jest funkcja błędu postaci:

podlegająca ograniczeniom:

| Indeks |
Regresja SVM
W regresji SVM poszukujemy zależności funkcyjnej zmiennej zależnej y od zbioru zmiennych niezależnych x. Jak to zwykle w regresji, przyjmuje się, że zależność ta jest typu deterministycznego ( f ), z pewnym dodatkiem losowego szumu:
y = f(x) + szum
Podstawowym zadaniem jest więc znalezienie postaci funkcji f, która powinna możliwie najlepiej podawać wartość zmiennej zależnej dla nowych przypadków, których model SVM nie "widział" wcześniej. Zadanie to rozwiązuje się ucząc model SVM za pomocą próby przypadków, zwanej próbą uczącą. Podobnie jak przy klasyfikacji, proces ten polega na sekwencyjnym minimalizowaniu pewnej funkcji błędu. Stosuje się dwa typy tej funkcji i, odpowiednio do tego, są dwa typy regresji SVM:
Regresja SVM typu 1
Tu minimalizuje się funkcję błędu następującej postaci:

przy zachowaniu warunków:
Regresja SVM typu 2
W tym wypadku funkcja błędu ma postać:

a warunki:
Funkcje jądrowe


RBF jest najczęściej wybierana jako funkcja jądrowa w SVM, głównie ze względu na ograniczony zasięg w polu zmiennych x.
| Indeks |
