User Tools

Site Tools


Sidebar


Menu



notatki:ci:dokladnosc

Table of Contents

Accuracy (pl)

Klasyfikacja

Macierz konfuzji

Macierz konfuzji przedstawia zależność dokładności klasyfikacji każdej z klas oraz błędów wraz z ich typem - czyli określenia który wektor z której klasy został zaklasyfikowany do której klasy. Macierz konfuzji jest podstawą do wyznaczenia większości innych miar dokładności klasyfikacji.
Macierz ta jest macierzą kwadratową o wymiarach cxc gdzie c jest liczbą klas.

Rzeczywista klasa
K1 K2 Kc
Wyn. K1 a b c
Klasy K2 d e f
fikacjiKc g h i

Dokładność klasyfikacji poszczególnych klas odczytujemy na podstawie przecięcia rzędów z kolumnami. W macierzy tej wartości a,e,i odpowiadają liczbie poprawni sklasyfikowanych wektorów odpowiednio z klas K1 .. Kc. Np. wartość b określa ile wektorów z klasy K2 zostało zaklasyfikowanych do klasy K1, lub innymi słowy - ile wektorów dany klasyfikator niepoprawnie przypisał do klasy K1, a które powinny być w klasie K2.
Na przykładzie problemów binarnych łatwo zaprezentować często spotykane nazewnictwo:

Rzeczywista klasa
K1 K2
Wyn. K1 TP FP
Klasyf.K2 FN TN
  • TP (ang. true positive)
  • FP (ang. false positive)
  • TN (ang. true negative)
  • FN (ang. false negative)
  • Pos = TP + FN
  • Neg = FP + TN

Dokładność

Dokładność jest podstawową miarą określania dokładności klasyfikacji

Acc = (TP+TN)/(Pos+Neg)

Innymi słowy jest to liczba poprawnie sklasyfikowanych wektorów w stosunku do całkowitej liczby wektorów. Miara ta choć bardzo prosta ma jednak istotną wadę - w przypadku danych niezbalansowanych (o dużej różnicy liczebności poszczególnych klas) może zafałszowywać wyniki. Np. jeśli poszczególne klasy liczą odpowiednio C1=90 i C2=10 wektorów to klasyfikator większościowy klasyfikujący wszystkie przypadki do C1 uzyska dokładność 90%!!!

Dokładność zbalansowana

Dokładność zbalansowana liczy średnią dokładność poszczególnych klas. Można to zapisać jako:

BAcc = 0.5*(TP/Pos + TN/Neg)

Miara ta w odróżnieniu od dokładności jest odporna na dane niezbalansowane tzn w przypadku gdy C1=90 i C2=10 i przy klasyfikatorze większościowym (patrz dokładność) osiąga wartość BAcc = 0.5 * (1 + 0) = 0.5 ⇒ 50% dokładności

Czułość

(ang. sensitivity, recall) Określa stosunek liczby poprawnie sklasyfikowanych wektorów z danej klasy do wszystkich wektorów które do tej klasy należą

Se = Tp/(TP + FN)

Znamienność

(ang. sensitivity) Liczba wektorów poprawnie sklasyfikowanych do klas “przeciwnych” w stosunku do wszystkich wektorów znajdujących się w klasach “przeciwnych” (“pozostałych”)

Sp = TN/ (TN + FP)

Precyzja

(ang. precision) Określa stosunek liczby wektorów poprawnie sklasyfikowanych do danej klasy w stosunku do wszystkich wektorów do niej sklasyfikowanych (łącznie z błędnie sklasyfikowanymi)

P = TP/ (TP + FP)

Miara Fβ

(ang. F-measure)

Fβ = (β^2+1)TP / ((β2+1)TP+FP+β^2FN)

dla β=1 określnoa jest zależnością:

F1 = 2TP/ (2TP+FP+FN) = 2 Se P / (Se+P)

ROC

Charakterystyka ROC (Receiver Operating Characteristic) jest wykresem który pokazuje zależność TP rate (Sensitivity)w stosunku do FP rate (1-Specificity). Te dwa współczynniki wyznaczane są na podstawie macierzy konfuzji i typowo każdy pojedynczy klasyfikator można przedstawić jako punkt w przestrzeni (Se, 1-Sp). Dodatkowo dla klasyfikatorów które jako wynik podają pewność podanej decyzji istnieje również możliwość wyrysowania charakterystyki ROC. Realizuje się to w następujący sposób (dla problemu binarnego):

  1. Naucz dany model M
  2. Wyznacz odpowiedzi o (wektor n x 1) modelu M dla danego zbioru walidacyjnego V (V jest n x m, gdzie n to liczba przypadków, a m - to liczba zmiennych). o powinien przyjmować wartości rzeczywiste - pewność podjęcia decyzji np. jako liczby z przedziału [-1, 1] (-1 to 100% klasa A, 1 to 100% pewności że to klasa B)
  3. Posortuj wartości o od największych do najmniejszych
  4. Na podstawie prawdziwych etykiet zbioru walidacyjnego l w kolejności powstałej po posortowaniu o (patrz poprzedni punkt) wyznacz kumulantę odpowiednio dla wektorów z klasy A i B i podziel każdą wartość przez liczbę przypadków odpowiednio z klasy A i B - uzyskujemy wówczas wektory fp i tp.
  5. Wykreś zależność fp funkcji tp

Odpowiedni kod w Matlabie:

np - liczba wektorów z klasy A;
nn - liczba wektorów z klasy B;
[s,i]=sort(o,'descend');
l = l(i);
tp = cumsum(l == 1)/np;
fp = cumsum(l == -1)/nn;
plot(fp,tp,'-');

Ogólna zasada korzystania z charakterystyki ROC pokazuje zależność pomiędzy klasyfikacją każdej z klas, tzn wykres pokazuje zależność dokładności klasyfikacji klasy 1 względem dokładności klasyfikacji klasy 2.

AUC

Area Under Curve - jest współczynnikiem określającym powierzchnię pod krzywą ROC. Im większa powierzchnia tym lepszy klasyfikator. Idealny klasyfikator posiada powierzchnię rzędu 1.


Literatura:

  • Brier (1950). Verificaton of forecasts expressed in terms of probability. Monthly weather review 78: 1–3.
  • Hanczar, B., Hua, J., Sima, C., Weinstein, J., Bittner, M. and Dougherty, E.R. (2010). Small-sample precision of ROC-related estimates. Bioinformatics 26 (6): 822-830.
  • Huang, J. and Ling, C.X. (2005): Using AUC and Accuracy in Evaluating Learning Algorithms. IEEE Trans. Knowl. Data Eng. 17(3): 299-310.
  • Rice, D.M. (2008), Generalized Reduced Error Logistic Regression Machine, Section on Statistical Computing - JSM Proceedings 2008, pp. 3855-3862.

Regresja

source: here

Root mean square error (RMSE)

The Root Mean Square Error (RMSE) (also called the root mean square deviation, RMSD) is a frequently used measure of the difference between values predicted by a model and the values actually observed from the environment that is being modelled. These individual differences are also called residuals, and the RMSE serves to aggregate them into a single measure of predictive power.

The RMSE of a model prediction with respect to the estimated variable Xmodel is defined as the square root of the mean squared error:

where Xobs is observed values and Xmodel is modelled values at time/place i.

The calculated RMSE values will have units, and RMSE for phosphorus concentrations can for this reason not be directly compared to RMSE values for chlorophyll a concentrations etc. However, the RMSE values can be used to distinguish model performance in a calibration period with that of a validation period as well as to compare the individual model performance to that of other predictive models.

Normalized root mean square error (NRMSE)

Non-dimensional forms of the RMSE are useful because often one wants to compare RMSE with different units. There are two approaches: normalize the RMSE to the range of the observed data, or normalize to the mean of the observed data.

(the latter one is also called CV,RMSE for the resemblance with calculating the coefficient of variance).

Pearson correlation coefficient (r)

Correlation – often measured as a correlation coefficient – indicates the strength and direction of a linear relationship between two variables (for example model output and observed values). A number of different coefficients are used for different situations. The best known is the Pearson product-moment correlation coefficient (also called Pearson correlation coefficient or the sample correlation coefficient), which is obtained by dividing the covariance of the two variables by the product of their standard deviations. If we have a series n observations and n model values, then the Pearson product-moment correlation coefficient can be used to estimate the correlation between model and observations.

The correlation is +1 in the case of a perfect increasing linear relationship, and -1 in case of a decreasing linear relationship, and the values in between indicates the degree of linear relationship between for example model and observations. A correlation coefficient of 0 means the there is no linear relationship between the variables.

The square of the Pearson correlation coefficient (r2), known as the coefficient of determination, describes how much of the variance between the two variables is described by the linear fit.

Nash-Sutcliffe coefficient (E)

The Nash-Sutcliffe model efficiency coefficient (E) is commonly used to assess the predictive power of hydrological discharge models. However, it can also be used to quantitatively describe the accuracy of model outputs for other things than discharge (such as nutrient loadings, temperature, concentrations etc.). It is defined as:

where Xobs is observed values and Xmodel is modelled values at time/place i.

Nash-Sutcliffe efficiencies can range from - to 1. An efficiency of 1 (E = 1) corresponds to a perfect match between model and observations. An efficiency of 0 indicates that the model predictions are as accurate as the mean of the observed data, whereas an efficiency less than zero (- < E < 0) occurs when the observed mean is a better predictor than the model.

Essentially, the closer the model efficiency is to 1, the more accurate the model is.

  • Printable version
  • Tell by mail
  • Export to OpenOffice
  • Export to PDF
  • Export to csv
  • Export to Timeline
  • Add page to book
  • Tools:
notatki/ci/dokladnosc.txt · Last modified: 2019/03/21 13:06 (external edit)