Kappa Cohena

Współczynnik Kappa Cohena (ang. Cohen's kappa) – wykorzystywany w statystyce współczynnik rzetelności dwukrotnych pomiarów tej samej zmiennej, która jest zmienną nominalną i zależną. Pomiaru zmiennej może dokonać jeden sędzia kompetentny (dwukrotnie, w odstępie czasowym) lub dwóch różnych sędziów kompetentnych w tym samym czasie. Kappa Cohena przyjmuje wartości od -1 do 1. Im bliżej wartości 1, tym oceny dwóch sędziów (lub jednego sędziego w odstępie czasowym) są bardziej zgodne. Z kolei im bliżej wartości 0, tym oceny są bardziej rozbieżne. Wartości od -1 do 0 są w praktyce niewykorzystywane, gdyż ujemna wartość Kappy Cohena oznaczałaby zgodność ocen mniejszą niż w przypadku gdyby były to zmienne całkowicie losowe.

Twórcą współczynnika jest amerykański psycholog i statystyk Jacob Cohen.

Definicja

Współczynnik kappa Cohena mierzy zgodność między dwoma oceniającymi, z których każdy klasyfikuje N elementów do C wzajemnie wykluczających się kategorii lub zgodność między dwoma pomiarami tej samej zmiennej nominalnej. Współczynnik, oznaczany grecką literą kappa ( ${\textstyle \kappa }$ ), wyznacza się na podstawie następującego wzoru:

\kappa \equiv {\frac {p_{o}-p_{e}}{1-p_{e}}}=1-{\frac {1-p_{o}}{1-p_{e}}},

gdzie p_o jest względną zaobserwowaną zgodnością pomiarów/oceniających, zaś p_e jest hipotetycznym prawdopodobieństwem przypadkowej zgodności, przy czym na podstawie zaobserwowanych danych oblicza się prawdopodobieństwo losowego wyboru każdej kategorii przez każdego obserwatora. Jeżeli osoby oceniające lub pomiary są w pełni zgodne, to ${\textstyle \kappa =1}$ . Gdy zgodność pomiędzy oceniającymi nie przekracza poziomu, którego można by oczekiwać przypadkowo (wyznaczonego przez p_e), wówczas ${\textstyle \kappa =0}$ . Istnieje możliwość, że statystyka $\kappa$ będzie ujemna^[1], co może być wynikiem przypadku w sytuacji braku związku między oceniającymi/pomiarami lub może odzwierciedlać rzeczywistą tendencję oceniających do wystawiania odmiennych ocen.

Gdy liczba kategorii to k, N to liczba obserwacji, które należy skategoryzować, zaś $n_{ki}$ to liczba przypadków, w których pomiar i przydzielił kategorię k, $p_{e}$ można by wyznaczyć na podstawie następującego wzoru:

p_{e}={\frac {1}{N^{2}}}\sum _{k}n_{k1}n_{k2}

Wynika to z następującej konstrukcji:

p_{e}=\sum _{k}{\widehat {p_{k12}}}{\overset {\text{niezal.}}{=}}\sum _{k}{\widehat {p_{k1}}}{\widehat {p_{k2}}}=\sum _{k}{\frac {n_{k1}}{N}}{\frac {n_{k2}}{N}}={\frac {1}{N^{2}}}\sum _{k}n_{k1}n_{k2},

gdzie ${\widehat {p_{k12}}}$ jest szacowanym prawdopodobieństwem, że zarówno oceniający 1, jak i oceniający 2 sklasyfikują ten sam element jako k, podczas gdy ${\widehat {p_{k1}}}$ jest szacowanym prawdopodobieństwem, że oceniający 1 sklasyfikuje element jako k (i podobnie będzie w przypadku oceniającego 2). Relacja ${\textstyle {\widehat {p_{k}}}=\sum _{k}{\widehat {p_{k1}}}{\widehat {p_{k2}}}}$ opiera się na założeniu, że oceny dwóch oceniających są niezależne. Wartość ${\widehat {p_{k1}}}$ szacuje się, używając liczby elementów sklasyfikowanych jako k przez oceniającego 1 ( $n_{k1}$ ) podzielonej przez całkowitą liczbę elementów do sklasyfikowania ( $N$ ): ${\widehat {p_{k1}}}={n_{k1} \over N}$ (i analogicznie dla oceniającego 2).

Macierz pomyłek klasyfikacji binarnej

W tradycyjnej macierzy pomyłek 2×2 stosowanej w uczeniu maszynowym i statystyce do oceny klasyfikatorów binarnych współczynnik kappa Cohena można obliczyć w następujący sposób: ^[2]

\kappa ={\frac {2\times (TP\times TN-FN\times FP)}{(TP+FP)\times (FP+TN)+(TP+FN)\times (FN+TN)}}

gdzie TP to prawdziwe wyniki pozytywne, FP to wyniki fałszywie pozytywne, TN to wyniki prawdziwie negatywne, a FN to wyniki fałszywie negatywne. W tym przypadku Kappa Cohena jest odpowiednikiem miernika Heidke skill score znanego w meteorologii^[3]. Pierwszy raz tę miarę wprowadził Myrick Haskell Doolittle w 1888 roku^[4].

Przypisy

↑ Julius Sim. The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements. „Physical Therapy”. 85 (3), s. 257–268, 2005. DOI: 10.1093/ptj/85.3.257. ISSN 1538-6724. PMID: 15733050.
↑ Chicco D., Warrens M.J.. The Matthews correlation coefficient (MCC) is more informative than Cohen's Kappa and Brier score in binary classification assessment. „IEEE Access”. 9, June 2021. DOI: 10.1109/ACCESS.2021.3084050. Bibcode: 2021IEEEA...978368C.
↑ P. Heidke. Berechnung Des Erfolges Und Der Güte Der Windstärkevorhersagen Im Sturmwarnungsdienst. „Geografiska Annaler”. 8 (4), s. 301–349, 1926-12-01. DOI: 10.1080/20014422.1926.11881138. ISSN 2001-4422.
↑ Philosophical Society of Washington (Washington, D.C.): Bulletin of the Philosophical Society of Washington.. T. 10. Washington, D.C.: Published by the co-operation of the Smithsonian Institution, 1887, s. 83.

Bibliografia

[1] Julius Sim. The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements. „Physical Therapy”. 85 (3), s. 257–268, 2005. DOI: 10.1093/ptj/85.3.257. ISSN 1538-6724. PMID: 15733050.

[2] Chicco D., Warrens M.J.. The Matthews correlation coefficient (MCC) is more informative than Cohen's Kappa and Brier score in binary classification assessment. „IEEE Access”. 9, June 2021. DOI: 10.1109/ACCESS.2021.3084050. Bibcode: 2021IEEEA...978368C.

[3] P. Heidke. Berechnung Des Erfolges Und Der Güte Der Windstärkevorhersagen Im Sturmwarnungsdienst. „Geografiska Annaler”. 8 (4), s. 301–349, 1926-12-01. DOI: 10.1080/20014422.1926.11881138. ISSN 2001-4422.

[4] Philosophical Society of Washington (Washington, D.C.): Bulletin of the Philosophical Society of Washington.. T. 10. Washington, D.C.: Published by the co-operation of the Smithsonian Institution, 1887, s. 83.

[1]