Coeficient phi

En estadístiques, el coeficient phi (o coeficient de contingència quadrat mitjà i indicat per φ o r_φ) és una mesura d'associació per a dues variables binàries. En l'aprenentatge automàtic, es coneix com el coeficient de correlació de Matthews (MCC) i s'utilitza com a mesura de la qualitat de les classificacions binàries (de dues classes), introduïda pel bioquímic Brian W. Matthews el 1975.^[1] Introduït per Karl Pearson,^[2] i també conegut com el coeficient Yule phi a partir de la seva introducció per Udny Yule el 1912 ^[3] aquesta mesura és similar al coeficient de correlació de Pearson en la seva interpretació. De fet, un coeficient de correlació de Pearson estimat per a dues variables binàries retornarà el coeficient phi.^[4] Dues variables binàries es consideren associades positivament si la majoria de les dades cauen al llarg de les cel·les diagonals. En canvi, dues variables binàries es consideren associades negativament si la majoria de les dades cauen fora de la diagonal. Si tenim una taula 2×2 per a dues variables aleatòries x i y

	y = 1	y = 0	total
x = 1	$n_{11}$	$n_{10}$	$n_{1\bullet }$
x = 0	$n_{01}$	$n_{00}$	$n_{0\bullet }$
total	$n_{\bullet 1}$	$n_{\bullet 0}$	$n$

on n ₁₁, n ₁₀, n ₀₁, n ₀₀, són recomptes no negatius de nombres d'observacions que sumen a n, el nombre total d'observacions. El coeficient phi que descriu l'associació de x i y és

$\phi ={\frac {n_{11}n_{00}-n_{10}n_{01}}{\sqrt {n_{1\bullet }n_{0\bullet }n_{\bullet 0}n_{\bullet 1}}}}.$

Phi està relacionat amb el coeficient de correlació punt-bisèrial i la d de Cohen i estima l'extensió de la relació entre dues variables (2×2).^[5]

El coeficient phi també es pot expressar només utilitzant $n$ , $n_{11}$ , $n_{1\bullet }$ , i $n_{\bullet 1}$ , com

$\phi ={\frac {nn_{11}-n_{1\bullet }n_{\bullet 1}}{\sqrt {n_{1\bullet }n_{\bullet 1}(n-n_{1\bullet })(n-n_{\bullet 1})}}}.$

Referències

↑ Matthews, B. W. Biochimica et Biophysica Acta (BBA) - Protein Structure, 405, 2, 1975, pàg. 442–451. DOI: 10.1016/0005-2795(75)90109-9. PMID: 1180967.
↑ Cramer, H. (1946). Mathematical Methods of Statistics. Princeton: Princeton University Press, p. 282 (second paragraph). ISBN 0-691-08004-6
↑ Yule, G. Udny Journal of the Royal Statistical Society, 75, 6, 1912, pàg. 579–652. DOI: 10.2307/2340126. JSTOR: 2340126.
↑ Guilford, J. (1936). Psychometric Methods. New York: McGraw–Hill Book Company, Inc.
↑ Aaron, B., Kromrey, J. D., & Ferron, J. M. (1998, November). Equating r-based and d-based effect-size indices: Problems with a commonly recommended formula. Paper presented at the annual meeting of the Florida Educational Research Association, Orlando, FL. (ERIC Document Reproduction Service No. ED433353)

[Matthews1975-1] Matthews, B. W. Biochimica et Biophysica Acta (BBA) - Protein Structure, 405, 2, 1975, pàg. 442–451. DOI: 10.1016/0005-2795(75)90109-9. PMID: 1180967.

[Cramer,_H._1946_p._282-2] Cramer, H. (1946). Mathematical Methods of Statistics. Princeton: Princeton University Press, p. 282 (second paragraph). ISBN 0-691-08004-6

[Yule_1912_579–652-3] Yule, G. Udny Journal of the Royal Statistical Society, 75, 6, 1912, pàg. 579–652. DOI: 10.2307/2340126. JSTOR: 2340126.

[4] Guilford, J. (1936). Psychometric Methods. New York: McGraw–Hill Book Company, Inc.

[Ref_-5] Aaron, B., Kromrey, J. D., & Ferron, J. M. (1998, November). Equating r-based and d-based effect-size indices: Problems with a commonly recommended formula. Paper presented at the annual meeting of the Florida Educational Research Association, Orlando, FL. (ERIC Document Reproduction Service No. ED433353)

[1]

[2]

[3]

[4]

[5]