¿Abusamos del valor P?

Ante la imposibilidad de utilizar poblaciones enteras para los estudios clínicos y epidemiológicos, la ciencia médica no tiene más remedio que hacerse con medidas de estimación de la inferencia; es decir, obtener parámetros cuantificables que permitan evaluar hasta qué punto un resultado observado en una muestra representativa es aplicable a la población entera. La medida de inferencia sin duda más utilizada es el valor P (o “P-valor” o “P“, a secas), obtenido mediante los llamados test de contraste de hipótesis, pero recientemente se está poniendo en duda el uso correcto de este valor, hasta el punto de que a principios de año la revista Basic and Applied Social Psychology (BASP) decidió prohibir explícitamente el uso de test de contraste de hipótesis (y cualquier medida de la inferencia) en sus artículos científicos, e invitó al resto de revistas científicas a hacer lo propio en sus artículos.

Para poner al lector o lectora en antecedentes, los estadísticos definen el valor P como “la probabilidad de que un test estadístico sea tan extremo o más que lo observado si la hipótesis nula es verdadera”. Para los que soñamos en frases y no en ecuaciones, el concepto se entiende mejor con un ejemplo: Imaginemos que tomamos una muestra (que creemos representativa) de una población (italianos, por ejemplo) y comparamos las medias de altura de hombres y mujeres, observando un valor distinto en ambos grupos. El valor P del test de hipótesis nos estará dando algo así como la probabilidad de que, por azar, observemos diferencias tan grandes como las que observamos en el supuesto de que las medias de ambos grupos en la población entera sean —en realidad— iguales.

El caso es que con el uso y abuso de los valores P, el imagniario colectivo de autores y lectores ha ido moldeando la idea original del valor P hasta convertirlo en una especie de “todopoderoso” que sentencia como significativo o no significativo un determinado resultado. Y así, las revistas científicas acaban por contener decenas de afirmaciones sustentadas en base a este valor, muchas de las cuales han acabado por significar poco o nada con el paso del tiempo.

La estadística es un juego peligroso, y existen muchos puntos que pueden influenciar en el sesgo de las conclusiones finales. Sin ir más lejos, el planteamiento metodológico, la recogida de datos o la modelización (es decir, la construcción de un modelo matemático que describa nuestro escenario) pueden tener un impacto mucho mayor que el valor P en la veracidad de las conclusiones.

¿Justifica esto la prohibición del uso de las medidas de inferencia? Personalmente siempre he pensado que el secreto del progreso y de hacer las cosas bien recae más en la educación que en la prohibición. La estadística es un campo complejo y lleno de detalles que pueden decantar un resultado, pero la generalización en el uso de programas capaces de proporcionar algún resultado u otro sin que el usuario tenga muchos conocimientos de estadística, ha trivializado la manipulación de datos.

No tengo ninguna duda de que disponer de herramientas que nos permitan inferir los resultados de la muestra a la población entera es de un valor incalculable en investigación clínica. Quizás una opción más razonable que la elegida por parte de la revista BASP sería  incorporar —en las editoriales científicas— profesionales capaces de hacer una evaluación rigurosa de la estadística y de su interpretación en los artículos propuestos para publicación. En fin, al menos la decisión de BASP hace que hablemos del tema.

facebooktwittergoogle_plusredditpinterestlinkedinmailby feather

Deja un comentario

Tu dirección de correo electrónico no será publicada.