21.9.14

O paradoxo de Simpson


Este ano, despois de varios anos afastado, volvo dar clase en 2º de ESO (o curso no que máis teño traballado é 1º de ESO, non vaiades pensar...). Entre que eu son dos profesores máis lentos que coñezo e que a Estatística está colocado sempre ao final do curriculum (tanto no BOE como no DOG como consecuentemente nas programacións dos centros) éme case imposible chegar a tratar ese bloque. Por sorte na programación do meu centro modificamos a orde dos bloques e comezamos o curso pola Estatística. De tal xeito que estes días estou enleado buscando na rede, lendo libros e, en xeral, pensando, en gráficas estatísticas mal feitas (tanto por anumerismo como por manipulación consciente), tratamento de datos, cálculo de parámetros e tamén na atribución de significado a eses parámetros (o que é moito máis difícil), etc. E cada vez que ando fedellando nestes temas acabo pasando nalgún momento polo paradoxo de Simpson, do que xa falei aquí e aquí, no primeiro caso para compartir unha explicación visual e no segundo para propoñelo como exercicio de investigación.

Hoxe vou amosar finalmente o paradoxo, utilizando en primeiro lugar uns datos sobre mortalidade que atopei no libro de Julian Havil Impossible?Surprising solutions to counterintuitive conundrums e despois uns datos inventados.

  • No seu libro de 1934 An Introduction to Logic and Scientific Method, Morris Cohen e Ernst Nagel utilizaron os datos sobre a mortalidade por tuberculose en 1910 en dúas cidades, New York e Richmond, distinguindo pola etnia dos cidadáns, caucásicos ou afroamericanos. Observemos a táboa cos números:


Perdoade o png, a táboa orixinal aquí

Na táboa vemos que as taxas de mortalidade tanto en caucásicos como en afroamericanos son maiores en New York que en Richmond, porén a mortalidade conxunta é maior en Richmond que en New York. Velaí o paradoxo: resulta contraintuitivo que o que sucede nos dous grupos poboacionais por separado non se reproduza na poboación global. Isto fai que por outro nome este paradoxo tamén se coñeza como "de agregación" (é moito máis usual e coñecida a falacia de desagregación, fenómeno en certo sentido inverso).

Un fenómeno que se dá nas aulas pero que a teoría non prevé é o de que a asimilación dos conceptos e a aplicación dos procedementos depende en grande medida do aspecto externo das variables implicadas.
Por exemplo: un alumno pode ter certa destreza resolvendo ecuacións de 1º grao sinxelas, do tipo

$$\small{3x=6}$$

mais é posible que teña dificultades coa ecuación

$$\small{6x=3}$$

por non falarmos de

$$\small{0'05x=0'02}$$

ou

$$\small{\sqrt{2}x=\frac{-3}{5 \cdot 10^{-2}}}$$

Para sermos rigorosos, si hai investigación sobre estes fenómenos, o que adoita suceder é que esta investigación non chega aos que deberíamos coñecela. Imaxinade un licenciado en Matemáticas que acaba de aterrar (a polisemia desta verba é moi acaída para esta situación) na ESO e ten que explicar as ecuacións. Ou está provisto dunha intuición formidable ou é posible que non advirta as primeiras aparicións deste fenómeno, relacionado coa comprensión do concepto de número alén do significado concreto de enumeración e orde.

A que vén todo isto, se eu estaba a falar do paradoxo de Simpson? Pois a que os datos reais, como os da táboa superior, supoñen un obstáculo para asimilar o paradoxo. Entenderemos moito mellor o asunto se pulimos os números e quedamos co esencial. Para isto vexamos os datos ficticios que utilicei nun test de enxeño para 1º de Bacharelato no 2006, onde pedía algo semellante ao da entrada mencionada arriba:

  • Dous hospitais (poñamos que de Ferrol e Narón) tratan a 100 enfermos cada un durante un ano. Cada paciente sofre unha de dúas enfermidades, malaria e dengue. O hospital de Narón cura unha maior porcentaxe de enfermos de malaria que o de Ferrol, e tamén unha maior porcentaxe de enfermos de dengue que o de Ferrol; aínda así, o hospital de Ferrol cura unha maior porcentaxe de doentes das dúas enfermidades globalmente que o de Narón. Como é isto posible?


Sinto que a porcentaxe na última ringleira sobraba...

Os datos que inventei son moi extremos, co obxectivo de esaxerar e facer notorio o paradoxo. Se o pensamos do xeito inverso: a división en subgrupos pode disfrazar fenómenos visibles só a nivel global. Pode resultar interesante investigar ata onde podemos levar os datos, i.e., como de grande pode ser a diferenza entre as ratios de cura de Narón e as de Ferrol nas dúas doenzas e aínda así resultar máis eficaz globalmente o de Ferrol?

Unha última cuestión, agora que xa tratamos o paradoxo: coñecemos polos datos que o hospital de Ferrol cura a máis xente que o de Narón. Se ti tiveses a mala sorte de coller dengue, a cal dos dous hospitais che gustaría que te levasen? Doutro xeito: e se estiveses enfermo dunha das dúas enfermidades pero non soubesen de cal, a que hospital irías?


0 comentarios:

Publicar un comentario