01 Abr 2019
Política y datos, la nueva materia prima (2/2)
Por Juan Carlos Rodríguez Rojo.
Al final del post encontrarás el vídeo de la última charla ofrecida por Juan Carlos en los encuentros NWC10Lab.
Resumíamos (en la primera parte de este artículo) el ciclo virtuoso de la industria de los datos en la siguiente secuencia: todo es accesible a través de datos + los datos producen información + la información produce conocimiento + el conocimiento permite hacer predicciones + el conocimiento y las predicciones permiten decidir lo mejor para las organizaciones y para la sociedad.
El punto fuerte de articulación en esta secuencia está en la predicción. Y, al mismo tiempo, en realidad, es el punto más débil. Tomemos, por ejemplo, un espacio en el que hacemos predicciones desde hace unos 100 años: el del comportamiento electoral en democracias representativas.
Sin ir más lejos, hace un par de años, ganó las elecciones en USA, contra la mayoría de los pronósticos, Donald Trump. Desde entonces, se ha señalado (y esto es bastante habitual), aquí y allá, una serie de mentes privilegiadas que, al parecer, predijeron con admirable antelación el resultado que finalmente se produjo. No se trata sólo de partidarios del ganador, que podrían estar afectados por un sesgo de identificación, sino también de adversarios, como George Lakoff. También, algunos, como los responsables de la empresa Cambridge Analytica, aseguraron haber contribuido de manera decisiva, prácticamente determinante, a la victoria del ganador.
Ahora bien, resulta que el ganador obtuvo menos votos populares que su rival, lo que, por lo pronto, muestra que la pugna fue muy ajustada. Además, hubo varios acontecimientos de última hora que pudieron ser a su vez decisivos: la última declaración del FBI sobre los e-mails de Hillary Clinton, los movimientos de Obama con Cuba, y, quizás, la presencia insidiosa de la inteligencia (ahora digital) rusa. La pregunta es: partiendo de que los que dicen haber anticipado el resultado estaban seguros del mismo (lo que se deduce de su énfasis en la anticipación y en el desprecio a todas las demás predicciones, que eran mayoritarias), ¿cómo es que ex-post se muestran tan seguros, cuando deberían tener en cuenta que sucedieron cosas que no podían predecir y que posiblemente tuvieron una gran influencia en que un resultado muy ajustado, en la frontera de máxima incertidumbre, se decantase hacia una de las dos opciones?
La respuesta lógica no puede ser que ellos sabían algo o que disponían de mecanismos de predicción especialmente finos y potentes; la respuesta lógica es que acertaron por pura casualidad. Que ex-post, en lugar de reflexionar sobre la incertidumbre de un proceso que lo que ha mostrado, sobre todo, es eso, incertidumbre, se afiancen en su capacidad predictiva, e, incluso, en su determinante capacidad para influir en que sus profecías se hayan cumplido, sólo viene a confirmar por enésima vez cuánto vivimos los humanos de tontas ilusiones.
Es sumamente interesante, al respecto, lo que sucedió con el Brexit, cuando se aseguró sin lugar a dudas que ganaría el remain, dado que las apuestas, de larguísima tradición en Inglaterra, lo daban por hecho. En ese marco, se acusó a las encuestas de fallar estrepitosamente, cuando estuvieron todo el tiempo moviéndose en estimaciones próximas al 50%, es decir, en la máxima incertidumbre.
Pero, lo interesante no es la pugna entre las apuestas y las encuestas (que, pese a cuanto se ha publicado, ganaron las encuestas, siempre que hablemos en términos aritméticos, por goleada), sino, una vez más, las voces que se supone que siempre estuvieron seguras de la victoria del Brexit.
Veamos: las apuestas y las encuestas se decantaban al principio, ligeramente, hacia el remain, por tanto, se movían en ambos casos cerca de la máxima incertidumbre.
De manera que la información disponible no permitía, cabalmente, estar seguros de nada. Lo que no sabían los del milagro predictivo es que las apuestas se iban a decantar pronto y de manera cada vez más acusada por el remain, pues de haberlo sabido podían haber razonado, cosa que es evidente que no hicieron, que, justamente esa posición de las apuestas es lo que a la postre iba a hacer ganar al Brexit… paradójicamente.
¿Qué tiene que ver esto con los datos? En primer lugar, que se ha atribuido a una suerte de habilidoso manejo de los datos de Facebook (que, en efecto, fueron utilizados, y, al parecer, de forma ilegal) una influencia importante en los resultados, lo que permitiría sustentar científicamente las predicciones. En segundo lugar, que se enfrenta, implícita o explícitamente, el enfoque de los datos masivos con el enfoque de la estimación con muestreos controlados y relativamente pequeños.
¿Va a resolver esto de una vez Big Data, con predicciones estrictamente objetivas y fiables? Me atrevo a afirmar que no, al menos por una razón: siempre, por más sofisticación que despliegue, deberá trabajar con datos del pasado, por próximo que éste sea, y no podrá integrar los acontecimientos imprevistos entre el momento de la predicción y el momento de la votación.
En el mejor de los casos, Big Data mejorará las predicciones, pero irá siempre por detrás de acontecimientos potencialmente determinantes del resultado (no sólo en el espacio electoral) y, posiblemente, deba enfrentarse con el tiempo a efectos poco controlables de las propias predicciones (si un modelo predice que los ocupantes de un barco se van a concentrar a babor y que eso va a escorar peligrosamente el barco, posiblemente se vea refutado por un desplazamiento mayoritario a estribor; si el proceso se repitiese muchas veces, posiblemente el pasaje terminaría distribuyéndose homogéneamente; en cualquier caso, la predicción se autorefutaría o estaría condenada a una interminable cadena de metapredicciones).
¿Servirá, entonces, para algo Big Data? Sin duda, servirá para disponer de mejores representaciones de la realidad y, en la medida en que se aplique a espacios sobre los que sea posible corregir el tiro con rapidez y sin grandes costes (grandes áreas del consumo de productos, servicios y mensajes; desenlaces de procesos en espacios de aleatoriedad limitada, en general), servirá para tomar mejores decisiones, sobre todo mediante la implantación de dispositivos de machine learning, que, quizá, no habría que confundir con inteligencia artificial.
A las empresas cuyo negocio no son los servicios de datos, les conviene ser realistas (poco de “nice to know”), así empezarán antes a actuar, en vez de prolongar eternamente el panegírico estéril sobre los datos, emprenderán proyectos de desarrollo de sistemas de información con menores costes y con rápidos retornos, y aprenderán aceleradamente a incrementar el valor.
La reciente extensión de la práctica de acumular encuestas, tan exitosamente popularizada por el matemático Nate Silver en el New York Times hace unos años venía estableciendo «con seguridad» un resultado que en general se ha dado por inamovible en las últimas elecciones.
Empero, a la hora de la verdad, los escaños han bailado de lo lindo, si recordamos las últimas elecciones generales o las elecciones andaluzas, más recientes, con cambios bien significativos.
Cuando eso sucede, toca volver a decir que las encuestas se han lucido, y bien que lo merecen, sin duda, pero también es hora de preguntarse ¿cómo es que los analistas se las siguen creyendo tanto?
Los analistas políticos creen, como los expertos en encuestas preelectorales, que hay un suceso que predecir, el voto, y por eso insisten unos y otros en decirnos cuál va a ser el resultado de las elecciones una vez tras otra.
Que acierten más veces de las que se equivocan es algo que muchas personas ignoran, la mayoría está bien dispuesta a afirmar lo contrario en cuanto observa un yerro en el pronóstico, pero este hecho objetivo no basta para acreditar su capacidad predictiva, pues para ello sería necesario que una predicción «técnica» como la de las encuestas fuese claramente superior a una mera apuesta basada en datos diferentes a los de las encuestas.
Puedes ver aquí la charla entera de Juan Carlos Rodríguez Rojo en NWC10Lab, apúntate al final del post para asistir a los próximos encuentros o recibir los streamings.
En realidad, las encuestas quieren predecir algo que presuponen que se puede convocar antes de que suceda, concediéndole a un hecho futuro una presunción de existencia presente que se funda en un equívoco formal: se pregunta por el voto del mismo modo que se vota. Sobre este falso isomorfismo se asienta la mayor parte de la confusión de las encuestas preelectorales.Los clasificados en las encuestas como «indecisos» han dado lugar a las más pintorescas averiguaciones acerca de qué pueda significar dicha posición, al final de las cuales podríamos situar, por uno de los caminos posibles, la observación de un analista político sobre «el manido tema de los indecisos”.
Últimamente, ni siquiera Big Data nos libra de lo que quiera que sea que suceda en la deficiente verificación del isomorfismo encuesta-votación al que antes nos referíamos.
Y es que cuando lo que acumulamos son datos que se mueven alrededor de un valor central de un modo «normal» todo va bien, pero cuando acumulamos datos que tienen un sesgo sistemático, lo único que logramos es estar cada vez más seguros de algo que resultará ser falso.
¿Qué les pasa a las encuestas? Dos cosas: una, que pretenden una precisión que se puede alcanzar muchas veces pero que no se puede garantizar. La pretensión de abordar predicciones sobre la base del error de muestreo es quimérica y de hecho no funciona y hay buenas razones para ello. De ahí que los chefs que nos cocinan una elección tras otra exquisitos pronósticos aclaren rara vez cuál es la receta.
La segunda cosa es más interesante: el voto sólo existe en el acto de votar, para pasar a ser un objeto administrativo a continuación, que, como han comprobado amargamente muchos británicos, se escapa en ese mismo momento de las manos de los votantes. Y tiene una forma que no procede de ninguna evolución natural; es como es porque así lo dice la ley y la ley, al parecer, no se ha planteado que el voto sea como algo que el votante tenga previamente en la cabeza o en alguna otra parte, sino como conviene al proceso administrativo subsiguiente.
Como consecuencia, llevamos unos cien años haciendo encuestas sobre intención de voto omitiendo que antes del acto de votar, que es claro y distinto, porque según la ley no puede ser de otro modo, no hay ningún objeto que se le parezca. Lo que hay podría llamarse posición política, que puede o no traducirse en un acto de voto determinado. Y las posiciones políticas están con frecuencia sujetas a dos fenómenos característicos y mal conocidos. El primero es la borrosidad: una posición política está sólo parcialmente identificada con una oferta política; el segundo, es la bifurcación: una posición política puede dar lugar a cambios bruscos que hagan inestable esa posición en términos de una oferta electoral dada.
Lógica borrosa y catástrofes, dos enfoques necesarios para abordar el asunto de las encuestas y las posiciones políticas en relación con el voto futuro.
Juan Carlos Rodríguez Rojo.
Marzo 2019