Nos complace presentar un extracto de Distrust: Massive Data, Data-Torturing, and the Assault on Science, un nuevo libro del profesor de economía de Pomona College or university, Gary Smith. The Washington Write-up dijo que las lecciones del libro “son muy necesarias.”
El hecho de que los cambios en los precios de bitcoin sean impulsados por el miedo, la codicia y la manipulación no ha impedido que las personas intenten descifrar su secreto. Los modelos empíricos de los precios de bitcoin son un maravilloso ejemplo de tortura de datos porque los bitcoins no tienen valor intrínseco y, por lo tanto, no pueden explicarse de manera creíble mediante datos económicos.
Sin desanimarse por esta realidad, un artículo de la Oficina Nacional de Investigación Económica (NBER) informó sobre los alucinantes esfuerzos realizados por el profesor de economía de la Universidad de Yale, Aleh Tsyvinski, y un estudiante graduado, Yukun Liu, para encontrar patrones empíricos en los precios de bitcoin.
Tsyvinski actualmente ocupa una cátedra dotada que lleva el nombre de Arthur M. Okun, quien fue profesor en Yale de 1961 a 1969, aunque pasó seis de esos ocho años con licencia para poder trabajar en Washington en el Consejo de Asesores Económicos como miembro. economista del personal, miembro del consejo y luego presidente, asesorando a los presidentes John F. Kennedy y Lyndon Johnson sobre sus políticas económicas. Es más conocido por la ley de Okun, que establece que una reducción de 1 punto porcentual en el desempleo aumentará la producción de EE. una enorme recompensa económica.
Después de la muerte de Okun, un donante anónimo donó una serie de conferencias en Yale con el nombre de Okun, explicando que
Arthur Okun combinó sus dones especiales como economista analítico y teórico con su gran preocupación por el bienestar de sus conciudadanos en una contribución reflexiva, pragmática y sostenible a la política pública de su nación.
El contraste entre el enfoque de Okun en políticas económicas significativas y los cálculos de bitcoin descabellados de Tsyvinski es sorprendente.
Liu y Tsyvinski informan de correlaciones entre el número de búsquedas semanales en Google de la palabra bitcoin (en comparación con el promedio de las últimas cuatro semanas) y los cambios porcentuales en los precios de bitcoin de una a siete semanas después. También observaron la correlación entre la proporción semanal de búsquedas de piratería de bitcoin y búsquedas de bitcoin y los cambios porcentuales en los precios de bitcoin de una a siete semanas después. El hecho de que reportaron resultados de búsqueda de bitcoin retrocediendo cuatro semanas y avanzando siete semanas debería alertarnos sobre la posibilidad de que intentaron otras combinaciones hacia adelante y hacia atrás que no funcionaron tan bien. Lo mismo ocurre con el hecho de que no miraron hacia atrás cuatro semanas con búsquedas de hackeo de bitcoin. Evidentemente, torturaron los datos en su búsqueda de correlaciones.
Aun así, solo siete de sus catorce correlaciones parecían prometedoras para predecir los precios de bitcoin. Owen Rosebeck y yo analizamos las predicciones hechas por estas correlaciones durante el año siguiente a su estudio y descubrimos que eran inútiles. También podrían haber lanzado monedas para predecir los precios de bitcoin.
Liu y Tsyvinski también calcularon las correlaciones entre el número de publicaciones semanales de Bitcoin en Twitter y los retornos de Bitcoin de una a siete semanas después. A diferencia de los datos de tendencias de Google, no informaron los resultados de las publicaciones de hackeo de bitcoin. Tres de las siete correlaciones parecían útiles, aunque dos eran positivas y una negativa. Con datos nuevos, ninguno fue útil.
Lo único que arrojó su abuso de datos fueron correlaciones estadísticas coincidentes. Aunque la investigación fue realizada por un eminente profesor de Yale y publicada por el prestigioso NBER, la plan de que los precios de bitcoin se pueden predecir de manera confiable a partir de las búsquedas de Google y las publicaciones de Twitter fue una fantasía alimentada por la tortura de datos.
La ironía aquí es que los científicos crearon herramientas estadísticas que estaban destinadas a garantizar la credibilidad de la investigación científica, pero que han tenido el efecto perverso de alentar a los investigadores a torturar los datos, lo que hace que su investigación no sea confiable y socava la credibilidad de toda la investigación científica.
Tradicionalmente, la investigación empírica comienza especificando una teoría y luego recolectando datos apropiados para probar la teoría. Muchos ahora toman el atajo de buscar patrones en los datos libres de la teoría. Esto se denomina minería de datos en el sentido de que los investigadores hurgan en los datos sin saber qué encontrarán.
Allá por 2009, Marc Prensky, escritor y orador con títulos de Yale y Harvard Business enterprise Faculty, afirmó que
En muchos casos, los científicos ya no tienen que hacer conjeturas fundamentadas, construir hipótesis y modelos, y probarlos con experimentos y ejemplos basados en datos. En cambio, pueden extraer el conjunto completo de datos en busca de patrones que revelen efectos, produciendo conclusiones científicas sin más experimentación.
Estamos programados para buscar patrones, pero la avalancha de datos hace que la gran mayoría de los patrones que esperan ser descubiertos sean ilusorios e inútiles. Bitcoin es de nuevo un buen ejemplo. Dado que no existe una teoría lógica (aparte de la codicia y la manipulación del mercado) que explique las fluctuaciones en los precios de bitcoin, es tentador buscar correlaciones entre los precios de bitcoin y otras variables sin pensar demasiado si las correlaciones tienen sentido. Además de torturar datos, Liu y Tsyvinski minaron sus datos.
Calcularon correlaciones entre los precios de bitcoin y otras 810 variables, incluidos elementos tan caprichosos como el tipo de cambio dólar canadiense-dólar estadounidense, el precio del petróleo crudo y el rendimiento de las acciones en las industrias del automóvil, los libros y la cerveza. Usted podría pensar que estoy inventando esto. Lamentablemente, no lo soy.
Informaron haber encontrado que los rendimientos de bitcoin se correlacionaron positivamente con los rendimientos de las acciones en las industrias de bienes de consumo y atención médica y se correlacionaron negativamente con los rendimientos de las acciones en las industrias de productos fabricados y minería de metales. Estas correlaciones no tienen ningún sentido y Liu y Tsyvinski admitieron que no tenían thought de por qué estos datos estaban correlacionados: “No damos explicaciones. . . . Simplemente documentamos este comportamiento”. Un escéptico podría preguntar: ¿Cuál es el punto de documentar correlaciones coincidentes?
Y eso es todo lo que encontraron. El talón de Aquiles de la minería de datos es que los grandes conjuntos de datos contienen inevitablemente una enorme cantidad de correlaciones coincidentes que son una tontería, ya que no son más útiles que las correlaciones entre números aleatorios. La mayoría de las correlaciones fortuitas no se sostienen con datos nuevos, aunque algunas, coincidentemente, lo harán por un tiempo. Una relación estadística que se mantuvo durante el período que estudiaron y el año siguiente fue una correlación negativa entre los rendimientos de bitcoin y los rendimientos de acciones en la industria de cajas y contenedores de cartón. Esto es sin duda fortuito y sin sentido.
Los científicos han reunido enormes bases de datos y han creado poderosas computadoras y algoritmos para analizar datos. La ironía es que estos recursos facilitan mucho el uso de la minería de datos para descubrir patrones aleatorios que son fugaces. Los resultados se informan y luego se desacreditan, y nos volvemos cada vez más escépticos con los científicos.
¿Te gusta el reloj de retracción? Puedes hacer un contribución deducible de impuestos para apoyar nuestro trabajoSíganos en Twittercomo nosotros En facebookagréganos a tu lector de RSSo suscríbete a nuestro resumen diario. Si encuentra una retractación que es no en nuestra base de datospuede háganoslo saber aquí. Para comentarios o sugerencias, envíenos un correo electrónico a crew@retractionwatch.com.