Capítulo 1. Las Series Temporales: Una visión general y una breve historia
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Los datos de series temporales y su análisis son cada vez más importantes debido a la producción masiva de dichos datos a través de, por ejemplo, el internet de las cosas, la digitalización de la sanidad y el auge de las ciudades inteligentes. En los próximos años podemos esperar que la cantidad, calidad e importancia de los datos de series temporales crezcan rápidamente.
A medida que se generalice el monitoreo continuo y la recogida de datos, aumentará la necesidad de un análisis competente de las series temporales con técnicas estadísticas y de aprendizaje automático. De hecho, los nuevos modelos más prometedores combinan ambas metodologías. Por este motivo, hablaremos detenidamente de cada una de ellas. Estudiaremos y utilizaremos una amplia gama de técnicas de series temporales útiles para analizar y predecir el comportamiento humano, los fenómenos científicos y los datos del sector privado, ya que todas estas áreas ofrecen ricas matrices de datos de series temporales.
Empecemos con una definición. El análisis de series temporales es la tarea de extraer información resumida y estadística significativa de puntos ordenados cronológicamente. Se realiza para diagnosticar el comportamiento pasado, así como para predecir el comportamiento futuro. En este libro utilizaremos diversos enfoques, desde modelos estadísticos centenarios hasta arquitecturas de redes neuronales de reciente desarrollo.
Ninguna de las técnicas se ha desarrollado en el vacío o por interés puramente teórico. Las innovaciones en el análisis de series temporales son el resultado de nuevas formas de recopilar, registrar y visualizar datos. A continuación trataremos brevemente la aparición del análisis de series temporales en diversas aplicaciones.
La Historia de las Series Temporales en Diversas Aplicaciones
El análisis de series temporales a menudo se reduce a la cuestión de la causalidad: ¿cómo influyó el pasado en el futuro? A veces, estas preguntas (y sus respuestas) se tratan estrictamente dentro de su disciplina, en lugar de como parte de la disciplina general del análisis de series temporales. Como resultado, diversas disciplinas han aportado formas novedosas de pensar sobre los conjuntos de datos de series temporales.
En esta sección examinaremos algunos ejemplos históricos de datos y análisis de series temporales en estas disciplinas:
-
Medicina
-
El tiempo
-
Economía
-
Astronomía
Como veremos, el ritmo de desarrollo de estas disciplinas y las contribuciones originadas en cada campo estaban fuertemente ligados a la naturaleza de los datos de series temporales contemporáneas disponibles.
La Medicina como Problema de Series Temporales
La medicina es un campo basado en datos que ha aportado interesantes análisis de series temporales al conocimiento humano durante unos cuantos siglos. Estudiemos ahora algunos ejemplos de fuentes de datos de series temporales en medicina y cómo surgieron a lo largo del tiempo.
La medicina empezó sorprendentemente despacio a pensar en las matemáticas de la predicción del futuro, a pesar de que los pronósticos son una parte esencial de la práctica médica. Esto fue así por muchas razones. La estadística y la forma probabilística de pensar sobre el mundo son fenómenos recientes, y estas disciplinas no estuvieron disponibles durante muchos siglos, incluso mientras se desarrollaba la práctica de la medicina. Además, la mayoría de los médicos ejercían de forma aislada, sin una comunicación profesional fácil y sin una infraestructura formal de registro de la salud de los pacientes o de la población. Por tanto, aunque los médicos de épocas anteriores hubieran recibido formación como pensadores estadísticos, probablemente no habrían dispuesto de datos razonables de los que extraer conclusiones.
No se trata en absoluto de criticar a los primeros médicos, sino de explicar por qué no es demasiado sorprendente que una de las primeras innovaciones en series temporales sobre salud de la población procediera de un vendedor de sombreros y no de un médico. Si lo piensas, tiene sentido: en siglos anteriores, un vendedor urbano de sombreros probablemente tendría más práctica en el mantenimiento de registros y en el arte de detectar tendencias que un médico.
El innovador fue John Graunt, un mercero londinense del siglo XVII. Graunt emprendió un estudio de los registros de defunciones que se llevaban en las parroquias londinenses desde principios del siglo XVI. Al hacerlo, dio origen a la disciplina de la demografía. En 1662 publicó Observaciones naturales y políticas . . . Realizadas sobre las Facturas de Mortalidad (Ver Figura 1-1).
En este libro, Graunt presentó las primeras tablas de vida, que quizá conozcas como tablas actuariales. Estas tablas muestran la probabilidad de que una persona de una edad determinada muera antes de su próximo cumpleaños. Graunt, como primera persona conocida que formuló y publicó tablas de vida, fue también el primer estadístico documentado de la salud humana. Sus tablas de vida se parecían a la Tabla 1-1, que está tomada de unos apuntes del curso de estadística de la Universidad Rice.
Edad | Proporción de muertes en el intervalo | Proporción que sobrevive hasta el inicio del intervalo |
---|---|---|
0-6 | 0.36 | 1.0 |
7-16 | 0.24 | 0.64 |
17-26 | 0.15 | 0.40 |
27-36 | 0.09 | 0.25 |
Por desgracia, la forma de Graunt de pensar matemáticamente sobre la supervivencia humana no cuajó. Empezó a formarse un mundo más conectado e impulsado por los datos -completo de estados-nación, acreditación, sociedades profesionales, revistas científicas y, mucho más tarde, registros sanitarios obligatorios por el gobierno-, pero la medicina siguió centrándose en la fisiología más que en la estadística.
Había razones comprensibles para ello. En primer lugar, el estudio de la anatomía y la fisiología en un número reducido de sujetos había proporcionado los principales avances de la medicina durante siglos, y la mayoría de los seres humanos (incluso los científicos) se aferran a lo que les funciona durante el mayor tiempo posible. Al centrarse tanto en la fisiología, no había motivo para buscar más allá. En segundo lugar, había muy poca infraestructura de informes para que los médicos tabularan y compartieran información a la escala que haría que los métodos estadísticos fueran superiores a las observaciones clínicas.
El análisis de series temporales ha tardado aún más en introducirse en la medicina general que otras ramas de la estadística y el análisis de datos, probablemente porque el análisis de series temporales es más exigente con los sistemas de mantenimiento de registros. Los registros deben estar relacionados entre sí a lo largo del tiempo, y preferiblemente recopilados a intervalos regulares. Por este motivo, las series temporales como práctica epidemiológica sólo han surgido muy recientemente y de forma incremental, una vez que se ha establecido una infraestructura gubernamental y científica suficiente para garantizar unos registros temporales razonablemente buenos y prolongados.
Del mismo modo, la asistencia sanitaria individualizada mediante el análisis de series temporales sigue siendo un campo joven y desafiante, porque puede resultar bastante difícil crear conjuntos de datos que sean coherentes a lo largo del tiempo. Incluso en el caso de pequeñas investigaciones basadas en estudios de casos, mantener el contacto con un grupo de individuos y la participación de los mismos resulta insoportablemente difícil y caro. Cuando estos estudios se llevan a cabo durante largos periodos de tiempo, tienden a convertirse en canónicos en sus campos -y repetidamente, o incluso excesivamente investigados- porque sus datos pueden abordar cuestiones importantes a pesar de los retos de la financiación y la gestión.1
Instrumental médico
El análisis de series temporales para pacientes individuales tiene una historia mucho más temprana y exitosa que la de los estudios sanitarios a nivel de población. El análisis de series temporales se abrió camino en la medicina cuando se inventaron en 1901 los primeros electrocardiogramas (ECG) prácticos, que pueden diagnosticar afecciones cardiacas registrando las señales eléctricas que pasan por el corazón (ver Figura 1-2). Otra máquina de series temporales, el electroencefalograma (EEG), que mide de forma no invasiva los impulsos eléctricos del cerebro, se introdujo en la medicina en 1924, creando más oportunidades para que los médicos aplicaran el análisis de series temporales al diagnóstico médico (ver Figura 1-3).
Ambas máquinas de la serie cronológica formaban parte de una tendencia más amplia a mejorar la medicina con ideas y tecnologías reutilizadas surgidas de la segunda Revolución Industrial.
Las herramientas de clasificación de series temporales de ECG y EEG siguen siendo áreas activas de investigación con fines muy prácticos, como estimar el riesgo de una crisis cardiaca súbita o una convulsión. Estas mediciones son ricas fuentes de datos, pero un "problema" de estos datos es que suelen estar disponibles sólo para pacientes con dolencias específicas. Estas máquinas no generan series temporales de largo alcance que puedan informarnos más ampliamente sobre la salud y el comportamiento humanos, ya que sus mediciones rara vez se aplican durante largos periodos de tiempo o antes de que haya aparecido una enfermedad en un paciente.
Por suerte, desde el punto de vista del análisis de datos, estamos superando la época en que los ECG y similares eran las series temporales médicas dominantes disponibles. Con la llegada de los sensores portátiles y los dispositivos médicos electrónicos "inteligentes", muchos seres humanos sanos realizan mediciones rutinarias de forma automática o con una mínima intervención manual, lo que conduce a la recopilación continua de buenos datos longitudinales sobre personas tanto enfermas como sanas. Esto contrasta fuertemente con los datos de series temporales médicas del siglo pasado, que se medían casi exclusivamente en personas enfermas y cuyo acceso era muy limitado.
Como han demostrado las noticias recientes, diversos actores no tradicionales están entrando en el campo de la medicina, desde enormes empresas de medios sociales a instituciones financieras, pasando por gigantes del comercio minorista.2 Es probable que todos ellos planeen utilizar grandes conjuntos de datos para racionalizar la asistencia sanitaria. No sólo hay nuevos actores en el campo de la asistencia sanitaria: también hay nuevas técnicas. La medicina personalizada basada en el ADN significa que los datos de series temporales se miden y valoran cada vez más. Gracias a los florecientes conjuntos de datos sanitarios modernos, es probable que tanto la asistencia sanitaria como el análisis de series temporales evolucionen en los próximos años, sobre todo en respuesta a los lucrativos conjuntos de datos del sector sanitario. Esperemos que esto ocurra de forma que las series temporales puedan beneficiar a todos.
Previsión meteorológica
Por razones obvias, predecir el tiempo ha sido durante mucho tiempo una preocupación para muchos. El antiguo filósofo griego Aristóteles profundizó en el tiempo con un tratado entero(Meteorología), y sus ideas sobre las causas y la secuencia del tiempo siguieron siendo dominantes hasta el Renacimiento . En esa época, los científicos empezaron a recopilar datos relacionados con el tiempo con ayuda de instrumentos recién inventados, como el barómetro, para medir el estado de la atmósfera. Utilizaban estos instrumentos para registrar series temporales a intervalos diarios o incluso horarios. Los registros se guardaban en diversos lugares, como diarios privados y cuadernos de bitácora de las ciudades locales. Durante siglos, ésta fue la única forma que tuvo la civilización occidental de seguir la evolución del tiempo.
Una mayor formalización e infraestructura para el registro meteorológico llegó en la década de 1850, cuando Robert FitzRoy fue nombrado jefe de un nuevo departamento del gobierno británico para registrar y publicar datos meteorológicos para los navegantes.3 FitzRoy acuñó el término previsión meteorológica. En su momento, fue criticado por la calidad de sus previsiones, pero ahora se considera que se adelantó mucho a su tiempo por la ciencia que utilizó para elaborarlas. Estableció la costumbre de imprimir las previsiones meteorológicas en el periódico; fueron las primeras previsiones impresas en The Times de Londres. FitzRoy es hoy célebre como el "padre de la previsión".
A finales del siglo XIX -cientos de años después de que se empezaran a utilizar muchas mediciones atmosféricas- el telégrafo permitió recopilar rápidamente las condiciones atmosféricas en series temporales desde muchos lugares distintos. Esta práctica se convirtió en habitual en muchas partes del mundo en la década de 1870 y condujo a la creación de los primeros conjuntos de datos significativos para predecir el tiempo local basándose en lo que ocurría en otros lugares geográficos.
A finales del siglo XX, la idea de predecir el tiempo con métodos computacionales se persiguió vigorosamente con la ayuda de estos conjuntos de datos recopilados. Los primeros intentos de calcular el tiempo requirieron un esfuerzo espectacular, pero los resultados fueron pobres. Aunque los físicos y los químicos tenían ideas bien probadas sobre las leyes naturales pertinentes, había demasiadas leyes naturales para aplicarlas todas a la vez. El sistema de ecuaciones resultante era tan complejo que la primera vez que alguien intentó hacer los cálculos supuso un notable avance científico.
Siguieron varias décadas de investigación para simplificar las ecuaciones físicas de forma que aumentaran la precisión y la eficacia computacional. Estos trucos del oficio se han transmitido incluso a los modelos actuales de predicción meteorológica, que funcionan con una mezcla de principios físicos conocidos y heurística probada.
Hoy en día, muchos gobiernos realizan mediciones meteorológicas muy granulares a partir de cientos o incluso miles de estaciones meteorológicas de todo el mundo, y estas predicciones se basan en datos con información precisa sobre la ubicación y el equipamiento de las estaciones meteorológicas. Las raíces de estos esfuerzos se remontan a los conjuntos de datos coordinados de la década de 1870 e incluso antes, a la práctica renacentista de llevar diarios meteorológicos locales.
Por desgracia, la previsión meteorológica es un ejemplo de los crecientes ataques a la ciencia que llegan incluso al ámbito de la previsión de series temporales. No sólo se han politizado los debates sobre las series temporales de la temperatura global, sino también tareas más mundanas de previsión de series temporales, como predecir la trayectoria de un huracán.
Previsión del crecimiento económico
Los indicadores de producción y eficiencia en los mercados han proporcionado durante mucho tiempo datos interesantes para estudiar a partir de un análisis de series temporales. Más interesante y urgente ha sido la cuestión de prever futuros estados económicos basándose en el pasado. Tales previsiones no sólo son útiles para ganar dinero, sino que también ayudan a promover la prosperidad y a evitar catástrofes sociales. Analicemos algunos avances importantes en la historia de la previsión económica.
La previsión económica surgió de la ansiedad provocada por las crisis bancarias episódicas en Estados Unidos y Europa a finales del siglo XIX y principios del XX. En aquella época, tanto empresarios como investigadores se inspiraron en la idea de que la economía podía asemejarse a un sistema cíclico, al igual que se pensaba que se comportaba el clima. Con las mediciones adecuadas, se pensaba, podían hacerse predicciones y evitarse las crisis.
Incluso el lenguaje de las primeras previsiones económicas reflejaba el lenguaje de las previsiones meteorológicas. Esto fue involuntariamente acertado. A principios del siglo XX, la previsión económica y la meteorológica eran, en efecto, parecidas: ambas eran bastante terribles. Pero las aspiraciones de los economistas crearon un entorno en el que al menos cabía esperar progresos, por lo que se crearon diversas instituciones públicas y privadas para el seguimiento de los datos económicos. Los primeros esfuerzos de previsión económica condujeron a la creación de indicadores económicos e historiales tabulados y disponibles públicamente de esos indicadores, que siguen utilizándose hoy en día. Incluso utilizaremos algunos de ellos en este libro.
Hoy en día, Estados Unidos y la mayoría de las demás naciones cuentan con miles de investigadores y registradores gubernamentales cuyo trabajo consiste en registrar los datos con la mayor precisión posible y ponerlos a disposición del público (véase la Figura 1-4). Esta práctica ha demostrado ser inestimable para el crecimiento económico y para evitar catástrofes económicas y dolorosos ciclos de auge y caída. Es más, las empresas se benefician de una atmósfera rica en datos, ya que estos conjuntos de datos públicos permiten a los proveedores de transporte, fabricantes, propietarios de pequeñas empresas e incluso agricultores anticiparse a las probables condiciones futuras del mercado. Todo esto surgió del intento de identificar los "ciclos económicos" que se creía que eran las causas de las quiebras bancarias cíclicas, una forma temprana de análisis de series temporales en economía.
Gran parte de los datos económicos recogidos por el gobierno, sobre todo los más noticiables, suelen ser una aproximación al bienestar económico general de la población. Un ejemplo de esta información vital es el número de personas que solicitan prestaciones de desempleo. Otros ejemplos son las estimaciones del gobierno sobre el producto interior bruto y sobre el total de declaraciones fiscales recibidas en un año determinado.
Gracias a este afán de previsión económica, el gobierno se ha convertido en un conservador de datos, además de recaudador de impuestos. La recopilación de estos datos permitió el florecimiento de la economía moderna, la industria financiera moderna y la ciencia de los datos en general. Gracias al análisis de series temporales surgido de las cuestiones económicas, ahora evitamos con seguridad muchas más crisis bancarias y financieras de las que cualquier gobierno podría haber evitado en siglos pasados. Además, se han escrito cientos de libros de texto sobre series temporales en forma de manuales de economía dedicados a comprender los ritmos de estos indicadores financieros.
Mercados comerciales
Volvamos al aspecto histórico de las cosas. A medida que los esfuerzos del gobierno por recopilar datos tuvieron gran éxito, las organizaciones privadas empezaron a copiar el mantenimiento de registros del gobierno. Con el tiempo, las bolsas de materias primas y de valores se hicieron cada vez más técnicas. Los almanaques financieros también se hicieron populares. Esto ocurrió tanto porque los participantes en el mercado se hicieron más sofisticados como porque las tecnologías emergentes permitieron una mayor automatización y nuevas formas de competir y de pensar sobre los precios.
Todo este minucioso mantenimiento de registros dio lugar a la búsqueda de ganar dinero con los mercados mediante las matemáticas en lugar de la intuición, de una forma impulsada totalmente por la estadística (y, más recientemente, por el aprendizaje automático). Los primeros pioneros hicieron este trabajo matemático a mano, mientras que los actuales "quants" lo hacen mediante métodos analíticos de series temporales muy complicados y patentados.
Uno de los pioneros del trading mecánico, o previsión de series temporales mediante algoritmos, fue Richard Dennis. Dennis era un millonario que se hizo a sí mismo y que convirtió a gente corriente, llamada las Tortugas, en operadores estrella, enseñándoles unas cuantas reglas selectas sobre cómo y cuándo operar. Estas reglas se desarrollaron en los años 70 y 80 y reflejaban el pensamiento de la "IA" de los años 80, en el que la heurística seguía gobernando con fuerza el paradigma de cómo construir máquinas inteligentes para trabajar en el mundo real.
Desde entonces, muchos operadores "mecánicos" han adaptado estas reglas, que como resultado se han vuelto menos rentables en un mercado automatizado abarrotado. Los operadores mecánicos siguen creciendo en número y riqueza, están continuamente en busca de la siguiente mejor opción porque hay mucha competencia.
Astronomía
La astronomía siempre se ha basado en gran medida en el trazado de objetos, trayectorias y mediciones a lo largo del tiempo. Por esta razón, los astrónomos son maestros de las series temporales, tanto para calibrar los instrumentos como para estudiar sus objetos de interés. Como ejemplo de la larga historia de los datos de series temporales, considera que las series temporales de manchas solares se registraron en la antigua China ya en el año 800 a.C., lo que convierte la recopilación de datos de manchas solares en uno de los fenómenos naturales mejor registrados de la historia.
Parte de la astronomía más apasionante del siglo pasado está relacionada con el análisis de series temporales. El descubrimiento de estrellas variables (que pueden utilizarse para deducir distancias galácticas) y la observación de acontecimientos transitorios como las supernovas (que mejoran nuestra comprensión de cómo cambia el universo con el tiempo) son el resultado del monitoreo en directo de flujos de datos de series temporales basados en las longitudes de onda y las intensidades de la luz. Las series temporales han tenido un impacto fundamental en lo que podemos saber y medir sobre el universo.
Por cierto, este monitoreo de las imágenes astronómicas ha permitido incluso a los astrónomos captar acontecimientos a medida que suceden (o más bien a medida que somos capaces de observarlos, lo que puede llevar millones de años).
En las últimas décadas, la disponibilidad de datos explícitamente marcados en el tiempo, como series temporales formales, se ha disparado en astronomía con una amplia gama de nuevos tipos de telescopios que recogen todo tipo de datos celestes. Algunos astrónomos se han referido incluso a un "diluvio de datos" de series temporales.
Despega el Análisis de Series Temporales
George Box, estadístico pionero que ayudó a desarrollar un popular modelo de series temporales, era un gran pragmático. Dijo célebremente: "Todos los modelos son erróneos, pero algunos son útiles".
Box hizo esta afirmación en respuesta a la actitud común de que la modelización adecuada de las series temporales era una cuestión de encontrar el mejor modelo que se ajustara a los datos. Como explicó, la idea de que cualquier modelo pueda describir el mundo real es muy improbable. Box hizo esta declaración en 1978, lo que parece extrañamente tardío en la historia de un campo tan importante como el análisis de series temporales, pero de hecho la disciplina formal era sorprendentemente joven.
Por ejemplo, uno de los logros que hicieron famoso a George Box, el método Box-Jenkins -considerado una aportación fundamental al análisis de series temporales- no apareció hasta 1970.4 Curiosamente, este método no apareció por primera vez en una revista académica, sino en un libro de texto de estadística, Time Series Analysis: Previsión y Control (Wiley). Por cierto, este libro de texto sigue siendo popular y ya va por su quinta edición.
El modelo Box-Jenkins original se aplicó a un conjunto de datos de niveles de dióxido de carbono emitidos por un horno de gas. Aunque un horno de gas no tiene nada de pintoresco, el conjunto de datos de 300 puntos que se utilizó para demostrar el método parece algo anticuado. Ciertamente, en los años 70 se disponía de conjuntos de datos mayores, pero recuerda que entonces era excepcionalmente difícil trabajar con ellos. Era una época anterior a comodidades como R, Python e incluso C++. Los investigadores tenían buenas razones para centrarse en pequeños conjuntos de datos y métodos que minimizaran los recursos informáticos.
El análisis y la previsión de series temporales se desarrollaron al ritmo de los ordenadores, con conjuntos de datos más grandes y herramientas de codificación más sencillas que allanaron el camino a una mayor experimentación y a la capacidad de responder a preguntas más interesantes. La historia de los concursos de previsión del profesor Rob Hyndman ofrece ejemplos adecuados de cómo los concursos de previsión de series temporales se desarrollaron a un ritmo paralelo al de los ordenadores.
El profesor Hyndman sitúa el "primer estudio no trivial de la precisión de las previsiones de series temporales" en una tesis doctoral de 1969 en la Universidad de Nottingham, justo un año antes de la publicación del método Box-Jenkins. A ese primer esfuerzo pronto le siguieron concursos organizados de previsión de series temporales, los primeros de los cuales contaban con unos 100 conjuntos de datos a principios de la década de 1970.5 No estaba mal, pero seguramente era algo que podía hacerse a mano si era absolutamente necesario.
A finales de la década de 1970, los investigadores habían montado un concurso con unos 1.000 conjuntos de datos, un aumento impresionante. Por cierto, esta época también estuvo marcada por el primer microprocesador comercial, el desarrollo de los disquetes, los primeros ordenadores personales de Apple y el lenguaje informático Pascal. Es probable que algunas de estas innovaciones fueran útiles. Un concurso de previsión de series temporales de finales de los 90 incluía 3.000 conjuntos de datos. Aunque estas colecciones de conjuntos de datos eran sustanciales y sin duda reflejaban enormes cantidades de trabajo e ingenio para recopilarlas y conservarlas, se ven empequeñecidas por la cantidad de datos disponibles ahora. Los datos de series temporales están por todas partes, y pronto todo será una serie temporal.
Este rápido crecimiento del tamaño y la calidad de los conjuntos de datos debe su origen a los enormes avances que se han producido en la informática en las últimas décadas. Los ingenieros de hardware consiguieron continuar la tendencia descrita por la Ley de Moore -una predicción de crecimiento exponencial de la capacidad informática- durante este tiempo. A medida que el hardware se hacía más pequeño, más potente y más eficiente, era fácil tener mucho más de él, de forma asequible, para crear desde ordenadores portátiles en miniatura con sensores conectados hasta centros de datos masivos que alimentan la Internet moderna en su forma hambrienta de datos. Más recientemente, los wearables, las técnicas de aprendizaje automático y las GPU han revolucionado la cantidad y calidad de los datos disponibles para su estudio.6
Sin duda, las series temporales se beneficiarán a medida que aumente la potencia de cálculo, porque muchos aspectos de los datos de las series temporales son exigentes desde el punto de vista computacional. Con el aumento de los recursos informáticos y de datos, cabe esperar que el análisis de las series temporales continúe su rápido ritmo de desarrollo.
Los orígenes del análisis estadístico de series temporales
La estadística es una ciencia muy joven. Los avances en estadística, análisis de datos y series temporales siempre han dependido en gran medida de cuándo, dónde y cómo se disponía de los datos y en qué cantidad. La aparición del análisis de series temporales como disciplina está vinculada no sólo a los avances en la teoría de la probabilidad, sino también al desarrollo de estados nacionales estables, donde el mantenimiento de registros se convirtió por primera vez en un objetivo realizable e interesante. Ya hemos tratado esto anteriormente con respecto a diversas disciplinas. Ahora pensaremos en las propias series temporales como disciplina.
Un punto de referencia del inicio del análisis de series temporales como disciplina es la aplicación de modelos autorregresivos a datos reales. Esto no ocurrió hasta la década de 1920. Udny Yule, físico experimental convertido en profesor de estadística en la Universidad de Cambridge, aplicó un modelo autorregresivo a los datos de las manchas solares, ofreciendo una forma novedosa de pensar sobre los datos, en contraste con los métodos diseñados para ajustarse a la frecuencia de una oscilación. Yule señaló que un modelo autorregresivo no partía de un modelo que asumiera la periodicidad:
Cuando se aplica el análisis del periodograma a los datos relativos a cualquier fenómeno físico con la esperanza de obtener una o varias periodicidades verdaderas, suele haber, según me parece, una tendencia a partir de la hipótesis inicial de que la periodicidad o periodicidades están enmascaradas únicamente por esas fluctuaciones superpuestas más o menos aleatorias -fluctuaciones que no perturban en modo alguno el curso estable de la función o funciones periódicas subyacentes-... no parece haber ninguna razón para suponer que sea la hipótesis más probable a priori.
El pensamiento de Yule era propio, pero es probable que algunas influencias históricas le llevaran a darse cuenta de que el modelo tradicional presuponía su propio resultado. Como antiguo físico experimental que había trabajado en el extranjero, en Alemania (el epicentro de la floreciente teoría de la mecánica cuántica), Yule sin duda habría sido consciente de los recientes avances que ponían de relieve la naturaleza probabilística de la mecánica cuántica. También habría reconocido los peligros de limitar el pensamiento a un modelo que presupone demasiado, como habían hecho los físicos clásicos antes del descubrimiento de la mecánica cuántica.
A medida que el mundo se fue convirtiendo en un lugar más ordenado, registrado y predecible, sobre todo después de la Segunda Guerra Mundial, los primeros problemas del análisis práctico de series temporales fueron planteados por el sector empresarial. Los problemas de series temporales orientados a las empresas eran importantes y no excesivamente teóricos en sus orígenes. Incluían la previsión de la demanda, la estimación de los precios futuros de las materias primas y la cobertura de los costes de fabricación. En estos casos de uso industrial, las técnicas se adoptaban cuando funcionaban y se rechazaban cuando no lo hacían. Probablemente ayudó el hecho de que los trabajadores industriales tuvieran acceso a conjuntos de datos mayores que los que estaban a disposición de los académicos en aquella época (como sigue ocurriendo ahora). Esto significaba que a veces se generalizaban técnicas prácticas pero teóricamente poco exploradas antes de que se comprendieran bien.
Los orígenes del aprendizaje automático del análisis de series temporales
Los inicios del aprendizaje automático en el análisis de series temporales se remontan a muchas décadas atrás. Un artículo muy citado de 1969, "La combinación de previsiones", analizaba la idea de combinar previsiones en lugar de elegir una "mejor" como forma de mejorar el rendimiento de las previsiones. Al principio, los estadísticos tradicionales aborrecían esta idea, pero los métodos de ensamblaje se han convertido en la norma de oro en muchos problemas de previsión. El ensamblaje rechaza la idea de un modelo de previsión perfecto o incluso significativamente superior en relación con todos los modelos posibles.
Más recientemente, los usos prácticos del análisis de series temporales y el aprendizaje automático surgieron ya en la década de 1980, e incluían una amplia variedad de escenarios:
-
Los especialistas en seguridad informática propusieron la detección de anomalías como método para identificar a los hackers/intrusos.
-
La deformación temporal dinámica, uno de los métodos dominantes para "medir" la similitud de las series temporales, empezó a utilizarse porque la potencia informática permitió por fin calcular con razonable rapidez las "distancias", por ejemplo, entre diferentes grabaciones de audio.
-
Se inventaron las redes neuronales recursivas y se demostró su utilidad para extraer patrones de datos corruptos.
El análisis y la previsión de series temporales aún no han alcanzado su época dorada y, hasta la fecha, el análisis de series temporales sigue dominado por los métodos estadísticos tradicionales, así como por técnicas de aprendizaje automático más sencillas, como los conjuntos de árboles y los ajustes lineales. Seguimos esperando un gran salto adelante para predecir el futuro.
Más recursos
-
Sobre la historia del análisis y la previsión de series temporales:
- Kenneth F. Wallis, "Revisando la competición de predicción de Francis Galton", Statistical Science 29, no. 3 (2014): 420-24, https://perma.cc/FJ6V-8HUY.
Se trata de una discusión histórica y estadística de un trabajo muy antiguo sobre la previsión del peso de un buey descuartizado mientras el animal aún estaba vivo en una feria del condado.
- G. Udny Yule, "Sobre un método de investigación de periodicidades en series perturbadas, con especial referencia a los números de manchas solares de Wolfer", Philosophical Transactions of the Royal Society of London. Serie A, Containing Papers of a Mathematical or Physical Character 226 (1927): 267-98, https://perma.cc/D6SL-7UZS.
El artículo seminal de Udny Yule, una de las primeras aplicaciones del análisis de medias móviles autorregresivas a datos reales, ilustra una forma de eliminar el supuesto de periodicidad del análisis de un fenómeno supuestamente periódico.
- J.M. Bates y C. W. J. Granger, "La combinación de previsiones", Organizational Research Quarterly 20, nº 4 (1969): 451-68, https://perma.cc/9AEE-QZ2J.
Este artículo fundamental describe el uso del ensamblaje para la previsión de series temporales. La idea de que promediar modelos era mejor para la previsión que buscar un modelo perfecto era nueva y controvertida para muchos estadísticos tradicionales.
- Jan De Gooijer y Rob Hyndman, "25 años de previsión de series temporales", International Journal of Forecasting 22, no. 3 (2006): 443–73, https://perma.cc/84RG-58BU.
Se trata de un exhaustivo resumen estadístico de la investigación sobre previsión de series temporales en el siglo XX.
- Rob Hyndman, "Breve historia de los concursos de predicción de series temporales", blog Hyndsight, 11 de abril de 2018, https://perma.cc/32LJ-RFJW.
Esta historia más breve y específica da cifras concretas, lugares y autores de destacados concursos de previsión de series temporales en los últimos 50 años.
-
Sobre los historiales de series temporales de dominios específicos y comentarios:
- NASA, "Weather Forecasting Through the Ages", Nasa.gov, 22 de febrero de 2002, https://perma.cc/8GK5-JAVT.
La NASA ofrece una historia de cómo surgió la previsión meteorológica, haciendo hincapié en los retos y éxitos específicos de la investigación en el siglo XX.
- Richard C. Cornes, "Primeros datos meteorológicos de Londres y París: Extending the North Atlantic Oscillation Series", tesis doctoral, Escuela de Ciencias Ambientales, Universidad de East Anglia, Norwich, Reino Unido, mayo de 2010, https://perma.cc/NJ33-WVXH.
Esta tesis doctoral ofrece un fascinante relato de los tipos de información meteorológica disponibles para dos de las ciudades más importantes de Europa, con amplios listados de las ubicaciones y la naturaleza del tiempo histórico en formato de series temporales.
- Dan Mayer, "Breve historia de la medicina y la estadística", en Essential Evidence-Based Medicine (Cambridge, Reino Unido: Cambridge University Press, 2004), https://perma.cc/WKU3-9SUX.
Este capítulo del libro de Mayer destaca cómo la relación entre la medicina y la estadística dependía en gran medida de los factores sociales y políticos que ponían los datos y la formación estadística a disposición de los médicos.
- Simon Vaughan, "Series temporales aleatorias en astronomía", Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 371, nº 1984 (2013): 1-28, https://perma.cc/J3VS-6JYB.
Vaughan resume las muchas formas en que el análisis de series temporales es relevante para la astronomía y advierte sobre el peligro de que los astrónomos redescubran los principios de las series temporales o se pierdan colaboraciones extremadamente prometedoras con estadísticos.
1 Algunos ejemplos son el British Doctors Study y el Nurses' Health Study.
2 Véase, por ejemplo, Darrell Etherington, "Amazon, JPMorgan and Berkshire Hathaway to Build Their Own Healthcare Company", TechCrunch, 30 de enero de 2018, https://perma.cc/S789-EQGW; Christina Farr, "Facebook Sent a Doctor on a Secret Mission to Ask Hospitals to Share Patient Data", CNBC, 5 de abril de 2018, https://perma.cc/65GF-M2SJ.
3 Este mismo Robert FitzRoy fue capitán del HMS Beagle durante el viaje que llevó a Charles Darwin alrededor del mundo. Este viaje fue decisivo para proporcionar a Darwin pruebas de la teoría de la evolución por selección natural.
4 El método Box-Jenkins se ha convertido en una técnica canónica para elegir los mejores parámetros de un modelo ARMA o ARIMA para modelizar una serie temporal. Más información al respecto en el Capítulo 6.
5 Es decir, 100 conjuntos de datos separados en distintos dominios de varias series temporales de distinta duración.
6 Dada la variedad de aparatos que los seres humanos llevan consigo, así como las marcas de tiempo que crean al hacer la compra, conectarse a un portal informático en el trabajo, navegar por Internet, comprobar un indicador de salud, hacer una llamada telefónica o navegar por el tráfico con el GPS, podemos afirmar con seguridad que un estadounidense medio probablemente produce miles de puntos de datos de series temporales cada año de su vida.
Get Análisis Práctico de Series Temporales now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.