‘Big Data Spain 2018’: explorar los datos para entender el mundo
Desde la actividad de los bancos centrales, hasta informes médicos o incluso las jugadas de Cristiano Ronaldo, existen inagotables fuentes de datos que pueden explotarse gracias a la analítica avanzada y cuyas aplicaciones cada vez tienen más impacto en la sociedad. El evento ‘Big Data Spain 2018’, que ha contado con la participación de BBVA, ha sido una oportunidad para mostrar algunos de estos ejemplos y dar voz a los investigadores, expertos y pioneros que los están haciendo realidad.
Una de las principales fuentes de datos es internet, donde además un 80% de la información almacenada está disponible en forma de texto. “Esta enorme cantidad de datos nos puede servir para entender mejor cómo funciona la economía, la sociedad y el mundo. Pero hasta ahora, no la estábamos analizando”, ha explicado Tomasa Rodrigo, responsable de Big Data de BBVA Research, durante su intervención en el evento, junto con Álvaro Ortiz, economista jefe de China, Turquía y Big Data en BBVA Research.
Durante su exposición, los expertos han explicado cómo BBVA Research está utilizando técnicas de aprendizaje automático (‘machine learning’) para convertir estas ingentes cantidades de texto en datos, que pueden analizarse para monitorizar, medir y entender la estrategia de comunicación de los bancos centrales. Las publicaciones de estas entidades –en forma de informes, notas de prensa, minutas y otros comunicados– se han convertido en una “herramienta clave” para entender la evolución de sus políticas monetarias, dado su impacto en los mercados.
Gracias a su trabajo, los investigadores de BBVA Research han descubierto que “existe un gran potencial en las herramientas de procesamiento del lenguaje natural[NLP, por sus siglas en inglés] para mejorar el conocimiento de la actividad de los bancos centrales, entender las razones de sus decisiones y monitorizar su evolución en el tiempo”, ha explicado Rodrigo. Durante el evento, presentaron los resultados de su análisis de la estrategia de comunicación del Banco Central Europeo (sobre el que ya habían realizado análisis previos), el Banco Central de Turquía y la Reserva Federal de EE. UU.
“El ‘big data’ es una de las vías a través de las cuales podemos explorar el mundo que nos rodea y contribuir al progreso de la humanidad”
Estas técnicas de ‘text mining’ o computación lingüística permiten extraer valor de los textos a diferentes niveles. Por un lado, permiten cuantificar las palabras más frecuentes entre las comunicaciones de las entidades. Además, gracias a las técnicas de ‘topic modelling’ –que sirven para identificar las temáticas a las que hace referencia el texto–, es posible identificar qué temas son más frecuentes en las publicaciones y cómo evolucionan en el tiempo. Pero más allá de la dimensión “cuantitativa”, los investigadores se interesan por entender “por qué hablan de estos temas y cómo están relacionados con decisiones clave”, según explica Ortiz.
Para ello emplean herramientas de ‘sentiment analysis’ que ayudan a determinar el tono positivo o negativo de los textos y miden las relaciones entre los distintos conjuntos de términos para encontrar conexiones relevantes. Para ello, trabajan con una matriz de palabras incluidas en las comunicaciones de los bancos centrales que después pueden estudiar y comparar en su evolución temporal. “Observamos que no son estáticos, y estudiar su evolución en el tiempo nos puede ayudar a entender las complejidades de sus decisiones, especialmente en momentos determinantes como las crisis, donde vemos que todo el conjunto de interconexiones cambia”, explicó Ortiz.
Los datos llegan a la medicina, el fútbol y hasta Marte
Durante el evento pudieron conocerse distintos ejemplos de cómo la aplicación de estas nuevas tecnologías está cambiando la forma de mirar el mundo y extraer valor en distintos ámbitos, como la medicina o el deporte. “El ‘big data’ es una de las vías a través de las cuales podemos explorar el mundoque nos rodea y contribuir al progreso de la humanidad”, afirmó el investigador en Ingeniería Aeroespacial de la Universidad de Rice (Texas), Patrick Rodi, durante su intervención, donde animó a los asistentes a “explorar” nuevas conexiones entre los datos para mejorar la sociedad.
Rodi cuenta con más de 23 años de experiencia en el mundo de la aerodinámica y el diseño de vehículos espaciales y ha trabajado en el desarrollo del Orion Multi-Purpose Crew Vehicle, una de las naves en las que trabaja la NASA para futuras misiones de exploración del espacio profundo. Durante su intervención, explicó que los datos se emplean para la exploración del universo en la búsqueda de exoplanetas, para estudiar los efectos del cambio climático, e incluso para mejorar los sistemas de aterrizaje para futuros viajes espaciales a Marte.
Pero es “solo una parte”, afirmó: la disponibilidad de datos y la capacidad para analizarlos con herramientas cada vez sofisticadas permite encontrar aplicaciones en ámbitos tan dispares como la medicina o el marketing. “Todos somos exploradores y buscamos continuamente nuevas formas de entender el mundo, extraer nuevas conexiones entre los datos a los que tenemos acceso y, así, acelerar el progreso de la humanidad”.
Un ejemplo de ello fue el caso presentado por John Ortega, investigador en NLP (‘Natural Language Processing’) de la Universidad de Nueva York, quien expuso durante el evento cómo las técnicas de aprendizaje automático también están ayudando a mejorar la toma de decisiones en los hospitales: “Gracias a la recolección y análisis automatizados de los textos presentes en los informes médicos, podemos encontrar patrones inusuales que antes no veíamos y predecir con más precisión el resultado de los tratamientos”, explicó.
La capacidad de afinar las predicciones gracias a la disponibilidad de datos y la aplicación del ‘machine learning’ ha trascendido incluso los ámbitos académicos y empresariales y está también presente en el mundo del deporte. El especialista en ‘machine learning’ de la empresa Olocip, Ander Alcón, explicó durante su ponencia otro ejemplo del empleo de herramientas de inteligencia artificial para convertir los datos en valor. En su caso recogen los datos de la actividad de los jugadores en partidos de fútbol y los procesan para convertirlos en predicciones. “Con esta información generamos modelos que nos ayudan a calcular las probabilidades de que se marque un gol en un momento determinado de un partido, o de la rentabilidad de contratar a un jugador nuevo en un equipo”, explicó Alcón. Por ejemplo, según cálculos (basados en datos como el rendimiento físico de los jugadores y sus movimiento en el campo), han podido determinar que Cristiano Ronaldo disminuirá su media de goles tras su incorporación al Juventus, aunque “permitirá aumentar la media de goles del equipo en su conjunto”.