Big Data frente a Small Data: ¿quién lleva razón?
¿Big Data? ¿Small Data? Si hay algo que aprenden rápidamente los alumnos de Inferencia y Econometría es que muy pocas estadísticas son aplicables a poblaciones completas. Lógicamente, se basan en muestreos y descartes. En el retrovisor tenemos las elecciones españolas de 2016 y los distintos sondeos, tirando por la borda suposiciones tomadas como hechos firmes. ¿Por qué? La gente puede mentir, sentirse coaccionada o simplemente no estar cómoda contando asuntos íntimos.
Para entender la diferencia entre big y small data, podemos fijarnos en la micro y la macroeconomía. Ambas operan bajo los mismos preceptos. La Micro se fija en el consumidor, distribuidor o productor; la Macro, en poblaciones completas, en países. Pero pensemos en la paradoja de la austeridad: a nivel microeconómico, lo mejor es calcular el gasto: a mayor ahorro mayor posibilidad de inversión futura. Pero a nivel macroeconómico esto es nefasto: disminuye el consumo, las empresas venden menos, suben los precios, se dispara la demanda futura, cae el PIB, aumenta el desempleo…
¿Por qué contamos esto? Bien, porque uno no es mejor que otro. Porque, por un lado, tenemos a máquinas arrojando grafos en base a logaritmos, cultivando datos en bruto para escupir conclusiones coherentes: el “big data”. Y, por otro, a personas a pie de calle haciendo entrevistas, creando “small data”. Vamos a definir en primer lugar a estos dos presuntos contendientes, que parecen no llevarse bien.
– Big Data: hace referencia al almacenamiento de grandes cantidades de datos para encontrar patrones. Podría decirse que ‘Big Data: la revolución de los datos masivos’ es su Biblia; y Viktor Mayer-Schönberger, su profeta.
– Small Data: si big data hace referencia a grandes datos cosechados por máquinas,small data se refiere a pequeños datos extraídos de personas, de la observación activa de testigos, un análisis pausado. Se podría considerar a Martin Lindstrom su particular profeta, con el bestseller ‘Small Data: pequeñas pistas que revelan las tendencias más importantes’ como eje central de su pensamiento.
¿QUÉ ESCONDE EL BIG DATA?
Pongamos como ejemplo el cine. Existen dos cintas que, gracias a su montaje fragmentado, intentan evocar una serie de emociones en el espectador. Elephant(Gus Van Sant, 2003) y 71 fragmentos de una cronología al azar (Michael Haneke, 1994) son dos buenos ejemplos de cómo el director, a través de la exposición fría de información, pretende sugerir sin juzgar, que el puzle se monte en la cabeza del espectador y él mismo saque sus propias conclusiones.
El Big Data son todos esos fragmentos. Una vez analizados se llegaría a una conclusión inmediata: tal o cual personaje es el asesino, por tales o cuales razones. ElSmall Data no analizaría el metraje, sino al espectador. Sus conclusiones emocionales serían su registro.
No obstante, el Big Data es imprescindible para cualquier empresa. No abarca sólo la recogida y procesado de información. Ni hace referencia a una cantidad específica. Se nutre de la cantidad: cuánta más información, mejor. Es una cuestión de volumen y de variedad. Este “entiende” cómo usamos las redes sociales, cómo conducimos en carretera, nuestro tipo de cine favorito, recopila cada me gustade Facebook o cada fav de Twitter. Todas esas recomendaciones de amistad, de webs similares, de vacaciones en la montaña o anuncios de restaurantes vienen determinados por un análisis de hábitos y gustos.
El Big Data no se limita a amontonar digitalmente la información, sino que mide y comunica los movimientos. Esto es especialmente relevante cuando necesitamos una respuesta rápida. Por ejemplo, entre los High Frequency Traders. Los HFT son sistemas de compra y venta de activos financieros en cotización, desde índices bursátiles, materias primas hasta coches en subasta. El caso es que estos robots tienen a La Bolsa tambaleándose gracias a su capacidad de operar a la velocidad de la luz.
Esta velocidad es imprescindible para el usuario. Seguro que has oído hablar delcloud y fog computing. Para no profundizar en estos conceptos, diremos que su función es la siguiente: en vez de mandar toda la información recopilada a un proveedor y que sus servidores la analicen, este método de computación aprovecha la potencia de nuestro smartphone para generar una respuesta. La meta es simple: acortar los tiempos de espera.
¿CÓMO SE OBTIENEN TODOS ESTOS DATOS?
Existe una falacia común que dice que los seres humanos cada vez producimos más datos. Más allá del número de habitantes del planeta, lo que aumenta es la obtención de los mismos. Y la capacidad de albergar cantidades astronómicas de números sí que aumenta cada día.
En primer plano tendríamos los censos de población, registros médicos, impuestos, multas, etcétera. A esto habría que añadir cada transacción, cada conversación —en Twitter se generan 12 Terabytes de tweets diarios, Facebook almacena cerca de 100 Petabytes en fotos y vídeos y Youtube… mejor echad un ojo a esta infografía— y, por último, sumar todo el aprendizaje que hacen las propias máquinas al interpretar esos datos, la llamada computación cognitiva y el m2m (machine to machine). Si sumamos toda la actividad de todos los móviles del mundo pasaríamos de los 3 quintillones de bytes de datos diarios.
Esta tasa tiene un crecimiento exponencial. Hoy día prácticamente todo está conectado, es el denominado Internet de las cosas: el smartphone encabeza la lista, pero tendríamos que sumar nuestra TV, la impresora, cualquier wearable (pulseras, relojes), los nuevos sistemas de audio inalámbrico, las smart homes —lavadora, horno, placa, frigorífico— y hasta algunos instrumentos musicales. Cada nuevo gadget conectado es un nuevo emisor de información en tiempo real.
ENCONTRANDO LAS CONEXIONES CON EL USUARIO
Pero todo eso es sólo la punta del iceberg. Es un lenguaje de máquinas que nosotros no logramos entender. Y no todo puede reducirse a variables de unos y ceros.Ingvar Kamprad, fundador de IKEA, decía que la investigación más barata y eficaz que existe es preguntar a cada cliente por qué compran este o aquel producto: esto es Small Data.
Martin Lindstrom, defensor troncal del Small Data, cuenta una anécdota interesante: recuerda cómo Lego, al borde de la quiebra en 2003, dejó de hacer caso al Big Data, el cual decía que sus juegos de piezas estaban acabados porque la actual generación se había acostumbrado a la gratificación instantánea. La empresa habló con niños y acabó por hacer sus piezas más pequeñas, más versátiles, decisión que afectaba al embalado y aumentaba automáticamente la dificultad. Esta decisión contraria disparó las ventas.
Lindstrom es conocido como padre del neuromarketing. Consiste en la aplicación de técnicas neurocientíficas al ámbito de la mercadotecnia, como un estudio de los niveles de emoción, atención y memoria que el usuario muestra frente a diferentes estímulos. Es algo que la publicidad viene practicando desde hace 150 años. El Small Data apela a la creatividad, a los accidentes, a eso que se escapa de las estadísticas crudas. El éxito de Snapchat, convertir los post-its en herramienta de trabajo, la viralización de justo-lo-contrario-que-esperabas.
El Big Data quiere encontrar correlaciones coherentes en grandes volúmenes de datos. El Small Data prefiere sentarse con el usuario, conocerlo, estudiarlo, o incluso nada de eso: actuar como actúan las personas, sin grandes razonamientos, con una pizca de locura y riesgo. De ahí que el Small Data sea el nuevo tema de conversación y obsesione a grandes empresas: ¿por qué existen startups que rinden mejor que corporaciones milimétricamente ordenadas? ¿Por qué Amazon no ha hecho desaparecer las pequeñas editoras sino todo lo contrario, estando España a la cabeza de Europa pese a su economía?
No obstante, el libro de Lindstrom esconde una gran falacia: «el Big Data son datos, y los datos favorecen el análisis sobre la emoción». Esta es una perspectiva romántica que induce a error: el Big Data son datos tanto como el Small Data. Y se usan para determinar emociones —que le pregunten al algoritmo de grupos favoritos en Spotify— tanto como deseos del tipo de “intención de compra”.
Por último, deberíamos tener en cuenta esa máxima llamada azar: el ensayista e investigador financiero Nassim Nicholas Taleb llama “cisne negro” a un suceso improbable, tanto que sus consecuencias sólo pueden explicarse a posteriori, que nos dejan descolocados y sólo podemos entenderlas cuando hemos realizado un análisis en frío. Como los casos de presión laboral o las terribles consecuencias de la matanza del Instituto Columbine, retratada precisamente en la cinta Elephant.
Fuente: nobbot