20 Mar 2019
Datos, la nueva materia prima (1/2)
Por Juan Carlos Rodríguez Rojo.
Hasta tiempos recientes, una de las grandes fuentes de negocio global, incluso antes de que se hablase de globalización, era el conjunto de lo que llamamos materias primas. Pero, eso era cuando todos creíamos aún en la materia y en la energía.
Actualmente, hay algo más que indicios de que cuanto existe, las distintas formas de la materia y la energía, no va a ser tratado como lo que hasta ahora creíamos que era, sino como información.
Así las cosas, los datos se postulan como una nueva suerte de materia prima universal, de tal modo que los datos pretenden constituirse en la madre de todas las fuentes de negocio en el mundo actual y futuro.
La tecnología es lo que ha hecho posible, al permitir almacenar, ordenar y procesar ingentes cantidades de datos, que hayamos llegado a este punto. Para que la tecnología se haya desarrollado, ha sido necesaria una gran acumulación de datos, o, para entendernos, de cosas que al ser digitalizadas se han convertido en datos, tal como sucede con textos, sonidos e imágenes.
La experiencia indica que se ve lo que se mira, siendo ésta una gran limitación para el análisis, y, cuando se observa el plano Big Data, también se ve lo que se mira; y lo que se mira es, por encima de todo, lo que dice la industria de los datos masivos, a saber: todo es accesible a través de datos + los datos producen información + la información produce conocimiento + el conocimiento permite hacer predicciones + el conocimiento y las predicciones permiten decidir lo mejor para las organizaciones y para la sociedad.
Como consecuencia, los datos serán lo más valioso que podremos procesar en adelante. ¿Realmente? ¿Tan fácil?
Si escuchamos a la industria de los datos, hay algo que invariablemente se da por supuesto. ¿Qué? Los propios datos.
Pero, los datos no son como el petróleo, que tiene una propiedades y unos derivados que explotan de manera altamente productiva esas propiedades. Los datos tienen una única propiedad relevante: qué representan.
Ahora bien, cualquier representación presupone un sistema que recibe (o intenta acceder a) una cierta variedad incidente, que será reducida en dos momentos, al menos: en la propia constitución del corpus de datos y en su procesamiento.
Aquí puedes ver la entrevista que hicimos a Juan Carlos Rodríguez Rojo en nuestros meetups.
Entre un gato y un perro y sus respectivas imágenes digitales y la base de datos que las representa hay una reducción de la variedad incidente, que ni siquiera es del todo digitalizable; cuando trabajamos con muchos gatos y perros para construir un modelo que clasifique bien a cualquier gato como un gato y a cualquier perro como un perro, lo hacemos efectuando una segunda reducción de la variedad, poniendo el foco sobre la especie… y funciona bastante bien.
Aquí hay un primer tema importante para la reflexión. ¿Qué representa un corpus de datos? Es una pregunta que siempre debemos hacernos, antes de proceder a su procesamiento y análisis, porque no siempre salen tan bien las cosas como cuando clasificamos gatos y perros. Aunque quizá no podamos responderla de la mejor manera posible sin procesarlos, el lugar de la pregunta está en el principio, en el final y en todo el proceso.
Puedes ver la segunda parte de este artículo, política y datos la nueva materia prima (2/2) y el encuentro ofrecido por Juan Carlos Rodríguez Rojo en NWC10Lab aquí.
Puedes registrate al final de este artículo para estar enteradado de nuevas publicaciones y asistir a próximos encuentros.
Juan Carlos Rodríguez Rojo
marzo 2019