La primera vez que asistí a la clase “Descubrimiento de conocimiento en bases de datos” no imaginé que se convertiría en mi materia favorita de ese semestre. Y mucho menos vislumbré que llegaría a ser mi área predilecta de forma permanente. El nombre de la materia ha cambiado y términos como “Análisis de datos”, “Minería de datos” han tomado su lugar. El alcance se ha extendido pero lo fundamental perdura.

El término minería hace alusión directa al proceso de encontrar material de valor escondido en la arena u otro material. No es muy distinto a tener registros, flujos de datos ó señales que aunque a simple vista carezcan de información útil, ahí está ella, latente, esperando ser encontrada.

Uno de los ejemplos clásicos es la canasta del supermercado: ¿qué productos se asocian directamente a la compra de otros?. La historia de que los papás jóvenes tienen alta predisposición de comprar cerveza y pañales los Viernes por la noche es una leyenda del gremio que ilustra el objetivo de la minería: encontrar información valiosa. Para el ejemplo, encontrar esa asociación beneficiaría al supermercado el cual favorecería esa compra al colocar los pañales a corta distancia de las cervezas. En consecuencia, se observaría un incremento en las ventas de dichos productos.

Un proceso de minería, de acuerdo a [Fayyad et al., 1996], es “la extracción no trivial de información implícita, previamente desconocida y útil a partir de datos”. Como resultado de este proceso podemos obtener relaciones, tendencias, y comportamientos hasta ese momento desconocidos que nos permiten plantear estrategias y tomar decisiones. Es la transformación de datos en conocimiento. Esta “transformación” es lo que me atrajo; me parecía la llave para develar secretos. Era introducirme a un mundo en donde iba a atisbar en cosas sin aparente sentido para obtener información hasta entonces desconocida, ¿ quién se resiste a eso?

Pero el proceso no es simple. Aunque en todo texto que se respete se pueden encontrar los pasos: tener un conjunto de datos, seleccionarlos, pre-procesarlos, transformarlos, aplicar algoritmos, extraer patrones, interpretarlos y aplicar el conocimiento obtenido, en la realidad cada fase tiene sus propios retos. Y difícilmente cada caso es igual. En la práctica, tan solo la parte de preparación de datos suele consumir el 80% del tiempo total del proceso.

La minería de datos puede explicar el pasado y también predecir el futuro. Mediante un análisis exploratorio podemos saber el estado actual de las variables de nuestro interés. Por ejemplo, ¿cuántos alumnos inician la carrera de arquitectura y cuántos la terminan? Por otra parte, si queremos saber cuál es la probabilidad de que un nuevo alumno con cierto perfil termine la carrera, entonces debemos aplicar algoritmos predictivos.

En la etapa de extraer modelos predictivos y patrones, la minería de datos tiene un amigo cercano: el aprendizaje automático. El aprendizaje automático se encarga del estudio, diseño y desarrollo de algoritmos que pueden aprender un modelo sin ser programado explícitamente. Un ejemplo es el aprendizaje automático de un conjunto de reglas que nos digan si un cliente va a volver a usar los servicios de renta de auto dado su perfil. Algunas aplicaciones tradicionales son las relacionadas con control de calidad, diagnóstico médico y análisis bancarios para aprobaciones de crédito. Un factor común en estos ejemplos es que el flujo de datos no es vertiginoso.

Así, el mundo siguió desarrollándose desde el punto de vista tecnológico y ahora se enfrenta a una sobrecarga de información. El uso masivo de dispositivos móviles, el continuo intercambio de información y el crecimiento de internet entre otros factores, han originado grandes cambios y nuevos retos para la minería de datos. Hoy como nunca antes, la explotación de la información es un tema crítico en áreas más allá de las ciencias computacionales y tecnologías de información.

Las tendencias indican que el flujo de información crecerá aún más. Ya no solamente los humanos nos conectaremos e intercambiaremos información entre nosotros. No, ahora los objetos también se conectarán e intercambiarán mensajes, tanto entre éllos como con nosotros. Así, el refrigerador nos enviará un mensaje a nuestro celular si detecta que hace falta leche. La cafetera aprenderá nuestros hábitos y sabrá en qué momento preparar el café. Y perder el llavero ya no será una preocupación pues dispondremos de su ubicación. Los dispositivos que nos podemos poner ya están aquí y también basan sus servicios en la generación de información a partir de nuestras actividades. Los dispositivos de monitoreo de nuestros signos vitales son el preludio de un sinfín de aplicaciones para la preservación y mejora de la salud. Estas aplicaciones involucran el uso intensivo de sensores y el consecuente intercambio de datos generando registros de cada actividad.

Las aplicaciones de minería de datos requieren adaptarse a esta sobrecarga de información. Y es aquí en donde la minería se relaciona con Big Data, el proceso de cantidades masivas de datos que requieren nuevas arquitecturas, frameworks, algoritmos y modelos de programación. Observamos tres áreas estrechamente ligadas que están viendo su auge en distintas áreas del conocimiento: aprendizaje automático, minería de datos y Big Data.

Pero estas ideas pueden sonar muy alejadas a nosotros si esa no es nuestra área de trabajo. La realidad es que estas técnicas están presentes en actividades rutinarias como la compra en línea de un libro y un boleto de avión. Las recomendaciones que esos sistemas nos proporcionan se basan en el registro de nuestros datos y actividades frecuentes. De la misma manera, las recomendaciones que recibimos en las redes sociales son producto de análisis de datos y aplicación de modelos predictivos, métricas y búsqueda de relaciones.

Estamos en una época floreciente y sumamente interesante para la creación y desarrollo de aplicaciones utilizando minería de datos. Tópicos como minería de texto, análisis de redes sociales, cómputo en la nube, visualización, desarollo de herramientas, cursos masivos en línea (MOOCs), sistemas de recomendación, modelos de control a partir de datos de sensores, el Internet de las cosas y la Web semántica son solamente algunos ejemplos para el uso innovador de la minería de datos.

Y por supuesto, no puede faltar el lado oscuro de las cosas. Uno de los aspectos críticos de la explotación de la información es la confidencialidad. Por un lado, un sistema que ofrece servicios personalizados requiere tener información veraz del usuario para su mejor desempeño. Por otro lado, la preocupación por el mal uso y la escasa claridad de una reglamentación que garantice la seguridad y el uso honesto de los datos genera desconfianza. En la medida que crezca la certidumbre del usuario en el manejo adecuado de su información privada será también la aceptación y mejor desempeño de las aplicaciones.

Referencia
[Fayyad et al., 1996] Fayyad, U., Piatetsky-shapiro, G., and Smyth, P. (1996). From data mining to knowledge discovery in databases. AI Magazine, 17:37–54 .