BIGML: MÁS RÁPIDO, MÁS INTUITIVO, MÁS FÁCIL.

En este espacio, solemos introducir las herramientas que utilizamos y bien con aplicaciones reales de proyectos realizados, o con pequeñas demos aclaratorias, explicar el porqué las encontramos tan útiles.

En nuestra cruzada por acercar el análisis y la comprensión de los datos a todos los perfiles de las empresas, una potente herramienta surge para echarnos un cable: BigML.

Para los que estamos dentro del sector, no nos sorprende, pero esta empresa (mitad americana, mitad española) está teniendo un desarrollo increíble. Y no es para menos. Consigue poder aplicar algoritmos de Machine Learning en los conjuntos de datos de una forma rápida y fácil. Insultante y maravillosamente fácil.

Una de las cosas que con más interés nos fijamos, es en la facilidad que otorga para comunicar resultados y dejar que la intuición del usuario explore la fase de aplicación y test de los algoritmos.

SIMULACIÓN DE ÁRBOLES DE DECISIÓN A PARTIR DE BIGML.

Creamos un nuevo proyecto en BigML. En él tendremos un conjunto de datos, formado por clientes de un banco a los que se les concedió un préstamo en función de sus características y que algunos fueron operaciones exitosas, y otras no. 

arboldecisionYa que tenemos estos datos guardados, y tenemos capturada información sobre los clientes, queremos poder tener una herramienta que nos permita conocer un patrón de comportamiento (si lo hubiese) el cual usar para nuevos casos, y poder discernir más rápido y eficaz en el futuro si a un posible cliente es recomendable, o no, darle el préstamo.

Para eso usaremos las técnicas de Machine Learning (en este caso, usaremos un intuitivo árbol de decisión), y BigML. Un clic y cargamos los datos, un clic y creamos el dataset, un clic y configuramos nuestro árbol de decisión. En cuestión de minutos podemos disponer de un algoritmo con gran aplicación práctica.

 No nos detendremos en este post a explicar por qué, a pesar de lo sencillo que parece, es necesario tener un conocimiento experto de lo que se hace, se puede hacer, o por qué hace lo que hace (ya lo introdujimos en este post: ML: la potencia sin control no sirve de nada). Vayamos directamente a la fase práctica de simulación de resultados.

FASE DE SIMULACIÓN EN BIGML PARA EL USUARIO NO EXPERTO.

BigML proporciona ya desde su dashboard la opción de llevar a cabo simulaciones, compartir el modelo entrenado con otros usuarios o incluso descargar el modelo entrenado en otras plataformas, como Python (incluso poder utilizarlo off line). BigML nos vuelve a ganar, al usar su interactivo entorno.

aplicacion

En este ejemplo vemos que, simplemente seleccionando las diferentes posibilidades que se dan en las características que tenemos, nos arrojan un resultado (de “acierto” si el resultado de la operación fue exitoso para la entidad o de “error” si no lo fue). Para este caso, un cliente con las características que tenemos tendría una probabilidad del 70% de ser una operación exitosa para la entidad.

BIGML COMO ENTORNO PARA SIMULACIONES DE DATOS.

No es solo la facilidad de realizar las implementaciones de Machine Learning, sino también la versatilidad e intuición gráfica de sus soluciones, lo que confiere a BigML un lugar destacado en nuestra toolbox de minería de datos. Cada vez más los clientes demandan entender el proceso de analítica en sus datos, y las simulaciones de BigML ayudan decisivamente a ello.


KNIME PARA EMPODERANDAR AL USUARIO DE NEGOCIO.miinero

Siempre decimos que nuestro objetivo es empoderar a los clientes (especialmente clientes de negocio, no técnicos) y crearles el escenario, el control y los conocimientos necesarios para que, una vez desarrollado todo el proyecto, tengan la autonomía de utilizar las soluciones dadas, poder investigar y tenernos como soporte para desarrollar nuevas líneas de análisis y conocimiento.

Quizá un aspecto importante, pero no muy comentado de KNIME, es la facilidad que tiene para la integración de bases de datos y la realización de consultas SQL. Hasta ahora, muchos usuarios de negocio dependían de alguien externo (alguien de IT), para desarrollar nuevas consultas en las BBDD, dependiendo del “…de informática” para explorar por las fuentes de datos.

¿CÓMO USAR KNIME PARA EXPLORAR LAS BASES DE DATOS?

Existen aplicaciones que permiten desarrollar consultas SQL en un entorno más amigable y sencillo. KNIME acaba con todo ello de un plumazo.

En KNIME, por ejemplo, una consulta join es tan sencilla como arrastrar un Joiner Node, conectar las entradas, y explorar el tipo de unión que queremos (en una pestaña despegable Inner, Left Outer, Right Outer o Full Outer). Como siempre, podemos entender más acerca del nodo en la parte derecha (Node Description). Para elegir las columnas que nos interesa integrar en la consulta, es tan simple, como seleccionarlas en la parte Include.

column selection

Este es un ejemplo sencillo de cómo podemos realizar cualquier consulta, lo cual es especialmente útil en las bases de datos. Además, KNIME se ejecuta en la base de datos, de tal forma que si llevamos a cabo una operación de group by o join (como en el ejemplo) KNIME ejecuta la consulta en la base de datos, obteniendo de ella únicamente el resultado, y con ello maximizando el recurso de la memoria.

KNIME, COMO MINERO DE CABECERA

Que consideramos a KNIME como una herramienta clave en nuestros procesos analíticos, no es ninguna novedad. Se ha resuelto como una ayuda crucial para llevar a cabo el proceso de minería y lo que se ha llamado Business Discovery, especialmente para el usuario de negocio, que no tiene ni el tiempo ni los conocimientos adecuados para elaborar complejas consultas en las inmensas bases de datos de las compañías. Necesita facilidad, rapidez y agilidad, y KNIME ofrece todo ello. Su facilidad de exportación a otras plataformas más visuales (como Qlik o Tableau) permite, además, mejorar nuestra comunicación y comprensión de la información y tener una transmisión de conocimientos eficaz.

¿quieres explorar tus datos o sigues dependiendo de otros?

BUSCANDO “DIAMANTES” DE DATA SCIENCEdata-science-illustration-Feature 1290x688 MS

Una de las partes de nuestro trabajo es estar actualizado a todas las tecnologías y soluciones que existen en el mercado, para poder conocerlas y asesorar a los clientes cuál es la más idónea para cada problema.

Debido a la ingente cantidad de herramientas y soluciones en el mercado, nos sentimos obligados a filtrar en base a las grandes consultoras (y creadoras de opinión de nuestro sector). Quizá la más conocida sea Gartner, quien en sus “cuadrantes mágicos” sitúa a las diferentes soluciones (de integración, tecnológica, de inteligencia de negocio, para aplicar analítica avanzada, …) en base a dos parámetros: completeness of vision (o capacidad para anticiparse o adaptarse al mercado) y ability to execute (o capacidad para comercializar los desarrollos en el mercado).

gartnerEn base a estos dos parámetros establece 4 grupos:  herramientas focalizadas en un nicho concreto (niche players) visionarios (visioners) herramientas aspirantes a estar entre los líderes del sector (challengers) y los líderes del sector (leaders)

En el campo de la analítica de datos avanzada (que ahora Gartner, entre otros, denomina data science), este cuadrante nos guía en el conocimiento de las soluciones líderes, y nos confirma la apuesta que desde hace un tiempo hemos venido desarrollando para estas tecnologías. En concreto, sitúa a KNIME (por cierto, la “K” es muda) como una de las soluciones líderes del sector.

KNIME COMO HERRAMIENTA DE DATA SCIENCE

A nosotros, la verdad, no nos extraña. Obviando el hecho de que Gartner no tiene en cuenta herramientas de código abierto como R o Python, siempre hemos encontrado a KNIME como una herramienta, intuitiva, sencilla, con un enorme potencial y el tiempo nos confirma esta intuición. Creíamos que KNIME, con la facilidad de integración, con la sencillez para articular complejos flujos de datos en donde extraer valioso conocimiento, con el despliegue de potentes modelos enmarcados en lo que se denomina Machine Learning en apenas un par de clicks, con una importante red de apoyo del propio software y de la comunidad creada en torno al mismo, … en definitiva, con la capacidad de hacer fácil lo difícil, podría hacerse un hueco entre los líderes del sector. Y así ha sido.

Quizá su visión en marketing lastran el posicionamiento de la herramienta (faceta en la que Rapid Miner le ha ganado terreno respecto al año pasado), pero aun así consideramos que su rápida curva de aprendizaje, su escalabilidad e integración,  junto con su potencial a la hora de aplicar analítica avanzada, convierten a KNIME en un aliado perfecto para que, de la misma forma que ha hecho Gartner,  nuestras compañías  den el salto de ser analistas de datos a una visión más holística de negocio que el entorno demanda, convirtiéndonos en científicos de datos.

LIS-SOLUTIONS APUESTA POR KNIMEuiMHRESP 400x400

Sin dejar de tener en cuenta, que para aplicar métodos de Data Science, hace falta saber de Data Science!! (obviedad que no siempre se tiene en cuenta), KNIME es una herramienta fantástica para implementar soluciones.  Las grandes soluciones del sector se están desmarcando cada día más del resto, y KNIME ha conseguido hacerse un hueco entre las grandes. No esperábamos menos.

 

“Solo vas a darte cuenta de quien está nadando desnudo cuando baje la marea”

Warren Buffet

Continuando con el post anterior, me gustaría presentaros esta magnífica herramienta: Easymorph, enfocada a la transformación de los datos (ETL).

easymorph

 

Tradicionalmente, se cree que esta tarea pertenece a los desarrolladores de IT, mientras que los usuarios empresariales, suelen quedarse con Excel, scripts de Visual Basic, etc. Al mismo tiempo, los sistemas ETL, aunque potentes (y muy caros), resultan complicados para la audiencia que no es programadora.

 

Es por esto, que al desarrollar una app de explotación de datos, Easymorph nos permite diseñar complejas transformaciones de datos, para poder disfrutar de un desarrollo más simple y rápido. 

PRINCIPALES CARACTERÍSTICAS

  • Transformar visualmente los datos sin utilizar macros VBA, scripts o SQL. 
  • Combinar, filtrar, agregar datos de múltiples fuentes (bases de datos, hojas de cálculo, texto, XML).
  • Preparación de datos para posterior explotación en herramienta BI. 
  • Conversor de archivos de texto en hojas de cálculo y viceversa. 
  • Exportar los datos a un nuevo fichero QVD.  
  • Almacenar los proyectos o procesos ETL para ejecutarlos posteriormente tantas veces como se desee.

tabladepaula

 

Toda la información acerca de esta herramienta (licencia gratuita, etc) se encuentra en easymorph.com, además tiene un apartado de Ejemplos & Tutoriales que puede resultaros muy útil.

 

 

 

 

… MÉTODOS METAHEURÍSTICOSbombilla

En la investigación de operaciones, analítica y ciencias de la computación, suele recurrirse con asiduidad a problemas arquetipos tales como el problema del llenado de la mochila, el problema del comerciante viajante o el del mejor vecino, los cuales pueden resultar confusos en un primer acercamiento a la materia ¿a qué se refieren?

Imaginemos que tenemos que realizar una ruta donde hay que visitar 20 puntos y no queremos pasar dos veces por el mismo lugar, o tenemos que realizar 20 acciones y no sabemos en qué orden ejecutarlas. Imaginemos también que quisiéramos conocer qué combinación (en base a los parámetros que indiquemos como distancia, tiempo, coste, …) es la más eficiente. Podríamos pensar que ahora, con la tecnología y la velocidad de computación que tienen los ordenadores, no hay nada imposible. Sin embargo, si dispusiéramos de un ordenador que cada segundo analiza un millón de combinaciones posibles, para conocer cuál es la mejor (esto es, observar todas las posibles y elegir, de ahí, la mejor) necesitaría… ¡77 mil años! (aunque para el supercomputador chino Tiahne-2, con 33.86 PetaFlop/segundo, esto no es algo insalvable)

Puede que este sea un ejemplo no muy corriente, pero ya nos da una idea de la envergadura que los problemas de combinatoria pueden llegar a tener. Es ahí donde entra en juego el campo de los métodos heurísticos.

HEURÍ... ¿QUÉ?eeuusalesmanproblem

Viendo los problemas de combinatoria, entendemos que necesitamos un tipo de modelos que nos permitan dar una respuesta satisfactoria (aunque quizá no sea la mejor) en un tiempo razonable para que sea útil (de nada servirá tener una solución que no se aplica). Este es precisamente el objetivo de los métodos heurísticos. Y dentro de estos algoritmos, aquellos que son procedimientos usados en planteamientos genéricos, son los denominados métodos metaheurísticos. Hay multitud de métodos metaheurísticos implementados, desde los más intuitivos como algoritmos voraces o implementaciones del mejor vecino, a métodos más sofisticados que intentan superar el problema de caer en mínimos locales, como el recocido simulado o los algoritmos genéticos.

¿CÓMO USAR HEURÍSTICA EN MI EMPRESA?

 

Como hemos repetido a lo largo de diversos post, el objetivo de estas entradas es dar una visión general de los servicio postventa-300x203conceptos, y poder indicar en qué facetas de las empresas se pueden implementar estas teorías. En definitiva: aterrizar la Revolución 4.0. Algunos de los problemas prácticos pueden ser:

  • Llenado de cajas: obtener de un modo ágil una forma eficiente de efectuar un llenado de cajas (en función del precio o el volumen, el coste asociado, …)
  • Diseño de rutas: tanto a nivel de reparto comercial como a nivel de movimientos internos de las fábricas.
  • Mejora de la operativa: encontrar cómo realizar de una forma rápida y eficiente una serie de tareas (el problema podría tener en cuenta tareas que obligatoriamente se tengan que dar antes que otras, por ejemplo, el lijado, antes que el pintado).

La clave para entender dónde usar los algoritmos de metaheurística es disponer, de modo general, de un proceso de combinatoria (diferentes formas de hacer una serie de tareas) y conocer el criterio (función coste) en base al cual decidimos si una combinación es mejor que otra (puede ser el coste, el tiempo, la distancia, …). 

LOS MÉTODOS METAHEURÍSTICOS EN LA GESTIÓN DE DATOS Y COMBINATORIA

 

Los métodos metaheurísticos surgen para dar respuesta a la necesidad de encontrar una solución rápida y eficaz a un problema de combinatoria, en donde las opciones son inmensas y robot futuroencontrar la aguja en el pajar se antoja una tarea ardua. Nuestros procesos empresariales pueden favorecerse de estas implementaciones y guiar, en base a datos, las acciones de nuestras compañías.

 

Existen multitud de herramientas para explotar nuestros datos, desde el famoso Excel, a las más específicas como Qlik o Tableau.

A continuación, os presento dos herramientas que nos ayudarán en muchas ocasiones para la organización y explotación correcta de nuestros datos en Qlik: Easyqlik Qviewer y Easy morph.

 

EASYQLIK QVIEWERqv3

Quienes estamos desarrollando continuamente con Qlikview, nos encontramos con multitud de archivos QVD que debemos concatenar, filtrar, perfilar, etc.  Esta herramienta, nos ahorra tiempo para desarrollar y depurar aplicaciones, especialmente cuando se trata de aplicaciones diseñadas por alguien más.

Para los que no estén muy familiarizados con el concepto QVD de QLik: Es un formato especial de archivos que genera Qlikview para almacenar datos de las tablas de nuestro sistema gestor de datos (un archivo QVD por cada tabla). Utilizamos estos archivos por la rapidez que nos aportan, por lo que es la forma preferida de acumular datos históricos en las apps e intercambiar información entre ellos.

QViewer nos permite buscar en cualquier QVD, filtrar y buscar datos, revisar los campos duplicados, detectar nulos y hacer cualquier tipo de inspección sin crear una aplicación Qlikview descartable cada vez porque, ¿Quién no se ha encontrado alguna vez con un montón de QVDs que desea explotar y utiliza mucho tiempo para explorarlos?

Esta herramienta, nos ayuda a inspeccionar cualquier tabla residente en cualquier punto de la secuencia de comandos de carga y conocer los detalles de la información que contiene.

PRINCIPALES CARACTERÍSTICAS

  • Ver datos a nivel de fila de un archivo QVD.
  • Todo tipo de recuentos (nulos, números, texto) para todos los campos y valores distintos.
  • Extracción de campos únicos con un solo clic (por columna).
  • Filtrado asociativo estilo Qlik (con nulos seleccionables).
  • Metadatos de tabla y columna obtenidos del encabezado XML de un archivo QVD.
  • Carga parcial (limitada) para ver archivos muy grandes (>2GB)  (Version Free limitada a 100.000 filas, la licenciada debe ser ilimitada)
  • Agregar, calcular nuevas columnas, exportar datos (requiere Easymorph, lo vemos a continuación).

qv1

Ejemplo de obtener metadatos de un QVD: Nos muestra todos los campos, el número de claves únicas, densidad, tipo de dato, etc… y todo esto sin ejecutarlo.

 

 

qv2

Espero que os resulte tan útil como a mí. Toda la información acerca de esta herramienta (licencia gratuita, etc) se encuentra en easyqlik.com.

 

Veremos la utilidad de Easymorph en el siguiente post!

 

 

... LAS REGLAS DE ASOCIACIÓN diamante

A menudo, solemos de explicar la minería de datos como “tratar de encontrar diamantes en el pajar” (cuando encontramos algo de valor entre tanto dato, la comparación con una aguja se nos queda corta para explicar su potencial). Encontrar patrones de comportamiento (bien sea de compras, bien sea en fallos o en cualquier proceso operativo) es con diferencia el principal objetivo de las empresas analíticas, pues es identificar estos insigths lo que valoran en gran medida los clientes.

Es por ello que no creo que haya herramienta más apreciada para el análisis de datos como las reglas de asociación (con su implementación más famosa, el algoritmo A Priori).

encajadosLa idea que subyace en las reglas de asociación es simple: analizando un conjunto de datos, descubrir relaciones entre variables. Por ejemplo, analizando transacciones, en donde tenemos muchos productos posibles, descubrir que, en transacciones en las que está el producto A, está también el producto B.

Estas relaciones serán más consistentes cuanto más grande sea el conjunto de datos.

Como imaginarán, estas relaciones no suelen ser tan obvias. Para medir cómo de fuerte es la relación entre variables, hay diferentes métricas (soporte, confianza o para mí una de las más útiles, el llamado lift). A su vez, esta búsqueda de relaciones quizá tenga que optimizarse (imagine las diferentes combinatorias que pueden darse, por ejemplo, en un almacén de 5.000 productos) echando mano de técnicas metaheurísticas, como los algoritmos genéticos.

Dado que el objetivo de estos post no es crear más vértigo e inundar la página de vocablos en inglés, demos un enfoque más práctico y “terrenal” a todo esto. 

 

como implementar¿PARA QUÉ IMPLEMENTAR LA CORRELACIÓN ENTRE PRODUCTOS EN MI EMPRESA?

Las oportunidades donde poder implementar estas herramientas son enormes y muy variadas, no solo en el entorno de ventas o marketing. Pensemos, por ejemplo, en un almacén. Es cierto que un análisis ABC nos puede ayudar a una gestión más eficiente del mismo, pero, ¿acaso no hay productos C que, de expedirse, se expiden con un producto A? ¿no podemos mejorar la eficiencia de la gestión de nuestro almacén estudiando las relaciones entre productos?

 El objetivo de estos procesos no es más que encontrar hechos, situaciones, que se repiten en un conjunto de datos en particular. Si, por ejemplo, disponemos de un conjunto de datos formado por cientos, miles de operaciones de compra de los productos de un supermercado, podemos investigar, analizar las compras efectuadas, y quizá lleguemos a la conclusión de que ciertos artículos se vender junto con ciertos artículos, como la leche con las galletas o el vino con las rosas. Quizá aparezcan relaciones entre productos menos obvias, como que en las compras que se adquieren pañales, se adquieran también cervezas (¿padres de familia mandados a la tienda “a por pañales”?)

 

LAS REGLAS DE ASOCIACIÓN, EN RESUMEN

 La clave de la analítica, englobando conceptos del entorno de Big Data, viene de cruzar multitud de fuentes, de diversos orígenes, para poder llevar a cabo planes de acción.

relacion de productos

 Ejemplo de ello es Walmart, quién cruzando información de las listas de la compra efectuadas, con datos meteorológicos (en este caso en concreto, con huracanes) y de la ubicación de sus tiendas, encontró un patrón curioso: en épocas de huracanes, la gente compra más Pop-Tarts.

 En definitiva, analizando grandes conjuntos de datos en base a reglas de asociación, somos capaces de encontrar relaciones entre productos, empoderando a la organización, y permitiendo la toma de decisiones inteligente en base a datos.

 

 

 ¿sabías que el día que más productos dietéticos se venden, es el viernes? https://www.youtube.com/watch?v=NW8MjxQbtfY

 

 

 

 

Analizar lo que ocurre en un carro de la compra de forma conjunta, nos dice mucho más que los productos por separado.”-Ms. Dillman

 

 

 

Aquí podéis escuchar la entrevista realizada por ONDA VASCA a Asier Barredo Barbero (CEO en LIS-Solutions) donde Asier explica el origen de LIS-Solutions, y el por qué de este nuevo y necesario concepto de "Consultoría de la Cadena Suministro 4.0" basado en herramientas y técnicas avanzadas de análisis de datos (Business Intelligence y Big Data)

 

LIS-Solutions estuvo presente en la jornada Logística 4.0 de la fundación ICIL. 

“Como incorporar herramientas de Big Data y Business Intelligence para monitorizar y optimizar los procesos logísticos. Su aplicación a un caso real” 

Actualmente estamos generando más datos en un solo año que en toda la historia de la humanidad. Vivimos rodeados de datos, generados por nuestra actividad o por otras fuentes externas y dentro de las empresas, la logística es una de las mayores inductoras.

El reto es aprovechar esos datos para transformarlos en información y esta en conocimiento, que nos permita mejorar.

Las herramientas de Big Data o Business Intelligence nos permiten gestionar de manera inteligente millones de datos en tiempo real, que pueden tener múltiples formatos y provenir de diversas fuentes.

Estas herramientas se pueden utilizar para analizar cómo afectan distintas variables a nuestros procesos o generar cuadros de mando en tiempo real para monitorizarlos: (Compras, almacén, distribución, ventas, finanzas…).

Después de la introducción se muestra un caso real de aplicación de Business Intelligence, para la monitorización y análisis dinámico de los procesos logísticos de una empresa de e-commerce

P1020891

Página 4 de 9