Gestión de Datos

Gestión de Datos (57)

Blog de análisis y gestión de datos, artículos, consejos, perfiles demandados, metodologías, herramientas...

BUSCANDO “DIAMANTES” DE DATA SCIENCEdata-science-illustration-Feature 1290x688 MS

Una de las partes de nuestro trabajo es estar actualizado a todas las tecnologías y soluciones que existen en el mercado, para poder conocerlas y asesorar a los clientes cuál es la más idónea para cada problema.

Debido a la ingente cantidad de herramientas y soluciones en el mercado, nos sentimos obligados a filtrar en base a las grandes consultoras (y creadoras de opinión de nuestro sector). Quizá la más conocida sea Gartner, quien en sus “cuadrantes mágicos” sitúa a las diferentes soluciones (de integración, tecnológica, de inteligencia de negocio, para aplicar analítica avanzada, …) en base a dos parámetros: completeness of vision (o capacidad para anticiparse o adaptarse al mercado) y ability to execute (o capacidad para comercializar los desarrollos en el mercado).

gartnerEn base a estos dos parámetros establece 4 grupos:  herramientas focalizadas en un nicho concreto (niche players) visionarios (visioners) herramientas aspirantes a estar entre los líderes del sector (challengers) y los líderes del sector (leaders)

En el campo de la analítica de datos avanzada (que ahora Gartner, entre otros, denomina data science), este cuadrante nos guía en el conocimiento de las soluciones líderes, y nos confirma la apuesta que desde hace un tiempo hemos venido desarrollando para estas tecnologías. En concreto, sitúa a KNIME (por cierto, la “K” es muda) como una de las soluciones líderes del sector.

KNIME COMO HERRAMIENTA DE DATA SCIENCE

A nosotros, la verdad, no nos extraña. Obviando el hecho de que Gartner no tiene en cuenta herramientas de código abierto como R o Python, siempre hemos encontrado a KNIME como una herramienta, intuitiva, sencilla, con un enorme potencial y el tiempo nos confirma esta intuición. Creíamos que KNIME, con la facilidad de integración, con la sencillez para articular complejos flujos de datos en donde extraer valioso conocimiento, con el despliegue de potentes modelos enmarcados en lo que se denomina Machine Learning en apenas un par de clicks, con una importante red de apoyo del propio software y de la comunidad creada en torno al mismo, … en definitiva, con la capacidad de hacer fácil lo difícil, podría hacerse un hueco entre los líderes del sector. Y así ha sido.

Quizá su visión en marketing lastran el posicionamiento de la herramienta (faceta en la que Rapid Miner le ha ganado terreno respecto al año pasado), pero aun así consideramos que su rápida curva de aprendizaje, su escalabilidad e integración,  junto con su potencial a la hora de aplicar analítica avanzada, convierten a KNIME en un aliado perfecto para que, de la misma forma que ha hecho Gartner,  nuestras compañías  den el salto de ser analistas de datos a una visión más holística de negocio que el entorno demanda, convirtiéndonos en científicos de datos.

LIS-SOLUTIONS APUESTA POR KNIMEuiMHRESP 400x400

Sin dejar de tener en cuenta, que para aplicar métodos de Data Science, hace falta saber de Data Science!! (obviedad que no siempre se tiene en cuenta), KNIME es una herramienta fantástica para implementar soluciones.  Las grandes soluciones del sector se están desmarcando cada día más del resto, y KNIME ha conseguido hacerse un hueco entre las grandes. No esperábamos menos.

 

“Solo vas a darte cuenta de quien está nadando desnudo cuando baje la marea”

Warren Buffet

Continuando con el post anterior, me gustaría presentaros esta magnífica herramienta: Easymorph, enfocada a la transformación de los datos (ETL).

easymorph

 

Tradicionalmente, se cree que esta tarea pertenece a los desarrolladores de IT, mientras que los usuarios empresariales, suelen quedarse con Excel, scripts de Visual Basic, etc. Al mismo tiempo, los sistemas ETL, aunque potentes (y muy caros), resultan complicados para la audiencia que no es programadora.

 

Es por esto, que al desarrollar una app de explotación de datos, Easymorph nos permite diseñar complejas transformaciones de datos, para poder disfrutar de un desarrollo más simple y rápido. 

PRINCIPALES CARACTERÍSTICAS

  • Transformar visualmente los datos sin utilizar macros VBA, scripts o SQL. 
  • Combinar, filtrar, agregar datos de múltiples fuentes (bases de datos, hojas de cálculo, texto, XML).
  • Preparación de datos para posterior explotación en herramienta BI. 
  • Conversor de archivos de texto en hojas de cálculo y viceversa. 
  • Exportar los datos a un nuevo fichero QVD.  
  • Almacenar los proyectos o procesos ETL para ejecutarlos posteriormente tantas veces como se desee.

tabladepaula

 

Toda la información acerca de esta herramienta (licencia gratuita, etc) se encuentra en easymorph.com, además tiene un apartado de Ejemplos & Tutoriales que puede resultaros muy útil.

 

 

 

 

… MÉTODOS METAHEURÍSTICOSbombilla

En la investigación de operaciones, analítica y ciencias de la computación, suele recurrirse con asiduidad a problemas arquetipos tales como el problema del llenado de la mochila, el problema del comerciante viajante o el del mejor vecino, los cuales pueden resultar confusos en un primer acercamiento a la materia ¿a qué se refieren?

Imaginemos que tenemos que realizar una ruta donde hay que visitar 20 puntos y no queremos pasar dos veces por el mismo lugar, o tenemos que realizar 20 acciones y no sabemos en qué orden ejecutarlas. Imaginemos también que quisiéramos conocer qué combinación (en base a los parámetros que indiquemos como distancia, tiempo, coste, …) es la más eficiente. Podríamos pensar que ahora, con la tecnología y la velocidad de computación que tienen los ordenadores, no hay nada imposible. Sin embargo, si dispusiéramos de un ordenador que cada segundo analiza un millón de combinaciones posibles, para conocer cuál es la mejor (esto es, observar todas las posibles y elegir, de ahí, la mejor) necesitaría… ¡77 mil años! (aunque para el supercomputador chino Tiahne-2, con 33.86 PetaFlop/segundo, esto no es algo insalvable)

Puede que este sea un ejemplo no muy corriente, pero ya nos da una idea de la envergadura que los problemas de combinatoria pueden llegar a tener. Es ahí donde entra en juego el campo de los métodos heurísticos.

HEURÍ... ¿QUÉ?eeuusalesmanproblem

Viendo los problemas de combinatoria, entendemos que necesitamos un tipo de modelos que nos permitan dar una respuesta satisfactoria (aunque quizá no sea la mejor) en un tiempo razonable para que sea útil (de nada servirá tener una solución que no se aplica). Este es precisamente el objetivo de los métodos heurísticos. Y dentro de estos algoritmos, aquellos que son procedimientos usados en planteamientos genéricos, son los denominados métodos metaheurísticos. Hay multitud de métodos metaheurísticos implementados, desde los más intuitivos como algoritmos voraces o implementaciones del mejor vecino, a métodos más sofisticados que intentan superar el problema de caer en mínimos locales, como el recocido simulado o los algoritmos genéticos.

¿CÓMO USAR HEURÍSTICA EN MI EMPRESA?

 

Como hemos repetido a lo largo de diversos post, el objetivo de estas entradas es dar una visión general de los servicio postventa-300x203conceptos, y poder indicar en qué facetas de las empresas se pueden implementar estas teorías. En definitiva: aterrizar la Revolución 4.0. Algunos de los problemas prácticos pueden ser:

  • Llenado de cajas: obtener de un modo ágil una forma eficiente de efectuar un llenado de cajas (en función del precio o el volumen, el coste asociado, …)
  • Diseño de rutas: tanto a nivel de reparto comercial como a nivel de movimientos internos de las fábricas.
  • Mejora de la operativa: encontrar cómo realizar de una forma rápida y eficiente una serie de tareas (el problema podría tener en cuenta tareas que obligatoriamente se tengan que dar antes que otras, por ejemplo, el lijado, antes que el pintado).

La clave para entender dónde usar los algoritmos de metaheurística es disponer, de modo general, de un proceso de combinatoria (diferentes formas de hacer una serie de tareas) y conocer el criterio (función coste) en base al cual decidimos si una combinación es mejor que otra (puede ser el coste, el tiempo, la distancia, …). 

LOS MÉTODOS METAHEURÍSTICOS EN LA GESTIÓN DE DATOS Y COMBINATORIA

 

Los métodos metaheurísticos surgen para dar respuesta a la necesidad de encontrar una solución rápida y eficaz a un problema de combinatoria, en donde las opciones son inmensas y robot futuroencontrar la aguja en el pajar se antoja una tarea ardua. Nuestros procesos empresariales pueden favorecerse de estas implementaciones y guiar, en base a datos, las acciones de nuestras compañías.

 

Existen multitud de herramientas para explotar nuestros datos, desde el famoso Excel, a las más específicas como Qlik o Tableau.

A continuación, os presento dos herramientas que nos ayudarán en muchas ocasiones para la organización y explotación correcta de nuestros datos en Qlik: Easyqlik Qviewer y Easy morph.

 

EASYQLIK QVIEWERqv3

Quienes estamos desarrollando continuamente con Qlikview, nos encontramos con multitud de archivos QVD que debemos concatenar, filtrar, perfilar, etc.  Esta herramienta, nos ahorra tiempo para desarrollar y depurar aplicaciones, especialmente cuando se trata de aplicaciones diseñadas por alguien más.

Para los que no estén muy familiarizados con el concepto QVD de QLik: Es un formato especial de archivos que genera Qlikview para almacenar datos de las tablas de nuestro sistema gestor de datos (un archivo QVD por cada tabla). Utilizamos estos archivos por la rapidez que nos aportan, por lo que es la forma preferida de acumular datos históricos en las apps e intercambiar información entre ellos.

QViewer nos permite buscar en cualquier QVD, filtrar y buscar datos, revisar los campos duplicados, detectar nulos y hacer cualquier tipo de inspección sin crear una aplicación Qlikview descartable cada vez porque, ¿Quién no se ha encontrado alguna vez con un montón de QVDs que desea explotar y utiliza mucho tiempo para explorarlos?

Esta herramienta, nos ayuda a inspeccionar cualquier tabla residente en cualquier punto de la secuencia de comandos de carga y conocer los detalles de la información que contiene.

PRINCIPALES CARACTERÍSTICAS

  • Ver datos a nivel de fila de un archivo QVD.
  • Todo tipo de recuentos (nulos, números, texto) para todos los campos y valores distintos.
  • Extracción de campos únicos con un solo clic (por columna).
  • Filtrado asociativo estilo Qlik (con nulos seleccionables).
  • Metadatos de tabla y columna obtenidos del encabezado XML de un archivo QVD.
  • Carga parcial (limitada) para ver archivos muy grandes (>2GB)  (Version Free limitada a 100.000 filas, la licenciada debe ser ilimitada)
  • Agregar, calcular nuevas columnas, exportar datos (requiere Easymorph, lo vemos a continuación).

qv1

Ejemplo de obtener metadatos de un QVD: Nos muestra todos los campos, el número de claves únicas, densidad, tipo de dato, etc… y todo esto sin ejecutarlo.

 

 

qv2

Espero que os resulte tan útil como a mí. Toda la información acerca de esta herramienta (licencia gratuita, etc) se encuentra en easyqlik.com.

 

Veremos la utilidad de Easymorph en el siguiente post!

 

 

... LAS REGLAS DE ASOCIACIÓN diamante

A menudo, solemos de explicar la minería de datos como “tratar de encontrar diamantes en el pajar” (cuando encontramos algo de valor entre tanto dato, la comparación con una aguja se nos queda corta para explicar su potencial). Encontrar patrones de comportamiento (bien sea de compras, bien sea en fallos o en cualquier proceso operativo) es con diferencia el principal objetivo de las empresas analíticas, pues es identificar estos insigths lo que valoran en gran medida los clientes.

Es por ello que no creo que haya herramienta más apreciada para el análisis de datos como las reglas de asociación (con su implementación más famosa, el algoritmo A Priori).

encajadosLa idea que subyace en las reglas de asociación es simple: analizando un conjunto de datos, descubrir relaciones entre variables. Por ejemplo, analizando transacciones, en donde tenemos muchos productos posibles, descubrir que, en transacciones en las que está el producto A, está también el producto B.

Estas relaciones serán más consistentes cuanto más grande sea el conjunto de datos.

Como imaginarán, estas relaciones no suelen ser tan obvias. Para medir cómo de fuerte es la relación entre variables, hay diferentes métricas (soporte, confianza o para mí una de las más útiles, el llamado lift). A su vez, esta búsqueda de relaciones quizá tenga que optimizarse (imagine las diferentes combinatorias que pueden darse, por ejemplo, en un almacén de 5.000 productos) echando mano de técnicas metaheurísticas, como los algoritmos genéticos.

Dado que el objetivo de estos post no es crear más vértigo e inundar la página de vocablos en inglés, demos un enfoque más práctico y “terrenal” a todo esto. 

 

como implementar¿PARA QUÉ IMPLEMENTAR LA CORRELACIÓN ENTRE PRODUCTOS EN MI EMPRESA?

Las oportunidades donde poder implementar estas herramientas son enormes y muy variadas, no solo en el entorno de ventas o marketing. Pensemos, por ejemplo, en un almacén. Es cierto que un análisis ABC nos puede ayudar a una gestión más eficiente del mismo, pero, ¿acaso no hay productos C que, de expedirse, se expiden con un producto A? ¿no podemos mejorar la eficiencia de la gestión de nuestro almacén estudiando las relaciones entre productos?

 El objetivo de estos procesos no es más que encontrar hechos, situaciones, que se repiten en un conjunto de datos en particular. Si, por ejemplo, disponemos de un conjunto de datos formado por cientos, miles de operaciones de compra de los productos de un supermercado, podemos investigar, analizar las compras efectuadas, y quizá lleguemos a la conclusión de que ciertos artículos se vender junto con ciertos artículos, como la leche con las galletas o el vino con las rosas. Quizá aparezcan relaciones entre productos menos obvias, como que en las compras que se adquieren pañales, se adquieran también cervezas (¿padres de familia mandados a la tienda “a por pañales”?)

 

LAS REGLAS DE ASOCIACIÓN, EN RESUMEN

 La clave de la analítica, englobando conceptos del entorno de Big Data, viene de cruzar multitud de fuentes, de diversos orígenes, para poder llevar a cabo planes de acción.

relacion de productos

 Ejemplo de ello es Walmart, quién cruzando información de las listas de la compra efectuadas, con datos meteorológicos (en este caso en concreto, con huracanes) y de la ubicación de sus tiendas, encontró un patrón curioso: en épocas de huracanes, la gente compra más Pop-Tarts.

 En definitiva, analizando grandes conjuntos de datos en base a reglas de asociación, somos capaces de encontrar relaciones entre productos, empoderando a la organización, y permitiendo la toma de decisiones inteligente en base a datos.

 

 

 ¿sabías que el día que más productos dietéticos se venden, es el viernes? https://www.youtube.com/watch?v=NW8MjxQbtfY

 

 

 

 

Analizar lo que ocurre en un carro de la compra de forma conjunta, nos dice mucho más que los productos por separado.”-Ms. Dillman

 

 

 

EQUILIBRIO SESGO-VARIANZA

Como ya dijimos en otros artículos del blog , uno de los pilares fundamentales en aprendizaje automático (o Machine Learning) es la comprensión del equilibrio sesgo-varianza, y ver cómo podemos gestionarlo en nuestro modelo predictivo.
Para entenderlo, tenemos que saber que los datos, por lo general, serán divididos en dos grandes grupos: un conjunto de entrenamiento, usado para entrenar a nuestro modelo para mejorar su rendimiento y un conjunto de test, destinado a probar cómo de bueno es el modelo a la hora de enfrentarse ante datos que no vio cuando fue entrenado (será nuestro proxy a datos del futuro que están por analizar).

¡¡No caigáis en la tentación de usar todos los datos para entrenar al modelo, pensando en el “cuantos más mejor” y extrapoléis el error en el entrenamiento al error que se tendrá en la realidad, pues es bastante probable que ese no sea el caso!!

ying

Centrémonos en el error del conjunto de test (no olvidemos el objetivo último del modelo: la aplicación en casos futuros) Para entenderlo mejor, usemos la siguiente gráfica, extraída del recomendable libro An Introduction to Statistical Learning.

graf

 Si nos fijamos en el error total (línea roja), mientras dotamos al modelo de más flexibilidad, va disminuyendo (el modelo es capaz de captar mejor la función que trata de replicar). Sin embargo, llega un momento en el que la flexibilidad es contraproducente en este conjunto de test, pues empieza a aumentar de nuevo, ¿qué quiere decir esto? Que el modelo tiene tanta flexibilidad que se adaptó muy bien a los datos de entrenamiento. Tan bien, que lo que obtuvimos fue una solución ad hoc para ese conjunto, generalizando muy mal ante casos futuros (como vemos en el error de test)

Podemos intuir que la línea roja es la suma del resto de líneas:

  • La línea azul indica el error de sesgo,  debido a que el modelo carece de la flexibilidad óptima para capturar la función de los datos (pensemos en tratar de explicar una nube de datos en forma circular mediante un modelo lineal).
  • La línea amarilla indica el error de varianza, achacable a cuánto varía el modelo en caso de cambiar el conjunto de entrenamiento (si el modelo se adapta perfectamente al conjunto de entrenamiento, al cambiar el conjunto, cambiará hasta ajustarse  al nuevo conjunto, siendo buena solución para el conjunto de entrenamiento, pero mala generalización para datos futuros).
  • La línea contínua permanece inalterable a medida que aumenta la flexibilidad. Se refiere al error irreducible,y nos recuerda el desgraciado hecho de que cualquier modelo va a tener un error al aplicarlo en datos futuros, es decir, en la realidad.

Como vemos, ser capaces de encontrar el punto donde el error total se minimice será la tarea primordial del analista, que tendrá que buscar en el equilibrio sesgo-varianza aquella solución que mejor le permita extrapolar su análisis al escenario real.

Continuando con la comparativa de estas dos herramientas: Qlik Sense VS Tableau, le llega el turno a las principales bondades y mejoras de Tableau.

Si aun no has visto la primera parte la tienes disponible en el siguiente enlace: Qlik Sense vs Tableau (Parte I)

TABLEAU

Tablau es un software muy potente que ha ido marcando el ritmo de la visualización de los datos de una forma fácil e intuitiva.
Los usuarios en este caso, tampoco necesitan de una asistencia por parte del departamento de IT, y crear gráficos, tablas y cuadros de mando de una forma autónoma.

Tableau Desktop y Tableau Server


Tableau Desktop, permite realizar el análisis de datos ya sea contra la base de datos de Tableau en memoria, o contra fuentes de datos externas. No contiene un “script” como el de Qlik Sense, por lo que las transformaciones de los datos deben hacerse aparte.

Los usuarios pueden elegir cargar datos en columna, en memoria, comprimidos, etc. El ajuste de los datos es muy rápido (aunque los datos también pueden ser guardados en memoria caché con una inevitable degradación del rendimiento), y los conectores ayudan a relacionar datos de cualquier origen.

tableau-1

Si utilizamos Tableau Server, este actúa como una instalación central para el acceso a los datos, a las visualizaciones y proporcionar seguridad en la gestión de usuarios. Utiliza un navegador web como Qlik Sense para poder acceder a los cuadros de mando desde casi cualquier dispositivo que soporte navegación web (ordenadores y dispositivos móviles).
Esta herramienta no tiene una capacidad asociativa, por lo que la relación de los datos que extraemos debe realizarse de una forma “más cuidada”. La arquitectura de Tableau Server es escalable.

Análisis predictivo con herramientas Business Intelligence

Una de las características más importantes de Tableau es su integración con el lenguaje analítico R. Esta opción no está disponible en Qlik Sense, y está enfocada para el uso de conjuntos y manipulación con el lenguaje R (estadística, predicción de la demanda, etc). Esta característica es muy explotada para usuarios avanzados y programadores que necesiten añadir nuevas capacidades a la herramienta, con Tableau es posible, por lo que contrasta con otras herramientas de la competencia que, además de utilizar recursos de visualización de forma sencilla, ofrece herramientas estadísticas y de análisis predictivo.

stadistic

En un principio, Tableau era la pionera en potencia de visualización, pero es cierto , que hoy en día Qlik Sense se ha desarrollado mucho en este ámbito, por lo que ambas respecto a esto, están muy igualadas. Al igual que la mayoría de plataformas de este tipo, Tableau presenta una interfaz de exploración drag-and-drop, pero además esta herramienta puede instalarse en Mac, y Qlik Sense no está desarrollado aún para este sistema operativo.

Características de Tableau 

Los usuarios de Tableau Server utilizan Workbooks que presentan cuadros de mando y reports o informes. Estos no son estáticos ya que ofrecen todas las facilidades para la manipulación de datos que el usuario necesite realizar.
En cuanto a las selecciones en los cuadros de mando, deben de ser jerárquicas, sin embargo Tableau está particularmente bien considerado por el tratamiento de los datos geográficos, ya que cuenta con potentes gráficos fáciles de utilizar para este caso.
Finalmente, Tableau destaca por:

  • Su facilidad de uso destacable, ya que fue pionera de la sencillez en herramientas de Business Intelligence.
  • Su plataforma escalable y soporta importantes implementaciones externas (como R).
  • Conexión a todo tipo de orígenes de bases de datos.
  • Utiliza herramientas de análisis predictivo y estadística.
  • Visualmente, en cuanto a datos geográficos es de las más potentes.

TABLEAU 2

EN RESUMEN

Cada vez que sale una nueva herramienta se enfrentan la “facilidad de uso” y la “sofisticación” de la misma.

Si queremos la más potente, debemos saber mínimamente programar para transformar nuestros datos, y esto es así, porque si no, estaremos sacando un 20% del jugo de la herramienta.
Siempre comienza ganando la facilidad de uso, pero cuando llevamos mucho tiempo con ella, echamos de menos esto , y lo otro y se nos ocurren muchas cosas nuevas que permiten desarrollar otras herramientas que desestimamos por ser “ un poco más difíciles”.


Tableau no es particularmente sofisticado, pero cualquier persona que busque en foros o en Google, puede encontrar que los usuarios a menudo se sienten frustrados por su falta de extensibilidad.


Qlik Sense es una respuesta al tema “facilidad de uso”, ya que inicialmente con Qlikview (la cual personalmente es mi favorita), se necesitaban conocimientos de programación. Ahora mismo la elección es simple, si las necesidades son sencillas cualquiera de los dos va a satisfacerlas, pero debemos tener un enfoque prudente y asumir que las necesidades futuras son desconocidas y para esto, con Qlik Sense, estamos totalmente cubiertos.

Comparativa de dos grandes herramientas de Business Intelligence para la Logística.

Una vez que nos adentramos en el mundo del Business Intelligence y queremos exprimir al máximo los datos de nuestro negocio, debemos plantearnos qué tecnología encaja mejor en nuestros requerimientos.

Si echamos un vistazo al Cuadrante Mágico de Gartner:

CuadranteMagicoBI

Vemos cómo las tecnologías líderes en Business Intelligence son Qlik y Tableau, por lo que este post se basa en una comparativa de las principales bondades de cada una.

En este primer post, hablaremos de la herramienta estrella de Qlik: Qlik Sense, y en la segunda parte, profundizaremos sobre Tableau.

 Espero que os sirva en vuestra decisión.

QLIK SENSE

Esta tecnología de business intelligence, tiene una plataforma de descubrimiento capaz de hacer frente a la mayoría de los requisitos de negocio, aportando además un apartado de “Storytelling” que nos permite elaborar reports de una forma muy sencilla y dinámica.

Su principal característica de usabilidad, se basa en crear visualizaciones bajo el conocido “drag-and-drop” (arrastrar y soltar), por lo que la interfaz está adaptada a usuarios que no necesitan un alto nivel de programación y que simplemente quieren crear sus propios indicadores sin ningún tipo de asistencia por parte de IT.

qlik-sense-drag-and-drop

Business Intelligence responsive: Visualización desde cualquier dispositivo.

Los usuarios pueden compartir sus visualizaciones a través de diversos mecanismos y desde cualquier tipo de dispositivo (ordenador, tablet, móvil, etc), ya que se desarrollan en HTML5.
Por otro lado, cabe destacar que QLik Sense es responsive (quiere decir que el mismo cuadro de mando no debe ser redimensionado para su visualización en diferentes dispositivos), por lo que al crear las aplicaciones no es necesario una programación enfocada a esto (hasta cierto punto).

responsive

 

Asociatividad en Business Intelligence

La potente característica que diferencia Qlik del resto de tecnologías BI, es su motor de datos asociativos. Mientras que para otras herramientas necesitamos realizar un proceso ETL (extracción, transformación y carga) previo a la carga de datos, en este caso, Qlik tiene habilitado un proceso de carga que te permite realizar todo tipo de transformaciones en nuestros datos. Además, podemos conectarnos a casi cualquier tipo de base de datos sin previa manipulación.
Gracias a esta característica asociativa, al realizar selecciones en nuestro cuadro de mando, todos los indicadores cambiaran instantáneamente en base a esta selección, no importa por qué selección comencemos, la asociatividad permite no tener que seguir ningún tipo de jerarquía para la visualización de nuestros datos. Actualmente en el mercado no existe otra herramienta de Business Intelligence con esta característica.

 analisisAsociativo


Qlik Sense se presenta en dos versiones: Qlik Sense Desktop, la cual es gratuita y se ejecuta en el escritorio de Windows, y Qlik Sense Enterprise, que se ejecuta en servidor y proporciona a los usuarios una interfaz basada en navegador.
Ambas tienen una funcionalidad similar, pero Qlik Sense Enterprise, ofrece otras posibilidades de colaboración: Aporta Streams, que son grupos de usuarios con permisos a unas u otras aplicaciones (cuadros de mando), una administración más personal, y opciones para que los usuarios finales no tengan acceso a la programación interna del cuadro de mando, por lo que el front-end se vuelve amigable y muy fácil de utilizar.

Con esta versión de QLik, lo que se pretende conseguir es un gobierno de datos seguro, sin ambigüedades y que las personas adecuadas puedan acceder siempre que lo necesiten a los datos preparados para ellas.

Nuevas visualizaciones: Otros tipos de gráficos diferentes y potentes.

Existe además, una plataforma especializada (Qlik Branch), donde los propios usuarios desarrollan una gran cantidad de APIs disponibles para crear nuevos tipos de visualizaciones: otros gráficos, indicadores, velocímetros, etc.

branch

 

Por otro lado, Qlik Sense no posee ninguna capacidad de análisis estadístico o de predicción avanzada, ya que no es su dominio. Se pueden incorporar análisis What If, pero aún no tiene implementado ningún tipo de alarma. Las empresas que buscan una plataforma de notificación de la producción de la empresa, deben buscar en otra parte, al igual que los usuarios que necesiten gráficos simples, ya que encontrarían en Qlik Sense una exageración.

Características de Qlik Sense:

  • Rápido y compatible con un nivel de detección de datos que probablemente no tiene otra plataforma.
  • Con un motor asociativo que nos permite comenzar a descubrir desde el punto que elijamos. Es extensible y modular, por lo que hace fácil para los usuarios saber a qué aplicaciones pueden acceder.
  • Para cualquier dispositivo y “responsive”, accedemos a través de interfaz web.
  • Soporta y cubre las necesidades de requerimientos de cualquier tipo de negocio.
  • De fácil uso y gobernación.
  • Posee características como:
    • Marcadores, donde guardamos las selecciones que debemos realizar a diario para que con un simple clic tengamos el cuadro de mando preparado.
    • Storytelling, para contar historias y generar informes.
    • Captura de imágenes, donde directamente exportamos la visualización que necesitemos, con el nivel de detalle apropiado.


En el post anterior aterrizamos el marco teórico de los árboles de decisión , pero como no es lo mismo contarlo que hacerlo, vamos a presentar un caso real de su aplicación.


En concreto, estamos hablando de un Operador Logístico Líder en el sector farmacéutico, y el origen del proyecto era analizar la cadena de frío. La justificación del mismo venía de la necesidad de conocer el origen de las roturas que se producían.

¿Para qué usar árboles de decisión?

El motivo fue conocer cuáles eran las características que más influían a la hora de las roturas de la cadena de frío.


El rango de temperatura óptimo para determinados productos (vacunas antibióticas) estaba garantizado por unas cubetas durante 24 horas. Es decir, en toda orden en la que el tiempo de expedición fuera superior a 24 horas, había habido una rotura en la cadena de frío.


Así pues, se analizó las diferentes muestras que de las que se disponía, cada una de ellas definida por una series de características como el cliente, tipo de almacenamiento, mes o día de la semana, y se categorizó a las mismas en función de si había habido una rotura de la cadena de frío o no.

algoritmo arbol de decision


Convenimos dividir el conjunto de datos en dos subconjuntos, unos de entrenamiento y otro de test, para poner a prueba a nuestro modelo y poder ver cómo de bueno era generalizando a la hora de clasificar datos nuevos.


Los resultados arrojaron información muy interesante.

arbol de decision



Tal como se puede observar en el árbol de decisión creado, la mayoría de los casos en los que había habido una rotura de la cadena de frío (141/143) se habían producido en viernes o sábado. Ello permitió focalizar el problema y dirigir el análisis de problema. Una mala gestión en el proceso burocrático producía una preparación de pedidos (picking) el viernes a última hora que no se expedían hasta el lunes, propiciando con ello las roturas de la cadena de frío. La solución guiada por la aplicación de modelos analíticos permitió solventar el problema, ejecutando el proceso burocrático dentro del almacén de frío y evitando la mayoría de las roturas previas.


Como vemos, los modelos analíticos, en este caso en concreto los árboles de decisión, pueden ser una herramienta muy poderosa para la toma de decisiones en multitud de ámbitos. Y la logística no iba a ser una excepción.

Dentro de la gestión de datos para  análisis predictivos, la Detección de Anomalías se ha resuelto como uno de los enfoques más utilizados, por ser sencillo e intuitivo, a la par que efectivo.

Nació como un método válido para detectar intrusos en los sistemas informáticos y es ampliamente usado en campos tan diversos como el mantenimiento predictivo o la clasificación de correo como spam.

1

¿NO VALE CON ALGORITMOS DE CLASIFICACIÓN?

Antes de continuar, una pregunta: ¿no podríamos simplemente utilizar, por ejemplo, por ejemplo, en el caso de mantenimiento preventivo, un algoritmo de clasificación que nos permita catalogar los eventos como "correcto" o "error"?

La respuesta no es fácil de afirmar o negar "a priori", pero es verdad que a pesar de las poderosas herramientas que son los algoritmos de clasificación a la hora de categorizar eventos, estos modelos presentan ciertas limitaciones.

1º PROBLEMA: LA SOBRE-REPRESENTACIÓN

La primera de ellas, muy presente en la vida real, trata del sobre-representación de una de las clases respecto a las otras.

Pensemos, por ejemplo, en un algoritmo destinado a predecir los fallos de cierta máquina industrial. Para poder hacerlo, y basándonos en el esquema de los algoritmos de clasificación de aprendizaje supervisado, necesitamos muestras pasadas de eventos categorizados como “ok” y eventos pasados categorizados como “fallo”, para alimentar a nuestro algoritmo y que pueda, con la experiencia, poder discernir satisfactoriamente entre “fallo” y “ok” para eventos futuros no clasificados todavía.

Si tenemos muchas más muestras del estado “ok” que del estado “fallo” (como es habitual), el algoritmo tenderá a ponderar la clase dominante, no produciendo resultados satisfactorios (el estado “fallo” es el que queremos predecir). 

2º PROBLEMA: ¿CONOCEMOS TODOS LOS FALLOS POSIBLES?

Por otra parte, esta estructura de programación exige conocer todas las situaciones en las que aparece la clase “fallo”, siendo difícil predecir tal salida cuando no se haya producido tal fallo con anterioridad.

Así que, en líneas generales, los algoritmos de clasificación pueden tener un pobre rendimiento en estos escenarios.

¿QUÉ UTILIZAR ENTONCES?

Este tipo de problemas precisan de otro enfoque distinto: la Detección de Anomalías.

En la Detección de Anomalías,más conocido en su forma inglés, Anomaly Detection (todo en inglés suena mejor), se hace clara la idea de que para conocer cuando algo va mal, pueden darse dos enfoques: o conocer cuándo los parámetros indican que el evento de estudio va mal, o conocer cómo son los parámetros cuando el evento de estudio funciona bien.

La primera no es siempre accesible y de esta segunda forma, cuando los parámetros indiquen que el evento se sale de sus parámetros normales en condiciones óptimas, alertará, por tanto, de una anomalía.

Bastará, volviendo al caso de nuestra máquina industrial, con parametrizar los valores cuando ésta funcione correctamente y, estableciendo un rango adecuado móvil (que va aprendiendo con la experiencia), indicar una anomalía cuando estemos fuera de rango.

Dotar a este algoritmo con una nueva información verificando la correcta clasificación de eventos, podrá aumentar su precisión (por ejemplo, ampliando su rango de definición de eventos correctos).

5

UN PASITO MÁS HACIA LA INDUSTRIA 4.0

Aunque con este enfoque conseguimos suplir la sobre-representación de la clase dominante (algo que otros algoritmos como el SMOTE podría suplir), el verdadero poder de la detección de anomalías estriba en el hecho de que podremos predecir anomalías...

¡¡¡aún cuando nunca hayamos visto una!!! 

Esto lo hace idóneo para tareas de predicción basadas en el deterioro y el desgaste, como en las tareas de mantenimiento.

6

Actualmente, las máquinas de todas las industrias están generando datos, no paran de hablar.

Poco a poco, aumentan las herramientas para poder “escucharlas” y dejarlas por ejemplo, que nos indiquen si están bien o están mal, si necesitan un mantenimiento y en qué.

El algoritmo de Detección de Anomalías es un apoyo más para avanzar en la gestión eficientes de recursos y datos, y permite a las empresas obtener esa ventaja competitiva en costes, teniendo un buen posicionamiento en uno de los campos que más en auge está (y estará, acorde a informes de Gartner o Forrester): el Internet of Things (IoT).

Las empresas tratan de embarcarse en esta nueva ola de tecnología que son la Industria 4.0 y el aprovechamiento eficiente de los recursos, las cuales son claves para conseguirlo.

 

“No hay nada tan inútil como hacer con gran eficiencia algo, que no debería hacerse en absoluto”
Peter Drucker
Página 3 de 5