Gestión de Datos

Gestión de Datos (34)

Blog de análisis y gestión de datos, artículos, consejos, perfiles demandados, metodologías, herramientas...

Sábado, 03 Junio 2017 10:04

MDM - MASTER OF WHAT?

Escrito por

Con la infoxicación que existe hoy en día, muchas organizaciones necesitan de alguien que controle, filtre, limpie y estructure sus datos maestros.

Muchas veces hemos oído que quien controla los datos controla el poder, pero también hay que recordar que un poder conlleva una gran responsabilidad… Entonces, ¿en manos de quién dejamos la correcta gestión de nuestros datos maestros?

MDM 2

¿Qué son los datos maestros?

La mayoría de los sistemas de software tienen listas de datos que son compartidos y utilizados por varias de las aplicaciones que componen el sistema. Por ejemplo, un sistema ERP  como mínimo tendrá un maestro de cliente, un maestro de artículos y un maestro de cuentas. Estos datos maestros son a menudo uno de los activos clave de una empresa.

¿Qué es la Gestión de Datos Maestros? - MDM

MDM es el acrónimo de Master Data Management. Esta importante y cada vez más popular disciplina empresarial, está diseñada para eliminar el elevado número de errores, redundancias e inconsistencias que existen en los diversos y fragmentados entornos de información de hoy en día. MDM puede ayudar a las organizaciones a mejorar la productividad e impulsar el rendimiento operativo mejorando la precisión de la información y el intercambio de datos dentro y fuera de la empresa.

MDM 3

El MDM se ocupa del quién, qué, cómo y dónde, tanto de actividades comerciales como de las venta, las compras, las diferentes interacciones con clientes, proveedores y empleados.

Cada vez vemos más retos recurrentes en los negocios que exigen la creación de un centro de datos que se extiende a través de aplicaciones, procesos de negocio, líneas de negocio, etc. Estos son los casos típicos de uso y las razones por las cuales nuestros clientes están necesitando su propio MDM.

MDM 4

¿Qué herramientas utilizamos para crear una lista Maestra y gestionar nuestros Datos Maestros?

Considerando las implementaciones MDM que existen en el mercado, LIS-Solutions intenta buscar una solución que ofrezca las siguientes características clave:

  • Gestión de datos unificada para MDM, integración de datos y gestión de procesos de negocio (BPM).
  • Manejo de múltiples dominios en un solo conjunto de tecnología y hardware.
  • Un  amplio conjunto de conectores de integración de datos OOTB.
  • Implementaciones flexibles, como MDM en instalaciones  en la nube  y como servicio.
  • Integración con Big Data
  • Escalibilidad horizontal y verticalmente
  • Un enfoque de plataforma que evite el bloqueo de proveedores

MDM 5

Talend es el único proveedor que ofrece un completo MDM, ETL, data quality, BPM, Enterprise Service Bus (ESB) y una solución de integración de datos en una sola plataforma tecnológica, compatible con muchas de nuestras herramientas de Business Intelligence como Qlik o Tableu.

Además es el único proveedor que ofrece un perfil de datos en una gran solución de datos a través de una plataforma unificada, con un repositorio de código común y herramientas para programar metadatos.

MDM 1

 

Una solución de MDM es el pináculo de las tecnologías de integración de datos, y además tiene la capacidad de trabajar con múltiples dominios, proveer mejores mecanismos para el mantenimiento de la calidad de los datos y proporcionar su funcionalidad en forma de servicios, que permiten integrarla con mayor facilidad a ambientes heterogéneos. MDM puede ayudar a cualquier tipo de organización a cumplir el objetivo de contar con un repositorio central de información, necesaria tanto para operaciones como para la toma de decisiones.

Si desea tener más información sobre Master Data Management (MDM), contacte con nosotros.

 

Después de una larga semana en cuanto al mundo del deporte se refiere, volvemos para analizar la vuelta de semifinal de la Champions entre dos de los grandes: Atlético de Madrid - Real Madrid. 

Tras un primer análisis, que puedes encontrar aqui, vamos a realizar la segunda parte, con técnicas de text mining llevadas a cabo por LIS-Solutions, mediante el Software de mineria de datos Knime recogiendo los datos através de Twitter.

 

¿Cuál es el sentimiento predominante?

Bien, como podemos ver en la nube de palabras podemos deducir que algo ha pasado con Karim Benzema, ¿tal vez fuera su increible jugada? y además sacamos como claros ganadores en cuanto a actividad en twitter se refiere a la hinchada merengue pues su color predomina en nuestra nube.

 

 nube palabra atletico real madrid

 

Cuadros de mandos para una mejor visualización

Una vez capturada la información relacionada con el partido, pasamos a mostrarla de manera intuitiva utilizando para ello la herramienta de Qlik (Qlik Sense). Esta herramienta nos permite la creación de cuadros de mandos para optimizar la visualización de los datos recogidos antes.

partido completo

 

En este primer cuadro de mandos podemos ver la actividad a lo largo de todo el partido. Destacar que la gran mayoría de los tweets ocurren al final de cada parte.

En la parte inferior del cuadro de mandos podemos ver un gráfico de bloques en los que se representan las nacionalidades de los usuarios analizados. Siendo China el pais en el que más seguidores del fútbol español existen parece curioso que que no aparezca en la gráfica. No es que el análisis este fallando, la respuesta esta en que allí la red social utilizada es Weibo, no Twitter.

Primera parte

En este segundo cuadro de mandos, podemos ver la actividad de twitter en la primera mitad del derbi madrileño. Se observa una gran cantidad de actividad en los momentos clave del Atlético de Madrid, si bien es cierto que cuando Isco mete el gol del Madrid la actividad en twitter vuelve a crecer equiparandose a los momentos de gloria del Atlético.

Esto ha sido un ejemplo simple con un partido de fútbol, pero las posibilidades son infinitas, ya sea para análisis de mercados, penetración de cierta marca en cierto territorio nacional/internacional o visualizar como miles de personas perciben un tema en concreto.

¿En qué puede beneficiar el Big Data al sector textil?

El Big Data nos permite identificar patrones ocultos en los datos, aplicando técnicas avanzadas de análisis de datos se pueden resolver preguntas de negocio del sector textil como:

  • ¿Cómo se va a comportar determinada familia de producto? (bolsos, chaquetas, zapatos)
  • ¿Qué color de bolso se va a llevar la próxima temporada?
  • Predecir la demanda en función del comportamiento de los compradores
  • Podré calcular mis stocks de maniobra y seguridad para satisfacer la demanda
  • ¿Cómo va afectar la meteorología a mis ventas?

Mucha de esta información ya se encuentra en nuestros sistemas, pero… además…! Gracias al Big Data para el sector textil, podremos vincular información aparentemente no relacionada como pueden ser bases de datos meteorológicas, redes sociales, bases de datos abiertas (open data)…

textil tendencias

VER, PREDECIR, AVISAR (Predicción con alarmas)

Con las herramientas y las técnicas adecuadas, el Big Data nos permite:

  • Ver lo que sucede en nuestra empresa, en nuestro entorno. Mucha información ya la tenemos, oculta entre una montaña de datos. El Big Data nos permite hacerla visible.
  • Predecir lo que puede pasar, integrando todas aquellas variables que de manera crucial nos influyen en las estimaciones de nuestros productos textiles.
  • Avisar de anomalías y comportamientos extraños. Monitorizar nuestras actuaciones y descubrir cuando nos estamos saliendo de los parámetros adecuados de forma preventiva.

Todas estas preguntas y muchas más, se pueden contestar mediante análisis de datos con técnicas “Big Data”. El Big Data puede ayudar a resolver muchas preguntas de negocio del sector textil.

Si quieres ver algún ejemplo de proyectos de big data para el sector textil, no dudes en ponerte en contacto con nosotros en Esta dirección de correo electrónico está protegida contra spambots. Usted necesita tener Javascript activado para poder verla.

TECNICAS DE TEXT MINING PARA ANALIZAR TWITTER

Hoy traemos al blog un artículo diferente. Y es que, utilizando como hacemos diferentes herramientas analíticas, como KNIME, podemos no solo explorar los datos internos de nuestras compañías, sino también mirar al exterior.

Twitter es un gran recurso si queremos conocer a nuestro entorno. Opiniones, críticas viscerales, halagos (de vez en cuando), … todo ello se concentra en Twitter. Así que, aprovechando que KNIME permite de forma sencilla conectarse a Twitter, decidimos hacer un rápido ejemplo.

EL DERBI A TRAVÉS DE TWITTER.

Lo primero que tenemos que crear, es una API de Twitter. Hay varios sitios donde lo explican (por ejemplo, aquí  https://www.uno-de-piera.com/crear-una-aplicacion-para-twitter/). Con la API de Twitter obtendremos una serie de claves y token, que tendremos que copiar en el nodo de conector de KNIME. 

el nodo de twitter bueno

 

Una vez conectados, empezamos nuestro proceso de extracción y tratamiento de información. Además de las herramientas de minería de texto que KNIME posee, diseñamos aquellas soluciones que necesitamos para el tratamiento ad hoc a nuestro caso de estudio (teniendo en cuenta que muchas de las herramientas de minería de texto están muy bien implementadas para el idioma inglés, siendo de menos utilidad para el castellano).

workflow

 

Como Twitter es muy grande, decidimos basarnos en la lista de Trending Topic para analizar bajo qué hashtag podemos tener más mensajes para analizar. Es por ello que usamos el #Megaderbichampions para nuestro análisis.

Gracias a distintas herramientas de minería de texto, podemos ir tratando nuestros tweets, teniendo siempre como objetivo final la creación de un Tag Cloud: una nube de palabras clavecon las que poder extraer información acerca de nuestro caso de estudio, en este caso, el derbi.

nube de palabras real madrid

Hemos polarizado distintas palabras para una mejor comprensión. A la luz de estos resultados, está claro que el Real Madrid fue el único equipo del partido. Y en concreto, Cristiano Ronaldo, que fue muy comentado en los tweets (sin duda, fue el protagonista del encuentro).

Debido a la variabilidad que puede tener analizar simplemente los tweets, el Tag Cloud nos sirve de guía para hacer una profundización en la información, y tratar de encontrar motivos. Por ejemplo, el hecho de que este fuera el hashtag utilizado por el canal Mega de Atresmedia, crea un sesgo hacia los comentaristas del mismo (en este caso, la etiqueta “petón” nos indica a José Antonio Martín Otín “Petón”, conocido periodista y fan rojiblanco.)

Dos nombres nos resultan curiosos en esta nube: “Messi” y “Benzema”.

¿JUGABAN MESSI Y BENZEMA? 

A partir de los datos de Twitter, decidimos investigar ambos conceptos. 

Los tweets que enlazaban con Messi, al contrario de lo que podíamos suponer al principio (la eterna comparación de quién de los dos es mejor), fueron principalmente tweets de burla, que enlazaban el hecho de que el Barcelona estuviese eliminado de la Champions, y que Messi enseñara su camiseta en el último clásico:

lo de messi

 

En cuanto a Benzema, decidimos seguir el rastro de los tweets, y descubrimos algo curioso.

nube de palabras benzema

Algunas críticas de los seguidores y el bajo rendimiento del jugador en el partido de ayer, hicieron que varios se planteasen las comparaciones con otros delanteros, ¿podría haber jugado Morata?

NECESIDAD DEL ANALISTA PARA UN CONOCIMIENTO MAYOR.

Esto ha sido un pequeño ejemplo, hecho de una manera ágil sobre el partido de ayer. KNIME nos permite llevar a cabo este proceso de minería de texto sobre grandes volúmenes de datos. Podríamos ampliar las capturas, las fuentes de datos, incluso añadir nuevas plataformas de social media. Pero aun con todo, es necesario la supervisión y el “olfato” de un analista, que permita ver dónde flaquea el análisis, dónde indagar más y cómo enriquecer el tratamiento de la información.

 

Miércoles, 29 Marzo 2017 08:27

KNIME, UN MINERO PARA LA MONTAÑA DE DATOS

Escrito por


KNIME PARA EMPODERANDAR AL USUARIO DE NEGOCIO.miinero

Siempre decimos que nuestro objetivo es empoderar a los clientes (especialmente clientes de negocio, no técnicos) y crearles el escenario, el control y los conocimientos necesarios para que, una vez desarrollado todo el proyecto, tengan la autonomía de utilizar las soluciones dadas, poder investigar y tenernos como soporte para desarrollar nuevas líneas de análisis y conocimiento.

Quizá un aspecto importante, pero no muy comentado de KNIME, es la facilidad que tiene para la integración de bases de datos y la realización de consultas SQL. Hasta ahora, muchos usuarios de negocio dependían de alguien externo (alguien de IT), para desarrollar nuevas consultas en las BBDD, dependiendo del “…de informática” para explorar por las fuentes de datos.

¿CÓMO USAR KNIME PARA EXPLORAR LAS BASES DE DATOS?

Existen aplicaciones que permiten desarrollar consultas SQL en un entorno más amigable y sencillo. KNIME acaba con todo ello de un plumazo.

En KNIME, por ejemplo, una consulta join es tan sencilla como arrastrar un Joiner Node, conectar las entradas, y explorar el tipo de unión que queremos (en una pestaña despegable Inner, Left Outer, Right Outer o Full Outer). Como siempre, podemos entender más acerca del nodo en la parte derecha (Node Description). Para elegir las columnas que nos interesa integrar en la consulta, es tan simple, como seleccionarlas en la parte Include.

column selection

Este es un ejemplo sencillo de cómo podemos realizar cualquier consulta, lo cual es especialmente útil en las bases de datos. Además, KNIME se ejecuta en la base de datos, de tal forma que si llevamos a cabo una operación de group by o join (como en el ejemplo) KNIME ejecuta la consulta en la base de datos, obteniendo de ella únicamente el resultado, y con ello maximizando el recurso de la memoria.

KNIME, COMO MINERO DE CABECERA

Que consideramos a KNIME como una herramienta clave en nuestros procesos analíticos, no es ninguna novedad. Se ha resuelto como una ayuda crucial para llevar a cabo el proceso de minería y lo que se ha llamado Business Discovery, especialmente para el usuario de negocio, que no tiene ni el tiempo ni los conocimientos adecuados para elaborar complejas consultas en las inmensas bases de datos de las compañías. Necesita facilidad, rapidez y agilidad, y KNIME ofrece todo ello. Su facilidad de exportación a otras plataformas más visuales (como Qlik o Tableau) permite, además, mejorar nuestra comunicación y comprensión de la información y tener una transmisión de conocimientos eficaz.

¿quieres explorar tus datos o sigues dependiendo de otros?

BUSCANDO “DIAMANTES” DE DATA SCIENCEdata-science-illustration-Feature 1290x688 MS

Una de las partes de nuestro trabajo es estar actualizado a todas las tecnologías y soluciones que existen en el mercado, para poder conocerlas y asesorar a los clientes cuál es la más idónea para cada problema.

Debido a la ingente cantidad de herramientas y soluciones en el mercado, nos sentimos obligados a filtrar en base a las grandes consultoras (y creadoras de opinión de nuestro sector). Quizá la más conocida sea Gartner, quien en sus “cuadrantes mágicos” sitúa a las diferentes soluciones (de integración, tecnológica, de inteligencia de negocio, para aplicar analítica avanzada, …) en base a dos parámetros: completeness of vision (o capacidad para anticiparse o adaptarse al mercado) y ability to execute (o capacidad para comercializar los desarrollos en el mercado).

gartnerEn base a estos dos parámetros establece 4 grupos:  herramientas focalizadas en un nicho concreto (niche players) visionarios (visioners) herramientas aspirantes a estar entre los líderes del sector (challengers) y los líderes del sector (leaders)

En el campo de la analítica de datos avanzada (que ahora Gartner, entre otros, denomina data science), este cuadrante nos guía en el conocimiento de las soluciones líderes, y nos confirma la apuesta que desde hace un tiempo hemos venido desarrollando para estas tecnologías. En concreto, sitúa a KNIME (por cierto, la “K” es muda) como una de las soluciones líderes del sector.

KNIME COMO HERRAMIENTA DE DATA SCIENCE

A nosotros, la verdad, no nos extraña. Obviando el hecho de que Gartner no tiene en cuenta herramientas de código abierto como R o Python, siempre hemos encontrado a KNIME como una herramienta, intuitiva, sencilla, con un enorme potencial y el tiempo nos confirma esta intuición. Creíamos que KNIME, con la facilidad de integración, con la sencillez para articular complejos flujos de datos en donde extraer valioso conocimiento, con el despliegue de potentes modelos enmarcados en lo que se denomina Machine Learning en apenas un par de clicks, con una importante red de apoyo del propio software y de la comunidad creada en torno al mismo, … en definitiva, con la capacidad de hacer fácil lo difícil, podría hacerse un hueco entre los líderes del sector. Y así ha sido.

Quizá su visión en marketing lastran el posicionamiento de la herramienta (faceta en la que Rapid Miner le ha ganado terreno respecto al año pasado), pero aun así consideramos que su rápida curva de aprendizaje, su escalabilidad e integración,  junto con su potencial a la hora de aplicar analítica avanzada, convierten a KNIME en un aliado perfecto para que, de la misma forma que ha hecho Gartner,  nuestras compañías  den el salto de ser analistas de datos a una visión más holística de negocio que el entorno demanda, convirtiéndonos en científicos de datos.

LIS-SOLUTIONS APUESTA POR KNIMEuiMHRESP 400x400

Sin dejar de tener en cuenta, que para aplicar métodos de Data Science, hace falta saber de Data Science!! (obviedad que no siempre se tiene en cuenta), KNIME es una herramienta fantástica para implementar soluciones.  Las grandes soluciones del sector se están desmarcando cada día más del resto, y KNIME ha conseguido hacerse un hueco entre las grandes. No esperábamos menos.

 

“Solo vas a darte cuenta de quien está nadando desnudo cuando baje la marea”

Warren Buffet

Continuando con el post anterior, me gustaría presentaros esta magnífica herramienta: Easymorph, enfocada a la transformación de los datos (ETL).

easymorph

 

Tradicionalmente, se cree que esta tarea pertenece a los desarrolladores de IT, mientras que los usuarios empresariales, suelen quedarse con Excel, scripts de Visual Basic, etc. Al mismo tiempo, los sistemas ETL, aunque potentes (y muy caros), resultan complicados para la audiencia que no es programadora.

 

Es por esto, que al desarrollar una app de explotación de datos, Easymorph nos permite diseñar complejas transformaciones de datos, para poder disfrutar de un desarrollo más simple y rápido. 

PRINCIPALES CARACTERÍSTICAS

  • Transformar visualmente los datos sin utilizar macros VBA, scripts o SQL. 
  • Combinar, filtrar, agregar datos de múltiples fuentes (bases de datos, hojas de cálculo, texto, XML).
  • Preparación de datos para posterior explotación en herramienta BI. 
  • Conversor de archivos de texto en hojas de cálculo y viceversa. 
  • Exportar los datos a un nuevo fichero QVD.  
  • Almacenar los proyectos o procesos ETL para ejecutarlos posteriormente tantas veces como se desee.

tabladepaula

 

Toda la información acerca de esta herramienta (licencia gratuita, etc) se encuentra en easymorph.com, además tiene un apartado de Ejemplos & Tutoriales que puede resultaros muy útil.

 

 

 

 

Martes, 21 Febrero 2017 08:30

ATERRIZANDO LA REVOLUCIÓN 4.0... (IV PARTE)

Escrito por

… MÉTODOS METAHEURÍSTICOSbombilla

En la investigación de operaciones, analítica y ciencias de la computación, suele recurrirse con asiduidad a problemas arquetipos tales como el problema del llenado de la mochila, el problema del comerciante viajante o el del mejor vecino, los cuales pueden resultar confusos en un primer acercamiento a la materia ¿a qué se refieren?

Imaginemos que tenemos que realizar una ruta donde hay que visitar 20 puntos y no queremos pasar dos veces por el mismo lugar, o tenemos que realizar 20 acciones y no sabemos en qué orden ejecutarlas. Imaginemos también que quisiéramos conocer qué combinación (en base a los parámetros que indiquemos como distancia, tiempo, coste, …) es la más eficiente. Podríamos pensar que ahora, con la tecnología y la velocidad de computación que tienen los ordenadores, no hay nada imposible. Sin embargo, si dispusiéramos de un ordenador que cada segundo analiza un millón de combinaciones posibles, para conocer cuál es la mejor (esto es, observar todas las posibles y elegir, de ahí, la mejor) necesitaría… ¡77 mil años! (aunque para el supercomputador chino Tiahne-2, con 33.86 PetaFlop/segundo, esto no es algo insalvable)

Puede que este sea un ejemplo no muy corriente, pero ya nos da una idea de la envergadura que los problemas de combinatoria pueden llegar a tener. Es ahí donde entra en juego el campo de los métodos heurísticos.

HEURÍ... ¿QUÉ?eeuusalesmanproblem

Viendo los problemas de combinatoria, entendemos que necesitamos un tipo de modelos que nos permitan dar una respuesta satisfactoria (aunque quizá no sea la mejor) en un tiempo razonable para que sea útil (de nada servirá tener una solución que no se aplica). Este es precisamente el objetivo de los métodos heurísticos. Y dentro de estos algoritmos, aquellos que son procedimientos usados en planteamientos genéricos, son los denominados métodos metaheurísticos. Hay multitud de métodos metaheurísticos implementados, desde los más intuitivos como algoritmos voraces o implementaciones del mejor vecino, a métodos más sofisticados que intentan superar el problema de caer en mínimos locales, como el recocido simulado o los algoritmos genéticos.

¿CÓMO USAR HEURÍSTICA EN MI EMPRESA?

 

Como hemos repetido a lo largo de diversos post, el objetivo de estas entradas es dar una visión general de los servicio postventa-300x203conceptos, y poder indicar en qué facetas de las empresas se pueden implementar estas teorías. En definitiva: aterrizar la Revolución 4.0. Algunos de los problemas prácticos pueden ser:

  • Llenado de cajas: obtener de un modo ágil una forma eficiente de efectuar un llenado de cajas (en función del precio o el volumen, el coste asociado, …)
  • Diseño de rutas: tanto a nivel de reparto comercial como a nivel de movimientos internos de las fábricas.
  • Mejora de la operativa: encontrar cómo realizar de una forma rápida y eficiente una serie de tareas (el problema podría tener en cuenta tareas que obligatoriamente se tengan que dar antes que otras, por ejemplo, el lijado, antes que el pintado).

La clave para entender dónde usar los algoritmos de metaheurística es disponer, de modo general, de un proceso de combinatoria (diferentes formas de hacer una serie de tareas) y conocer el criterio (función coste) en base al cual decidimos si una combinación es mejor que otra (puede ser el coste, el tiempo, la distancia, …). 

LOS MÉTODOS METAHEURÍSTICOS EN LA GESTIÓN DE DATOS Y COMBINATORIA

 

Los métodos metaheurísticos surgen para dar respuesta a la necesidad de encontrar una solución rápida y eficaz a un problema de combinatoria, en donde las opciones son inmensas y robot futuroencontrar la aguja en el pajar se antoja una tarea ardua. Nuestros procesos empresariales pueden favorecerse de estas implementaciones y guiar, en base a datos, las acciones de nuestras compañías.

 

Existen multitud de herramientas para explotar nuestros datos, desde el famoso Excel, a las más específicas como Qlik o Tableau.

A continuación, os presento dos herramientas que nos ayudarán en muchas ocasiones para la organización y explotación correcta de nuestros datos en Qlik: Easyqlik Qviewer y Easy morph.

 

EASYQLIK QVIEWERqv3

Quienes estamos desarrollando continuamente con Qlikview, nos encontramos con multitud de archivos QVD que debemos concatenar, filtrar, perfilar, etc.  Esta herramienta, nos ahorra tiempo para desarrollar y depurar aplicaciones, especialmente cuando se trata de aplicaciones diseñadas por alguien más.

Para los que no estén muy familiarizados con el concepto QVD de QLik: Es un formato especial de archivos que genera Qlikview para almacenar datos de las tablas de nuestro sistema gestor de datos (un archivo QVD por cada tabla). Utilizamos estos archivos por la rapidez que nos aportan, por lo que es la forma preferida de acumular datos históricos en las apps e intercambiar información entre ellos.

QViewer nos permite buscar en cualquier QVD, filtrar y buscar datos, revisar los campos duplicados, detectar nulos y hacer cualquier tipo de inspección sin crear una aplicación Qlikview descartable cada vez porque, ¿Quién no se ha encontrado alguna vez con un montón de QVDs que desea explotar y utiliza mucho tiempo para explorarlos?

Esta herramienta, nos ayuda a inspeccionar cualquier tabla residente en cualquier punto de la secuencia de comandos de carga y conocer los detalles de la información que contiene.

PRINCIPALES CARACTERÍSTICAS

  • Ver datos a nivel de fila de un archivo QVD.
  • Todo tipo de recuentos (nulos, números, texto) para todos los campos y valores distintos.
  • Extracción de campos únicos con un solo clic (por columna).
  • Filtrado asociativo estilo Qlik (con nulos seleccionables).
  • Metadatos de tabla y columna obtenidos del encabezado XML de un archivo QVD.
  • Carga parcial (limitada) para ver archivos muy grandes (>2GB)  (Version Free limitada a 100.000 filas, la licenciada debe ser ilimitada)
  • Agregar, calcular nuevas columnas, exportar datos (requiere Easymorph, lo vemos a continuación).

qv1

Ejemplo de obtener metadatos de un QVD: Nos muestra todos los campos, el número de claves únicas, densidad, tipo de dato, etc… y todo esto sin ejecutarlo.

 

 

qv2

Espero que os resulte tan útil como a mí. Toda la información acerca de esta herramienta (licencia gratuita, etc) se encuentra en easyqlik.com.

 

Veremos la utilidad de Easymorph en el siguiente post!

 

 

Miércoles, 08 Febrero 2017 10:38

ATERRIZANDO LA REVOLUCIÓN 4.0...(III PARTE)

Escrito por

... LAS REGLAS DE ASOCIACIÓN diamante

A menudo, solemos de explicar la minería de datos como “tratar de encontrar diamantes en el pajar” (cuando encontramos algo de valor entre tanto dato, la comparación con una aguja se nos queda corta para explicar su potencial). Encontrar patrones de comportamiento (bien sea de compras, bien sea en fallos o en cualquier proceso operativo) es con diferencia el principal objetivo de las empresas analíticas, pues es identificar estos insigths lo que valoran en gran medida los clientes.

Es por ello que no creo que haya herramienta más apreciada para el análisis de datos como las reglas de asociación (con su implementación más famosa, el algoritmo A Priori).

encajadosLa idea que subyace en las reglas de asociación es simple: analizando un conjunto de datos, descubrir relaciones entre variables. Por ejemplo, analizando transacciones, en donde tenemos muchos productos posibles, descubrir que, en transacciones en las que está el producto A, está también el producto B.

Estas relaciones serán más consistentes cuanto más grande sea el conjunto de datos.

Como imaginarán, estas relaciones no suelen ser tan obvias. Para medir cómo de fuerte es la relación entre variables, hay diferentes métricas (soporte, confianza o para mí una de las más útiles, el llamado lift). A su vez, esta búsqueda de relaciones quizá tenga que optimizarse (imagine las diferentes combinatorias que pueden darse, por ejemplo, en un almacén de 5.000 productos) echando mano de técnicas metaheurísticas, como los algoritmos genéticos.

Dado que el objetivo de estos post no es crear más vértigo e inundar la página de vocablos en inglés, demos un enfoque más práctico y “terrenal” a todo esto. 

 

como implementar¿PARA QUÉ IMPLEMENTAR LA CORRELACIÓN ENTRE PRODUCTOS EN MI EMPRESA?

Las oportunidades donde poder implementar estas herramientas son enormes y muy variadas, no solo en el entorno de ventas o marketing. Pensemos, por ejemplo, en un almacén. Es cierto que un análisis ABC nos puede ayudar a una gestión más eficiente del mismo, pero, ¿acaso no hay productos C que, de expedirse, se expiden con un producto A? ¿no podemos mejorar la eficiencia de la gestión de nuestro almacén estudiando las relaciones entre productos?

 El objetivo de estos procesos no es más que encontrar hechos, situaciones, que se repiten en un conjunto de datos en particular. Si, por ejemplo, disponemos de un conjunto de datos formado por cientos, miles de operaciones de compra de los productos de un supermercado, podemos investigar, analizar las compras efectuadas, y quizá lleguemos a la conclusión de que ciertos artículos se vender junto con ciertos artículos, como la leche con las galletas o el vino con las rosas. Quizá aparezcan relaciones entre productos menos obvias, como que en las compras que se adquieren pañales, se adquieran también cervezas (¿padres de familia mandados a la tienda “a por pañales”?)

 

LAS REGLAS DE ASOCIACIÓN, EN RESUMEN

 La clave de la analítica, englobando conceptos del entorno de Big Data, viene de cruzar multitud de fuentes, de diversos orígenes, para poder llevar a cabo planes de acción.

relacion de productos

 Ejemplo de ello es Walmart, quién cruzando información de las listas de la compra efectuadas, con datos meteorológicos (en este caso en concreto, con huracanes) y de la ubicación de sus tiendas, encontró un patrón curioso: en épocas de huracanes, la gente compra más Pop-Tarts.

 En definitiva, analizando grandes conjuntos de datos en base a reglas de asociación, somos capaces de encontrar relaciones entre productos, empoderando a la organización, y permitiendo la toma de decisiones inteligente en base a datos.

 

 

 ¿sabías que el día que más productos dietéticos se venden, es el viernes? https://www.youtube.com/watch?v=NW8MjxQbtfY

 

 

 

 

Analizar lo que ocurre en un carro de la compra de forma conjunta, nos dice mucho más que los productos por separado.”-Ms. Dillman

 

 

 

Página 1 de 3