Gestión de Datos

Gestión de Datos (39)

Blog de análisis y gestión de datos, artículos, consejos, perfiles demandados, metodologías, herramientas...

Lunes, 02 Octubre 2017 08:48

NetStock: Optimizando los niveles de Stock

Escrito por

 

A la hora de minimizar costes y riesgos, cualquier empresa que tenga stock disponible es primordial  también tener un nivel de stock óptimo.

¿Qué es el nivel de Stock?

El nivel de stock es la cantidad de productos que se tienen almacenados y disponibles para su venta en los almacenes de la organización.

El nivel de stock puede medirse tanto en cantidad de artículos como en el valor de coste de dicha cantidad, siendo esta última medida la más utilizada.

A la hora de optimizar el stock de una empresa es importante seguir un modelo matemático que, basándose, por ejemplo, en consumos anteriores, sea capaz de calcular cuál sería el nivel óptimo de stock.

Es importante tener en cuenta que no sirve reducir los productos que tenemos almacenados de manera aleatoria, sino que debe hacerse de la forma adecuada para mantener siempre los niveles mínimos de seguridad y evitar así roturas de stock.

LIS-Solutions desarrolla como fase previa a la optimización de stock, la captura y tratamiento de la información referente a stock con la herramienta de minería de datos Knime.

Una vez tratados y transformados los datos necesarios, estos son enviados a la herramienta basada en cloud-computing: NetStock.

NetStock es capaz de realizar predicciones de niveles óptimos de stock y nos muestra el estado actual de cada uno de nuestros almacenes.

dashboard netstock

Imagen 1. Visualización principal de NetStock

Veamos más detalladamente cada una de las fases que seguimos:

Proceso ETL con Knime.

En primer lugar, creamos un workflow en Knime con el que haremos la fase de ETL (“Extract, Transform and Load”), donde trataremos los datos y prepararemos los ficheros necesarios para que NetStock pueda realizar sus cálculos posteriores.

 

workflow knime

 

Imagen 2. Workflow en Knime. ETL

 

En este primer paso, leemos los datos de las fuentes involucradas y creamos todas las tablas necesarias para así poder alimentar de datos a NetStock.

Una vez realizado este paso, los datos son procesados por NetStock. En este punto obtenemos una interfaz gráfica que nos muestra los principales KPI´s (“Key Performance Indicator”). Véase Imagen 2.

Por ejemplo, podemos observar en Stock holding el valor actual de nuestro stock en el almacén que sería de 34 millones mientras que el stock óptimo sería de 10.3 millones. Justo debajo podemos observar las cinco primeras referencias que mayor exceso de stock tiene. Además, podemos ver otros indicadores, por ejemplo, las potenciales roturas de stock y los cinco productos con un mayor riesgo de quedarse sin stock.

reference summary

 

Imagen 3. Resumen de una referencia

Por lo tanto, con una precisa y elaborada extracción de los datos y su tratamiento adecuado, podemos tener unos indicadores que reflejan la situación actual de nuestros almacenes en cuanto a stock se refiere y, a la vez, tener un modelo que optimiza nuestros niveles de stock, reduciendo así el riesgo de roturas y minimizando el dinero pasivo que tendremos en nuestro almacén.

NetStock: Predicción de consumos

Por otro lado, mencionar que NetStock no sólo se queda en esta parte tan superficial, si no que muestra la información de cada referencia así como una predicción a futuro del consumo de la misma:

predictions

 

Imagen 4. Predicción de consumos para una referencia

Por lo tanto, nos encontramos ante una herramienta muy completa y compleja, pero a la vez sencilla de entender y de manejar, para que a un solo click tengamos el resumen de consumos pasados y niveles de inventario junto a los KPI´s más importante y además tengamos una predicción de ventas a futuro. Como consecuencia, nos encontramos ante una de las mejores herramientas del mercado que se encarga de representar gráficamente el estado de los almacenes y de optimizar nuestros niveles de stock.

Domingo, 01 Octubre 2017 10:36

KNIME: Un software vivo

Escrito por

Empezamos utilizando Knime simplemente como una herramienta para conseguir nuestro objetivo, pero hoy en día es algo más.

Si primero, como reflejamos en una entrada de post anterior "Knime, un minero para la montaña de datos" hablábamos de la facilidad que aporta dicho software a aquellos usuarios de negocio, hoy en día podemos decir sin temor a dudas que Knime aporta mucho a cualquier tipo de usuario, ya que cada vez es más fácil y sencilla de utilizar.

KNIME Analytics Platform

 Hoy vamos a evaluar y analizar las nuevas opciones que incorpora este software en su nueva actualización.

En primer lugar, destacaremos la incorporación de nuevos gráficos a esta herramienta. Si bien es cierto que para la visualización de datos no es una herramienta potente, como lo pueden ser Qlik o Tableau, estamos viendo como poco a poco las visualizaciones van tomando peso dentro de Knime. Se han añadido tres nuevas formas de visualizar los datos que reciben el nombre de “Network Viewer” que representa los datos en forma de grafo, “Sunburst Chart” gráfico que se divide en porciones y subporciones dentro de cada una de ellas donde va clasificando los datos y “Streamgraph” que representa los datos en forma de corriente. Vemos a continuación una representación de datos con el modelo “Sunburst Chart”.

knime sunburst

 

Además de ver el gráfico podemos seleccionar las regiones que nos interesen y podemos ver los datos que se corresponden en con cada sección como podemos ver en la siguiente imagen.

knime sunburst 2

Aplicado al mundo de los negocios, si pensamos en un almacén con un gran número de referencias podríamos representar en la circunferencia más pequeña las diferentes familias de productos. En la circunferencia más inmediata, podríamos representar los grupos dentro de cada familia y, por último, en una tercera circunferencia representaríamos cada uno de los elementos pertenecientes a cada uno de los grupos. Así, podríamos identificar de manera rápida y eficaz a qué grupo y a qué familia pertenece un artículo de manera visual. También podríamos ver si dos artículos pertenecen al mismo grupo o a la misma familia. 

Control de versiones

Otra de las mejoras que nos depara Knime en esta actualización es la posibilidad de comparar los cambios realizados en un workflow con el paso de las versiones y ver de manera fácil, rápida y cómoda qué hemos cambiado a lo largo del tiempo. De este modo, si el resultado ha variado y no es el resultado esperado, podremos volver atrás sabiendo en qué paso nos hemos equivocado.

En Knime es fácil tener de utilizar varias veces un mismo Metanodo y hasta ahora copiábamos el metanodo y le pegábamos donde era conveniente. Con la nueva actualización, podemos guardar dichos metanodos como si de una plantilla de Word se tratase. Les guardamos dentro del apartado plantillas y simplemente cuando queramos utilizarles arrastramos igual que hacíamos hasta ahora con los nodos. Arrastramos hasta el workflow y enlazamos con los nodos necesarios. Esta nueva actualización nos ahorrará tiempo y en consecuencia dinero. 

Nuevos nodos

Se ha añadido un nuevo nodo llamado “Call Local Workflow” utilizado para hacer una llamada desde un workflow a otro existente en local. Hasta ahora la única forma de ejecutar dos workflows que dependiera uno del otro era ejecutar uno primero que preparase los datos para el segundo y al acabar este llamar al segundo workflow. Nos evitamos así el arduo proceso de hacer coincidir todos los nodos y buscar la forma de unirlos.

knime wf link

 

Por último, mencionamos el reconocimiento y análisis de voz: en esta actualización Knime incorpora un procesador de voz que es capaz de escucharse archivos de audio desde Knime, extraer características acústicas y reconocimiento de voz.

 

knime audio processing

De este modo, sin tener grandes conocimientos de informática, podemos utilizar grabaciones como si fuera un simple csv y, a partir de ahí, realizar nuestro propio análisis de los resultados y extraer conclusiones. Esta nueva inclusión podría servirnos incluso para crear un pequeño sistema de activación de funciones por medio de la voz.

Con esta nueva actualización Knime sigue a la cabeza como herramienta para Big Data y sigue acercándose cada vez más a un público más amplio, debido a que es capaz de hacer de la tecnología más compleja y puntera como es el Big Data algo sencillo y fácil para cualquier perfil que se encuentre en la empresa.

Por estos y muchos otros motivos no evaludos en esta entrada, desde LIS-Solutions  seguimos apostando por herramientas tan versátiles, útiles y que están en constante evolución como es el caso de Knime.

Miércoles, 02 Agosto 2017 15:01

¿Qué es SAP HANA?

Escrito por

SAP HANA es una plataforma integrada (consta tanto de hardware como de software) que combina innovadoras tecnologías de bases de datos. Es una plataforma que trabaja en memoria (“in-memory”) para aplicaciones de alto rendimiento, como herramientas de análisis y simulación en tiempo real.

SAP HANA es una parte de SAP preparada para hacer computación en la nube (“in-memory computing”).

Este sistema es tan rápido gracias al motor de búsqueda que tiene. Usa una base de datos convencional, pero está muy optimizada y además es capaz de trabajar de manera paralela.

SAP HANA 3

SAP HANA Y EL BUSINESS INTELLIGENCE

Gracias a la velocidad de procesamiento que desarrolla SAP HANA su fuerte es el Business Intelligence.

Hoy en día, debido a la gran cantidad de datos que generan las empresas, uno de los puntos más importantes para dichas empresas es el Business Intelligence. Cada vez se hacen operaciones más complejas para obtener ciertos KPI´s (Key Performance Indicator) y con un mayor volumen de datos lo que conlleva un gran gasto computacional. SAP HANA es capaz de calcular estos datos mucho más rápido y fácil gracias al procesamiento en paralelo y a la optimización de todos los procesos de cálculo.

sap-hana 4

CARACTERÍSTICAS DE SAP HANA

Una de las bondades de esta plataforma es la posibilidad de realizar todas las operaciones en la memoria RAM. Gracias al abaratamiento de estas memorias y a la gran potencia que tienen hoy en día, podemos realizar muchos cálculos de manera íntegra en esta memoria eliminando así escribir en el disco duro y aumentando por tanto la velocidad de cálculo.

Es importante destacar que SAP HANA está pensado para poder escalarse, tanto de manera vertical como de forma horizontal.

SAP HANA tiene una infinidad de aplicaciones que se tratarán en los siguientes posts, haremos especial incapié en las capacidades que tiene SAP HANA para hacer desarrollos predictivos.

¿Quieres conocer más? Contacta con nosotros! 

En la actualidad se habla mucho del análisis de datos y de los árboles de decisión, pero...

 ¿Qué es realmente un árbol de decisión?

Es difícil entender realmente qué es un árbol de decisión, pero pocos sabemos que usábamos árboles de decisión desde niños en algo tan sencillo como un juego: ¿Quién es quién?

Este juego, cuyas reglas y funcionamiento conocemos todos, utiliza árboles de decisión de la siguiente forma.

Quien es quien arbol de decision

Si tenemos que adivinar que la carta del contrario es Jake realizaremos las siguientes preguntas a nuestro compañero de juego:

  • ¿Es mujer?
  • ¿Tiene bigote/barba?
  • ¿Es moreno?
  • ¿Tiene el pelo rubio?

De donde obtendríamos las siguientes respuestas:

  • No
  • Si
  • No
  • Si

Jake arbol de decision

De la primera pregunta obtendríamos que la persona que buscamos es un hombre, por lo tanto, podríamos eliminar todas las mujeres. Es decir, con una única pregunta hemos eliminado del tablero de juego 6 posibilidades.

Con la segunda de las preguntas, obtenemos que los ojos del personaje buscado son marrones, por lo tanto, con esta pregunta, nos quedamos con sólo 10 opciones posibles.

Gracias a la tercera pregunta obtenemos que la persona buscada no es morena, por lo tanto, nos quedamos con sólo 4 opciones.

Por la cuarta y última pregunta, vemos que la única persona de las que quedaban como posibles opciones es Jake.

Veamos por consiguiente cómo sería el árbol de decisión que hemos seguido para obtener el resultado deseado.

Arbol de decision quien es quien

 

¿Cómo aplicamos árboles de decisión a la Logística?

Esta técnica es fácilmente aplicable a muchos sectores y negocios. Por ejemplo, si somos una compañía de mensajería y tenemos que enviar un paquete de un determinado tamaño a un lugar concreto, podemos decidir que furgoneta de las que va a pasar lo más cerca posible tiene espacio suficiente para llevar este paquete. Por lo tanto, podemos asignar a nuestro paquete una furgoneta específica, que se adapte a las características y necesidades de cada paquete.

A modo de resumen podemos decir que los árboles de decisión, aun siendo los grandes desconocidos de este mundo plagado de datos con tendencias activas como puede ser el BigData o el Business Intelligence, son una herramienta muy útil con grandes aplicaciones y que facilita mucho la asignación de una solución (como hemos visto con el ejemplo anterior, la furgoneta) a un problema concreto (el reparto de un paquete con unas necesidades y características específicas.

Miércoles, 28 Junio 2017 12:06

Big Data: paralelización de datos con Apache Spark

Escrito por

Apache Spark es un software que se encarga de distribuir o paralelizar los datos a la hora de analizarlos.

Hoy en día se habla mucho de la paralelización de los datos en diferentes máquinas para procesar la información más rápido, ¿pero realmente que es eso? Paralelizar los datos en diferentes máquinas no es más que dividir los datos en archivos más pequeños. Estos archivos más pequeños son enviados cada uno a una máquina diferente. De esta forma, cada máquina procesará una pequeña parte del fichero inicial en lugar de analizar el fichero completo.

spark consumos

Si tenemos el siguiente archivo: consumos.csv con 2 columnas, la primera indica la hora a la que se recogieron los datos y la segunda indica el consumo de KW/h. Este fichero tiene 10 momentos diferentes en las que se han recogido los datos. Creamos un clúster con Spark como vemos en la siguiente figura:

Spark - master . trabajador

Una de las máquinas es la encargada de controlar las operaciones, que recibe el nombre de máster, y las otras dos máquinas comunicadas con el máster, reciben el nombre de trabajadores. Si mandamos hallar la suma de KW/h a nuestro clúster, que procede de la siguiente forma:

  1. Divide el fichero consumos.csv en 2 ficheros, particion1.csv y particion2.csv, cada uno de ellos de 5 filas
  2. Manda a una máquina del clúster el fichero particion1.csv y a la otra el fichero particion2.csv
  3. Cada máquina del clúster hace la suma de la segunda columna y devuelve el resultado al master
  4. Una vez que el master ha recibido los resultados de cada máquina, suma las dos cantidades recibidas
  5. Spark devuelve la suma total de la columna de los consumos.

Ahora bien, si queremos hallar la media del consumo, cada máquina devuelve la suma como ha hecho antes y, también, devuelve el número de filas que tenía el fichero que ha analizado. En nuestro ejemplo, se actuaría de la siguiente forma:

  1. La máquina que procesa el fichero particion1.csv devolvería una suma de consumos de 0.981 y el número de filas que ha analizado: 5
  2. La máquina que procesa el fichero particion2.csv devolvería una suma de consumos de 0.864 y el número de filas que ha analizado: 5.
  3. La máquina master, suma el número de filas que envía cada máquina y suma cada una de las sumas que recibe de cada una de las máquinas y hace la siguiente división:

spark - media

Veamos de manera gráfica cómo calcularía la media de los consumos:

spark ejemplo

 

Concluimos por lo tanto la simplicidad y velocidad que nos aporta Spark ante un problema de grandes dimensiones. Divide y vencerás!

 

Sábado, 03 Junio 2017 10:04

MDM - MASTER OF WHAT?

Escrito por

Con la infoxicación que existe hoy en día, muchas organizaciones necesitan de alguien que controle, filtre, limpie y estructure sus datos maestros.

Muchas veces hemos oído que quien controla los datos controla el poder, pero también hay que recordar que un gran poder conlleva una gran responsabilidad… Entonces, ¿en manos de quién dejamos la correcta gestión de nuestros datos maestros?

MDM 2

¿Qué son los datos maestros?

La mayoría de los sistemas de software tienen listas de datos que son compartidos y utilizados por varias de las aplicaciones que componen el sistema. Por ejemplo, un sistema ERP  como mínimo tendrá un maestro de cliente, un maestro de artículos y un maestro de cuentas. Estos datos maestros son a menudo uno de los activos clave de una empresa.

¿Qué es la Gestión de Datos Maestros? - MDM

MDM es el acrónimo de Master Data Management. Esta importante y cada vez más popular disciplina empresarial, está diseñada para eliminar el elevado número de errores, redundancias e inconsistencias que existen en los diversos y fragmentados entornos de información de hoy en día. MDM puede ayudar a las organizaciones a mejorar la productividad e impulsar el rendimiento operativo mejorando la precisión de la información y el intercambio de datos dentro y fuera de la empresa.

MDM 3

El MDM se ocupa del quién, qué, cómo y dónde, tanto de actividades comerciales como de las venta, las compras, las diferentes interacciones con clientes, proveedores y empleados.

Cada vez vemos más retos recurrentes en los negocios que exigen la creación de un centro de datos que se extiende a través de aplicaciones, procesos de negocio, líneas de negocio, etc. Estos son los casos típicos de uso y las razones por las cuales nuestros clientes están necesitando su propio MDM.

MDM 4

¿Qué herramientas utilizamos para crear una lista Maestra y gestionar nuestros Datos Maestros?

Considerando las implementaciones MDM que existen en el mercado, LIS-Solutions intenta buscar una solución que ofrezca las siguientes características clave:

  • Gestión de datos unificada para MDM, integración de datos y gestión de procesos de negocio (BPM).
  • Manejo de múltiples dominios en un solo conjunto de tecnología y hardware.
  • Un  amplio conjunto de conectores de integración de datos OOTB.
  • Implementaciones flexibles, como MDM en instalaciones  en la nube  y como servicio.
  • Integración con Big Data
  • Escalibilidad horizontal y verticalmente
  • Un enfoque de plataforma que evite el bloqueo de proveedores

MDM 5

Talend es el único proveedor que ofrece un completo MDM, ETL, data quality, BPM, Enterprise Service Bus (ESB) y una solución de integración de datos en una sola plataforma tecnológica, compatible con muchas de nuestras herramientas de Business Intelligence como Qlik o Tableu.

Además es el único proveedor que ofrece un perfil de datos en una gran solución de datos a través de una plataforma unificada, con un repositorio de código común y herramientas para programar metadatos.

MDM 1

 

Una solución de MDM es el pináculo de las tecnologías de integración de datos, y además tiene la capacidad de trabajar con múltiples dominios, proveer mejores mecanismos para el mantenimiento de la calidad de los datos y proporcionar su funcionalidad en forma de servicios, que permiten integrarla con mayor facilidad a ambientes heterogéneos. MDM puede ayudar a cualquier tipo de organización a cumplir el objetivo de contar con un repositorio central de información, necesaria tanto para operaciones como para la toma de decisiones.

Si desea tener más información sobre Master Data Management (MDM), contacte con nosotros.

 

Después de una larga semana en cuanto al mundo del deporte se refiere, volvemos para analizar la vuelta de semifinal de la Champions entre dos de los grandes: Atlético de Madrid - Real Madrid. 

Tras un primer análisis, que puedes encontrar aqui, vamos a realizar la segunda parte, con técnicas de text mining llevadas a cabo por LIS-Solutions, mediante el Software de mineria de datos Knime recogiendo los datos através de Twitter.

 

¿Cuál es el sentimiento predominante?

Bien, como podemos ver en la nube de palabras podemos deducir que algo ha pasado con Karim Benzema, ¿tal vez fuera su increible jugada? y además sacamos como claros ganadores en cuanto a actividad en twitter se refiere a la hinchada merengue pues su color predomina en nuestra nube.

 

 nube palabra atletico real madrid

 

Cuadros de mandos para una mejor visualización

Una vez capturada la información relacionada con el partido, pasamos a mostrarla de manera intuitiva utilizando para ello la herramienta de Qlik (Qlik Sense). Esta herramienta nos permite la creación de cuadros de mandos para optimizar la visualización de los datos recogidos antes.

partido completo

 

En este primer cuadro de mandos podemos ver la actividad a lo largo de todo el partido. Destacar que la gran mayoría de los tweets ocurren al final de cada parte.

En la parte inferior del cuadro de mandos podemos ver un gráfico de bloques en los que se representan las nacionalidades de los usuarios analizados. Siendo China el pais en el que más seguidores del fútbol español existen parece curioso que que no aparezca en la gráfica. No es que el análisis este fallando, la respuesta esta en que allí la red social utilizada es Weibo, no Twitter.

Primera parte

En este segundo cuadro de mandos, podemos ver la actividad de twitter en la primera mitad del derbi madrileño. Se observa una gran cantidad de actividad en los momentos clave del Atlético de Madrid, si bien es cierto que cuando Isco mete el gol del Madrid la actividad en twitter vuelve a crecer equiparandose a los momentos de gloria del Atlético.

Esto ha sido un ejemplo simple con un partido de fútbol, pero las posibilidades son infinitas, ya sea para análisis de mercados, penetración de cierta marca en cierto territorio nacional/internacional o visualizar como miles de personas perciben un tema en concreto.

¿En qué puede beneficiar el Big Data al sector textil?

El Big Data nos permite identificar patrones ocultos en los datos, aplicando técnicas avanzadas de análisis de datos se pueden resolver preguntas de negocio del sector textil como:

  • ¿Cómo se va a comportar determinada familia de producto? (bolsos, chaquetas, zapatos)
  • ¿Qué color de bolso se va a llevar la próxima temporada?
  • Predecir la demanda en función del comportamiento de los compradores
  • Podré calcular mis stocks de maniobra y seguridad para satisfacer la demanda
  • ¿Cómo va afectar la meteorología a mis ventas?

Mucha de esta información ya se encuentra en nuestros sistemas, pero… además…! Gracias al Big Data para el sector textil, podremos vincular información aparentemente no relacionada como pueden ser bases de datos meteorológicas, redes sociales, bases de datos abiertas (open data)…

textil tendencias

VER, PREDECIR, AVISAR (Predicción con alarmas)

Con las herramientas y las técnicas adecuadas, el Big Data nos permite:

  • Ver lo que sucede en nuestra empresa, en nuestro entorno. Mucha información ya la tenemos, oculta entre una montaña de datos. El Big Data nos permite hacerla visible.
  • Predecir lo que puede pasar, integrando todas aquellas variables que de manera crucial nos influyen en las estimaciones de nuestros productos textiles.
  • Avisar de anomalías y comportamientos extraños. Monitorizar nuestras actuaciones y descubrir cuando nos estamos saliendo de los parámetros adecuados de forma preventiva.

Todas estas preguntas y muchas más, se pueden contestar mediante análisis de datos con técnicas “Big Data”. El Big Data puede ayudar a resolver muchas preguntas de negocio del sector textil.

Si quieres ver algún ejemplo de proyectos de big data para el sector textil, no dudes en ponerte en contacto con nosotros en Esta dirección de correo electrónico está protegida contra spambots. Usted necesita tener Javascript activado para poder verla.

TECNICAS DE TEXT MINING PARA ANALIZAR TWITTER

Hoy traemos al blog un artículo diferente. Y es que, utilizando como hacemos diferentes herramientas analíticas, como KNIME, podemos no solo explorar los datos internos de nuestras compañías, sino también mirar al exterior.

Twitter es un gran recurso si queremos conocer a nuestro entorno. Opiniones, críticas viscerales, halagos (de vez en cuando), … todo ello se concentra en Twitter. Así que, aprovechando que KNIME permite de forma sencilla conectarse a Twitter, decidimos hacer un rápido ejemplo.

EL DERBI A TRAVÉS DE TWITTER.

Lo primero que tenemos que crear, es una API de Twitter. Hay varios sitios donde lo explican (por ejemplo, aquí  https://www.uno-de-piera.com/crear-una-aplicacion-para-twitter/). Con la API de Twitter obtendremos una serie de claves y token, que tendremos que copiar en el nodo de conector de KNIME. 

el nodo de twitter bueno

 

Una vez conectados, empezamos nuestro proceso de extracción y tratamiento de información. Además de las herramientas de minería de texto que KNIME posee, diseñamos aquellas soluciones que necesitamos para el tratamiento ad hoc a nuestro caso de estudio (teniendo en cuenta que muchas de las herramientas de minería de texto están muy bien implementadas para el idioma inglés, siendo de menos utilidad para el castellano).

workflow

 

Como Twitter es muy grande, decidimos basarnos en la lista de Trending Topic para analizar bajo qué hashtag podemos tener más mensajes para analizar. Es por ello que usamos el #Megaderbichampions para nuestro análisis.

Gracias a distintas herramientas de minería de texto, podemos ir tratando nuestros tweets, teniendo siempre como objetivo final la creación de un Tag Cloud: una nube de palabras clavecon las que poder extraer información acerca de nuestro caso de estudio, en este caso, el derbi.

nube de palabras real madrid

Hemos polarizado distintas palabras para una mejor comprensión. A la luz de estos resultados, está claro que el Real Madrid fue el único equipo del partido. Y en concreto, Cristiano Ronaldo, que fue muy comentado en los tweets (sin duda, fue el protagonista del encuentro).

Debido a la variabilidad que puede tener analizar simplemente los tweets, el Tag Cloud nos sirve de guía para hacer una profundización en la información, y tratar de encontrar motivos. Por ejemplo, el hecho de que este fuera el hashtag utilizado por el canal Mega de Atresmedia, crea un sesgo hacia los comentaristas del mismo (en este caso, la etiqueta “petón” nos indica a José Antonio Martín Otín “Petón”, conocido periodista y fan rojiblanco.)

Dos nombres nos resultan curiosos en esta nube: “Messi” y “Benzema”.

¿JUGABAN MESSI Y BENZEMA? 

A partir de los datos de Twitter, decidimos investigar ambos conceptos. 

Los tweets que enlazaban con Messi, al contrario de lo que podíamos suponer al principio (la eterna comparación de quién de los dos es mejor), fueron principalmente tweets de burla, que enlazaban el hecho de que el Barcelona estuviese eliminado de la Champions, y que Messi enseñara su camiseta en el último clásico:

lo de messi

 

En cuanto a Benzema, decidimos seguir el rastro de los tweets, y descubrimos algo curioso.

nube de palabras benzema

Algunas críticas de los seguidores y el bajo rendimiento del jugador en el partido de ayer, hicieron que varios se planteasen las comparaciones con otros delanteros, ¿podría haber jugado Morata?

NECESIDAD DEL ANALISTA PARA UN CONOCIMIENTO MAYOR.

Esto ha sido un pequeño ejemplo, hecho de una manera ágil sobre el partido de ayer. KNIME nos permite llevar a cabo este proceso de minería de texto sobre grandes volúmenes de datos. Podríamos ampliar las capturas, las fuentes de datos, incluso añadir nuevas plataformas de social media. Pero aun con todo, es necesario la supervisión y el “olfato” de un analista, que permita ver dónde flaquea el análisis, dónde indagar más y cómo enriquecer el tratamiento de la información.

 

Miércoles, 29 Marzo 2017 08:27

KNIME, UN MINERO PARA LA MONTAÑA DE DATOS

Escrito por


KNIME PARA EMPODERANDAR AL USUARIO DE NEGOCIO.miinero

Siempre decimos que nuestro objetivo es empoderar a los clientes (especialmente clientes de negocio, no técnicos) y crearles el escenario, el control y los conocimientos necesarios para que, una vez desarrollado todo el proyecto, tengan la autonomía de utilizar las soluciones dadas, poder investigar y tenernos como soporte para desarrollar nuevas líneas de análisis y conocimiento.

Quizá un aspecto importante, pero no muy comentado de KNIME, es la facilidad que tiene para la integración de bases de datos y la realización de consultas SQL. Hasta ahora, muchos usuarios de negocio dependían de alguien externo (alguien de IT), para desarrollar nuevas consultas en las BBDD, dependiendo del “…de informática” para explorar por las fuentes de datos.

¿CÓMO USAR KNIME PARA EXPLORAR LAS BASES DE DATOS?

Existen aplicaciones que permiten desarrollar consultas SQL en un entorno más amigable y sencillo. KNIME acaba con todo ello de un plumazo.

En KNIME, por ejemplo, una consulta join es tan sencilla como arrastrar un Joiner Node, conectar las entradas, y explorar el tipo de unión que queremos (en una pestaña despegable Inner, Left Outer, Right Outer o Full Outer). Como siempre, podemos entender más acerca del nodo en la parte derecha (Node Description). Para elegir las columnas que nos interesa integrar en la consulta, es tan simple, como seleccionarlas en la parte Include.

column selection

Este es un ejemplo sencillo de cómo podemos realizar cualquier consulta, lo cual es especialmente útil en las bases de datos. Además, KNIME se ejecuta en la base de datos, de tal forma que si llevamos a cabo una operación de group by o join (como en el ejemplo) KNIME ejecuta la consulta en la base de datos, obteniendo de ella únicamente el resultado, y con ello maximizando el recurso de la memoria.

KNIME, COMO MINERO DE CABECERA

Que consideramos a KNIME como una herramienta clave en nuestros procesos analíticos, no es ninguna novedad. Se ha resuelto como una ayuda crucial para llevar a cabo el proceso de minería y lo que se ha llamado Business Discovery, especialmente para el usuario de negocio, que no tiene ni el tiempo ni los conocimientos adecuados para elaborar complejas consultas en las inmensas bases de datos de las compañías. Necesita facilidad, rapidez y agilidad, y KNIME ofrece todo ello. Su facilidad de exportación a otras plataformas más visuales (como Qlik o Tableau) permite, además, mejorar nuestra comunicación y comprensión de la información y tener una transmisión de conocimientos eficaz.

¿quieres explorar tus datos o sigues dependiendo de otros?

Página 1 de 3