Elementos filtrados por fecha: Junio 2017 - Consultoría Logística

Apache Spark es un software que se encarga de distribuir o paralelizar los datos a la hora de analizarlos.

Hoy en día se habla mucho de la paralelización de los datos en diferentes máquinas para procesar la información más rápido, ¿pero realmente que es eso? Paralelizar los datos en diferentes máquinas no es más que dividir los datos en archivos más pequeños. Estos archivos más pequeños son enviados cada uno a una máquina diferente. De esta forma, cada máquina procesará una pequeña parte del fichero inicial en lugar de analizar el fichero completo.

spark consumos

Si tenemos el siguiente archivo: consumos.csv con 2 columnas, la primera indica la hora a la que se recogieron los datos y la segunda indica el consumo de KW/h. Este fichero tiene 10 momentos diferentes en las que se han recogido los datos. Creamos un clúster con Spark como vemos en la siguiente figura:

Spark - master . trabajador

Una de las máquinas es la encargada de controlar las operaciones, que recibe el nombre de máster, y las otras dos máquinas comunicadas con el máster, reciben el nombre de trabajadores. Si mandamos hallar la suma de KW/h a nuestro clúster, que procede de la siguiente forma:

  1. Divide el fichero consumos.csv en 2 ficheros, particion1.csv y particion2.csv, cada uno de ellos de 5 filas
  2. Manda a una máquina del clúster el fichero particion1.csv y a la otra el fichero particion2.csv
  3. Cada máquina del clúster hace la suma de la segunda columna y devuelve el resultado al master
  4. Una vez que el master ha recibido los resultados de cada máquina, suma las dos cantidades recibidas
  5. Spark devuelve la suma total de la columna de los consumos.

Ahora bien, si queremos hallar la media del consumo, cada máquina devuelve la suma como ha hecho antes y, también, devuelve el número de filas que tenía el fichero que ha analizado. En nuestro ejemplo, se actuaría de la siguiente forma:

  1. La máquina que procesa el fichero particion1.csv devolvería una suma de consumos de 0.981 y el número de filas que ha analizado: 5
  2. La máquina que procesa el fichero particion2.csv devolvería una suma de consumos de 0.864 y el número de filas que ha analizado: 5.
  3. La máquina master, suma el número de filas que envía cada máquina y suma cada una de las sumas que recibe de cada una de las máquinas y hace la siguiente división:

spark - media

Veamos de manera gráfica cómo calcularía la media de los consumos:

spark ejemplo

 

Concluimos por lo tanto la simplicidad y velocidad que nos aporta Spark ante un problema de grandes dimensiones. Divide y vencerás!

 

Publicado en Gestión de Datos
Sábado, 03 Junio 2017 10:04

MDM - MASTER OF WHAT?

Con la infoxicación que existe hoy en día, muchas organizaciones necesitan de alguien que controle, filtre, limpie y estructure sus datos maestros.

Muchas veces hemos oído que quien controla los datos controla el poder, pero también hay que recordar que un gran poder conlleva una gran responsabilidad… Entonces, ¿en manos de quién dejamos la correcta gestión de nuestros datos maestros?

MDM 2

¿Qué son los datos maestros?

La mayoría de los sistemas de software tienen listas de datos que son compartidos y utilizados por varias de las aplicaciones que componen el sistema. Por ejemplo, un sistema ERP  como mínimo tendrá un maestro de cliente, un maestro de artículos y un maestro de cuentas. Estos datos maestros son a menudo uno de los activos clave de una empresa.

¿Qué es la Gestión de Datos Maestros? - MDM

MDM es el acrónimo de Master Data Management. Esta importante y cada vez más popular disciplina empresarial, está diseñada para eliminar el elevado número de errores, redundancias e inconsistencias que existen en los diversos y fragmentados entornos de información de hoy en día. MDM puede ayudar a las organizaciones a mejorar la productividad e impulsar el rendimiento operativo mejorando la precisión de la información y el intercambio de datos dentro y fuera de la empresa.

MDM 3

El MDM se ocupa del quién, qué, cómo y dónde, tanto de actividades comerciales como de las venta, las compras, las diferentes interacciones con clientes, proveedores y empleados.

Cada vez vemos más retos recurrentes en los negocios que exigen la creación de un centro de datos que se extiende a través de aplicaciones, procesos de negocio, líneas de negocio, etc. Estos son los casos típicos de uso y las razones por las cuales nuestros clientes están necesitando su propio MDM.

MDM 4

¿Qué herramientas utilizamos para crear una lista Maestra y gestionar nuestros Datos Maestros?

Considerando las implementaciones MDM que existen en el mercado, LIS-Solutions intenta buscar una solución que ofrezca las siguientes características clave:

  • Gestión de datos unificada para MDM, integración de datos y gestión de procesos de negocio (BPM).
  • Manejo de múltiples dominios en un solo conjunto de tecnología y hardware.
  • Un  amplio conjunto de conectores de integración de datos OOTB.
  • Implementaciones flexibles, como MDM en instalaciones  en la nube  y como servicio.
  • Integración con Big Data
  • Escalibilidad horizontal y verticalmente
  • Un enfoque de plataforma que evite el bloqueo de proveedores

MDM 5

Talend es el único proveedor que ofrece un completo MDM, ETL, data quality, BPM, Enterprise Service Bus (ESB) y una solución de integración de datos en una sola plataforma tecnológica, compatible con muchas de nuestras herramientas de Business Intelligence como Qlik o Tableu.

Además es el único proveedor que ofrece un perfil de datos en una gran solución de datos a través de una plataforma unificada, con un repositorio de código común y herramientas para programar metadatos.

MDM 1

 

Una solución de MDM es el pináculo de las tecnologías de integración de datos, y además tiene la capacidad de trabajar con múltiples dominios, proveer mejores mecanismos para el mantenimiento de la calidad de los datos y proporcionar su funcionalidad en forma de servicios, que permiten integrarla con mayor facilidad a ambientes heterogéneos. MDM puede ayudar a cualquier tipo de organización a cumplir el objetivo de contar con un repositorio central de información, necesaria tanto para operaciones como para la toma de decisiones.

Si desea tener más información sobre Master Data Management (MDM), contacte con nosotros.

 

Publicado en Gestión de Datos