Big Data

“Big Data” es el término utilizado en tecnología que describe grandes cantidades de datos estructurados como no estructurados, que están acumulando las organizaciones día a día. Lo importante de este fenómeno, no es la cantidad de datos, sino, lo que hacen con éstos. Los análisis de estos datos conlleva a una mejor toma de decisiones y la implementación de nuevas estrategias.

Dimensiones a considerar en “Big Data”:

Volumen, las organizaciones almacenan datos de una gran variedad de orígenes, incluyendo transacciones comerciales, “social media”, información de sensores, etc. En el pasado, almacenar grandes volumenes de datos era considerado un problema y hasta imposible, pero con nuevas tecnologías como Hadoop, esto ya es una realidad.

Velocidad,  el flujo de datos en estos momento se esta dando a una velocidad sin precedentes y debe ser gestionada eficientemente. Sensores, RFID tags, métricas, etc.  nos estan llevando a gestionar los datos casi en tiempo real.

Variedad,  los datos vienen en cualquier tipo de formato, desde estructurado, numérico en base de datos tradicionales hasta no estructurados como documentos de texto, correos, video, audio, transacciones financieras, etc.

Variabilidad, en adición al incremento de la velocidad y variedad, los flujos de datos pueden ser inconsistentes, con picos variables y sin estructura.

Complejidad, actualmente los datos vienen en múltiples formatos y orígenes, lo cual hace dificil ligarlos,  depurarlos y transformarlos a través de los sistemas. Sin embargo, es necesario conectarlos, encontrar relaciones, jerarquias y multiples ligas, sino sus datos se salen de control y no generan valor.

La importancia de “Big Data” proviene del análisis y procesamiento de una gran cantidad de datos que provienen de cualquier origen y encontrar respuestas que  permitan reducción de costos, disminución de tiempos, desarrollo de nuevos productos y una mejor toma de decisiones.

Cuando combinamos “Big Data” con buenos análisis se consigue:

  • Determinar causas de fallas casi en tiempo real.
  • Generar cupones de descuento en el punto de venta basados en los hábitos de compra.
  • Recalcular riesgos en portafolios financieros casi al instante.
  • Detectar comportamientos fraudalentos antes que afecte a la organización.

Refinamiento de datos

Mejora de datos (Data refining)

Es un proceso que mejora diferentes tipos de datos o datos dispares dentro de un contexto común para incrementar el conocimiento y entendimiento de éstos, disminuyendo la variabilidad y redundancia, desarrollando un recurso de datos integrados.  Datos dispares es la materia prima y datos integrados es el producto final.

Esta compuesto de diferentes subconjuntos dependiendo de la implementación de base de datos o “data warehouse”. Es uno de los aspectos más importantes del “data warehousing”, porque datos sin mejora puede causar serios descalabros en las estadísticas finales que se proveen y que será utilizado por la compañia en sus sistema de inteligencia del negocio.

Aplica a muchas etapas de una implementación de “data warehouse”, desde la planeación pasando por el modelado de datos, por la integración final de los sistemas, hasta el funcionamiento del sistema de inteligencia del negocio.

Comenzando con el modelaje de datos, la mejora de datos ocurre cuando en el proceso de desarrollo del esquema conceptual, la semántica de la organización es descrita. Todas las abstracciones de las entidades y sus relaciones son identificadas y garantizadas que son basadas en eventos y actividades reales de la compañia. En esta etapa la mejora de datos entra en acción eliminando aspectos innecesarios. Lo mismo pasa con el desarrollo del esquema lógico, donde las tablas y columnas, tags XML y clases de objetos son descritos y la mejora de datos asegura que las estructuras que contienen los datos están bien definidas.

En el modelo entidad-relación (ERM), técnica de modelado de datos donde es definida la representación de datos estructuradas y la mejora de datos es muy importante. Esta es una etapa en el diseño del sistema de información donde el modelo es usado para describir las necesidades y el tipo de información que sera almacenado en la base de datos durante el análisis de requerimientos. Asegura que la data no sea redundante y se mantiene la integridad para que el proceso de ingreso, borrado o modificación sea gestionado fácilmente sin sacrificar la calidad de los datos finales. En este aspecto, los datos son mejorados asegurando que todas las relaciones entre las entidades y sus atributos son exactos y seguros.

También es parte del proceso de normalización de la base de datos, técnica utilizada para minimizar la duplicación de información en el diseño de base de datos relacionales. Como resultado la base de datos es protegida de ciertos tipos de inconsistencias.