Mejora de datos (Data refining)
Es un proceso que mejora diferentes tipos de datos o datos dispares dentro de un contexto común para incrementar el conocimiento y entendimiento de éstos, disminuyendo la variabilidad y redundancia, desarrollando un recurso de datos integrados. Datos dispares es la materia prima y datos integrados es el producto final.
Esta compuesto de diferentes subconjuntos dependiendo de la implementación de base de datos o “data warehouse”. Es uno de los aspectos más importantes del “data warehousing”, porque datos sin mejora puede causar serios descalabros en las estadísticas finales que se proveen y que será utilizado por la compañia en sus sistema de inteligencia del negocio.
Aplica a muchas etapas de una implementación de “data warehouse”, desde la planeación pasando por el modelado de datos, por la integración final de los sistemas, hasta el funcionamiento del sistema de inteligencia del negocio.
Comenzando con el modelaje de datos, la mejora de datos ocurre cuando en el proceso de desarrollo del esquema conceptual, la semántica de la organización es descrita. Todas las abstracciones de las entidades y sus relaciones son identificadas y garantizadas que son basadas en eventos y actividades reales de la compañia. En esta etapa la mejora de datos entra en acción eliminando aspectos innecesarios. Lo mismo pasa con el desarrollo del esquema lógico, donde las tablas y columnas, tags XML y clases de objetos son descritos y la mejora de datos asegura que las estructuras que contienen los datos están bien definidas.
En el modelo entidad-relación (ERM), técnica de modelado de datos donde es definida la representación de datos estructuradas y la mejora de datos es muy importante. Esta es una etapa en el diseño del sistema de información donde el modelo es usado para describir las necesidades y el tipo de información que sera almacenado en la base de datos durante el análisis de requerimientos. Asegura que la data no sea redundante y se mantiene la integridad para que el proceso de ingreso, borrado o modificación sea gestionado fácilmente sin sacrificar la calidad de los datos finales. En este aspecto, los datos son mejorados asegurando que todas las relaciones entre las entidades y sus atributos son exactos y seguros.
También es parte del proceso de normalización de la base de datos, técnica utilizada para minimizar la duplicación de información en el diseño de base de datos relacionales. Como resultado la base de datos es protegida de ciertos tipos de inconsistencias.