Continuando con su valioso aporte alrededor de un tema de tanta actualidad y gran perspectiva como es la Ciencia de Datos; en esta nueva entrega, Juan Carlos Canchano nos brinda los highlights respecto a CRISP-DM (Cross Industry Standard Process for Data Mining), estándar de referencia para el desarrollo de proyectos de minería de datos que aborda una manera en la que los especialistas en este campo tratan los problemas o necesidades vinculados a los negocios.
Ciencia de Datos: CRISP-DM y su proceso de implementación
Son seis pasos o etapas básicas que utiliza la metodología en cuestión, a decir del articulista, necesarias para un proyecto de data mining.
(americasistemas.com.pe. Lima, Perú – 13 de octubre 2021) La metodología CRISP-DM es una de las más utilizadas actualmente para el desarrollo de proyectos de minería de datos. Y es que, para poder implementar una tecnología en un negocio, se requiere una metodología a seguir; metodologías como ésta usualmente proceden de las experiencias y también de los procedimientos estándar más utilizados. En el caso de los proyectos de implementación de minería de datos una de las metodologías que ha tenido mayor aceptación y reconocimiento por parte de las empresas privadas y organismos públicos es precisamente CRISP-DM.
La metodología CRISP-DM consta de seis etapas:
- Comprensión del problema o negocio: Esta es la etapa más importante, ya que, si no se comprende correctamente el negocio, o problema, no servirá pasar a las siguientes etapas. Sus actividades principales son:
– Identificación del problema: Aborda el entendimiento y delimitación de la problemática, así como la identificación de los requisitos, restricciones, supuestos y beneficios del proyecto.
– Determinación de objetivos: Establece los resultados a obtener al proponer la solución basada en un modelo de minería de datos.
– Evaluación de la situación actual: Describe el estado actual antes de ser implementada la solución propuesta de minería de datos, con el fin de tener un objeto de comparación que permita medir el grado de éxito del proyecto. - Comprensión de los datos: Comprende la recolección inicial de datos, con el objetivo de establecer un primer acercamiento con el problema, conociendo a los datos, identificando su calidad y estableciendo las primeras relaciones que permitan definir correlaciones entre variables. Sus actividades principales son:
– Recolección de datos: Consiste en obtener los datos a utilizar en el proyecto a partir de algunas fuentes de datos, e identificando las técnicas utilizadas para su recolección.
– Exploración de datos: Se basa en aplicar pruebas estadísticas que permitan conocer las propiedades de los datos. - Preparación de datos: Mayormente esta es la etapa que demanda más tiempo en el proyecto, aquí se seleccionan los datos que serán transformados de acuerdo con los resultados de la etapa anterior a fin de ser utilizados en la etapa de modelado. Sus actividades principales son:
– Limpieza de datos: Para este fin se aplican diferentes técnicas, por ejemplo, normalización de datos, tratamiento de valores nulos, tratamiento de duplicados e imputación de datos.- Transformación de datos: Aquí se cambia la estructura o el formato de ciertos datos sin alterar su significado, a fin de poder ser utilizados en la etapa de modelado. - Modelado: En esta etapa se obtiene el modelo propuesto de minería de datos. Sus actividades principales son:
– Selección de técnica de modelado: Se elige la técnica apropiada de acuerdo con el problema a resolver, los datos disponibles, las herramientas de minería de datos disponibles.
– Selección de datos de prueba: En algunos modelos se necesita segmentar la muestra en datos de entrenamiento y de prueba.
– Obtención del modelo: Aquí se genera el mejor modelo mediante un proceso iterativo con los datos de prueba y de entrenamiento. - Evaluación del modelo: En esta etapa se determina la calidad del modelo teniendo en cuenta el análisis de determinadas métricas y criterios estadísticos del mismo, comparando los resultados con resultados previos. De acuerdo con los resultados de esta etapa se decide continuar con la última fase de la metodología, revisar alguna de las etapas anteriores o incluso iniciar desde cero con un nuevo proyecto.
- Implantación del modelo: Aquí el modelo ya ha sido construido y evaluado. Esta etapa explota, mediante acciones específicas, el conocimiento adquirido mediante el modelo en las etapas previas, pudiendo ser aplicado el modelo a diversos conjuntos de datos o también dentro de un proceso del negocio. Por ejemplo, en detección de fraudes, análisis de endeudamiento crediticio, entre otros casos. Todo esto por lo general finalizando con la documentación y presentación de resultados del modelo para el usuario, con el fin de obtener un incremento del conocimiento sobre un problema o proceso del negocio.
Who is who: Juan Carlos Canchano Vizcarra, autor del presente artículo es especialista en Ciencia de Datos de las canteras de la Escuela de Ingeniería de Sistemas de la UNI y también miembro del PMI Lima Perú Chapter con certificaciones en Ciencia de Datos, Analítica de datos y en Dirección de Proyectos.