• informacion@pluralmed.com
  • Miami
  • Empresas
CRISP DM
CRISP DM
CRoss Industry Standard Process for Data Mining (CRISP-DM)
Método más usado por Científico de datos e Ingenieros en Inteligencia Artificial
Publicado en 1999 para estandarizar los procesos de minería de datos.

Metodología

Es una metodología de 6 pasos secuenciales, mismos que pueden usarse de forma circular para hacer mejora continua de algoritmos de predicción.

La combinación flexible de estos pasos permite a los científicos de datos crear algoritmos predictivos de forma más confiable.

Todos los proyectos comienzan con un buen entendimiento de las necesidades del cliente. Los proyectos de AI no son la excepción a esta regla y la metodología CRISP-DM reconoce este punto como algo muy relevante.

Fases de la metodología

I.

Entendimiento del negocio

En este punto nos enfocamos en visualizar el objetivo y requerimientos del proyecto.
II.

Comprensión de los datos

Con base en el entendimiento del negocio se deberá de centralizar la atención en identificar, coleccionar y analizar los conjunto de datos que pueden ayudar a cumplir con las metas trazadas en la fase I.
III.

Preparación de los datos

En esta fase se preparan los datos o conjunto de datos para ser modelados. También nos referimos a esta etapa como fase de manipulación, siempre cuidando la integridad del significado del conjunto de datos.
IV.

Modelación

En esta sección se crean varios modelos de Inteligencia Artificial.
V.

Evaluación

Generamos varias métricas de evaluación de los modelos obtenidos en la fase anterior, cuidando que los modelos cumplan con las necesidades y objetivos del negocio. Es en esta fase que se determina cual es el mejor modelo.
VI.

Implementación

Los modelos solo son útiles cuando el cliente puede accesar sus resultados. Esta fase requiere de un previo acuerdo con el cliente para determinar cual es la mejor forma de consumir los resultados del modelo a ser implementado.

Secciones de la metodología

División

Cada fase esta dividia en actividades.

Las actividades generan un resultado específico.
Resultados

El resultado impacta a la fase siguiente.

Los resultados pueden ser asesorados por el cliente.
Opinión experta

Lor resultados mejoran con expertos involucrados.

Los algoritmos aprenden de los humanos.
Usuario final

El usuario final deberá saber exactamente que obtiene del modelo de IA.

El usuario final deberá poder consumir el modelo y eventualmente retroalimentar el proceso.
I

Entendimiento del negocio

  • 1. Determinamos los objetivos del negocio:

    El primer paso de la fase I es entender exaustivamente el objetivo del cliente y que desea obtener desde una perspectiva de negocio

  • 2. Evaluar la situación:

    Determinar los recursos disponibles, requerimientos del proyecto, riesgos y contingencias, y conducir un análisis costo beneficio.

  • 3. Determinar las metas del procesamiento de datos:

    Debemos determinar como sería un caso de éxito desde el punto de vista de la explotación de los datos.

  • 4. Crear plan del proyecto:

    Determinar tecnologías y herramientas que serán usadas en cada fase del proyecto. Con base en esto generar un plan de trabajo.

II

Comprensión de los datos

  • 1. Recopilar conjuntos de datos iniciales:

    Recopilar los datos necesarios y cargarlos en las herramientas de análisis si fuera necesario.

  • 2. Describir los datos:

    Examinar la colección de datos generando un directorio con el significado de los mismos. Posteriormente verificar formato, cantidad de records e identidades de los campos.
    Es importante la verificación de datos nulos y su tratamiento.

  • 3. Exploracion de los datos (EDA):

    Se deberá profundizar en los datos, para esto se hacen extracciones, visualización, identificación de relaciones entre variables.

  • 4. Verificación de calidad de datos:

    Basados en el EDA podremos ver rápidamente que tan limpios y completos se encuentran los conjuntos de datos. Los problemas de calidad de datos son documentados para poder mejorar los modelos de IA.

III

Preparación de los datos

  • 1. Selección de datos:

    Determinar que conjuntos de datos serán usados y documentar las razones por las cuales se incluye o excluye un dato.

  • 2. Limpieza de datos:

    En muchas ocaciones esta es una labor muy larga. Sin ella, podría obtener basura en los resultados. Las practicas mas usadas durante esta sección son remover datos con errores, corregir datos e imputar datos, ya sea de forma lógica o sintética.

  • 3. Construir datos:

    Derivación de nuevos atributos que sean de ayuda. Por ejemplo, obtener el indice de masa corporal de acuerdo al peso y la altura.

  • 4. Integración de datos:

    Crear nuevos conjuntos de datos al combinar datos de multiples fuentes.

  • 5. Formatear datos:

    Re formatear los datos si es necesario. Por ejemplo cambiar valores string en numéricos para poder hacer operaciones matemáticas entre ellos.

IV

Modelación

  • 1. Seleccionar técnicas de modelación:

    Determinación de algoritmos a ser probados (regresiones, redes neuronales, algoritmos múltiples relacionados, entre otros).

  • 2. Generar el diseño de las pruebas:

    Dependiendo del tipo de modelo deberemos de separar los datos en conjuntos de datos de entrenamiento, pruebas y validación.

  • 3. Construir el modelo:

    En la construcción del modelo se lleva a cabo programación específica para cada modelo y una sección hipersintonía para afinar los resultados. Esta sección puede ser tardada dependiendo de la cantidad de datos a ser procesados.

  • 4. Evaluación del modelo:

    Generalmente muchos modelos de AI compiten entre si y el experto deberá evaluar e interpretar los resultados de cada modelo basado en su dominio de conocimiento y en los parámetros predefinidos como criterios de éxito. El diseño de las pruebas de verificación se convierte algo crítico en este punto.

V

Evaluación

  • 1. Evaluar resultados:

    Verificar si los modelos cumplieron con los criterios de éxito para el negocio planteados inicialmente. Seleccionar los que deberíamos aprobar para el cliente.

  • 2. Revisar el proceso:

    Realizar una revisión general del trabajo concluido. Verificar que nada se haya pasado por alto y que todos los pasos hayan sido completados. Deberá hacerse una sumarización y corregir si se encontró algo fuera de lo normal.

  • 3. Determinar los siguientes pasos:

    Basado en las fases anteriores determinar si se puede proceder a implementar, iterar sobre el mismo proyecto o iniciar uno nuevo.

VI

Implementación

  • 1. Planeación de la implementación:

    Desarrollar y documentar un plan para la implementación del modelo seleccionado.

  • 2. Plan de monitoreo y mantenimiento:

    Desarrollar un plan de monitoreo y mantenimiento para evitar problemas durante la operación del modelo.

  • 3. Producir un reporte final:

    El equipo del proyecto documenta un sumario del mismo el cual incluye la presentacion final del resultado del procesamiento de datos.

  • 4. Revisión del proyecto:

    Se conduce una retrospectiva del proyecto acerca de lo que se realizó bien, lo que se puede mejorar y como realizar la mejora en el futuro.