Por nustra SmartB María Victoria Díaz
En el post anterior te mostré hasta la fase número 2, comprensión de los datos, hoy veremos las fases 3 y 4.
3.
Fase de preparación de los datos
En
esta fase y una vez efectuada la recolección inicial de datos, se procede a su
preparación para adaptarlos a las técnicas de Data Mining que se utilicen
posteriormente, tales como técnicas de visualización de datos, de búsqueda de
relaciones entre variables u otras medidas para exploración de los datos. La
preparación de datos incluye las tareas generales de selección de datos a los
que se va a aplicar una determinada técnica de modelado, limpieza de datos,
generación de variables adicionales, integración de diferentes orígenes de
datos y cambios de formato.
Figura 4.
Fase de preparación de los datos.
Esta
fase se encuentra relacionada con la fase de modelado, puesto que en función de
la técnica de modelado elegida, los datos requieren ser procesados de
diferentes formas. Es así que las fases de preparación y modelado interactúan
de forma permanente. La figura 5, ilustra las áreas de que se compone ésta, e
identifica sus salidas. Una descripción de las tareas involucradas en esta fase
es la siguiente:
Selección de datos. En esta etapa, se selecciona un
subconjunto de los datos adquiridos en la fase anterior, apoyándose en
criterios previamente establecidos en las fases anteriores: calidad de los
datos en cuanto a completitud y corrección de los datos y limitaciones en el
volumen o en los tipos de datos que están relacionadas con las técnicas de DM seleccionadas.
Limpieza de los datos. Esta tarea complementa a la anterior,
y es una de las que más tiempo y esfuerzo consume, debido a la diversidad de
técnicas que pueden aplicarse para optimizar la calidad de los datos a objeto
de prepararlos para la fase de modelación. Algunas de las técnicas a utilizar
para este propósito son: normalización de los datos, discretización de campos
numéricos, tratamiento de valores ausentes, reducción del volumen de datos,
etc.
Estructuración de los datos. Esta tarea incluye las operaciones de
preparación de los datos tales como la generación de nuevos atributos a partir
de atributos ya existentes, integración de nuevos registros o transformación de
valores para atributos existentes.
Integración de los datos. La integración de los datos, involucra
la creación de nuevas estructuras, a partir de los datos seleccionados, por
ejemplo, generación de nuevos campos a partir de otros existentes, creación de
nuevos registros, fusión de tablas campos o nuevas tablas donde se resumen características
de múltiples registros o de otros campos en nuevas tablas de resumen.
Formateo de los datos. Esta tarea consiste
principalmente, en la realización de transformaciones sintácticas de los datos
sin modificar su significado, esto, con la idea de permitir o facilitar el
empleo de alguna técnica de DM en particular, como por ejemplo la reordenación
de los campos y/o registros de la tabla o el ajuste de los valores de los
campos a las limitaciones de las herramientas de modelación (eliminar comas,
tabuladores, caracteres especiales, máximos y mínimos para las cadenas de
caracteres, etc.).
4. Fase de modelado
En esta fase de CRISP-DM, se
seleccionan las técnicas de modelado más apropiadas para el proyecto de Data
Mining específico. Las técnicas a utilizar en esta fase se eligen en función de
los siguientes criterios:
- Ser
apropiada al problema.
- Disponer
de datos adecuados.
- Cumplir
los requisitos del problema.
- Tiempo
adecuado para obtener un modelo.
- Conocimiento
de la técnica.
Figura
5. Fase del modelado.
Previamente
al modelado de los datos, se debe determinar un método de evaluación de los modelos
que permita establecer el grado de bondad de ellos. Después de concluir estas
tareas genéricas, se procede a la generación y evaluación del modelo. Los
parámetros utilizados en la generación del modelo, dependen de las
características de los datos y de las características de precisión que se
quieran lograr con el modelo. La figura 6 ilustra las tareas y resultados que
se obtienen en esta fase. Una descripción de las principales tareas de esta
fase es la siguiente:
Selección de la técnica de modelado.
Esta tarea consiste en la selección de la técnica de DM más apropiada al tipo
de problema a resolver. Para esta selección, se debe considerar el objetivo
principal del proyecto y la relación con las herramientas de DM existentes. Por
ejemplo, si el problema es de clasificación, se podrá elegir de entre árboles
de decisión, k-nearest neighbour o razonamiento basado en casos (CBR); si el
problema es de predicción, análisis de regresión, redes neuronales; o si el
problema es de segmentación, redes neuronales, técnicas de visualización, etc.
Generación del plan de prueba.
Una vez construido un modelo, se debe generar un procedimiento destinado a
probar la calidad y validez del mismo. Por ejemplo, en una tarea supervisada de
DM como la clasificación, es común usar la razón de error como medida de la
calidad. Entonces, típicamente se separan los datos en dos conjuntos, uno de
entrenamiento y otro de prueba, para luego construir el modelo basado en el
conjunto de entrenamiento y medir la calidad del modelo generado con el
conjunto de prueba.
Construcción del Modelo. Después de
seleccionada la técnica, se ejecuta sobre los datos previamente preparados para
generar uno o más modelos. Todas las técnicas de modelado tienen un conjunto de
parámetros que determinan las características del modelo a generar. La
selección de los mejores parámetros es un proceso iterativo y se
basa exclusivamente en los resultados generados. Estos deben ser interpretados
y su rendimiento justificado.
Evaluación del modelo. En esta tarea, los
ingenieros de DM interpretan los modelos de acuerdo al conocimiento
preexistente del dominio y los criterios de éxito preestablecidos. Expertos en
el dominio del problema juzgan los modelos dentro del contexto del dominio y
expertos en Data Mining aplican sus propios criterios (seguridad del conjunto
de prueba, perdida o ganancia de tablas, etc...).
Continuará...
No hay comentarios:
Publicar un comentario