Archivo por meses: noviembre 2013

El Principio de Parsimonia en la Análitica

El principio científico de Ockam, también conocido como el principio de parsimonia, indica que ante dos teorías que explican el mismo fenómeno, la teoría mas simple tiene mayor probabilidad de ser la correcta.

¿Como se aplica este principio para el análisis o Data Mining (DM)?

Pues de forma análoga diremos que ante dos modelos de DM que tengan similares niveles de exactitud. El modelo mas simple será el ganador. Este principio facilita enormemente la producción de modelos de DM. Por cuanto ayuda al equipo de desarrollo a mejorar los tiempos de respuesta y también al usuario final a entender mejor los resultados.

¿y que criterios debemos utilizar para simplificar un modelo de DM?

Para poder evaluar la simplicidad del modelo, termino que es subjetivo, yo evaluaría ciertos aspectos:
  • Centrarse en un Objetivo Especifico. Es importante para cualquier estudio tener claro el objetivo que cumplirá el modelo a desarrollar. Muchas veces los objetivos planteados por el negocio se resuelven juntando varios modelos o varias soluciones. Por ejemplo, si el objetivo del negocio es incrementar la rentabilidad de una campaña. Esta definición puede ser muy amplia por lo que sugiero plantear una serie de objetivos específicos, Divide y vencerás, por ejemplo:
    • a) Identificar a los clientes más rentables.
    • b) Identificar a los clientes más propensos para dicha campaña.
    • c) Identificar a los clientes menos morosos.
    • d) Etc.
Un buen modelo sólo debe referirse a uno de estos objetivos específicos, de esta forma se hace mas precisa su evaluación.
  • Uso de pocas variables. Será mejor modelo aquel que explique la respuesta con el menor numero de variables.  Citando al estudio que realizó la consultora Rexer Analytics a nivel mundial, el 65% de los modelos se generan con menos de 20 variables.
data-mining-algorithms

 

  • Uso de Variables Complejas. Es conveniente utilizar variables simples. Por ejemplo, evitar el incluir variables que son producto de un análisis factorial o de componentes principales. Estas muchas veces son difíciles de interpretar tanto para el equipo que desarrolla el modelo como para el usuario final.
  • Técnica de Modelado. En muchas ocasiones escoger la técnica correcta se vuelve un tema bastante complicado. Dependiendo del fenómeno de estudio es posible iniciar la elaboración del modelo con técnicas sencillas como los Arboles de Decisión o el Análisis de Regresión Simple.
Pese a lo explicado el principio de parsimonia debe aplicarse con cuidado por cuanto lo más sencillo no necesariamente es lo correcto.
¿Estas de acuerdo con estos criterios? ¿Que otros se pueden incluir?
  • Twitter
  • del.icio.us
  • Digg
  • Facebook
  • Technorati
  • Reddit
  • Yahoo Buzz
  • StumbleUpon