Archivo por meses: septiembre 2013

¿Que problemas soluciona el Data Mining o Minería de Datos?

La minería de datos o data Mining es un conjunto de técnicas de análisis que sirven para la extracción de conocimiento que esta implícito en los datos.

Los problemas que la minería de datos puede solucionar se pueden separar en 5 aspectos:

  1. Clasificación. Consiste en definir reglas lógicas basadas en un conjunto previo de datos para identificar si un nuevo objeto pertenece a una clase u otra.  Es la función del data mining más utilizada ya que su aplicación es determinante para las empresas. Ejemplo: Clasificar si un cliente será moroso en los siguientes meses. Clasificar si un cliente se dará de baja o no. Determinar  a qué nivel socioeconómico pertenece una persona.

2. Segmentación. Consiste en agrupar objetos en base a su similaridad. Se crean clusters (segmentos)  diferentes entre sí pero que internamente son homogéneos. Ejemplo: Segmentación por estilos de vida. Segmentación por comportamiento de uso.

3. Análisis Asociativo. En base a data transaccional se busca asociar objetos que de forma conjunta tienen mayor probabilidad de ocurrencia. Ejemplo: Próximo Mejor Producto que ofrece Amazon.com,  Packs promocionales para la venta en supermercados.

4. Predicción. Predecir valores futuros a partir de una seríe de datos.  Ejemplo: Estimación de precios de un commodity, estimar las ventas de un producto, etc.

5. Estimación. Estimar un valor puntual, para esto se utiliza diversos análisis, como la regresión multivariada. Ejemplo: Estimar el sueldo de un cliente, Estimar la edad de las personas en base al uso de un servicio.

¿Cuál utilizarías en tu empresa u organización?

  • Twitter
  • del.icio.us
  • Digg
  • Facebook
  • Technorati
  • Reddit
  • Yahoo Buzz
  • StumbleUpon

¿Que son los Árboles de Decisión?

El árbol de decisión es una de las técnicas de Data Mining más utilizada en todo el mundo. Se encuentra dentro de las técnicas de clasificación, sumamente útil en las áreas de negocios de las principales compañías.
Su gran utilización se debe a que es muy fácil la interpretación de los resultados obtenidos.
Otra ventaja de los árboles de decisión es que las opciones posibles de una determinada condición son excluyentes. Esto permite que luego de analizar la situación se pueda tomar una acción o decisión especifica.
Por ejemplo si deseamos tomar una decisión con respecto a otorgar un crédito o no en una institución de microfinanzas. Según el árbol debemos tomar en cuenta en primera instancia el ingreso del cliente, si el sueldo es menor a S/. 2,000 presenta un alto riesgo, por lo que la decisión será no otorgar el crédito. Si en cambio tiene ingresos mayores a S/. 5,000 y tiene una buena historia crediticia, la decisión será de otorgar el crédito.

arbol_decision

Como se puede ver la aplicación de un árbol de decisión es muy sencilla. Para cada nuevo cliente se deberá de seguir la secuencia lógica realizando las preguntas y tomando un camino según cada respuesta. De esta manera el árbol de decisión funciona como un clasificador para tomar una decisión, otorgar o no el crédito.
Este mismo árbol puede expresarse como un algoritmo de reglas que puede ser implementado en cualquier sistema de información, base de datos, data mart o data warehouse.
Por ejemplo el siguiente algoritmo refleja los resultados del árbol de decisión:

Si Ingreso < 2000 Entonces No Si Ingreso > 2000 Y Perfil Creditico = Sin Historia Entonces No
Si Ingreso > 5000 Y Perfil Creditico = Mala Entonces Si
En otro Caso No

La tarea para un profesional en analítica no solamente será el de interpretar correctamente el árbol de decisión, lo cual es sencillo, sino también el poder construirlo a partir de los datos. Para esto existen métodos y algoritmos de aprendizaje de árboles de decisión:

  • CHAID. CHi-squared Automatic Interaction Detection
  • C4.5. y C5, Etc.

¿Alguna vez has utilizado un árbol de decisión? Recomiendo llevar el curso Taller de Data Mining para profundizar este y otros temas.

  • Twitter
  • del.icio.us
  • Digg
  • Facebook
  • Technorati
  • Reddit
  • Yahoo Buzz
  • StumbleUpon

¿Que es el Text Mining?

Una de las técnicas de análisis de datos que tendrá un gran crecimiento en su uso e importancia es justamente el Text Mining. Se puede entender al Text Mining como el conjunto de herramientas que ayudan extraer conocimiento automático a partir de información no estructurada.

Con información no estructurada nos referimos a textos los cuales pueden tener diversas fuentes como comentarios en una página web, encuestas de opinión, grabación de llamadas telefónicas, cartas e emails entre los más importantes.

El reto finalmente es transformar la información “no estructurada” en bases de datos que puedan ser fácilmente abordadas en técnicas de análisis  ya conocidas como en Data Mining.

A continuación un caso de ejemplo de cómo se aplica el Text Mining en un problema real, para el caso de medición de la opinión de clientes.


  • Twitter
  • del.icio.us
  • Digg
  • Facebook
  • Technorati
  • Reddit
  • Yahoo Buzz
  • StumbleUpon