Archivo del Autor: Jonny Chambi

¿Que es el Text Mining?

Una de las técnicas de análisis de datos que tendrá un gran crecimiento en su uso e importancia es justamente el Text Mining. Se puede entender al Text Mining como el conjunto de herramientas que ayudan extraer conocimiento automático a partir de información no estructurada.

Con información no estructurada nos referimos a textos los cuales pueden tener diversas fuentes como comentarios en una página web, encuestas de opinión, grabación de llamadas telefónicas, cartas e emails entre los más importantes.

El reto finalmente es transformar la información “no estructurada” en bases de datos que puedan ser fácilmente abordadas en técnicas de análisis  ya conocidas como en Data Mining.

A continuación un caso de ejemplo de cómo se aplica el Text Mining en un problema real, para el caso de medición de la opinión de clientes.


  • Twitter
  • del.icio.us
  • Digg
  • Facebook
  • Technorati
  • Reddit
  • Yahoo Buzz
  • StumbleUpon

¿Que es Web Analytics? y ¿Web Mining?

El sitio web de una empresa, profesional o cualquier organización es ahora mismo un canal de marketing, ventas, promoción e imagen. En cualquier caso, interactúa de u otra forma con todas las áreas de negocio, con objetivos, estrategias, resultados y retornos de inversión que pueden ser medidos y cuantificados.

La Analítica Web es un conjunto de técnicas relacionadas con el análisis de datos relativos a un sitio web con el objetivo de entender su tráfico como punto de partida para optimizar los diversos aspectos del mismo.

Las principales herramientas de Analítica Web son Google Analytics, Piwik, Yahoo Analytics, Omniture entre otras, las tres primeras son gratuitas y la última por ejemplo es de pago.

El Web Mining se sustenta desde la Analytica Web como la aplicación de las técnicas de Data Mining en la web. Se puede llegar a segmentar, realizar basket market analysis en tiempo real, modelos de propensión a la compra de productos, etc.

Para mayor detalle puedes revisar el siguiente documento:


  • Twitter
  • del.icio.us
  • Digg
  • Facebook
  • Technorati
  • Reddit
  • Yahoo Buzz
  • StumbleUpon

Software Libre de Data Mining

Con el desarrollo de las tecnologías de información y del hardware de los dispositivos informáticos, almacenar los datos no es costoso para las organizaciones. Ahora es posible que todas las empresas puedan generar y almacenar los datos dentro de sus sistemas para que más adelante puedan utilizar la información.

Sin embargo, muchas organizaciones no tienen claro cómo organizar la gran cantidad de datos y como explotarlas de tal forma que puedan extraer conclusiones importantes para el negocio. A menudo esto puede ser complicado si no se conocen las herramientas diseñadas para la misma. En todos estos casos es importante empezar utilizando las herramientas de Minería de Datos.

En esta oportunidad les comentaré acerca de los software utilizados para analizar grandes cantidades de bases de datos. Podríamos clasificarlas en software de uso comercial y los que son de código libre o conocidas como Open Source.

Uso Comercial. Son programas de minería de datos de pago. Estas herramientas pueden llegar a costar cientos de miles de dólares dependiendo el nivel de usabilidad y complejidad del negocio.

Entre las principales herramientas comerciales tenemos:

  • Enterprise Miner de SAS
  • Clementine de SPSS IBM
  • STATISTICA
  • Oracle Data Mining
  • Matlab
  • Etc.

A diferencia de las herramientas de uso comercial los software de Minería de Datos de código abierto no necesariamente son de pago. Se puede descargar estas herramientas de forma libre en la Web; sin embargo, no tienen ningún tipo de soporte por el uso de la misma.

Así tenemos algunas:

Rapid Miner. Se puede descargar de la web  http://rapid-i.com/. Simula todo el proceso de minería de datos. Tiene un menú principal en el que uno puede tener el control de todo el proceso de análisis, desde el acceso a los datos hasta los resultados finales. A mi parecer muy fácil de utilizar bastante intuitivo y no necesita de códigos. Asimismo, tiene una gran cantidad de algoritmos para cada tipo de análisis.

Orange.  http://orange.biolab.si/. Este software también tiene un entorno gráfico bastante llamativo y enfocado en las personas que no tienen mucha experiencia en minería de datos. Utiliza la metodología de SEMMA de SAS para organizar sus procedimientos. El único punto en contra que he podido encontrar, es el limitado acceso a los datos, ya que no cuenta con muchas herramientas para esto.

R.  http://www.r-project.org/. Es uno de los programas más utilizados por la comunidad científica estadística. Su uso es bastante avanzado ya que se debe de utilizar un código de programación para realizar el análisis. Bastante potente ya que cada vez más se desarrollan paquetes que pueden ser incluidos dentro del software.

Wekahttp://www.cs.waikato.ac.nz/ml/weka/.  Es uno de los pioneros de la minería de datos desarrollado por la Universidad de Waikato. Se integra a otras herramientas de Business Intelligence Open Source como Pentaho.

Si nos estamos iniciando en el mundo de la minería de datos, aun nos falta mucho por recorrer.

Hasta la próxima.

  • Twitter
  • del.icio.us
  • Digg
  • Facebook
  • Technorati
  • Reddit
  • Yahoo Buzz
  • StumbleUpon