Archivo por meses: abril 2013

Software Libre de Data Mining

Con el desarrollo de las tecnologías de información y del hardware de los dispositivos informáticos, almacenar los datos no es costoso para las organizaciones. Ahora es posible que todas las empresas puedan generar y almacenar los datos dentro de sus sistemas para que más adelante puedan utilizar la información.

Sin embargo, muchas organizaciones no tienen claro cómo organizar la gran cantidad de datos y como explotarlas de tal forma que puedan extraer conclusiones importantes para el negocio. A menudo esto puede ser complicado si no se conocen las herramientas diseñadas para la misma. En todos estos casos es importante empezar utilizando las herramientas de Minería de Datos.

En esta oportunidad les comentaré acerca de los software utilizados para analizar grandes cantidades de bases de datos. Podríamos clasificarlas en software de uso comercial y los que son de código libre o conocidas como Open Source.

Uso Comercial. Son programas de minería de datos de pago. Estas herramientas pueden llegar a costar cientos de miles de dólares dependiendo el nivel de usabilidad y complejidad del negocio.

Entre las principales herramientas comerciales tenemos:

  • Enterprise Miner de SAS
  • Clementine de SPSS IBM
  • STATISTICA
  • Oracle Data Mining
  • Matlab
  • Etc.

A diferencia de las herramientas de uso comercial los software de Minería de Datos de código abierto no necesariamente son de pago. Se puede descargar estas herramientas de forma libre en la Web; sin embargo, no tienen ningún tipo de soporte por el uso de la misma.

Así tenemos algunas:

Rapid Miner. Se puede descargar de la web  http://rapid-i.com/. Simula todo el proceso de minería de datos. Tiene un menú principal en el que uno puede tener el control de todo el proceso de análisis, desde el acceso a los datos hasta los resultados finales. A mi parecer muy fácil de utilizar bastante intuitivo y no necesita de códigos. Asimismo, tiene una gran cantidad de algoritmos para cada tipo de análisis.

Orange.  http://orange.biolab.si/. Este software también tiene un entorno gráfico bastante llamativo y enfocado en las personas que no tienen mucha experiencia en minería de datos. Utiliza la metodología de SEMMA de SAS para organizar sus procedimientos. El único punto en contra que he podido encontrar, es el limitado acceso a los datos, ya que no cuenta con muchas herramientas para esto.

R.  http://www.r-project.org/. Es uno de los programas más utilizados por la comunidad científica estadística. Su uso es bastante avanzado ya que se debe de utilizar un código de programación para realizar el análisis. Bastante potente ya que cada vez más se desarrollan paquetes que pueden ser incluidos dentro del software.

Wekahttp://www.cs.waikato.ac.nz/ml/weka/.  Es uno de los pioneros de la minería de datos desarrollado por la Universidad de Waikato. Se integra a otras herramientas de Business Intelligence Open Source como Pentaho.

Si nos estamos iniciando en el mundo de la minería de datos, aun nos falta mucho por recorrer.

Hasta la próxima.

  • Twitter
  • del.icio.us
  • Digg
  • Facebook
  • Technorati
  • Reddit
  • Yahoo Buzz
  • StumbleUpon