Archivo del Autor: Jonny Chambi

Analytics: Buenas Prácticas (Parte I)

Big Data se refiere al tratamiento, análisis y explotación de grandes volúmenes de información, en velocidad de respuesta y con una variedad de data que con la tecnología actual sería difícil tratar. El contexto actual se presenta como una oportunidad para aprovechar Big Data en la creación de ventajas competitivas. Dentro de BI y del Mercado local se está alcanzando una madurez con respecto al uso de analítica para la toma de decisiones. Sin embargo, aún se tiene un desfase con respecto a economías más desarrolladas.

Big Data se presenta como una oportunidad de crear valor y posicionar a las áreas de analytica como las áreas más importantes dentro de una organización.

En principio debemos entender que el principal producto de Analytica Predictiva es el conocimiento del negocio. El que se encuentra en los datos de manera implícita. Es decir, no se puede extraer este tipo de conocimiento con técnicas tradicionales de análisis. Muchas áreas de BI generan conocimiento; sin embargo, el área de analytica predictiva se realiza mediante técnicas avanzada de análisis de datos. Algunas de ellas ligadas a modelos estadísticos avanzados y las otras a Machine Learning.
Otro aspecto importante es que el conocimiento que se genera con analytica predictiva debe ser accionable para generar valor dentro de la compañía. Por tanto, un área de analytics y modelos predictivos debería fundamentarse en 4 grandes aspectos: Impacto en el negocio, Disrupción, Liderazgo y Trabajo en Equipo.

Alto impacto en el negocio.

El objetivo de la dirección de BI es aportar conocimiento al negocio. Es por eso que se debe de asegurar la entrega oportuna de información tanto en la velocidad que exige el mercado como en la oportunidad de generar el más alto valor. Velocidad. Es importante asegurar el delivery de los modelos y análisis avanzados en el momento oportuno y con la calidad de información adecuada. Optimizar la operativa interna de producción de modelos en esta parte se vuelve clave para alinear los tiempos de respuesta al ritmo que el mercado lo exige. Poner foco en producción de modelos de alto impacto y poco uso de recursos. Limitar producción de modelos de bajo impacto y alto consumo en recursos.

Valor al Negocio. Es clave identificar la necesidad específica del negocio. Para ello se debe de conocer el ciclo de vida del producto, el público objetivo y el mix de marketing. Conociendo estos aspectos se hace más fácil reconocer la oportunidad de negocio, diseñando un nuevo: público objetivo, Canal, Precio y/o Producto…

Compartir...

Machine Learning y Data Mining

¿Que es Machine Learning?

Los que estamos un poco más involucrados con el mundo de la analítica escuchamos a diario aplicaciones y bondades de Machine Learning y hasta términos mucho más novedosos como Inteligencia Artificial (AI). Sin embargo, que sabemos acerca de estos temas y como podríamos aprovecharlo en nuestro día a día.

¿Que es Machine Learning?

Machine Learning es una rama de la computación científica y se enfoca en crear algoritmos y descubrimiento de patrones dentro de los datos. La idea es otorgar a las computadoras la habilidad de aprender con código que no necesariamente haya sido creado para tal fin.

Las técnicas de Machine Learning se pueden separar en métodos supervisados y no supervisados.

Los

métodos supervisados por ejemplo le sirven a Facebook para identificar el rostro de nuestros amigos cada vez que publicamos una foto en el muro. Otra aplicación sencilla es Shazam que puede identificar la canción que estamos escuchando con solo acercar el teléfono móvil.

Los métodos no supervisados los utiliza Netflix para sugerirnos las siguiente película o contenido. Otro ejemplo es Amazon que ha perfeccionado su sistema de recomendación gracias a estas técnicas de Machine Learning.

¿En que se parece Machine Learning y Data Mining?

Se parecen y hasta utilizan las mismas técnicas. ¿Entonces que los diferencia?

Machine Learning está orientado hacia el resultado mientras que Data Mining se orienta hacia el descubrimiento de concocimiento. Esa es la única separación ya que ambas utilizan las mismas técnicas: técnicas estadísticas y de ciencias de la computación.

¿Que me conviene utilizar en mi organización?

Según el objetivo, hasta puede ser irrelevante esta pregunta. El uso técnicas de Machine Learning (Data Mining) per se ya es un gran avance.

Compartir...

Cinco Falacias sobre Big Data

Se habla constantemente sobre Big Data. Aquí algunas medias verdades sobre lo que se dice sobre ésta tecnología.

1. Big Data es una nueva tecnología.

Big Data como término, si es nuevo; sin embargo, las herramientas de computación distribuida, técnicas de análisis y visualización de datos no son necesariamente nuevas.

La computación distribuida es una técnica que consiste en en tener un grupo de computadoras conectadas tal que en su conjunto pueden realizar tareas con mayor rapidez y de forma eficiente. Estas técnicas tienen más de 40 años de historia y de hecho Internet es el proyecto de computación distribuida más relevante.
Se aplica herramientas de extracción de datos que desde hace mucho tiempo ya se venían utilizando. Tanto, empresas dedicadas a la analítica como empresas relacionadas a BI. SAS, IBM, Microsoft, Oracle, Teradata y luego Hadoop desde finales del siglo pasado.
Se requiere explorar, resumir y visualizar grandes cantidades de datos, para lo cual ya existían herramientas en el mercado.
Predecir sobre grandes volúmenes de información, para eso se requiere de técnicas estadísticas, herramientas de Data Mining o Machine Learning que tienen sus inicios en el siglo pasado.

2. Big Data es solo para grandes organizaciones.

Big Data tiene está siendo utilizado ahora mismo por grandes y no tan grandes organizaciones. Los gigantes de la Internet como Google, Facebook, Amazon, emplean tecnología de Big Data para mejorar todos los días la experiencia de sus usuarios. Por otro lado surgen pequeñas empresas ligadas a internet, las famosas startups, que también trabajan con Big Data por la gran cantidad de datos que llegan a procesar. Ejemplos de organización no tan grandes que producen inmanejables cantidades de datos: Waze, Netflix, Papaya, Mi Media Manzana, Hootsuite, etc.

3. Big Data es recopilar y analizar datos de Redes Sociales.

Es común que algunas empresas dedicadas a la venta de software y consultoría mencionen la idea que mediante las tecnologías de Big Data se integre información de Redes Sociales como Facebook o Twitter al conjunto de datos que se tiene internamente en cada organización. Lo cierto es que la analítica de redes sociales funciona muy bien en su propio ecosistema, es decir analizar por ejemplo los comentarios de Twitter son bastante interesantes cuando se refieren a una marca; pero el reto que no se ha cumplido es enlazar este mundo con los clientes de cada organización.

Las empresas de venta de software de analítica sobrevendieron la idea de enlazar la data de redes sociales con la data interna de cada compañía. Sin embargo, hasta ahora es bastante complicado el enlace entre estos dos mundos. No existen en el mundo muchos casos documentados sobre esta sincronización; ni tampoco aplicaciones que la garanticen.

4. Big Data es Hadoop

Hay muchas tecnologías alrededor de Big Data. Hay que entender que para sacar provecho del volumen de datos lo más importante no es almacenar y recuperar data sino es obtener conocimiento accionable a partir de estos grandes volúmenes de datos; para esto Hadoop no es suficiente. Es imprescindible aplicar técnicas de Resumen, estadística, visualización, machine Learning, Data Mining, etc.

Ecosistema Big Data:

Fuente: http://bigdata4success.com/blog/cuadrante-magico-del-ecosistema-big-data/

5. Abundante data es mucho mejor.

Si es que no se tiene un propósito claro sobre la información que se recoge o analiza, es inútil trabajar con gran cantidad de datos.

Muchas organizaciones de todo el mundo están teniendo problemas al formular proyectos de Big Data. Lo sensato parece ser regresar a formular proyectos Small Data para obtener resultados cuantificables.

Este problema se da por la poca claridad de los objetivos al momento de formular un proyecto de analitica. No es suficiente la abundante recopilación de datos si no se sabe en qué modo se van a emplearlos y más aún cual será el retorno en valor que originara esta nueva información.

«Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...»

Dan Ariely – Duke University

Compartir...

Cuadrante de Gartner – Herramientas Analíticas Avanzadas

La consultora Gartner realiza un estudio de las principales herramientas tecnológicas en cada año. Para este 2015 ha determinado que en el campo de las Herramientas Analíticas Avanzadas están como lideres: SAS, IBM (SPSS), KNIME y RapidMiner.

1. Lideres: SAS, IBM (SPSS), KNIME y RapidMiner.

2. Challengers: Dell y SAP

3. Visionarios: Alteryx, Microsoft y Alpine Data Labs

4. Nicho: FICO, Angoss, Revolution Analytics (R), Saldford Systems.

Mira el reporte haciendo click en el gráfico.

¿Cuál herramienta utilizas tu?

Compartir...

Que es Netflix y como utiliza la Analítica

¿Que es Netlix?

Netflix.com es un servicio en Internet de suscripción de películas y series de televisión por un pago mensual. Actualmente tienen más de 40 millones de usuarios a nivel mundial. Sus usuarios principalmente provienen de Estados Unidos, Europa y Latinoamérica.

¿Porque es tan importante para la Analítica?

Netflix es una de las empresas más innovadoras en la utilización de datos para los negocios. Capturan cada evento que los usuarios realizan dentro de su plataforma.

Por ejemplo: Capturan la Actividad del Usuario dentro de la Web: Pausas, adelantos, hora de visita, hora de salida, tipo de contenido visualizado, dispositivo conectado, ubicación geográfica, búsqueda, scrolling, etc.

Sin embargo, el reto no esta en almacenar los datos; sino, en analizarlos para poder obtener provecho de estos. Mientras más analítica se emplee en los datos mayor será el valor de la información y mejorará el proceso de toma de decisiones.

Esto lo sabe muy bien Netflix pues utiliza la data para cada decisión de negocio. Aquí algunos ejemplos:

Algoritmo de Recomendación. Es una de las bases del funcionamiento de su plataforma. Este algoritmo permite sugerir películas personalizadas a sus usuarios. El resultado: Mayor visualización de su contenidos, mejor experiencia de usuario y finalmente menor ratio de cancelación.
Similaridad. Permite incrementar la usabilidad de la plataforma identificando contenidos similares para un usuario. Se incorpora dentro de su sección de búsquedas, listas de películas y en otros modelos analíticos.
House or Cards: En el año 2011 Netflix decidió ir más allá. Se inició en el rubro de la producción de contenido. House of Cards fue la primera serie producida íntegramente por Netflix. La decisión de producir o no, fue basada en el análisis de datos. Pudieron predecir si la esta serie tendría éxito o no en base a las preferencias de sus usuarios.

Definitivamente estas aplicaciones no surgieron de la noche a la mañana; sus analistas de Business Analytics y Data Mining desarrollaron poco a poco estas aplicaciones.

Visualizando un poco más allá dentro del grupo de técnicas que utilizaron, podemos citar:

Arboles de Decisión
Análisis Asociativo
Análisis de Regresión Logística
Maquinas de Soporte Vectorial
K-Means

Les comparto la presentación que resume la estrategia de análisis de Netflix.

Finalmente, la pregunta: ¿Cuanto nos falta para llegar a estos niveles de análisis de datos?

Compartir...

Segmentación de Usuarios de Twitter en Lima Metropolitana

Comparto con ustedes un trabajo desarrollado por Lina Huamani y Abraham Silva. Quienes recientemente egresaron de la carrera profesional de Ingeniería Estadística en la Universidad Nacional de Ingeniería.

Su investigación desarrolla la aplicación del Text Mining en la red social Twitter. Se tomó una muestra aleatoria de usuarios de la mencionada red social en la ciudad de Lima Metropolitana, para luego analizar las publicaciones de estos usuarios. La idea central es segmentar a los usuarios en base al contenido de sus tweets.

Una vez recopilados los datos se procedió con el trabajo de limpieza y tratamiento para luego aplicar las técnicas de segmentación. Finalmente se encontraron clusters diferenciados como: los Gamers, los Tecnológicos, Románticos, Ejecutivos, Relajados y los Diversos.

A continuación la presentación completa:

¿En que segmento te ubicas tu?

Compartir...

La Evolución del Estadístico: ¿Data Scientist?

Es innegable la popularidad que está alcanzando la importancia de manejar grandes cantidades de datos. Las empresas públicas y privadas del país incorporan cada vez más a profesionales que puedan cumplir roles de analistas de información. Se empiezan a crear puestos de primera línea ligados directamente a la gestión de los activos de información dentro de la compañía. Puestos de trabajo nunca antes vistos, pues ahora ya no es difícil encontrar directores y gerentes de Inteligencia Comercial.

Sin embargo en comparación con el resto del mundo aún estamos en una etapa inicial. Estamos en la etapa de explosión del Business Intelligence cuando el resto del mundo está hablando de Big Data.

¿Qué tendría que pasar para tratar de alinearnos al resto del mundo?

Empecemos por comprender que es Big Data. En palabras sencillas Big Data se refiere a las técnicas, herramientas y metodologías para almacenar, procesar, analizar y visualizar grandes cantidades de datos.

¿Qué tan grande? En términos de Peta bytes, pero no sólo debemos hablar de volumen de datos. No olvidar también la velocidad con la que crece esta información. Por último la variedad; en Big Data, tenemos: data transaccional, social, texto, móvil, audio, imagen, vídeo, streaming y más.

Entonces decimos que Big Data se refiere a las 3V: Volumen, Variedad y Velocidad de crecimiento de los datos.

Empresas como Google, Amazon, Facebook, Walmart, Ebay, Apple entre otras han comenzado hace muchos años a utilizar las herramientas de Big Data dentro de sus procesos de toma de decisiones.

Entonces ¿Qué tipo de profesionales requiere Big Data?

Los profesionales más alineados a poder solucionar los problemas de Big Data se conocen como Data Scientist. Estos deben desarrollarse fuertemente en campos como: Matemática, Estadística, Computación; y otras áreas no menos importantes como: Data Warehousing, Reconocimiento de Patrones y Aprendizaje, Visualización y optimización computacional.

Es importante que los Data Scientist dominen por lo menos 2 de estos campos y tengan conocimientos muy avanzados en los otros. Dado que gran parte de su trabajo es desarrollar herramientas para nuevos y complejos problemas.

Las herramientas que se utilizan en Big Data además de las tradicionales hasta el momento son:

Hadoop. Es un framework o plataforma de archivos de sistema distribuidos. Lo que nos permite dividir grandes cantidades de datos en formatos más pequeños.
Python. Un nuevo lenguaje de programación.
R. El lenguaje estadístico por excelencia.
Pig. Es la herramienta para ETL en Hadoop.
Hive. Utilizando las tradicionales sentencias de SQL para realizar los reportes de BI.

En conclusión un Data Scientist es alguien que sabe más de estadística que un científico en computación y sabe más de computación científica que un estadístico.

Data Scientist = Estadístico + Programador + Coach + Artista.

¿En base a lo anterior, están preparados los estadísticos y los ingenieros en computación para asumir los retos del Big Data?

¿Lo estás tú?

Compartir...

El Principio de Parsimonia en la Análitica

El principio científico de Ockam, también conocido como el principio de parsimonia, indica que ante dos teorías que explican el mismo fenómeno, la teoría mas simple tiene mayor probabilidad de ser la correcta.

¿Como se aplica este principio para el análisis o Data Mining (DM)?

Pues de forma análoga diremos que ante dos modelos de DM que tengan similares niveles de exactitud. El modelo mas simple será el ganador. Este principio facilita enormemente la producción de modelos de DM. Por cuanto ayuda al equipo de desarrollo a mejorar los tiempos de respuesta y también al usuario final a entender mejor los resultados.

¿y que criterios debemos utilizar para simplificar un modelo de DM?

Para poder evaluar la simplicidad del modelo, termino que es subjetivo, yo evaluaría ciertos aspectos:

Centrarse en un Objetivo Especifico. Es importante para cualquier estudio tener claro el objetivo que cumplirá el modelo a desarrollar. Muchas veces los objetivos planteados por el negocio se resuelven juntando varios modelos o varias soluciones. Por ejemplo, si el objetivo del negocio es incrementar la rentabilidad de una campaña. Esta definición puede ser muy amplia por lo que sugiero plantear una serie de objetivos específicos, Divide y vencerás, por ejemplo:
- a) Identificar a los clientes más rentables.
- b) Identificar a los clientes más propensos para dicha campaña.
- c) Identificar a los clientes menos morosos.
- d) Etc.

Un buen modelo sólo debe referirse a uno de estos objetivos específicos, de esta forma se hace mas precisa su evaluación.

Uso de pocas variables. Será mejor modelo aquel que explique la respuesta con el menor numero de variables. Citando al estudio que realizó la consultora Rexer Analytics a nivel mundial, el 65% de los modelos se generan con menos de 20 variables.

Uso de Variables Complejas. Es conveniente utilizar variables simples. Por ejemplo, evitar el incluir variables que son producto de un análisis factorial o de componentes principales. Estas muchas veces son difíciles de interpretar tanto para el equipo que desarrolla el modelo como para el usuario final.

Técnica de Modelado. En muchas ocasiones escoger la técnica correcta se vuelve un tema bastante complicado. Dependiendo del fenómeno de estudio es posible iniciar la elaboración del modelo con técnicas sencillas como los Arboles de Decisión o el Análisis de Regresión Simple.

Pese a lo explicado el principio de parsimonia debe aplicarse con cuidado por cuanto lo más sencillo no necesariamente es lo correcto.

¿Estas de acuerdo con estos criterios? ¿Que otros se pueden incluir?

Compartir...

¿Que problemas soluciona el Data Mining o Minería de Datos?

La minería de datos o data Mining es un conjunto de técnicas de análisis que sirven para la extracción de conocimiento que esta implícito en los datos.

Los problemas que la minería de datos puede solucionar se pueden separar en 5 aspectos:

Clasificación. Consiste en definir reglas lógicas basadas en un conjunto previo de datos para identificar si un nuevo objeto pertenece a una clase u otra. Es la función del data mining más utilizada ya que su aplicación es determinante para las empresas. Ejemplo: Clasificar si un cliente será moroso en los siguientes meses. Clasificar si un cliente se dará de baja o no. Determinar a qué nivel socioeconómico pertenece una persona.

2. Segmentación. Consiste en agrupar objetos en base a su similaridad. Se crean clusters (segmentos) diferentes entre sí pero que internamente son homogéneos. Ejemplo: Segmentación por estilos de vida. Segmentación por comportamiento de uso.

3. Análisis Asociativo. En base a data transaccional se busca asociar objetos que de forma conjunta tienen mayor probabilidad de ocurrencia. Ejemplo: Próximo Mejor Producto que ofrece Amazon.com, Packs promocionales para la venta en supermercados.

4. Predicción. Predecir valores futuros a partir de una seríe de datos. Ejemplo: Estimación de precios de un commodity, estimar las ventas de un producto, etc.

5. Estimación. Estimar un valor puntual, para esto se utiliza diversos análisis, como la regresión multivariada. Ejemplo: Estimar el sueldo de un cliente, Estimar la edad de las personas en base al uso de un servicio.

¿Cuál utilizarías en tu empresa u organización?

Compartir...

¿Que son los Árboles de Decisión?

El árbol de decisión es una de las técnicas de Data Mining más utilizada en todo el mundo. Se encuentra dentro de las técnicas de clasificación, sumamente útil en las áreas de negocios de las principales compañías.
Su gran utilización se debe a que es muy fácil la interpretación de los resultados obtenidos.
Otra ventaja de los árboles de decisión es que las opciones posibles de una determinada condición son excluyentes. Esto permite que luego de analizar la situación se pueda tomar una acción o decisión especifica.
Por ejemplo si deseamos tomar una decisión con respecto a otorgar un crédito o no en una institución de microfinanzas. Según el árbol debemos tomar en cuenta en primera instancia el ingreso del cliente, si el sueldo es menor a S/. 2,000 presenta un alto riesgo, por lo que la decisión será no otorgar el crédito. Si en cambio tiene ingresos mayores a S/. 5,000 y tiene una buena historia crediticia, la decisión será de otorgar el crédito.

Como se puede ver la aplicación de un árbol de decisión es muy sencilla. Para cada nuevo cliente se deberá de seguir la secuencia lógica realizando las preguntas y tomando un camino según cada respuesta. De esta manera el árbol de decisión funciona como un clasificador para tomar una decisión, otorgar o no el crédito.
Este mismo árbol puede expresarse como un algoritmo de reglas que puede ser implementado en cualquier sistema de información, base de datos, data mart o data warehouse.
Por ejemplo el siguiente algoritmo refleja los resultados del árbol de decisión:

Si Ingreso < 2000 Entonces No Si Ingreso > 2000 Y Perfil Creditico = Sin Historia Entonces No
Si Ingreso > 5000 Y Perfil Creditico = Mala Entonces Si
En otro Caso No

La tarea para un profesional en analítica no solamente será el de interpretar correctamente el árbol de decisión, lo cual es sencillo, sino también el poder construirlo a partir de los datos. Para esto existen métodos y algoritmos de aprendizaje de árboles de decisión:

CHAID. CHi-squared Automatic Interaction Detection
C4.5. y C5, Etc.

¿Alguna vez has utilizado un árbol de decisión? Recomiendo llevar el curso Taller de Data Mining para profundizar este y otros temas.

Compartir...