La Minería de Datos y sus usos
La Minería de Datos y sus usos

La Minería de Datos y sus usos

Que es?

La minería de datos (Data Mining) busca los patrones ocultos en los datos que pueden utilizarse para predecir el comportamiento futuro. Las empresas, los científicos y los gobiernos han utilizado este enfoque por años para transformar los datos en conocimientos pro-activos. El término es un concepto de moda, y es frecuentemente mal utilizado para referirse a cualquier forma de datos a gran escala o procesamiento de la información (recolección, extracción, almacenamiento, análisis y estadísticas), pero también se ha generalizado a cualquier tipo de sistema de apoyo informático decisión, incluyendo la inteligencia artificial, aprendizaje automático y la inteligencia empresarial.

Las Metodologías:

CRISP-DM:

Para implementar una tecnología en un negocio, se requiere de una metodología. Para el caso de proyectos de implementación de minería de datos, hay una en particular; CRISP-DM, en sus primeros años de divulgación tenía apoyos de empresas privadas y organismos públicos, pero poco a poco ha ido perdiendo uno que otro “Project Partner”.  Desconocemos el motivo de esta aparente perdida de apoyo, pero estamos seguros que no corresponde a la falta de calidad o efectividad del método, porque ha sido adoptado por otros organismos y empresas.

Arboles de Clasificación:

Los métodos basados en árboles (o árboles de decisión) son bastante populares en data mining, pudiéndose usar para clasificación y regresión. Estos métodos se derivan de una metodología previa denominada automatic interaction detection. --Son útiles para la exploración inicial de datos y apropiados cuando hay un número elevado de datos, y existe incertidumbre sobre la manera en que las variables explicativas deberían introducirse en el modelo. Sin embargo, no constituyen una herramienta demasiado precisa de análisis.

En conjuntos pequeños de datos es poco probable que revelen la estructura de ellos, de modo que su mejor aplicación se encuentra en grandes masas de datos donde pueden revelar formas complejas en la estructura que no se pueden detectar con los métodos convencionales de regresión. Problemas donde los árboles de clasificación se pueden usar:

  1. Regresión con una variable dependiente continua.
  2. Regresión binaria.
  3. Problemas de clasificación con categorías múltiples ordinales.
  4. Problemas de clasificación con categorías múltiples nominales.

Ventajas de los árboles de clasificación

  1. Los resultados son invariantes por una transformación de monótona de las variables explicativas.
  2. La metodología se adapta fácilmente en situaciones donde aparecen datos missing, sin necesidad de eliminar la observación completa.
  3. Están adaptados para recoger el comportamiento no aditivo, de manera que las interacciones se incluyen de manera automática.
  4. Incluye modelos de regresión así como modelos de clasificación generales que se pueden aplicar de manera inmediata para diagnosis.

Desventajas

  1. El árbol final puede que no sea óptimo. La metodología que se aplica sólo asegura cada subdivisión es óptima.
  2. Las variables predictoras (independientes) continuas se tratan de manera ineficiente como variables categóricas discretas.
  3. Las interacciones de orden menor no preceden a las interacciones de orden mayor.
  4. Los árboles grandes tienen poco sentido intuitivo y las predicciones tienen, a veces, cierto aire de cajas negras.

Los Data Warehouse

Un Data Warehouse es un almacén electrónico donde generalmente una empresa u organización mantiene una gran cantidad de información. Los datos de un data warehouse deben almacenarse de forma segura, fiable, fácil de recuperar y fácil de administrar. --Normalmente, un data warehouse se aloja en un servidor corporativo o cada vez más, en la nube. Los datos de diferentes aplicaciones de procesamiento de transacciones Online (OLTP) y otras fuentes se extraen selectivamente para su uso por aplicaciones analíticas y de consultas por usuarios.  

SPSS Modeler: inteligencia compartida, decisiones consistentes

SPSS Modeler, de IBM, es una plataforma de análisis predictivo que impulsa el modelado enfocado al análisis predictivo. Esta herramienta permite construir modelos predictivos precisos de forma muy rápida, consiguiendo hacer más sencillo el proceso de compartir inteligencia entre los diferentes usuarios de negocio. --Para lograr sus objetivos SPSS Modeler proporciona una gama de algoritmos avanzados y técnicas de análisis que aumentan la consistencia en la toma de decisiones, ofreciendo información casi en tiempo real. La solución incluye para ello funcionalidades como:

  • Analítica de texto.
  • Análisis de entidades.
  • Gestión de decisiones y optimización.

SPSS Modeler podría considerarse como una aplicación avanzada de minería de datos. La principal diferencia con éstas es que no es necesario tener claro lo que se quiere encontrar a la hora de iniciar el proceso de búsqueda.

Las incursiones en los activos de datos pueden ponerse en marcha de forma natural, ya que la solución permite explorar los datos al ritmo que cada usuario quiera, sin forzar nada, y ajustándose a los diferentes modelos disponibles. Poco a poco se va descubriendo información útil al investigar diferentes relaciones desde un enfoque estratégico.

El tamaño o la complejidad de los conjuntos de datos nunca suponen una barrera para las organizaciones que tienen el soporte de SPSS Modeler que, a través de una variedad de técnicas basadas en la minería de datos identifica cualquier atisbo de información de valor en los cuerpos de datos. En base a ese conocimiento aportado es posible llevar a cabo:

  • La toma de decisiones.
  • Predicciones y pronósticos.
  • Estimaciones.

Este es uno de los momentos clave del proceso. Aquí interactúan la tecnología y el talento puesto que, en la minería de datos, el éxito viene de combinar el conocimiento experto con técnicas de análisis avanzadas y activas que permitan identificar las relaciones subyacentes y las características de los datos. Y, en este sentido, la oferta de SPSS Modeler es excepcional.

La solución de IBM incluye una serie de tecnologías de aprendizaje automático y modelado que pueden agruparse en función de los tipos de problemas que se pretendan resolver. Así, se ponen a disposición del usuario:

  • Métodos predictivos de modelado: que incluyen árboles de decisión, redes neuronales y modelos estadísticos.
  • Modelos de agrupación: centrados en identificar grupos de registros similares y etiquetar los registros según el grupo al que pertenecen. Estos métodos de clustering incluyen Kohonen, k-means y TwoStep.
  • Reglas de asociación: que unen una conclusión con un conjunto de condiciones o requisitos.
  • Modelos de screening: empleados para localizar campos y registros que tienen más probabilidades de ser de interés en el modelado e identificar los valores atípicos que pueden no ajustarse a los patrones conocidos. Entre ellos cabe citar los de selección de características y los de detección de anomalías.

El descubrimiento de datos con SPSS Modeler es una experiencia muy positiva. Tanto esta función, como la de manipulación de datos se vuelven muy diferentes al utilizar SPSS Modeler para llevarlas a cabo. La solución se encarga de construir nuevos elementos de datos derivados de los ya existentes y descomponer los datos en subconjuntos significativos. De esta forma, los datos de una variedad de fuentes se pueden combinar y filtrar. Pero no se queda ahí, y permite que las organizaciones:

  1. Profundicen en los datos mediante visualizaciones y gráficos interactivos exportables al reporting: la navegación por la información es más ágil e intuitiva. La curva de aprendizaje se reduce y, además, la herramienta muestra aspectos relevantes de los datos que consigue poner en situación al usuario en pocos segundos utilizando la opción de evaluación inicial en el nodo de auditoría de datos que, también incluye gráficos y estadísticas.
  2. Confirmen relaciones sospechosas entre variables en los datos: gracias a sus completas capacidades estadísticas que permiten hacer hallazgos que, de otra forma, hubiesen permanecido ocultos durante mucho tiempo.
  3. Construyan y verifiquen modelos para averiguar cómo se comportan los datos: la evaluación de hipótesis alimenta a las técnicas de modelado, que ganan en precisión.

Cómo sacar todo el partido a SPSS Modeler

Algunas de las aplicaciones prácticas de SPSS Modeler consiguen resolver problemas de negocio tan habituales como:

  • Marketing. Tasas de apertura de emails muy reducidas. A veces las campañas de emailing no proporcionan los resultados deseados. Para evitar que esto suceda pueden emplearse técnicas de minería de datos que permitan conocer qué grupos demográficos tienen la tasa de respuesta más alta. Una vez se determinan estos segmentos, es posible optimizar los resultados de futuras acciones en base a esta información.
  • Riesgo. Riesgo asociado a las nuevas cuentas de clientes de una aseguradora o una compañía bancaria.  Es posible minimizar esta incertidumbre y el riesgo que implica utilizando el conocimiento sobre el historial de crédito de un individuo para tomar decisiones de crédito.
  • Talento. Dificultades para atraer a los mejores perfiles y saber diferenciarlos del resto en el proceso de reclutamiento. Los recursos humanos también se benefician de los descubrimientos que SPSS Modeler permite hacer, en especial en lo que concierne a la creación de reglas de decisión que agilicen el proceso de contratación.
  • Innovación. Problemas relacionados con la interferencia de las pruebas en la calidad de vida el paciente en empresas del sector salud. La solución de IBM facilita la investigación médica al crear reglas de decisión que sugieren procedimientos apropiados basados en evidencia médica, que mejoran la experiencia del paciente.
  • Ventas. Desconocimiento de los motivos que causan fluctuaciones en las ventas. Dentro de la analítica predictiva, uno de los clásicos es éste, que tiene que ver con el análisis de mercado. SPSS Modeler hace posible determinar qué variables están asociadas con el cliente y cuáles tienen una mayor influencia en las ventas.
  • Calidad. Cuestiones de calidad de producto. El control de calidad se ve impulsado por las capacidades que esta solución permite adquirir a las organizaciones, poniéndolas en la pista adecuada para analizar los datos de la fabricación del producto e identificar las variables que determinan la aparición de defectos.

Una vez conocidos sus beneficios es difícil imaginarse el trabajo sin SPSS ModelerY tu negocio, ¿cómo mejoraría con esta plataforma de análisis predictivo?

Etiquetas

Social Share

Marcos Rativa

Marcos Rativa

Comments