La minería de datos es el proceso de descubrimiento de patrones que sean de utilidad para el fin para el que se diseñan, automática o semi automáticamente, en grandes cantidades de datos.
Veamos qué es la minería de datos y cómo se puede usar en el análisis de las predicciones.
La base de datos de cualquier empresa moderna suele contener un conjunto de datos que almacena registros de datos sobre determinados hechos u objetos (por ejemplo, mercancías, sus ventas, clientes, cuentas).
Shaw (2001) define data mining como «el proceso de búsqueda y análisis de datos para revelar información oculta y potencialmente valiosa para la organización». Este proceso lo constituyen métodos avanzados que nos permiten explorar y modelizar relaciones y patrones existentes en grandes volúmenes de datos. Gracias a ellos podemos descubrir patrones ocultos en los datos que pueden aportar conocimiento de interés para las organizaciones, como por ejemplo:
Patrones de comportamiento de los clientes
Asociaciones de productos
Relación entre la edad y el coste medio de la compra
Relación entre la temperatura exterior y el número de visitas a un establecimiento
Relación entre el volumen de consumos de los productos y su precio, etc.
¿Por qué es tan importante la extracción de datos? Probablemente haya oído las alarmantes cifras: la cantidad de datos que se producen en este mundo se duplica cada dos años. También se estima que los datos no estructurados representan por sí solos el 90% del universo digital. Sin embargo, más información no significa necesariamente más conocimiento. La minería de datos puede utilizarse para
Eliminar todo el ruido confuso y recurrente de los datos Comprender qué datos son relevantes para sus objetivos y utilizar esta información adecuadamente para evaluar los posibles resultados Acelerar la frecuencia y la velocidad de la toma de decisiones con conocimiento de causa Para más información sobre las técnicas de minería de datos, consulte Todo sobre la minería de datos. Este libro blanco analiza cómo las empresas y organizaciones pueden aprovechar el análisis predictivo y la minería de datos para obtener nuevas perspectivas de sus datos.
Software para minería de datos
Visual Mining Studio: Sistema de minería de datos de uso general
Una herramienta de minería de datos de escritorio que admite datos a gran escala. Está equipado con los últimos métodos para la minería de datos y un entorno de programación visual que los usuarios finales pueden operar fácilmente. S-PLUS porque también tiene una función coordinada de a, S-PLUS se puede utilizar para una gran cantidad de funciones de análisis de. Dado que es un producto desarrollado por NTT DATA Mathematical Systems, Inc., puede esperar un sólido soporte del producto y personalizarlo de acuerdo con sus necesidades.
Text Mining Studio - Herramienta de minería de texto
Una herramienta de minería de texto con una función de análisis completa para una operación simple y visualización gráfica. Dado que es un producto desarrollado por NTT DATA Mathematical Systems, Inc., puede esperar un sólido soporte del producto y personalizarlo de acuerdo con sus necesidades.
S-PLUS - Sistema de análisis de datos orientado a objetos
Software de análisis de datos de uso general que ya ha sido probado en todo el mundo. Tiene abundantes funciones de análisis estadístico y funciones gráficas que se pueden utilizar con solo apuntar y hacer clic. Además, puede personalizar y procesar datos libremente utilizando el lenguaje S orientado a objetos. Es adecuado para aquellos que desean profundizar en la estructura de los datos. También es relativamente económico.
Construcción del servidor de aplicaciones S-PLUS Enterprise Server-Web
Este es un software de servidor para construir un sistema que puede utilizar la función de análisis de S-PLUS a través de la WEB. Simplemente usándolo con un navegador, es posible realizar un sistema que puede analizar datos en serio "en cualquier lugar, cualquiera". También se puede utilizar para sistemas de creación de informes estándar que incluyen gráficos.
De vez en cuando se realizan demostraciones de estos paquetes de software. También realizamos seminarios regulares para presentar cada producto, así que no dude en contactarnos.
SAS reconocida como líder en el Cuadrante Mágico de Gartner de 2015
Gartner ha posicionado a SAS como líder en el Cuadrante Mágico de Plataformas de Análisis Avanzado y le ha otorgado la calificación más alta, especialmente en el eje de "desempeño"
Historia de la minería de datos y situación de vanguardia
El proceso de extracción de datos para descubrir conexiones ocultas y predecir el futuro tiene una larga historia. Este proceso también se conoce como "descubrimiento de conocimientos en bases de datos" (KDD), pero el término "minería de datos" no surgió hasta la década de 1990. Sin embargo, se basa en tres disciplinas científicas estrechamente relacionadas: la estadística (el estudio matemático de las relaciones entre los datos), la inteligencia artificial (la inteligencia similar a la humana realizada en software y/o máquinas) y el aprendizaje automático (algoritmos que pueden aprender de forma autónoma a partir de los datos y hacer predicciones). Los viejos esfuerzos vuelven ahora a la palestra como esfuerzos de vanguardia porque las tecnologías de extracción de datos siguen evolucionando al mismo ritmo que los big data y las posibilidades ilimitadas que ofrece la potencia de cálculo de bajo coste siguen ampliándose.
El espectacular aumento de la potencia y la velocidad de procesamiento en la última década nos ha permitido dejar de lado los laboriosos y lentos esfuerzos manuales para aprovechar las ventajas de un análisis de datos rápido, sencillo y automatizado. Cuanto más complejos sean los conjuntos de datos que recopilemos, más probabilidades tendremos de descubrir los conocimientos adecuados. En sectores como el comercio minorista, la banca, la industria manufacturera, las telecomunicaciones y los seguros, en particular, la minería de datos se utiliza para descubrir las relaciones subyacentes entre todo, desde los precios, las promociones y los datos demográficos (por ejemplo, la estructura familiar y los ingresos) hasta el impacto de la economía, el riesgo, la competencia y los medios sociales en los modelos de negocio, los ingresos, las operaciones y las relaciones con los clientes. Utilizamos la minería de datos para descubrir relaciones entre todo tipo de temas.
¿Qué es aprendizaje automático?
El aprendizaje automático es el que permite, a través de técnicas estadísticas y minería de datos, que las máquinas aprendan y sean capaces de inferir conocimiento de manera que puedan tomar decisiones de manera autónoma.
Normalmente, cada registro en tal tabla describe un objeto o hecho particular. Por ejemplo, el registro en la tabla de ventas refleja el hecho de que tal producto se vende a un cliente y luego a ese gerente, y en general nada más que esta información no contenga. Sin embargo, la totalidad de un gran número de esos registros acumulados a lo largo de varios años puede convertirse en una fuente de información adicional mucho más valiosa que no puede obtenerse sobre la base de un registro específico, es decir, información sobre la regularidad, las tendencias o las interdependencias entre los datos.
Ejemplos de esa información son la información sobre cómo las ventas de un determinado producto dependen del día de la semana, la hora del día o la temporada, qué categorías de compradores compran este o aquel producto con mayor frecuencia, qué parte de los compradores de un determinado producto compran otro producto específico, qué categoría de clientes no conceden el préstamo a tiempo con mayor frecuencia.como hemos visto, las técnicas de minería de datos se basan en inteligencia artificial y estadística. Estas dos herramientas nos facilitan la creación de algoritmos que permiten modelizar los datos. Los algoritmos pueden basarse en clasificación supervisada y predictiva o clasificación no supervisada y descriptiva (o de descubrimiento de conocimiento). Sus características son (Gironés, 2013):
Los algoritmos no supervisados
Su objetivo es el de obtener un modelo válido para clasificar objetos sobre la base de similitud de sus características, pero no lo hace partiendo de modelos predictivos ni datos de muestra. Se basan en un conjunto de objetos descritos por un conjunto de características, y a partir de una métrica que define la similitud entre objetos, se infiere y construye una regla o patrón general que es capaz de clasificar todos los objetos. Por lo tanto, se descubre conocimiento.
Los algoritmos más representativos son:
Redes neuronales: sirven para ver conexiones en una red. Son una buena aproximación a problemas en los que el conocimiento es impreciso o variante en el tiempo. Se basan en la clasificación supervisada, aunque no necesariamente debe ser un clasificador.
Regresión lineal: para formar relaciones entre datos. No obstante, es insuficiente en espacios multidimensionales donde intervienen más de dos variables. Se basan en la clasificación supervisada.
Árboles de decisión: para hacer modelos de predicción, representan y categorizan una serie de condiciones, cuya visualización tiene forma de árbol y facilita la comprensión del modelo. Se basan en la clasificación supervisada.
Agrupamiento (clustering): sirve para ver agrupaciones de datos según criterios de distancia. El agrupamiento se hace sobre la base de jerarquías y partiendo de una fragmentación completa de los datos. Esta técnica analiza los datos que no tienen ninguna etiqueta o información añadida, por tanto, se tienen que descubrir grupos similares en los grupos de datos. Los datos que quedan más cercanos son los que tienen características comunes. Se basan en la clasificación no supervisada.
Segmentación: sirve para dividir grupos previamente existentes. Se basan en la clasificación no supervisada o en reglas de asociación que sirven para encontrar relaciones entre combinaciones de valores en un conjunto de datos.
Artículos relacionados