¿Que es la minería de datos?

La minería de datos es el proceso de descubrimiento de patrones que sean de utilidad para el fin para el que se diseñan, automática o semi automáticamente, en grandes cantidades de datos.

Veamos qué es la minería de datos y cómo se puede usar en el análisis de las predicciones. 

La base de datos de cualquier empresa moderna suele contener un conjunto de datos que almacena registros de datos sobre determinados hechos u objetos (por ejemplo, mercancías, sus ventas, clientes, cuentas).

Shaw (2001) define data mining como «el proceso de búsqueda y análisis de datos para revelar información oculta y potencialmente valiosa para la organización». Este proceso lo constituyen métodos avanzados que nos permiten explorar y modelizar relaciones y patrones existentes en grandes volúmenes de datos. Gracias a ellos podemos descubrir patrones ocultos en los datos que pueden aportar conocimiento de interés para las organizaciones, como por ejemplo:

  • Patrones de comportamiento de los clientes
  • Asociaciones de productos
  • Relación entre la edad y el coste medio de la compra
  • Relación entre la temperatura exterior y el número de visitas a un establecimiento
  • Relación entre el volumen de consumos de los productos y su precio, etc.

¿Qué es aprendizaje automático?

El aprendizaje automático es el que permite, a través de técnicas estadísticas y minería de datos, que las máquinas aprendan y sean capaces de inferir conocimiento de manera que puedan tomar decisiones de manera autónoma.

Normalmente, cada registro en tal tabla describe un objeto o hecho particular. Por ejemplo, el registro en la tabla de ventas refleja el hecho de que tal producto se vende a un cliente y luego a ese gerente, y en general nada más que esta información no contenga. Sin embargo, la totalidad de un gran número de esos registros acumulados a lo largo de varios años puede convertirse en una fuente de información adicional mucho más valiosa que no puede obtenerse sobre la base de un registro específico, es decir, información sobre la regularidad, las tendencias o las interdependencias entre los datos.

Ejemplos de esa información son la información sobre cómo las ventas de un determinado producto dependen del día de la semana, la hora del día o la temporada, qué categorías de compradores compran este o aquel producto con mayor frecuencia, qué parte de los compradores de un determinado producto compran otro producto específico, qué categoría de clientes no conceden el préstamo a tiempo con mayor frecuencia.como hemos visto, las técnicas de minería de datos se basan en inteligencia artificial y estadística. Estas dos herramientas nos facilitan la creación de algoritmos que permiten modelizar los datos. Los algoritmos pueden basarse en clasificación supervisada y predictiva o clasificación no supervisada y descriptiva (o de descubrimiento de conocimiento). Sus características son (Gironés, 2013):

Los algoritmos no supervisados

Su objetivo es el de obtener un modelo válido para clasificar objetos sobre la base de similitud de sus características, pero no lo hace partiendo de modelos predictivos ni datos de muestra. Se basan en un conjunto de objetos descritos por un conjunto de características, y a partir de una métrica que define la similitud entre objetos, se infiere y construye una regla o patrón general que es capaz de clasificar todos los objetos. Por lo tanto, se descubre conocimiento.

Los algoritmos más representativos son:

  • Redes neuronales: sirven para ver conexiones en una red. Son una buena aproximación a problemas en los que el conocimiento es impreciso o variante en el tiempo. Se basan en la clasificación supervisada, aunque no necesariamente debe ser un clasificador.
  • Regresión lineal: para formar relaciones entre datos. No obstante, es insuficiente en espacios multidimensionales donde intervienen más de dos variables. Se basan en la clasificación supervisada.
  • Árboles de decisión: para hacer modelos de predicción, representan y categorizan una serie de condiciones, cuya visualización tiene forma de árbol y facilita la comprensión del modelo. Se basan en la clasificación supervisada. 
  • Agrupamiento (clustering): sirve para ver agrupaciones de datos según criterios de distancia. El agrupamiento se hace sobre la base de jerarquías y partiendo de una fragmentación completa de los datos. Esta técnica analiza los datos que no tienen ninguna etiqueta o información añadida, por tanto, se tienen que descubrir grupos similares en los grupos de datos. Los datos que quedan más cercanos son los que tienen características comunes. Se basan en la clasificación no supervisada.
  • Segmentación: sirve para dividir grupos previamente existentes. Se basan en la clasificación no supervisada o en reglas de asociación que sirven para encontrar relaciones entre combinaciones de valores en un conjunto de datos.

 

Deja un comentario