Kevin Ortega Mera

and 6 more

Introducción La minería de datos es una de las principales herramientas que se utilizan dentro de los programas de gestión del conocimiento como soporte a la toma de decisiones, el fin es la extracción de información oculta o análisis de datos mediante técnicas estadísticas de grandes bases de datos. Los programas de gestión del conocimiento se complementan con distintas herramientas además del data mining, como puede ser el data warehousing o el groupware. El data mining, como herramienta de búsqueda de información, se utiliza como sistema de apoyo a la toma de decisiones de las altas direcciones de las empresas. Las técnicas de data mining se centran en analizar el gran volumen de datos, que en una primera selección pueden ser pertinentes, pero que la aplicación de técnicas de selección ceñida a unas determinada demanda, reduce el tamaño de los datos eligiendo las variables más influyentes en el problema. En definitiva, la minería de datos es una tecnología usada para descubrir información oculta y desconocida, pero potencialmente útil, a partir de las fuentes de información de la propia empresa. Obtiene un conocimiento de un negocio, utilizando técnicas de clustering, redes neuronales, árboles de decisión y reglas de asociación etc. ⦁ desarrollo ⦁ La minería de datos pretende encontrar información, que se pueda extraer de las bases de datos en un proceso de selección y aplicación de algoritmos de búsqueda de patrones, relaciones, reglas, asociaciones e incluso excepciones que sean útiles para la toma de decisiones. Básicamente, surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales. En general, el proceso de la minería de datos itera a través de cinco pasos básicos: ⦁ Selección de datos: consiste en buscar el objetivo y las herramientas del proceso de minería, identificando los datos a ser extraídos, buscando los atributos apropiados de entrada y la información de salida para representar la tarea. Las comprobaciones básicas deben incluir el tipo de consistencia, la validez de rangos, etc. Un sistema de minería de datos puede ser utilizado para este propósito; se pueden buscar patrones generales y reglas en las bases de datos que identifiquen valores irregulares que no cumplen las reglas establecidas. ⦁ Trasformación de datos: las operaciones de transformación incluyen organizar los datos en la forma deseada, convirtiendo un tipo de datos en otro –por ejemplo de simbólico a numérico–, definiendo nuevos atributos, reduciendo la dimensionalidad de los datos, removiendo ruidos, outliers, normalizando, decidir estrategias para manejar datos perdidos. ⦁ Minería de datos: los datos trasformados son minados, utilizando una o más técnicas para extraer patrones de interés. ⦁ Interpretación de resultados y validación: para comprender el significado del conocimiento extraído y su rango de validez, la aplicación de minería de datos prueba su robustez, utilizando métodos de validación establecidos y probándolo con datos diferentes a los utilizados para crear el modelo. Lo que se hace generalmente es dividir los datos en una serie para trabajo y otra, para validación. Solo la serie de trabajo es utilizada para evaluar la habilidad del modelo desarrollado. La información extraída es también valorada –más subjetivamente–, comparándola con experiencias anteriores. ⦁ Incorporación del conocimiento descubierto: presentación de los resultados del modelo para poder comprobar o resolver conflictos con creencia o resultados anteriores y aplicar el nuevo modelo. ARQUITECTURA DE UN SISTEMA TIPICO DE MINERIA DE DATOS Los componentes que constituyen un sistema típico de minería de datos, comprenden un conjunto de bases de datos, almacenes y depósitos de información y/o hojas de cálculo, sobre los que se ejecutan técnicas de limpieza e integración. Otros componentes son: ⦁ Servidor de almacén de datos Es responsable de buscar los datos relevantes, basados en las demandas del usuario de la minería de datos. ⦁ Base de conocimiento Este es el dominio del conocimiento que se utiliza para guiar la búsqueda o evaluar la importancia de los patrones resultantes. ⦁ Motor de minería de datos Es esencial e idealmente consiste en un grupo de módulos funcionales de tareas como la caracterización, asociación, clasificación, análisis de cluster, y análisis de evolución y desviación. ⦁ Módulo de evaluación de patrones Emplea las medidas de interés e interactúa con los módulos como foco de la búsqueda hacia los patrones relevantes. ⦁ GUI Módulo que comunica los usuarios con el sistema, permitiendo especificar la consulta o tarea a ejecutar, y proporcionado información que ayude a enfocar la búsqueda. Estructura de la minería de datos El proceso de minería involucra ajustar modelos o determinar patrones a partir de datos. Este ajuste normalmente es de tipo Estadístico, pues se permite un cierto error dentro del modelo. Las tareas de la minería de datos se pueden clasificar en dos categorías: minería de datos descriptiva y minería de datos predictiva. Junto a éstas existen otras tareas complementarias como la segmentación de datos, el análisis de dependencias y la identificación de anomalías; las cuales se pueden utilizar tanto en descripción como en predicción. La descripción es normalmente usada para realizar un análisis preliminar de los datos. Busca derivar descripciones concisas de características de los datos: medias, desviaciones estándares, etc.  En la predicción los datos son objetos caracterizados por atributos que pertenecen a diferentes clases. La meta es inducir un modelo para poder predecir una clase dados los valores de los atributos (conocimiento inductivo).  Para ello, se usan por ejemplo, árboles de decisión, reglas, redes neuronales etc.  La segmentación consiste en separar los datos en subgrupos o clases que puedan ser particionados en una forma uniforme, y que constituyan intervalos que parezcan intuitivos o naturales. En el análisis de dependencias el valor de un elemento puede usarse para predecir el valor de otro. También se ha enfocado a encontrar si existe una alta proporción de valores de algunos atributos que ocurren con cierta medida de confianza junto con valores de otros atributos.  La detección de desviaciones, casos extremos o anomalías busca detectar los cambios más significativos en los datos con respecto a valores pasados o normales. Sirve para filtrar grandes volúmenes de datos que Son menos probables de ser interesantes. El problema está en determinar cuándo una desviación es significativa para ser de interés.  Los componentes básicos de los métodos o técnicas de minería son:  1. Lenguaje de representación del modelo: es muy importante que se sepan las suposiciones y restricciones en la representación empleada para construir modelos.  2. Evaluación del modelo: En cuanto a productividad se basa en técnicas de validación cruzada (cross validation), en cuanto a calidad descriptiva del modelo se basan en principios como el de máxima verosimilitud (maximum likelihood) o en el principio de longitud de descripción mínima o MDL (minimum description length).  3. Método de búsqueda: se puede dividir en búsqueda de parámetros y búsqueda del modelo y determina los criterios que se siguen para encontrar los modelos (hipótesis).  DISCUSION Tenemos varios criterios de discusión, que pueden influir  directa o indirectamente en la toma de decisiones para dicha aplicación e implementación de esta herramienta: ⦁ La minería de datos es una problemática de reciente incursión en los negocios o no menos incipiente preocupación en el marketing. Ello es un factor determinante del escaso, y en ocasiones erróneo, conocimiento de la minería de datos y de su reducido desarrollo, manifiesto en la medición de la eficiencia del resultado. ⦁ Se puede inferir que una de las principales ventajas en las herramientas de minería de datos es su facilidad de uso, siendo necesario, además, un conocimiento adecuado de los distintos algoritmos empleados, puesto que no todos ofrecen los mismos resultados ni con la misma eficiencia. La utilidad de la minería de datos se reduce en la medida en que no se evalúen adecuadamente los resultados que genera. Ello supone obtener indicadores sobre cuatro facetas del resultado: bondad de ajuste, relevancia, novedad y aplicabilidad. El cálculo de estas medidas permitirá cumplir con las promesas que realiza la minería de datos a través de su definición. A continuación se presenta un análisis comparativo de las principales ventajas, desventajas, herramientas, contribuciones y logros en cada caso de aplicación de minería de datos. ⦁ En la actualidad, los mercados están en una dinámica de cambio continuo. El consumidor es cada día más exigente, está mejor informado, busca cada vez mejores productos, productos personalizados, servicios eficaces que logren resolver sus problemas de la manera más efectiva y al menor costo posible. ⦁ A partir de la minería de datos (data mining), es posible crear estrategias competitivas que contribuyan al incremento de las utilidades en las organizaciones en sectores industriales del Departamento del Atlántico; estrategias que a su vez permitirían la reducción drástica de los costos y servicios auxiliares en los procesos y operaciones de las empresas, ya que esta herramienta se aplica principalmente como un método de prevención y diagnóstico de la situación que presenta la empresa en la actualidad, para así tomar decisiones de qué invertir y qué productos nuevos crear con base en datos reales. ⦁ En cuanto a la técnica seleccionada para la clasificación de datos, se destaca, entre otras, la parsimonia de esta, puesto que mediante una red neuronal se puede abordar tanto un problema de clasificación como un problema de regresión, mientras que desde la perspectiva estadística clásica se han necesitado dos modelos tan diferentes como el análisis discriminante (en cuanto a clasificación se refiere) y las series de tiempo (para el caso de predicción/regresión). Lo anterior, se corrobora en las pruebas, donde se observa que el algoritmo backpropagation es una buena elección, cuando de clasificar/predecir datos se trata. ⦁ Se estableció un flujo básico operacional para realizar preprocesamiento de datos, que consiste en primera medida en tratar datos anómalos y faltantes, posteriormente seleccionar atributos o reducir dimensionalidad, y por cada para la utilización de diferentes modelos de Minería. En el siguiente cuadro comparativo veremos casos puntuales frente a varios atributos que contiene esta nueva herramienta para las diferentes entidades públicas o privadas. CONCLUSION A partir del estudio realizado sobre la Minería de Datos, se puede concluir que hay varios puntos claves que contiene la minería de datos entre ellos se encuentran los siguientes: ⦁ En la última década la minería de datos ha experimentado un enorme crecimiento como resultado de los volúmenes de datos que procesan los sistemas de información. Los éxitos obtenidos han demostrado la necesidad e importancia de este campo de investigación, sin embargo, se requiere mayor estudio a fin de optimizar los métodos empleados actualmente. ⦁ Los datos sobre los que se construye el problema son representativos del dominio sobre el que se aplicó el modelo obtenido. ⦁ La minería de datos permite ahorrar grandes cantidades de dinero  a una empresa y abre nuevas oportunidades de negocio. ⦁ Contribuye con la toma de decisiones. ⦁ La minería de datos proporciona poder de decisión y resultados de la mejor forma. ⦁  Genera modelos descriptivos que permite a empresas explorar y comprender los datos e identificar patrones relacionados y dependencias que impactan en los resultados finales. ⦁ Genera Modelos predictivos que permite que las relaciones no descubiertas través del proceso de la Minería de Datos sean expresado como reglas de negocio. ⦁ Las nuevas técnicas permiten aplicar algoritmos diseñados específicamente para datos espaciales. A esta nueva rama de investigación. Fig. 1. Cuadro comparativo casos de aplicación de la Minería de Datos Tendencias. La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de compra en línea, etc. Los más importantes de ellos son: ⦁ La importancia que han cobrado los datos no estructurados (texto, páginas de Internet, etc.). ⦁ La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc. ⦁ La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo, en casos de fraude con una tarjeta de crédito). ⦁ Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo válido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real. Herramientas de software. Existen muchas herramientas de software para el desarrollo de modelos de minería de datos tanto libres como comerciales como, por ejemplo: ⦁ RapidMiner ⦁ KXEN ⦁ KNIME ⦁ Neural Designer ⦁ OpenNN ⦁ Orange ⦁ Powerhouse ⦁ Quiterian ⦁ SPSS Modeler ⦁ SAS Enterprise Miner ⦁ STATISTICA Data Miner ⦁ Weka ⦁ KEEL