Introducción a la minería de datos moderna. Minería de datos · Métodos de Minería de Datos de Wiki Loginom

La minería de datos se divide en dos grupos grandes sobre el principio de trabajar con datos de aprendizaje de origen. En esta clasificación, el nivel superior se determina sobre la base de si los datos se guardan después de la minería de datos o se destilan para su uso posterior.

1. Uso directo de los datos, o guardar datos.

En este caso, los datos iniciales se almacenan en un formulario detallado obvio y se utilizan directamente en etapas y / o análisis de excepciones.. El problema de este grupo de métodos: cuando se usa, puede ser difícil analizar bases de datos ultra-altas.

Métodos de este grupo: análisis de clústeres, el método del vecino más cercano, el método del vecino más cercano, razonamiento por analogía.

2. Detección y uso de formalizado. leyes, o plantillas de destilación.

Con tecnología plantillas de destilaciones Una muestra (plantilla) de la información se extrae de los datos de origen y se convierte en algunas estructuras formales, el tipo de lo que depende del método de minería de datos utilizado. Este proceso se realiza en la etapa. búsqueda gratuita, en el primer grupo de métodos, esta etapa está ausente en principio. En etapas modelado pronóstico y análisis de excepciones. Se utilizan los resultados de la etapa. búsqueda gratuita, son significativamente más compactos en las bases de datos. Recuerde que los diseños de estos modelos se pueden interpretar analistas o ineptos ("cajas negras").

Métodos de este grupo: Métodos lógicos; Métodos de visualización; Métodos de tabulación cruzada; Métodos basados \u200b\u200ben ecuaciones.

Los métodos lógicos, o los métodos de inducción lógicos incluyen: solicitudes y análisis difusos; Reglas simbólicas; Árboles de soluciones; Algoritmos genéticos.

Los métodos de este grupo son quizás los más interpretados, que extraen los patrones encontrados, en la mayoría de los casos, en una forma bastante transparente desde el punto de vista del usuario. Las reglas obtenidas pueden incluir variables continuas y discretas. Cabe señalar que los árboles de las soluciones se pueden convertir fácilmente a conjuntos de reglas simbólicas al generar una regla a lo largo del camino desde la raíz del árbol hasta su vértice terminal. Los árboles de soluciones y reglas son en realidad diferentes maneras de resolver una tarea y difieren solo en sus capacidades. Además, la implementación de las reglas se lleva a cabo mediante algoritmos más lentos que la inducción de los árboles de decisiones.

Métodos de pestaña: agentes, red BAEC (confianza), visualización transversal. El último método no responde exactamente a una de las propiedades de la búsqueda independiente de la minería de datos. leyes Sistema analítico. Sin embargo, la provisión de información en forma de tabla cruzada garantiza la implementación de la tarea principal de la minería de datos: búsqueda de plantillas, por lo que este método también puede considerarse uno de los métodos de minería de datos.

Métodos basados \u200b\u200ben ecuaciones.

Los métodos de este grupo expresan los patrones identificados en forma de expresiones matemáticas: ecuaciones. Por lo tanto, solo pueden trabajar con variables numéricas, y las variables de otros tipos deben estar codificadas en consecuencia. Sin embargo, esto, un poco limita el uso de los métodos de este grupo, se usan ampliamente en la solución de diversas tareas, especialmente las tareas de pronóstico.

Los principales métodos de este grupo: métodos estadísticos y redes neuronales.

Los métodos estadísticos se utilizan con mayor frecuencia para resolver las tareas de pronóstico. Hay muchos métodos de análisis estadístico de los datos, entre ellos, por ejemplo, análisis de correlación-regresión, correlación de la serie de dinámicas, identificación de tendencias de series dinámicas, análisis armónico.

Otra clasificación comparte todas las variedades de métodos de minería de datos en dos grupos: métodos estadísticos y cibernéticos. Este esquema de separación se basa en diferentes enfoques para aprender modelos matemáticos.

Cabe señalar que hay dos enfoques de atribuir métodos estadísticos a la minería de datos. El primero de ellos se opone a los métodos estadísticos y la minería de datos, sus partidarios consideran métodos estadísticos clásicos en una dirección separada de análisis de datos. De acuerdo con el segundo enfoque, los métodos de análisis estadístico son parte de la minería de datos de kit de herramientas matemática. Las fuentes más de buena reputación se adhieren al segundo enfoque.

En esta clasificación distingue dos grupos de métodos:

  • métodos estadísticos basados \u200b\u200ben el uso de la experiencia acumulada promediada, que se refleja en datos retrospectivos;
  • métodos cibernéticos que incluyen muchos enfoques matemáticos heterogéneos.

La falta de una clasificación de este tipo: los algoritmos estadísticos y cibernéticos de una manera o se basan en la comparación de la experiencia estadística con los resultados de monitorear la situación actual.

La ventaja de una clasificación de este tipo es su conveniencia para la interpretación, se utiliza para describir los medios matemáticos de un enfoque moderno para extracción de conocimiento de matrices de observaciones de origen (operativas y retrospectivas), es decir, En tareas de minería de datos.

Considere con más detalle los grupos anteriores.

Métodos estadísticos Minería de datos

Estos métodos son cuatro secciones interrelacionadas:

  • análisis preliminar de la naturaleza de los datos estadísticos (inspección de la hipótesis de la estacionaria, la normalidad, la independencia, la uniformidad, la evaluación del tipo de función de distribución, sus parámetros, etc.);
  • detección de conexiones I. leyes (análisis de regresión lineal y no lineal, análisis de correlación, etc.);
  • análisis estadístico multidimensional (análisis discriminante lineal y no lineal, análisis de clústeres, análisis de componentes, análisis factorial y etc.);
  • modelos dinámicos y un pronóstico basado en series de tiempo.

El arsenal de los métodos estadísticos mineros de datos se clasifica para cuatro grupos de métodos:

  1. Análisis descriptivo y descripción de los datos de origen.
  2. Análisis de relación (análisis de correlación y regresión, análisis factorial, análisis de dispersión).
  3. Análisis estadístico multidimensional (análisis de componentes, análisis discriminante, análisis de regresión multidimensional, correlaciones canónicas, etc.).
  4. Análisis de series temporales ( modelos dinámicos y pronosticación).

Métodos cibernéticos de la minería de datos.

La segunda dirección de la minería de datos es un montón de enfoques, la idea combinada de matemáticas informáticas y el uso de la teoría. inteligencia artificial.

Los sistemas OLAP proporcionan herramientas de análisis para la prueba de hipótesis cuando se analizan los datos, es decir, la tarea principal del analista es la generación de las hipótesis, que lo resuelve, basado en su conocimiento y experiencia. Sin embargo, el conocimiento no es solo en los humanos, sino que También en datos acumulados que se están analizando. Dicho conocimiento está contenido en una gran cantidad de información que una persona no puede explorar de forma independiente. En este sentido, existe la posibilidad de omitir hipótesis que pueden traer beneficios significativos.

Para la detección del conocimiento "oculto", se utilizan métodos especiales de análisis automático, con los cuales tienen que extraer prácticamente el conocimiento del "amanecer" de la información. Para esto, se mencionó el término "dataminging)" o "análisis de datos inteligentes".

Hay muchas definiciones de datamining, que se complementan entre sí. Aquí hay algunos de ellos.

DataMining es un patrón no trivial y prácticamente útil en las bases de datos. (Grupo de grupo)

DataMining es el proceso de selección, investigación y modelado de grandes cantidades de datos para detectar incógnitas de estas estructuras (Patters) para lograr la ventaja del negocio (Instituto SAS)

DataMining es un proceso cuyo objetivo es detectar nuevas correlaciones significativas, las tendencias de la muestra como resultado de tamizar una gran cantidad de datos almacenados con el uso del método de reconocimiento de modelos más el uso de métodos estadísticos y matemáticos (GartnerGroup)

DataMining es un estudio y detección de "máquina" (algoritmos, inteligencia artificial) en datos de conocimiento crudo de conocimiento ocultono fueron conocidos anteriormente, no triviales, casi útiles, disponibles para la interpretación.por hombre. (A. barcarses "tecnologías de análisis de datos")

DataMining es un proceso de detección de conocimientos útiles sobre negocios. (N.M. Abdikeev "KBA")

Propiedades del conocimiento detectable.

Considere las propiedades del conocimiento detectable.

  • El conocimiento debe ser nuevo, previamente desconocido. Los esfuerzos estimados para abrir el conocimiento que ya son conocidos por el usuario no pagan. Por lo tanto, el conocimiento nuevo previamente desconocido es valioso.
  • El conocimiento debe ser no trivial. Los resultados del análisis deben reflejar no obvio, inesperado.patrones en los datos que constituyen los llamados conocimientos ocultos. Los resultados que se podrían obtener formas más fáciles (por ejemplo, la visualización visual), no justifiquen la atracción de los poderosos métodos de dataming.
  • El conocimiento debe ser prácticamente útil. Los conocimientos encontrados deben ser aplicables, incluidos los datos nuevos, con un grado de fiabilidad bastante alto. La utilidad es que estos conocimientos pueden traer un cierto beneficio cuando se aplique.
  • El conocimiento debe estar disponible para entender a la persona. Los patrones encontrados deben explicarse lógicamente, de lo contrario, existe la posibilidad de que sean aleatorios. Además, el conocimiento descubierto debe presentarse en una persona comprensible.

En Dataminging para presentar el conocimiento adquirido, el modelo sirve. Los tipos de modelos dependen de los métodos de su creación. Los más comunes son: Reglas, árboles de soluciones, clusters y funciones matemáticas.

Tareas de dataming

Recordar que tecnología de datosLa minería se pone en el concepto de plantillas que representan patrones. Como resultado de la detección de estos, los patrones ocultos a simple vista, se resuelven las tareas de dataming. Diferentes tipos de patrones que pueden expresarse en forma de una persona clara corresponden a ciertas tareas de dataming.

No hay una opinión única sobre qué tareas deben atribuirse a la dataming. La mayoría de las fuentes de buena reputación enumeran lo siguiente: Clasificación,

clotería, pronóstico, asociación, visualización, análisis y detección.

desviaciones, estimación, análisis de conexiones, resumen.

El propósito de la descripción, que sigue, es dar una idea general de las tareas de dataming, comparar algunos de ellos, y también enviar algunos métodos con los que se resuelven estas tareas. Las tareas de datos más comunes son la clasificación, la agrupación, la asociación, la predicción y la visualización. Por lo tanto, las tareas se dividen en los tipos de información generada, esta es la clasificación más común de las tareas de dataming.

Clasificación (clasificación)

La tarea de dividir una variedad de objetos u observaciones en grupos específicos a priori, llamados clases, dentro de cada una de las cuales se asumen similares entre sí con aproximadamente las mismas propiedades y signos. En este caso, la solución se basa enanálisis Valores de atributo (signos).

La clasificación es una de las tareas más importantes.Procesamiento de datos . Se utiliza enmárketing Al evaluar la solvencia crediticia de los prestatarios, determinandola lealtad del cliente, reconocimiento de imágenes. , Diagnóstico médico y muchas otras aplicaciones. Si el analista conoce las propiedades de los objetos de cada clase, cuando una nueva observación se refiere a una clase específica, estas propiedades se aplican automáticamente.

Si el número de clases se limita a dos, entonces tiene lugarclasificación binaria A los que se pueden reducir muchas tareas más complejas. Por ejemplo, en lugar de determinar dichos grados de riesgo de crédito, como "alto", "medio" o "bajo", puede usar solo dos "problemas" o "rechazar".

Para la clasificación en datamining, se utilizan muchos modelos diferentes:redes neuronales, árboles de soluciones. , vectores de maquinaria, método de los vecinos más cercanos, algoritmos de recubrimiento, etc., al crear entrenamiento con un maestro, cuandovariable de salida (etiqueta de clase ) Establecer para cada observación. Formalmente, la clasificación se realiza sobre la base de la partición.signos de espacio en el área, dentro de cada uno de los cualesvectores multidimensionales Considerado como idéntico. En otras palabras, si el objeto cayó en el área del espacio asociado con una clase específica, se refiere a ella.

Agrupamiento (agrupamiento)

Breve descripción. La agrupación es una continuación lógica de la idea.

clasificación. Esta tarea es más complicada, la característica de agrupamiento es que las clases de objetos no estaban inicialmente predeterminadas. El resultado de la agrupación es la partición de los objetos en grupos.

Ejemplo del método de resolución del problema de agrupamiento: Aprendizaje "Sin maestro" de un tipo especial de redes neuronales: autoorganización de tarjetas Kohonen.

Asociación (Asociaciones)

Breve descripción. Durante la solución de la tarea de buscar reglas asociativas, se encuentran regularidades entre eventos relacionados en el conjunto de datos.

La diferencia entre la asociación de las dos tareas anteriores DATAMINACIÓN: La búsqueda de regularidades se lleva a cabo no en función de las propiedades del objeto que se está analizando, pero entre varios eventos que ocurren simultáneamente. El algoritmo más famoso para resolver la tarea de buscar reglas asociativas: algoritmo apriori.

Secuencia o asociación secuencial (SecuencialAsociation)

Breve descripción. La secuencia le permite encontrar patrones temporales entre transacciones. La tarea de la secuencia es similar a la asociación, pero su objetivo es establecer patrones no entre los eventos próximos simultáneamente, sino entre los eventos relacionados con el tiempo (es decir, que tiene lugar con un intervalo de tiempo específico). En otras palabras, la secuencia está determinada por la alta probabilidad de los eventos relacionados con la cadena. De hecho, la Asociación es un caso especial de una secuencia con un retraso temporal igual a cero. Esta tarea Dataming también se llama la tarea de encontrar plantillas consecutivas (SecuencialPattern).

Regla de secuencia: después del evento x después de un cierto tiempo, se producirá.

Ejemplo. Después de comprar un apartamento, los inquilinos en el 60% de los casos durante dos semanas adquieren un refrigerador, y durante dos meses se compra un televisor en el 50% de los casos. La solución a esta tarea se usa ampliamente en el marketing y la administración, por ejemplo, cuando se administra el CLIENTELIFEMATIONGEMENTE (CustomerLifeClementagement).

Regresión, pronóstico (pronosticación)

Breve descripción. Como resultado de la solución del problema de pronóstico sobre la base de las características de los datos históricos, se estiman los valores perdidos o futuros de los indicadores numéricos objetivo.

Para resolver tales tareas, los métodos de estadísticas matemáticas, redes neuronales, etc. son ampliamente utilizadas.

Tareas adicionales

Definición de desviación (desviación), Análisis de desviaciones o emisiones.

Breve descripción. El propósito de resolver esta tarea es detectar y analizar los datos más diferentes del conjunto total de datos, identificando los llamados patrones no característicos.

Estimación (estimación)

La tarea de estimación se reduce a predecir los signos continuos.

Análisis de relaciones (LinkAnalysis)

La tarea de encontrar dependencias en el conjunto de datos.

Visualización (visualización, graffining)

Como resultado de la visualización, se crea una imagen gráfica de los datos analizados. Para resolver la tarea de visualización, se utilizan métodos gráficos, que muestran la presencia de patrones en los datos.

Un ejemplo de métodos de visualización es la presentación de datos en dimensiones 2-D y 3-D.

Resumen (resumen)

La tarea cuyo propósito es una descripción de grupos específicos de objetos del conjunto de datos analizados.

A cerca de la clasificación anterior es la unidad de tareas de dataming en la siguiente: investigación y descubrimientos, pronósticos y clasificación, explicaciones y descripciones.

Investigación automática y descubrimiento (búsqueda gratuita)

Ejemplo de tarea: detección de nuevos segmentos de mercado.

Para resolver esta tarea de clase, se utilizan métodos de análisis de clústeres.

Pronóstico y clasificación

Ejemplo de problema: predicción del crecimiento de ventas basado en valores actuales.

Métodos: regresión, redes neuronales, algoritmos genéticos, árboles de soluciones.

Las tareas de clasificación y pronóstico constituyen un grupo de llamadas modelos inductivos, como resultado de lo cual se está estudiando el objeto o sistema analizado. En el proceso de resolución de estas tareas en función de un conjunto de datos, se está desarrollando un modelo general o hipótesis.

Explicación y descripción.

Problema de ejemplo: características del cliente sobre datos demográficos y historias de compras.

Métodos: árboles de decisión, sistema de reglas, reglas de asociación, análisis de conexión.

Si el ingreso del cliente es mayor que 50 unidades condicionalesY su edad es de más de 30 años, entonces la clase cliente es la primera.

Comparación de agrupamiento y clasificación.

Característica

Clasificación

Agrupamiento

Control por aprender

Revisado

Incontrolable

Estrategia

Entrenamiento con profesor

Entrenamiento sin profesor

Disponibilidad de etiqueta de clase

Conjunto educativo

acompañado de una etiqueta que indica

clase a la que pertenece

observación

Etiquetas de clase de estudio

sets desconocidos

Base para la clasificación

Los nuevos datos se clasifican sobre la base de un conjunto de aprendizaje.

Dados muchos datos con el propósito de

establecimiento de la existencia

clases o clusters de datos

Alcance de la aplicación DataMining

Cabe señalar que hoy en día la tecnología Dataming ha recibido la mayor distribución para resolver tareas comerciales. Quizás la razón es que está en esta dirección que puede ser el retorno del uso de las herramientas de dataming, de acuerdo con algunas fuentes, hasta un 1000% y los costos de su implementación pueden pagar rápidamente.

Consideraremos las cuatro aplicaciones principales de la tecnología Dataming en detalle: ciencia, negocios, investigación para el gobierno y la dirección web.

Tareas de negocios. Principales destinos: banca, finanzas, seguros, CRM, producción, telecomunicaciones, comunicación electrónica, marketing, mercado de valores y otros.

    Será el crédito de crédito

    Segmentación de mercado

    Atracción de nuevos clientes.

    Fraude de tarjetas de crédito

DATAMINACIÓN DE APLICACIÓN PARA soluciones a los objetivos del nivel estatal.. BASEING: Búsqueda de personas evadiendo los impuestos; Fondos en la lucha contra el terrorismo.

DATAMINACIÓN DE APLICACIÓN PARA investigación científica. Principales direcciones: medicina, biología, genética molecular y ingeniería genética, bioinformática, astronomía, química aplicada, investigación relativa a la dependencia narcótica y otros.

Dataming de la aplicación para resolver Tareas web. Principales destinos: Búsquedas de bolsas (SearchEngines), contadores y otros.

Comercio electrónico

En el campo de los datos del comercio electrónico se aplica a la formación.

Dicha clasificación permite a las empresas identificar a ciertos grupos de clientes y realizar políticas de marketing de acuerdo con los intereses y necesidades de los clientes. La tecnología de datamining para el comercio electrónico está estrechamente relacionada con la tecnología webminal.

Las principales tareas de datamining en la producción industrial:

· Análisis complejo del sistema de situaciones de producción;

· Pronóstico a corto y largo plazo para el desarrollo de situaciones de producción;

· Desarrollo de opciones para soluciones de optimización;

· Pronóstico de la calidad del producto dependiendo de algunos parámetros.

proceso tecnológico;

· Detección de tendencias ocultas y patrones de producción.

procesos;

· Previsión de patrones de procesos de producción;

· Detección de efectos ocultos de influencia;

· Detección e identificación de interconexiones previamente desconocidas entre

parámetros de producción y factores de influencia;

· Análisis del entorno de interacción de los procesos de producción y pronóstico.

cambios en sus características;

procesos;

· Visualización de los resultados del análisis, preparando informes preliminares y proyectos.

soluciones permisibles con evaluaciones de validación y eficiencia de posibles implementaciones.

Márketing

En el campo de la cuenta de marketing, se encuentra un uso muy generalizado.

¿Los principales problemas de comercialización "¿Qué se vende?", "¿Cómo vender?", "¿Quién es

consumidor? "

En conferencias sobre las tareas de clasificación y agrupamiento, describe en detalle el uso del análisis de clústeres para resolver problemas de comercialización, como la segmentación del consumidor.

Otro conjunto común de métodos para resolver problemas de marketing: métodos y algoritmos para encontrar reglas asociativas.

También exitosamente aquí es la búsqueda de patrones temporales.

Venta minorista

En el campo del comercio minorista, como en marketing, se aplican:

· Algoritmos para encontrar reglas asociativas (para determinar con conjuntos encontrados con frecuencia

bienes que compran compradores al mismo tiempo). Identificar tales reglas ayuda

coloque los productos en los estantes de las salas de comercio, producir estrategias para comprar bienes.

y su colocación en almacenes, etc.

· Use secuencias de tiempo, por ejemplo, para determinar

los volúmenes requeridos de stocks de bienes en stock.

· Métodos de clasificación y agrupamiento para definir grupos o categorías de clientes,

conocimiento de los cuales contribuye a la exitosa promoción de los bienes.

Bolsa de Valores

Aquí está la lista de desafíos del mercado de valores, que se puede resolver utilizando la tecnología de datos.

Minería: · Pronóstico de valores futuros de instrumentos financieros e indicadores

valores pasados;

· Previsión de tendencias (Dirección de movimiento futura - Crecimiento, Caída, FleTt) Financiera

herramienta y su fuerza (fuerte, moderadamente fuerte, etc.);

· Selección de estructura de clúster del mercado, industria, sectores para algunos set.

características;

· Gestión dinámica de la cartera;

· Previsión de volatilidad;

· Evaluación de riesgos;

· Predicción de la ocurrencia de la crisis y su pronóstico de su desarrollo;

· Selección de activos, etc.

Además de las actividades descritas anteriormente, la tecnología DATAMINING se puede aplicar en una amplia variedad de áreas de negocios donde existe la necesidad de análisis de datos y acumular cierta cantidad de información retrospectiva.

Aplicación DataMining en CRM

Una de las instrucciones más prometedoras para aplicar datamining es el uso de esta tecnología en CRM analítico.

CRM (CustomErlationshipManagement) - Gestión de la relación con el cliente.

Al utilizar estas tecnologías, la minería del conocimiento se combina con "minería de dinero" de los datos del cliente.

Un aspecto importante en el trabajo de marketing y departamentos de ventas es compilar.presentación holística de clientes, información sobre sus características, características, estructura de la base del cliente. CRM usa el llamado perfiladoclientes, que otorgan una presentación completa de toda la información necesaria sobre los clientes.

El perfil del cliente incluye los siguientes componentes: segmentación del cliente, rentabilidad del cliente, retención de clientes, análisis de reacción al cliente. Cada uno de estos componentes se puede explorar utilizando datamining, y su análisis en un conjunto, ya que los componentes del perfilado, como resultado, pueden darles un conocimiento que no se puede obtener de cada característica individual.

Webminante.

La cámara web se puede traducir como "minería de datos en la web". WebIntelligencia o web.

El intelecto está listo para "abrir un nuevo capítulo" en el rápido desarrollo de e-business. La capacidad de determinar los intereses y preferencias de cada visitante, observando su comportamiento, es una ventaja grave y crítica de la lucha competitiva en el mercado de comercio electrónico.

Los sistemas webminales pueden responder muchas preguntas, por ejemplo, que de los visitantes son un cliente potencial de tienda web, que el grupo de clientes de tienda web trae los ingresos más grandes, cuáles son los intereses de un cierto visitante o grupo de visitantes.

Métodos

Clasificación de métodos.

Distinguir dos grupos de métodos:

  • métodos estadísticos basados \u200b\u200ben el uso de la experiencia acumulada promediada, que se refleja en datos retrospectivos;
  • métodos cibernéticos que incluyen muchos enfoques matemáticos heterogéneos.

La falta de una clasificación de este tipo: los algoritmos estadísticos y cibernéticos de una manera o se basan en la comparación de la experiencia estadística con los resultados de monitorear la situación actual.

La ventaja de esta clasificación es su conveniencia para la interpretación: se usa para describir los medios matemáticos de un enfoque moderno de la extracción de conocimiento de las matrices de las observaciones iniciales (operativas y retrospectivas), es decir, En tareas de minería de datos.

Considere con más detalle los grupos anteriores.

Métodos estadísticos Minería de datos

En estos los métodos son cuatro secciones interrelacionadas:

  • análisis preliminar de la naturaleza de los datos estadísticos (inspección de la hipótesis de la estacionaria, la normalidad, la independencia, la uniformidad, la evaluación del tipo de función de distribución, sus parámetros, etc.);
  • detección de conexiones I. leyes (análisis de regresión lineal y no lineal, análisis de correlación, etc.);
  • análisis estadístico multidimensional (análisis discriminante lineal y no lineal, análisis de clústeres, análisis de componentes, análisis factorial, etc.);
  • modelos dinámicos y pronóstico basados \u200b\u200ben series de tiempo.

El arsenal de los métodos estadísticos mineros de datos se clasifica para cuatro grupos de métodos:

  1. Análisis descriptivo y descripción de los datos de origen.
  2. Análisis de conexión (análisis de correlación y regresión, análisis factorial, análisis de dispersión).
  3. Análisis estadístico multidimensional (análisis de componentes, análisis discriminante, análisis de regresión multidimensional, correlaciones canónicas, etc.).
  4. Análisis de series temporales (modelos dinámicos y pronósticos).

Métodos cibernéticos de la minería de datos.

La segunda dirección de la minería de datos es un montón de enfoques, la idea de las matemáticas informáticas y el uso de la teoría de la inteligencia artificial.

Este grupo incluye tales métodos:

  • redes neuronales artificiales (reconocimiento, agrupamiento, pronóstico);
  • programación evolutiva (incluidos los algoritmos de la contabilidad grupal de los argumentos);
  • algoritmos genéticos (optimización);
  • memoria asociativa (búsqueda de análogos, prototipos);
  • lógica difusa;
  • Árboles de soluciones;
  • sistemas de procesamiento de conocimientos expertos.

Análisis de conglomerados

El propósito de agrupar es buscar estructuras existentes.

Clustering es un procedimiento descriptivo, no realiza ninguna conclusión estadística, pero hace posible realizar un análisis de exploración y explorar la "estructura de datos".

El concepto de "clúster" se determina ambiguamente: en cada estudio sus "grupos". El concepto de clúster (clúster) se traduce como "grupo", "Manojo". El clúster se puede describir como un grupo de objetos que tienen propiedades generales.

Las características del clúster se pueden llamar a dos características:

  • homogeneidad interna;
  • aislamiento exterior.

La pregunta definida por los analistas en la solución de muchas tareas es cómo organizar datos en estructuras visuales, es decir, Expandir la taxonomía.

La mayor aplicación de la aplicación se recibió inicialmente en ciencias tales como biología, antropología, psicología. Para resolver problemas económicos, la agrupación fue pequeña durante mucho tiempo debido a los detalles específicos de los datos económicos y los fenómenos.

Los clústeres pueden ser no remodelados, o exclusivos (sin superposición, exclusiva) y intersección (superposición).

Cabe señalar que, como resultado del uso de varios métodos de análisis de clústeres, se pueden obtener grupos de varias formas. Por ejemplo, los grupos del tipo "cadena" son posibles cuando los grupos están representados por "cadenas" largas, los grupos de la forma alargada, etc., y algunos métodos pueden crear grupos arbitrarios.

Varios métodos pueden esforzarse por crear grupos de ciertos tamaños (por ejemplo, pequeños o grandes) o para asumir la presencia de grupos en el conjunto de varios tamaños. Algunos métodos de análisis de clústeres son particularmente sensibles al ruido o las emisiones, otras menos. Como resultado del uso de varios métodos de agrupamiento, se pueden obtener los resultados desiguales, esto es normal y es una característica del trabajo de un algoritmo en particular. Estas características deben considerarse al elegir un método de agrupamiento.

Presentamos una breve descripción de los enfoques para agrupar.

Algoritmos basados \u200b\u200ben particiónGoritmos, incl. Iterativo:

  • separación de objetos en grupos K;
  • redistribución iterativa de objetos para mejorar la agrupación.
  • Algoritmos jerárquicos (jerarchyalgorithms):
  • agglomeración: cada objeto es inicialmente un grupo, clusters,
  • conectarse entre sí, formar un grupo más grande, etc.

Métodos basados \u200b\u200ben concentraciones de objetos (métodos basados \u200b\u200ben densidad):

  • basado en la posibilidad de conectar objetos;
  • ignora el ruido, encontrando grupos de forma arbitraria.

Red - Métodos (métodos basados \u200b\u200ben la cuadrícula):

  • cuantización de objetos en la estructura de la cuadrícula.

Métodos de modelo (basado en modelos):

  • usando el modelo para encontrar los datos más relevantes de los clústeres.

Métodos de análisis de clústeres. Métodos iterativos.

Con una gran cantidad de observaciones, los métodos jerárquicos de análisis de clústeres no son adecuados. En tales casos, los métodos no iónicos se utilizan en función de la separación, que son los métodos iterativos para aplastar el agregado inicial. En el proceso de división, se forman nuevos grupos hasta que se realice la regla de parada.

Dicha agrupación no erútica consiste en separar el conjunto de datos por cierto número de grupos individuales. Hay dos enfoques. El primero es determinar los límites de los clústeres como las secciones más densas en el espacio multidimensional de los datos de origen, es decir. La definición del clúster donde hay un gran "engrosamiento de puntos". El segundo enfoque es minimizar las diferencias de la medida.

Algoritmo medio K (K-significa)

Los más comunes entre los métodos no erchicos del algoritmo K-Medio, también llamados análisis de cluster rápido. La descripción completa del algoritmo se puede encontrar en Hartigan y Wong (Hartiganandwong, 1978). A diferencia de los métodos jerárquicos que no requieren supuestos preliminares con respecto al número de clusters, es necesario tener una hipótesis sobre el número más probable de grupos.

El algoritmo promedio de K construye grupos K ubicados en las posibles distancias largas entre sí. El tipo principal de tareas que resuelve el algoritmo K-promedio es la presencia de supuestos (hipótesis) en relación con el número de grupos, mientras que deben ser lo más que sea posible. La elección del número K puede basarse en los resultados de estudios previos, consideraciones teóricas o intuición.

La idea general del algoritmo: se asignan a los grupos de observación de números fijos K dados a los grupos para que el promedio en el clúster (para todas las variables) se difiera al máximo entre sí.

Descripción del algoritmo.

1. La distribución inicial de los objetos según los clústeres.

  • El número K está seleccionado, y en el primer paso, estos puntos se consideran "centros" de grupos.
  • Cada grupo corresponde a un centro.

La selección de las necesidades iniciales se puede realizar de la siguiente manera:

  • selección de observaciones K para maximizar la distancia inicial;
  • selección aleatoria de las observaciones K;
  • la elección de las primeras observaciones K.

Como resultado, cada objeto se asigna a un clúster específico.

2. Proceso iterativo.

Los centros de grupos se calculan, que luego se consideran los grupos de medios de coordenadas. Los objetos se redistribuyen de nuevo.

El proceso de cálculo de centros y redistribución de objetos continúa hasta que se cumple una de las condiciones:

  • los centros de racimo estabilizados, es decir,. Todas las observaciones pertenecen al clúster a las que pertenecían a la iteración actual;
  • el número de iteraciones es igual al número máximo de iteraciones.

La figura muestra un ejemplo del funcionamiento del algoritmo K-Medio para K igual a dos.

Un ejemplo de la operación del algoritmo K-promedio (k \u003d 2)

La elección del número de clusters es una pregunta difícil. Si no hay supuestos sobre este número, se recomienda crear 2 clústeres, luego 3, 4, 5, etc., comparando los resultados obtenidos.

Comprobando la calidad del agrupamiento.

Después de obtener los resultados del análisis de clústeres mediante el método K-promedio, es necesario verificar la corrección de la agrupación (es decir, evaluar cuánto se diferencian los grupos uno de ellos).

Para esto, se calculan los valores promedio para cada grupo. Con buena agrupación, se deben obtener promedios altamente diferentes para todas las mediciones o al menos más de ellas.

Las ventajas del algoritmo K-Medio:

  • fácil uso;
  • uso de velocidad;
  • conveniencia y transparencia del algoritmo.

Desventajas del algoritmo K-Medio:

  • el algoritmo es demasiado sensible a las emisiones que pueden distorsionar el promedio.

La posible solución de este problema es modificar la mediana de algoritmo de algoritmo;

  • el algoritmo puede trabajar lentamente en grandes bases de datos. La posible solución de este problema es usar el muestreo de datos.

Redes bayesianas

En teoría de la probabilidad, el concepto de dependencia de la información se modela mediante la dependencia convencional (o estrictamente: la falta de independencia condicional), que describe cómo nuestra confianza en el resultado de un determinado evento cambia al recibir un nuevo conocimiento de los hechos, proporcionado Que ya hemos conocido algún conjunto de otros hechos.

Entienda convenientemente e intuitivamente la dependencia entre los elementos por medio de una ruta direccional que conecta estos elementos en el gráfico. Si la dependencia entre los elementos X e Y no se realiza directamente y se lleva a cabo por medio del tercer elemento Z, es lógico esperar que el elemento Z estará en la ruta entre X e Y. Dichos nodos intermediarios "cortarán" la relación entre x e y, es decir,. Modelar la situación de la independencia condicional entre ellos con un significado conocido de factores directos de influencia.Dichos idiomas de modelado son redes bayesianas que sirven para describir las dependencias convencionales entre los conceptos de un determinado área temática.

Las redes bayesianas son estructuras gráficas para la representación de las relaciones probabilísticas entre una gran cantidad de variables y para la implementación de la producción probabilística basada en estas variables.La clasificación "ingenua" (Bayesovskaya) es un método de clasificación bastante transparente y comprensible. "Naive" se llama porque proviene de la suposición de mutuoindependencia de signos.

Propiedades de clasificación:

1. Uso de todas las variables e identificando todas las dependencias entre ellos.

2. Disponibilidad de dos supuestos sobre las variables:

  • todas las variables son igualmente importantes;
  • todas las variables son estadísticamente independientes, es decir,. El valor de uno permisible no dice nada sobre el valor de otro.

Hay dos scripts principales para usar las redes bayesianas:

1. Análisis descriptivo. El área temática se muestra como un gráfico, los nodos de los cuales representan los conceptos, y los arcos direccionales que muestran las flechas ilustran las dependencias inmediatas entre estos conceptos. La relación entre los conceptos X e Y significa: El conocimiento del valor X ayuda a hacer una suposición más razonable del valor de Y. La ausencia de una conexión directa entre los conceptos simula la independencia condicional entre ellos con los valores conocidos de un cierto conjunto de conceptos "divididos". Por ejemplo, el tamaño de los zapatos del niño está obviamente asociado con la capacidad del niño para leer a través de la edad. Entonces, las imágenes más grandes dan una gran confianza de que el niño ya está leyendo, pero si ya nos conocemos envejecemos, entonces el conocimiento del tamaño del zapato ya no nos dará para más información Sobre la capacidad de los niños para leer.


Como otro, lo contrario, el ejemplo, considera que tales factores inicialmente no relacionados como fumar y el frío. Pero si somos famosos por el síntoma, por ejemplo, que una persona sufre en la tos de la mañana, entonces el conocimiento de que una persona no fuma, aumenta nuestra confianza en que se corta una persona.

2. Clasificación y pronóstico. La red bayesiana, que permite la independencia condicional de una serie de conceptos, permite reducir el número de parámetros colaterales, lo que hace posible su evaluación confidencial en los volúmenes de datos disponibles. Entonces, a las 10 variables, cada una de las cuales puede tomar 10 valores, el número de parámetros de distribución de colaboración es de 10 mil millones - 1. Si asumimos que solo 2 variables dependen entre sí, el número de parámetros se convierte en 8 * (10-1) + (10 * 10-1) \u003d 171. Tener un modelo de distribución sólida con los recursos computacionales, un valor desconocido de cualquier idea que podamos predecir, por ejemplo, el valor más probable de este concepto con los valores conocidos de otros conceptos .

Notas tales ventajas de las redes bayesianas como un método de dataming:

Los modelos definen la relación entre todas las variables, lo hace fácil.procesar situaciones en las que ciertas variables son desconocidas;

Las redes bayesianas son simplemente interpretadas y permitidas en el escenario.el modelado pronóstico es fácil de analizar el script "que si";

Método bayesiano le permite combinar naturalmente los patrones,derivado de los datos, y, por ejemplo, los conocimientos expertos obtenidos explícitamente;

El uso de redes bayesianas evita el problema de la reaplección.(en exceso), es decir, una complicación redundante del modelo, que es un lado débilmuchos métodos (por ejemplo, decisiones y árboles neuronales).

El enfoque de Nao-Bayesovsky tiene las siguientes fallas:

Multiplique las probabilidades condicionales son correctas solo cuando todas las entradaslas variables son realmente estadísticamente independientes; Aunque a menudo este métodomuestra bastante buenos resultados en incumplimiento de las condiciones estadísticas.la independencia, pero teóricamente, tal situación debe ser procesada más compleja.métodos basados \u200b\u200ben la enseñanza de redes bayesianas;

Es imposible procesar directamente las variables continuas, las necesitan.transformación al intervalo a los atributos para ser discretos; Sin embargo, talla transformación a veces puede conducir a la pérdida de patrones significativos;

Sobre el resultado de la clasificación en un enfoque ingenuo-bayesiano solo afectavalores individuales de variables de entrada, efecto combinado de parejas olas tropas de valores de diferentes atributos no se tienen en cuenta aquí. Podría mejorarla calidad del modelo de clasificación en términos de su precisión predictiva,sin embargo, aumentaría el número de opciones aplicables.

Redes neuronales artificiales

Las redes neuronales artificiales (en adelante, las redes neuronales) pueden ser síncronas y asíncronas.En las redes neuronales síncronas en cada momento del tiempo, solo cambia su condición.una neurona En asíncrono, el estado cambia inmediatamente en todo el grupo de neuronas, por regla general, en totalcapa. Puede seleccionar dos arquitecturas básicas: redes conectadas en capas y completas.La clave en las redes en capas es el concepto de capa.La capa es una o más neuronas, cuyas entradas se sirven por la misma señal general.Redes neuronales en capas: redes neuronales en las que las neuronas se dividen en grupos separados (capas) para que el procesamiento de la información se realice en capas.En las neuronas en capas de las neuronas de la capa I-TH, se obtienen señales de entrada, las convierte y a través de los puntos de la rama se transmiten a las neuronas (I + 1) capa. Y así sucesivamente antes de la capa k-th, que daseñales de salida para intérprete y usuario. El número de neuronas en cada capa no está asociada con la cantidad de neuronas en otras capas puede ser arbitraria.Dentro del marco de una capa, los datos se procesan en paralelo y en la escala de toda la red, el procesamiento se realiza sucesivamente, desde la capa hasta la capa. Las redes neuronales en capas incluyen, por ejemplo, percepciones de múltiples capas, redes de funciones de base radial, cognitron, no zinitro, redes de memoria asociativa.Sin embargo, la señal no siempre se alimenta a todas las neuronas de capa. En el clanitrón, por ejemplo, cada neurona de la capa actual recibe señales solo de las neuronas cerca de la capa anterior.

Las redes en capas, a su vez, pueden ser de una sola capa y multicapa.

Red de una sola capa- Red consistente en una capa.

Red multicapa- Red con varias capas.

En una red multicapa, la primera capa se llama entrada, subsiguiente: interna u oculta, la última capa: salida. Por lo tanto, las capas intermedias son todas las capas en una red neuronal multicapa, excepto la entrada y la salida.La capa de entrada de red implementa la comunicación con los datos de entrada, la salida: en la salida.Por lo tanto, las neuronas pueden ser de entrada, salida y oculta.La capa de entrada se organiza a partir de neuronas de entrada (entradaNieuron), que reciben datos y los distribuyen a las entradas de las neuronas de la capa oculta de la red.La neurona oculta (Hiddenneuron) es una neurona ubicada en una capa oculta de la red neuronal.Neuronas de salida (OutputNeuron), de las cuales se organiza la capa de salida de la red, problemaslos resultados de la red neuronal.

En redes completascada neurona transmite su salida al resto de las neuronas, incluido él mismo. Las salidas de la red pueden ser todas o algunas señales de salida de neuronas después de varios ciclos de funcionamiento de la red.

Todas las señales de entrada se alimentan a todas las neuronas.

Entrenamiento de redes neuronales.

Antes de usar la red neuronal, debe ser entrenado.El proceso de aprendizaje de la red neuronal es ajustar sus parámetros internos para una tarea específica.El algoritmo de la red neuronal es iterativo, sus pasos se denominan épocas o ciclos.La era es una iteración en el proceso de aprendizaje, incluida la presentación de todos los ejemplos del conjunto de aprendizaje y, posiblemente, verifique la calidad de la capacitación en el control.colocar. El proceso de aprendizaje se realiza en la muestra de entrenamiento.La selección de entrenamiento incluye valores de entrada y correspondientes a los valores de salida del conjunto de datos. En el curso de la capacitación, la red neuronal encuentra algunas dependientes de los campos de salida de la entrada.Por lo tanto, tenemos una pregunta: qué campos de entrada (signos) a nosotrosnessesary para usar. Inicialmente, la elección se lleva a cabo por heúdericamente, más lejos.el número de entradas se puede cambiar.

La dificultad puede causar una pregunta sobre el número de observaciones en el conjunto de datos. Y aunque hay ciertas reglas que describen la relación entre el número necesario de observaciones y el tamaño de la red, su lealtad no está probada.El número de observaciones necesarias depende de la complejidad del problema que se está resolviendo. Con un aumento en el número de señales, el número de observaciones aumenta no linealmente, este problema se llama "cita de dimensión". Con cantidad insuficientedatos Se recomienda usar un modelo lineal.

Un analista debe determinar el número de capas en la red y el número de neuronas en cada capa.A continuación, es necesario asignar dichos valores y desplazamientos que puedanminimizar el error de la solución. El peso y el desplazamiento se configuran automáticamente de tal manera que minimizan la diferencia entre la señal deseada y la salida, que se denomina error de aprendizaje.El aprendizaje de errores para la red neuronal integrada se calcula comparandofines de semana y valores objetivo (deseados). La función de error se genera a partir de las diferencias.

La función de error es una función objetivo que requiere minimización en el proceso.aprendizaje de la red neuronal gestionada.Usando la función de error, puede estimar la calidad de la red neuronal durante la capacitación. Por ejemplo, la suma de los cuadrados de errores se usa a menudo.Depende de la calidad del aprendizaje de la red neural depende de su capacidad para resolver la tarea opuesta.

Devolviendo la red neuronal

Al aprender a redes neuronales, a menudo se llama dificultad seria.problema de procesamiento (en exceso).Perera, o en exceso de ajuste, es demasiado precisored neuronal a un conjunto específico de ejemplos de capacitación en los que la red pierdecapacidad para generalizar.Robusión ocurre en caso de entrenamiento demasiado largo, número insuficienteejemplos educativos o estructura arrendada de la red neuronal.El reentrenamiento se debe al hecho de que la elección del formación (entrenamiento) establecees aleatorio Desde el primer paso del aprendizaje, un error disminuye. Sobre elpasos subsiguientes para reducir los parámetros de error (función de destino)se ajusta a las características del conjunto de aprendizaje. Sin embargo, sucede"Ajuste" no está bajo los patrones generales de un número, sino debajo de la parte particular de ella.subconjuntos educativos. En este caso, la precisión del pronóstico disminuye.Una de las opciones para lidiar con el reentrenamiento de la red, dividiendo la muestra de entrenamiento para dosconjuntos (aprendizaje y prueba).En el conjunto de aprendizaje, se produce entrenamiento de red neuronal. El conjunto de pruebas está marcado por un modelo construido. Estos conjuntos no deben intersectarse.Con cada paso, los parámetros del modelo cambian, pero la disminución constantelos valores de la función objetivo se producen en el conjunto de aprendizaje. Al dividir una multitud de dos, podemos observar el cambio en el error de pronóstico en el conjunto de pruebas en paralelo con observaciones sobre el conjunto educativo. Algún tipoel número de pasos de error de pronóstico disminuye en ambos conjuntos. Sin embargo, enun error de cierto paso en el conjunto de pruebas comienza a aumentar, mientras que el error en el conjunto de aprendizaje continúa disminuyendo. Este momento se considera que es el comienzo de la reentrenamiento.

Herramientas de dataming

El desarrollo en el sector del mercado de software mundial de DATAMINING está ocupado por líderes mundiales y nuevas empresas en desarrollo. Las herramientas de dataming pueden representarse como una aplicación independiente o como suplementos al producto principal.La última opción es implementada por muchos líderes del mercado de software.Entonces, ya era una tradición que los desarrolladores de los paquetes estadísticos universales, una inmersión a los métodos tradicionales de análisis estadístico, incluyen en el paquete.dEFINICIONES DE DATAMINACIÓN. Mentaipackak SPSS (SPSS, Clementine), Statistica (Statsoft), SAS Institute (SAS Enterprise Miner).Algunos desarrolladores OLAP también ofrecen un conjunto de métodos de dataming, por ejemplo, una familia de productos Cognos. Hay proveedores, incluidas las soluciones de dataming en la funcionalidad de DBMS: esto es Microsoft (MicrosoftSqlServer), Oracle, IBM (IbmintelligentMinerfordata).

Bibliografía

  1. Abdikeev n.m. Danko tp Ildedemenov s.v. Kiselev A.D, "reingeniería de procesos de negocios. Curso de MBA, M.: Ekso, 2005. - 592 p. - (MVA)
  1. Abdikeev n.m., Kiselev A.D. "Gestión del conocimiento en la corporación y la reingenía empresarial" - M.: Infra-M, 2011.- 382 p. - ISBN 978-5-16-004300-5
  1. Barsegegian A.A., Kupriyanov M.S., Stesanenko v.V., Chokhod.I. "Métodos y modelos de análisis de datos: OLAP y minería de datos", San Petersburgo: BHV-PETERSBURG, 2004,336C., ISBN 5-94157-522-X
  1. Duque EN., Samoilenko PERO., "Procesamiento de datos.Curso de Capacitación "San Petersburgo: Peter, 2001, 386C.
  1. Chubukova I.A., Mining de datos del curso, http://www.intuit.ru/department/database/datamining/
  1. Ianh. Witten, EIBE Frank, Mark A. Hall, Morgan Kaufmann, Mining de datos: prácticas herramientas y técnicas de aprendizaje de máquinas (tercera edición), ISBN 978-0-12-374856-0
  1. Petrushin v.A. , Khan L., Monificación de datos multimedia y descubrimiento de conocimientos

Actualmente, los elementos de la inteligencia artificial se implementan activamente en actividades prácticas Gerente. A diferencia de los sistemas de inteligencia artificial tradicionales, la tecnología de la búsqueda inteligente y el análisis de datos o la producción de datos (Dat Minering - DM) no intenta simular la inteligencia natural, y mejora sus capacidades con el poder de los servidores de computación modernos, los motores de búsqueda y los almacenes de datos. A menudo, junto a las palabras "Minería de datos", hay palabras "Conocimiento del conocimiento en las bases de datos" (Descubrimiento del conocimiento en las bases de datos).

Higo. 6.17.

La minería de datos es un proceso de detección en los datos en bruto de interpretaciones previamente desconocidas, no triviales, prácticamente útiles y asequibles del conocimiento necesarias para tomar decisiones en diversos campos de la actividad humana. La minería de datos es de gran valor para los gerentes y analistas en sus actividades diarias. Las personas de negocios se dieron cuenta de que con la ayuda de los métodos de minería de datos, pueden obtener ventajas tangibles en una lucha competitiva.

La base de la tecnología moderna de la minería de datos (minería de datos impulsada por el descubrimiento) es el concepto de plantillas (patrones), reflejando fragmentos de relaciones multidimensionales en los datos. Estas plantillas son patrones inherentes a las muestras de datos que se pueden expresar de manera compacta en una persona manual clara. La búsqueda de plantillas se realiza mediante métodos que no están limitados por el marco de las suposiciones a priori sobre la estructura de muestreo y la forma de los valores de los valores de los indicadores analizados. En la Fig. 6.17 muestra un esquema de conversión de datos utilizando la tecnología de minería de datos.

Higo. 6.18.

La base para todo tipo de sistemas de predicción es la información histórica almacenada en la base de datos en forma de series temporales. Si logra construir plantillas, reflejando adecuadamente la dinámica del comportamiento de los objetivos, existe la posibilidad de que pueda predecir el comportamiento del sistema en el futuro. En la Fig. 6.18 muestra un ciclo de aplicación completo de tecnología de minería de datos.

Una posición importante de la minería de datos es la no trivialidad de las plantillas deseadas. Esto significa que las plantillas encontradas deben reflejar regularidad no obvia, inesperada (inesperada) en los datos que constituyen los llamados conocimientos ocultos (conocimientos ocultos). Los empresarios tenían una comprensión de que los datos "crudos" (datos en bruto) contienen una capa profunda de conocimiento, y con la excavación competente, se pueden detectar pepitas reales, que se pueden usar en la lucha competitiva.

El alcance de la minería de datos de la aplicación no se puede usar una tecnología limitada. ¿Se puede usar tecnología a lo largo de donde hay grandes cantidades de datos "crudos"?


En primer lugar, los métodos de minería de datos están interesados \u200b\u200ben las empresas comerciales, implementando proyectos basados \u200b\u200ben los almacenes de datos de información (almacén de datos). La experiencia de muchas de estas empresas muestra que el rendimiento del uso de la minería de datos puede alcanzar el 1000%. Hay informes de efecto económico, 10-70 veces el costo inicial de 350 a 750 mil dólares. Hay información sobre el proyecto de $ 20 millones, que se pagó en solo 4 meses. Otro ejemplo es el ahorro anual de 700 mil dólares al implementar la minería de datos en uno de los universos en el Reino Unido.

Microsoft anunció oficialmente el fortalecimiento de su actividad en el área de minería de datos. El Grupo de Investigación Especial de Microsoft, encabezado por Usamaya Fijad, y seis socios invitados (Angoss, DataSeage, Epifany, SAS, Silicon Graphics, SPSS) preparan un proyecto conjunto para desarrollar un estándar de intercambio de datos y herramientas para la integración de herramientas de minería de datos con bases de datos y datos almacenes.

La minería de datos es un área multidisciplinaria que se ha producido y desarrollado sobre la base de los logros de las estadísticas aplicadas, el reconocimiento de imágenes, los métodos de inteligencia artificial, la teoría de la base de datos, etc. (Fig. 6.19). De ahí la abundancia de métodos y algoritmos implementados en varios sistemas de minería de datos operativos. [Duke v.A. www.inftech.webservis.ru/it/datamining/ar2.html]. Muchos de estos sistemas integran varios enfoques a la vez. Sin embargo, como regla general, cada sistema tiene algún componente clave al que se realiza la tasa principal.

Puedes llamar a cinco tipos estándar Patrones detectados utilizando la minería de datos: asociación, secuencia, clasificación, agrupamiento y predicción.

Higo. 6.19. Áreas de aplicación de tecnología de minería de datos

La asociación tiene lugar si hay varios eventos asociados entre sí. Por ejemplo, un estudio realizado en un supermercado de computadora puede mostrar que una impresora o escáner compró el 55% de la computadora o el escáner, y si hay un descuento para dicho kit, la impresora se compra en el 80% de los casos. Tener información sobre dicha asociación, los gerentes son fáciles de evaluar lo efectivo que proporcionó el descuento.

Si hay una cadena de eventos asociados a tiempo, entonces hablan de la secuencia. Por ejemplo, después de comprar una casa en el 45% de los casos, se compra una nueva estufa de cocina dentro de un mes, y dentro de las dos semanas, el 60% de los recién llegados se incautan con un refrigerador.

Con la ayuda de la clasificación, características caracterizando al grupo al que pertenece uno u otro objeto. Esto se hace analizando objetos ya clasificados y la formulación de un determinado conjunto de reglas.

La agrupación es diferente de la clasificación por el hecho de que los grupos en sí no se especifican de antemano. Usando el agrupamiento de la minería de datos, varios grupos de datos homogéneos asignan de forma independiente.

Ministerio de Educación y Ciencia de la Federación Rusa.

Institución educativa presupuestaria del Estado Federal de Educación Profesional Superior

"Investigación nacional Tomsk Polytechnic University"

Cybernetics del Instituto

Dirección de informática y computación.

Departamento W.

Prueba

sobre la disciplina informática y computación

Asunto: Métodos de minería de datos.

Introducción

Procesamiento de datos. Conceptos y definiciones básicas

1 etapas en el proceso de análisis de datos inteligentes.

2 componentes de sistemas de análisis inteligentes

3 Métodos de investigación de datos en la minería de datos.

Métodos de minería de datos

1 Conclusión de las normas asociativas.

2 algoritmos de red neuronal

3 Métodos de los vecinos más cercanos y los vecinos más cercanos.

4 árboles decisiones

5 algoritmos de clústeres

6 algoritmos genéticos

Ámbito de aplicación

Fabricantes de Minería de Datos

Métodos de crítica

Conclusión

Bibliografía

Introducción

Resultado de desarrollo tecnologías de la información Es una cantidad colosal de datos acumulados en forma electrónica que crece rápidamente. Al mismo tiempo, los datos, como regla general, poseen la estructura heterogénea (textos, imágenes, audio, video, documentos de hipertexto, bases de datos relacionales). Los datos acumulados durante mucho tiempo pueden contener regularidades, tendencias y relaciones que son información valiosa al planificar, pronosticar, tomar decisiones, controlar los procesos. Sin embargo, una persona es físicamente capaz de analizar eficazmente tales volúmenes de datos inhomogéneos. Los métodos de las estadísticas matemáticas tradicionales han reclamado durante mucho tiempo el papel de la herramienta principal de análisis de datos. Sin embargo, no permiten sintetizar nuevas hipótesis, y solo se pueden usar para confirmar las hipótesis preformuladas y un análisis de exploración "grueso", que constituye la base para el procesamiento de datos operativos (procesamiento analítico, OLAP) en línea. A menudo, es precisamente la redacción de la hipótesis que resulta ser la tarea más difícil al analizar la toma de decisiones posterior, ya que no todas las leyes en los datos son obvias de un vistazo. Por lo tanto, los datos de datos inteligentes de datos (minería de datos) se consideran uno de los temas más importantes y prometedores para la investigación y las aplicaciones en la industria de la tecnología de la información. Bajo el análisis de datos intelectuales en este caso, se entiende el proceso de determinar el conocimiento nuevo, correcto y potencialmente útil basado en grandes matrices de datos. Por lo tanto, la revisión de la tecnología MIT describió la minería de datos como una de las diez tecnologías de desarrollo que cambiarán el mundo.

1. Minería de datos. Conceptos y definiciones básicas

La minería de datos es un proceso de detección en los datos "crudos" del conocimiento previamente desconocido, no trivial, prácticamente útil y asequible necesario para la toma de decisiones en diversos campos de la actividad humana.

La esencia y el propósito de la tecnología de minería de datos se pueden formular de la siguiente manera: esta es una tecnología que está destinada a buscar grandes cantidades de patrones no obvios, objetivos y útiles en la práctica.

Los patrones no obvios son tales patrones que no pueden ser descubiertos por métodos de procesamiento de información estándar o experto.

En virtud de los patrones objetivos, es necesario comprender los patrones que son una realidad totalmente relevante, en contraste con la opinión de los expertos, que siempre es subjetiva.

Este concepto de análisis de datos, supone que:

§ Los datos pueden ser inexactos, incompletos (contienen misiones), contradictorias, heterogéneas, indirectas, y al mismo tiempo tienen volúmenes gigantescas; Por lo tanto, la comprensión de los datos en aplicaciones específicas requiere esfuerzos intelectuales significativos;

§ Los algoritmos para analizar los datos pueden tener "elementos de inteligencia", en particular, la capacidad de aprender de precedentes, es decir, para hacer conclusiones generales sobre la base de observaciones privadas; El desarrollo de tales algoritmos también requiere importantes esfuerzos intelectuales;

§ Los procesos de procesamiento de datos en bruto en la información, y la información en conocimiento no se puede realizar manualmente, y requieren automatización.

La tecnología de minería de datos se basa en el concepto de plantillas (patrones), reflejando fragmentos de relaciones multidimensionales en los datos. Estas plantillas son regularidades inherentes a los datos de subsección que se pueden expresar de manera compacta en un manual claro.

Las plantillas de búsqueda se realizan mediante métodos que no se limitan al marco de las suposiciones a priori sobre la estructura de la muestra y la forma de los valores de los valores de los indicadores analizados.

Una característica importante de la minería de datos no es estándar y la no visibilidad de las plantillas deseadas. En otras palabras, las herramientas de minería de datos difieren de las herramientas estadísticas de datos y las herramientas OLAP en el sentido de las pruebas en los presuntos usuarios de interdependencia, pueden encontrar tales interdependientes de forma independiente y construir hipótesis sobre su carácter. Severos cinco tipos estándar de patrones detectados por los métodos de minería de datos:

· La asociación es una alta probabilidad de comunicar eventos entre sí. Un ejemplo de la asociación es la mercancía en la tienda, a menudo comprados juntos;

· Secuencia: la alta probabilidad de los eventos relacionados con la cadena. Un ejemplo de una secuencia es la situación cuando dentro de un período determinado después de la compra de un producto será con un alto grado de probabilidad comprado por otro;

· Clasificación: hay características que caracterizan al grupo al que pertenece uno u otro evento o un objeto;

· La agrupación es un patrón similar a la clasificación y difiere de ella que los propios grupos no se especifican: se detectan automáticamente durante el procesamiento de datos;

· Patrones temporales: la presencia de plantillas en la dinámica del comportamiento de ciertos datos. Un ejemplo característico de patrones temporales: fluctuaciones estacionales en la demanda de ciertos bienes o servicios.

1.1 Etapas en el proceso de análisis de datos inteligentes.

Tradicionalmente, se asignan las siguientes etapas en el proceso de análisis de datos inteligentes:

1. El estudio del área temática, como resultado de los cuales se formulan los principales objetivos del análisis.

2. Recopilación de datos.

Procesamiento preliminar de datos:

una. Datos de limpieza: la eliminación de contradicciones y "ruido" al azar de los datos de origen

b. Integración de datos: datos que combinan de varias fuentes posibles en un almacenamiento. Convertir datos. En esta etapa, los datos se convierten a un formulario adecuado para su análisis. A menudo aplica la agregación de datos, el muestreo de atributos, la compresión de datos y la reducción de la dimensión.

4. Análisis de datos. Como parte de esta etapa, los algoritmos de análisis intelectual se utilizan para extraer patrones.

5. Interpretación de los patrones considerados. Esta etapa puede incluir la visualización de los patrones recuperados, la determinación de patrones realmente útiles basados \u200b\u200ben alguna utilidad.

Usa nuevos conocimientos.

1.2 Componentes de sistemas de análisis inteligentes.

Por lo general, los siguientes componentes principales se asignan en los sistemas de análisis de datos inteligentes de datos:

1. Base de datos, almacén de datos u otro repositorio de información. Esta puede ser una o más bases de datos, almacén de datos, hojas de cálculo, otros tipos de repositorios que se pueden limpiar e integrar.

2. Servidor de base de datos o almacén de datos. Este servidor es responsable de extraer datos de material basados \u200b\u200ben una consulta de usuario.

Base de conocimientos. Estos son el conocimiento del área temática, que indican cómo buscar y evaluar la utilidad de los patrones resultantes.

Servicio de minería de conocimiento. Es una parte integral del sistema de datos inteligente de datos y contiene un conjunto de módulos funcionales para tareas, como la caracterización, buscar asociaciones, clasificación, análisis de clústeres y análisis de desviaciones.

Módulo de estimación del patrón. Este componente calcula las medidas de interés o utilidad de los patrones.

Interfaz de usuario gráfica. Este módulo es responsable de las comunicaciones entre el usuario y el sistema de análisis de datos inteligentes, la visualización de los patrones en diversas formas.

1.3 Métodos de investigación de datos en la minería de datos.

La mayoría de los métodos analíticos utilizados en la tecnología de minería de datos son algoritmos y métodos matemáticos bien conocidos. Lo nuevo en su solicitud es la posibilidad de su uso en la solución de ciertos problemas específicos debido a las capacidades emergentes de la técnica y el software. Cabe señalar que la mayoría de los métodos de minería de datos se han desarrollado en el marco de la teoría de la inteligencia artificial. Considere los métodos más utilizados:

La salida de las normas asociativas.

2. Algoritmos de red neuronal, cuya idea se basa en analogías con el funcionamiento del tejido nervioso y es que los parámetros iniciales se consideran señales convertidas de acuerdo con las relaciones existentes entre las "neuronas" y como respuesta, Cuál es el resultado del análisis, se considera la respuesta de toda la red en los datos de origen.

Elegir un análogo cercano de datos de origen de los datos históricos existentes. También se llama el método "vecino más cercano".

Árboles de soluciones: una estructura jerárquica basada en un conjunto de preguntas que implican la respuesta "sí" o "no".

Los modelos de clúster se aplican para combinar eventos similares en grupos basados \u200b\u200ben conjuntos similares de campos múltiples en el conjunto de datos.

En el siguiente capítulo, describimos los métodos anteriores.

2. Métodos de minería de datos.

2.1 Conclusión de las reglas asociativas.

Las reglas asociativas son las reglas de la forma "Si ..., entonces ...". La búsqueda de dichas reglas en el conjunto de datos detecta las conexiones ocultas, a primera vista, no hay datos relacionados. Uno de los ejemplos más cotizados de la búsqueda de reglas asociativas es el problema de encontrar conexiones sostenibles en la canasta del comprador. Este problema es determinar qué productos están comprados por compradores juntos, de modo que los expertos en marketing puedan acomodar estos productos en la tienda para aumentar las ventas.

Las reglas asociativas se definen como aprobación de la forma (x1, x2, ..., xn) -\u003e y, donde está implícito que y puede estar presente en la transacción, siempre que x1, x2, ..., xn estén presentes en la misma transacción. Cabe señalar que la palabra "puede" implica que la regla no es la identidad, sino que se realiza solo con cierta probabilidad. Además, como Y, un conjunto de elementos puede actuar, y no solo un elemento. La probabilidad de encontrar y en una transacción en la que los artículos X1, X2, ..., XN se denominan confiabilidad (confianza). El porcentaje de transacciones que contienen la regla del número total de transacciones se denomina soporte (Soporte). El nivel de confiabilidad que debe exceder la confiabilidad de la regla se llama interés (interés).

Hay varios tipos de reglas asociativas. En la forma más sencilla, el informe de reglas asociativas solo sobre la presencia o ausencia de la asociación. Dichas reglas se denominan reglas de la asociación booleana (regla de la asociación booleana). Un ejemplo de tal regla: "Los compradores que adquieren yogur, también adquieren aceite con bajo contenido en grasa".

Las reglas que recopilan varias reglas asociativas juntas se denominan reglas de asociativas multinivel o generalizado (reglas de asociación multinivel o generalizada). Al construir tales reglas, los elementos generalmente se agrupan de acuerdo con la jerarquía, y la búsqueda se realiza a nivel conceptual más alto. Por ejemplo, "los compradores que adquieren leche también adquieren pan". En este ejemplo, la leche y el pan contienen una jerarquía. diferentes tipos y las marcas, pero la búsqueda en el nivel inferior no permitirá encontrar reglas interesantes.

Las reglas cuantitativas de la asociación (reglas de la asociación cuantitativa) son un tipo de reglas más complejas. Este tipo de reglas se busca utilizando atributos cuantitativos (por ejemplo, precio) o categóricos (por ejemplo, género), y se definen como ( , ,…,} -> . Por ejemplo, "los compradores cuya edad tiene entre 30 y 35 años con ingresos, más de 75,000 autos comprados por un valor de más de 20,000".

Los tipos de reglas anteriores no afectan el hecho de que las transacciones por su naturaleza dependen del tiempo. Por ejemplo, una búsqueda antes de que el producto se haya puesto a la venta o después de que desaparezca del mercado, afectó adversamente el umbral de apoyo. Teniendo en cuenta esto, se introdujo el concepto de un atributo de por vida en los algoritmos de búsqueda de reglas asociativas temporales (reglas de la asociación temporal).

El problema de la búsqueda de reglas asociativas se puede descomponer generalmente en dos partes: la búsqueda de conjuntos de elementos con frecuencia encontrados con frecuencia, y la generación de reglas basadas en conjuntos encontrados con frecuencia. Estudios previos, en su mayor parte, adheridos a estas áreas y las expandieron en varias direcciones.

Dado que la apariencia del algoritmo apriori, este algoritmo se usa más comúnmente en el primer paso. Muchas mejoras, como la velocidad y la escalabilidad, tienen como objetivo mejorar el algoritmo apriori, para corregir su propiedad errónea para generar demasiados candidatos para los conjuntos más comunes de elementos. Apriori genera conjuntos de elementos utilizando solo conjuntos grandes que se encuentran en el paso anterior, sin reexaminar las transacciones. El algoritmo de aprioritido modificado mejora el apriori debido al hecho de que utiliza la base de datos solo en la primera pasada. Al calcular en pasos subsiguientes, solo se utilizan datos creados en la primera pasada y teniendo un tamaño mucho más pequeño que la base de datos de origen. Esto conduce a un aumento colosal en el rendimiento. Se puede obtener más versión avanzada del algoritmo, llamado apriorirrid, si en algunos primeros pasajes usara APRIORI, y luego, en los pasillos posteriores, cuando los kits de K-candidato ya pueden publicarse en su totalidad en la memoria de la computadora, cambie a Aprioritid.

Los esfuerzos adicionales para mejorar el algoritmo apriori están asociados con la paralelización del algoritmo (distribución de conteo, distribución de datos, distribución de candidatos, etc.), su escala (distribución de datos inteligente, distribución híbrida), la introducción de nuevas estructuras de datos, como con frecuencia. Elementos encontrados (crecimiento FP).

El segundo paso se caracteriza principalmente por la precisión y el interés. En las nuevas modificaciones, la dimensión, la calidad y el soporte temporal descrito anteriormente se agregan a las reglas booleanas tradicionales de las reglas descritas anteriormente. Un algoritmo evolutivo se usa a menudo para buscar reglas.

2.2 algoritmos de red neuronal

Las redes neuronales artificiales aparecieron como resultado del uso del aparato matemático para el estudio del funcionamiento del sistema nervioso humano para jugarlo. A saber: la capacidad del sistema nervioso para aprender y corregir errores, lo que debería permitir simular, aunque es lo suficientemente grosero, el trabajo del cerebro humano. La parte principal estructural y funcional de la red neuronal es una neurona formal (neurona formal), presentada en la FIG. 1, donde x0, x1, ..., xn son los componentes del vector de señales de entrada, W0, W1, ..., WN, los valores de los pesos de las señales de entrada de la neurona, y Y es la Señal de salida de la neurona.

Higo. 1. Neurona formal: sinapsis (1), sumador (2), convertidor (3).

Neurona formal consiste en elementos 3 tipos: sinapsis, sumder and convertidor. Sinaps caracteriza la fuerza de poder entre las dos neuronas.

La Adder agrega la adición a las señales de entrada, pre-multiplicadas por los pesos correspondientes. El convertidor implementa la función de un argumento: la salida del sumador. Esta función se llama la función de activación o la función de engranaje de la neurona.

Las neuronas formales descritas anteriormente se pueden combinar de tal manera que las señales de salida de algunas neuronas se ingresen para otros. El conjunto resultante de neuronas interconectadas se llama redes neuronales artificiales (redes neuronales artificiales, ANN) o, brevemente, redes neuronales.

Los siguientes tres tipos generales de neuronas difieren, dependiendo de su posición en la red neuronal:

Neuronas de entrada (nodos de entrada) a las que se sirven señales de entrada. Dichas neuronas, las neuronas generalmente son una entrada con un solo peso, falta el desplazamiento, y el valor de la salida de la neurona es igual a la señal de entrada;

Neuronas de salida (nodos de salida), cuyos valores de salida representan las señales de salida resultantes de la red neuronal;

Las neuronas ocultas (nodos ocultos), que no tienen enlaces directos con señales de entrada, mientras que los valores de las señales de salida de las neuronas ocultas no son señales de salida del INS.

De acuerdo con la estructura de las conexiones entre líneas, dos grados de INS distinguen:

Inc de la distribución directa en la que la señal se aplica solo de las neuronas de entrada a la salida.

Insidentes recurrentes con comentarios. En tales instaciones, las señales se pueden transmitir entre cualquier neuronas, independientemente de su ubicación en INS.

Hay dos enfoques generales para la capacitación de INS:

Entrenamiento con el profesor.

Entrenamiento sin profesor.

La capacitación con el maestro (aprendizaje supervisado) implica el uso de un ejemplos de aprendizaje múltiple predeterminados. Cada ejemplo contiene las señales de entrada de vectores y el vector correspondiente de las señales de salida de referencia, que dependen de la tarea. Este conjunto Llame a una selección de entrenamiento o conjunto de entrenamiento. La capacitación en red neuronal se dirige a un cambio de este tipo en los pesos de los bonos de los INS, en la que el valor de las señales de salida de los INS lo menos posible, desde las señales de salida requeridas, los valores de las señales de entrada de este vector.

Al aprender sin un maestro (aprendizaje no supervisado), el ajuste de los pasos se realiza como resultado de la competencia entre las neuronas, o teniendo en cuenta la correlación de las señales de salida de las neuronas, entre las cuales hay una conexión. En el caso de la capacitación sin profesor, la muestra de entrenamiento no se utiliza.

Las redes neuronales se utilizan para resolver una amplia gama de tareas, por ejemplo, como PotPapers para los transbordadores espaciales y los tipos de cambio de pronósticos. Sin embargo, no se utilizan a menudo en los sistemas de análisis de datos intelectuales debido a la complejidad del modelo (el conocimiento fijado como pesos de varios cientos de bonos entre líneas no es absolutamente susceptible de analizar e interpretación por una persona) y tiempo de aprendizaje a largo plazo en una gran muestra de entrenamiento. Por otro lado, las redes neuronales tienen tales ventajas para su uso en tareas de análisis de datos, como estabilidad para asar datos y alta precisión.

2.3 Métodos de los vecinos más cercanos y los vecinos más cercanos.

El algoritmo vecino más cercano y el algoritmo de K-vecino y el algoritmo de K-vecino (algoritmo vecino más cercano de K, KNN) son la similitud de los objetos. El algoritmo del vecino más cercano asigna el objeto entre todos los objetos conocidos, lo más cerca posible (la métrica de distancia se usa entre objetos, por ejemplo, euclidea) a un nuevo objeto previamente desconocido. El principal problema del método del vecino más cercano es su sensibilidad de emisión en los datos de capacitación.

El problema descrito le permite evitar el algoritmo de KNN, asignar entre todas las observaciones de los vecinos ya más cercanos a K, similares a un nuevo objeto. Basado en la clase de vecinos cercanos, se realiza una solución con respecto al nuevo objeto. Una tarea importante este algoritmo Es la selección del coeficiente K - el número de registros que se considerarán similares. La modificación del algoritmo, en el que la contribución del vecino es proporcional a la distancia al nuevo objeto (el método de los vecinos más cercanos de K-ponderado) le permite lograr una mayor precisión de la clasificación. El método K de los vecinos más cercanos, lo mismo, le permite estimar la precisión del pronóstico. Por ejemplo, todos los vecinos cercanos a los K tienen la misma clase, la probabilidad de que el objeto que se está revisando tenga la misma clase, muy alta.

Entre las características del algoritmo, vale la pena señalar la resistencia a las emisiones anormales, ya que la probabilidad de tal entrada al número de vecinos más cercanos es pequeño. Si esto sucedió, es probable que la influencia en la votación (especialmente ponderada) (en k\u003e 2) sea insignificante y, por lo tanto, habrá un pequeño impacto en el resultado de la clasificación. Además, las ventajas son fáciles de implementar, la facilidad de interpretar el resultado de la operación del algoritmo, la posibilidad de modificar el algoritmo, utilizando las funciones y métricas de combinación más adecuadas, lo que le permite ajustar el algoritmo para una tarea específica . Algorithm KNN tiene una serie de deficiencias. Primero, el conjunto de datos utilizado para el algoritmo debe ser representativo. En segundo lugar, el modelo no se puede separar de los datos: Para clasificar el nuevo ejemplo, debe usar todos los ejemplos. Esta característica limita firmemente el uso del algoritmo.

2.4 Decisiones de árboles

Bajo el término "árboles de las decisiones" implica una familia de algoritmos basados \u200b\u200ben la presentación de las normas de clasificación en una estructura jerárquica y consistente. Esta es la clase más popular de algoritmos para resolver tareas de análisis de datos intelectuales.

La familia de algoritmos para la construcción de decisiones Árbol permite predecir cualquier parámetro para un caso determinado basado en una gran cantidad de datos en otros casos similares. Normalmente, los algoritmos de esta familia se utilizan para resolver problemas que le permiten dividir todos los datos iniciales en varios grupos discretos.

Cuando se utiliza algoritmos para construir soluciones al conjunto de datos de origen, el resultado se muestra como un árbol. Dichos algoritmos permiten varios niveles de dicha separación, rompiendo los grupos obtenidos (ramas de árboles) a menor en base a otros signos. La separación continúa hasta que los valores que se supone que se deben predecir no serán los mismos (o, en el caso de un valor continuo del parámetro predicho, cierre) para todos los grupos obtenidos (hojas de árboles). Estos son estos valores y se utilizan para implementar predicciones en función de este modelo.

La acción de los algoritmos para la construcción de decisiones de las decisiones se basa en la aplicación de los métodos de regresión y análisis de correlación. Uno de los algoritmos más populares de esta familia: carro (clasificación y árboles de regresión), basado en la división de datos en una rama de árbol en dos subsidiarias; Al mismo tiempo, la separación adicional de una u otra rama depende de si los datos iniciales describen esta rama. Algunos otros algoritmos similares le permiten dividir la sucursal para un mayor número de subsidiarias. En este caso, la separación se realiza sobre la base del coeficiente de correlación descrito por la sucursal entre el parámetro, según el cual se produce la separación, y el parámetro, que en el futuro debe predecirse.

La popularidad del enfoque se asocia con la visibilidad y la comprensión. Pero los árboles de decisión no son fundamentalmente capaces de encontrar las "mejores" reglas (más completas y precisas) en los datos. Implementan el principio ingenuo de la visualización secuencial de los signos y en realidad son parte de estos patrones, creando solo la ilusión de la producción lógica.

2.5 algoritmos de agrupamiento

La agrupación es la tarea de dividir una variedad de objetos a grupos llamados grupos. La principal diferencia de agrupamiento de la clasificación es que la lista de grupos no está claramente especificada y se determina durante la operación del algoritmo.

El uso del análisis de clústeres generalmente se reduce a los siguientes pasos:

· Selección de muestreo de objetos para agrupar;

· Determinar el conjunto de variables mediante las cuales se evaluarán los objetos en la muestra. Si es necesario, la normalización de los valores variables;

· Cálculo de valores de medidas de similitud entre objetos;

· Aplicación de un método de análisis de clústeres para crear grupos de objetos similares (clústeres);

· Presentación de los resultados del análisis.

Después de recibir y analizar los resultados, es posible ajustar la métrica seleccionada y el método de agrupamiento hasta que se obtenga el resultado óptimo.

Entre los algoritmos de clústeres, se distinguen los grupos jerárquicos y planos. Los algoritmos jerárquicos (también llamados algoritmos de taxonomía) están construyendo no una división de la muestra en grupos sin aparejo, y el sistema de particiones adjuntas. Por lo tanto, la salida del algoritmo es un árbol de racimo, cuya raíz es la muestra completa, y las hojas son los grupos más pequeños. Los algoritmos planos construyen una división de objetos en grupos de no ciclo.

Otra clasificación de algoritmos de agrupamiento está en algoritmos claros y difusos. Algoritmos claros (o no expresados) Cada objeto de muestreo se coloca de acuerdo con el número de clúster, es decir, cada objeto pertenece solo a un clúster. Los algoritmos borrosos (o intersectantes) para cada objeto colocan un conjunto de valores reales, que muestran el grado de relación de objeto con los grupos. Por lo tanto, cada objeto se refiere a cada grupo con cierta probabilidad.

Entre los algoritmos de agrupamiento jerárquico se asignan dos tipos principales: algoritmos ascendentes y descendentes. Los algoritmos corriente abajo operan en el principio de "de arriba abajo": primero todos los objetos se colocan en un grupo, que luego se divide en grupos más pequeños. Los algoritmos ascendentes son más comunes, que al comienzo del trabajo colocan cada objeto en un clúster separado, y luego combinan grupos en cada vez más grande, hasta que todos los objetos de muestreo están contenidos en un grupo. Por lo tanto, se está construyendo el sistema de particiones adjuntas. Los resultados de tales algoritmos generalmente se representan como un árbol.

La falta de algoritmos jerárquicos incluyen un sistema de partición completo, que puede ser excesivamente en el contexto de la tarea que se está resolviendo.

Considere ahora los algoritmos planos. Los más simples entre esta clase son los algoritmos de error cuadráticos. El problema de agrupamiento para estos algoritmos puede considerarse como la construcción de la separación óptima de los objetos en grupos. Al mismo tiempo, la optimalidad se puede definir como un requisito para minimizar los RMS del error de partición:

,

dónde c. J - "Centro de masas" cluster j. (Punto con los valores medios de las características para este grupo).

El algoritmo más común de esta categoría es el método K-Promedio. Este algoritmo construye un número específico de clusters, ubicado en la medida de lo posible entre sí. El trabajo del algoritmo se divide en varias etapas:

Oportunidad de elegir k. Puntos que son los "centros de masas" iniciales de los clusters.

2. Tome cada objeto al clúster con el "centro de las masas" más cercano.

Si el criterio para detener el algoritmo no está satisfecho, regrese al párrafo 2.

Como criterio para detener la operación del algoritmo, generalmente se elige el cambio mínimo en el error estándar. También es posible detener la operación del algoritmo si no hubiera objetos que se movieran del clúster en el Paso 2. Las desventajas de este algoritmo incluyen la necesidad de establecer el número de clústeres para romper.

El algoritmo más popular, el agrupamiento difuso es el algoritmo C-promedio (C-Medios). Es una modificación del método K-promedio. Pasos del algoritmo:

1. Seleccione la partición difusa inicial nORTE. Objetos en k. Clusters seleccionando una matriz de accesorios U. Tamaño n x k..

2. Usando la matriz u, encuentre el valor del criterio de error difuso:

,

dónde c. K - "Centro Mass Mass" Cluster Fuzzy k.:

3. Considere los objetos para reducir este valor del criterio de error difuso.

4. Retorno en el párrafo 2 siempre que el cambio de la matriz. U. No se volverá insignificante.

Este algoritmo no puede abordar si el número de grupos no se conoce de antemano, o es necesario atribuir inequívocamente cada objeto a un grupo.

El siguiente grupo de algoritmos son algoritmos basados \u200b\u200ben la teoría de los gráficos. La esencia de tales algoritmos es que la muestra de objetos se representa como un gráfico G \u003d (v, e)cuyos vértices corresponden a objetos, y las costillas tienen un peso igual a la "distancia" entre los objetos. La ventaja de los algoritmos del gráfico para agrupar es la visibilidad, la relativa facilidad de implementación y la posibilidad de llevar varias mejoras basadas en consideraciones geométricas. Los algoritmos principales son el algoritmo para asignar componentes conectados, el algoritmo para construir un árbol de recubrimiento mínimo (eje) y algoritmo de agrupamiento de capa por capa.

Para seleccionar un parámetro R. El histograma generalmente construido de distribuciones de distancia de pares. En las tareas con una estructura de datos de clústeres bien pronunciada, habrá dos picos en el histograma, uno corresponde a las distancias intrachallares, la segunda distancia intercambiable. Parámetro R. Se selecciona de la zona de un mínimo entre estos picos. En este caso, controle el número de grupos que usan el umbral de distancia es bastante difícil.

El algoritmo de árbol de cobertura mínimo primero construye un árbol de cubierta mínimo en la columna, y luego elimina secuencialmente las costillas con el mayor peso. El algoritmo de clustering de capa por capa se basa en la selección de componentes conectados del gráfico en algunos niveles de nivel entre objetos (vértices). El nivel de distancia está establecido por el umbral de distancia. c.. Por ejemplo, si la distancia entre objetos, entonces.

El algoritmo de agrupamiento de capas por capa genera una secuencia de subgrafías de gráficos GRAMO.que reflejan los lazos jerárquicos entre los grupos:

,

dónde GRAMO. T. \u003d (V, e T. ) - Gráfico a nivel de t, ,

de T-T-TH Umbral de la distancia, M es el número de niveles de la jerarquía,
GRAMO. 0 \u003d (V, o), o - Conjunto vacío de bordes del gráfico, obtenido en t. 0 = 1,
GRAMO. METRO. \u003d G., es decir, la gráfica de objetos sin restricciones en la distancia (la longitud del borde del gráfico), ya que t. M \u003d 1.

Cambiando los umbrales de distancia ( de 0 , …, de m), donde 0 \u003d de 0 < de 1 < …< de M \u003d 1, es posible controlar la profundidad de la jerarquía de los clústeres obtenidos. Por lo tanto, el algoritmo de agrupamiento de capas por capa es capaz de crear una partición de datos plana y jerárquicos.

Clustering le permite alcanzar los siguientes objetivos:

· Mejora la comprensión de los datos identificando grupos estructurales. El muestreo en grupos de objetos similares permite simplificar el procesamiento posterior de los datos y la toma de decisiones, aplicando su método de análisis a cada grupo;

· Le permite almacenar de datos compactamente. Para esto, en lugar de almacenar toda la muestra, puede dejar una observación típica de cada clúster;

· Detección de nuevos objetos atípicos que no entraron en ningún clúster.

Por lo general, la agrupación se utiliza como un método subsidiario al analizar los datos.

2.6 algoritmos genéticos

Los algoritmos genéticos se relacionan con el número de métodos de optimización universales, lo que permite resolver problemas de varios tipos (tareas combinatoriales y comunes con restricciones y sin restricciones) y diversos grados de complejidad. En este caso, los algoritmos genéticos se caracterizan por la posibilidad de la búsqueda alociterial y de varios criterios en un espacio grande, cuyo paisaje se descuida.

Este método de métodos utiliza un proceso iterativo de la evolución de la secuencia de generaciones de modelos, incluidas las operaciones de la selección, mutación y cruce. Al comienzo del trabajo, la población del algoritmo se forma al azar. Para evaluar la calidad de las soluciones codificadas, se utiliza la función de la aptitud física, que es necesaria para calcular la adaptabilidad de cada individuo. Según los resultados de la estimación de individuos, los más adaptados de ellos se eligen para el cruce. Como resultado del cruce de los individuos seleccionados aplicando el operador genético de Crossloveter, se crea una proyección, cuya información genética se forma como resultado del intercambio de información cromosómica entre individuos parentales. Los descendientes crearon forman una nueva población, y parte de los descendientes muta, que se expresa en un cambio aleatorio en sus genotipos. La etapa, que incluye la secuencia de "evaluación de la población" - "selección" - "cruce" - "mutación" se llama generación. La evolución de la población consiste en una secuencia de tales generaciones.

Los siguientes algoritmos de selección para los individuos de cruce se distinguen:

· Pumpmy. Ambos individuos, que harán un par de padres, se eligen aleatoriamente de toda la población. Cualquier individuo puede convertirse en miembro de varios pares. Este enfoque es universal, pero la efectividad del algoritmo disminuye con la creciente población.

· Selección. Los padres pueden ser individuos con adaptabilidad no más bajos que el promedio. Este enfoque proporciona una convergencia más rápida del algoritmo.

· Endogamia. El método se basa en la formación de un par basado en parientes. Bajo la relación aquí es una distancia entre los miembros de la población, como en el sentido de la distancia geométrica de los individuos en el espacio de los parámetros y la distancia de dobladillo entre los genotipos. Por lo tanto, el genotipo y el fenotipo en la endogamia se distinguen. El primer miembro del par de cruce se elige por casualidad, y el segundo más probable será lo más cercano posible. La endogamia se puede caracterizar por la propiedad de la concentración de búsqueda en los nodos locales, que en realidad conduce a la partición de la población en grupos locales separados alrededor de sospechosos a las áreas extremistas del paisaje.

· Perspectiva. La formación de un par en base al parentesco de largo alcance para los individuos más lejanos. La excepción está dirigida a prevenir la convergencia del algoritmo a las decisiones ya encontradas, obligando al algoritmo para ver las áreas nuevas e inexploradas.

Algoritmos para la formación de una nueva población:

· Selección con desplazamiento. De todos los individuos con los mismos genotipos, se da preferencia a aquellos cuya aptitud es mayor. Por lo tanto, se alcanzan dos objetivos: las mejores soluciones que se encuentran con varios conjuntos cromosómicos no se pierden, se mantiene constantemente una diversidad genética suficiente en la población. El desplazamiento forma una nueva población de lejos de los individuos, en lugar de individuos que se agrupan cerca de la solución encontrada actualmente. Este método se utiliza para tareas múltiples extremales.

· Selección de élite. Los métodos de selección de élite garantizan que en la selección necesariamente sobrevivirá a los mejores miembros de la población. En este caso, parte de las mejores personas sin cambios entran en la próxima generación. La convergencia rápida proporcionada por la selección de élite se puede compensar con un método adecuado para seleccionar pares de padres. En este caso, se usa la libidez a menudo. Es una combinación de "selección de la elite de la soldadura" es una de las más eficientes.

· Selección del torneo. La selección del torneo implementa los torneos N para elegir N individuos. Cada torneo se basa en la muestra de los elementos de K de la población, y elige la mejor persona entre ellos. La selección de torneos más comunes con k \u003d 2.

Una de las aplicaciones más solicitadas de algoritmos genéticos en el área de la minería de datos es la búsqueda del modelo más óptimo (busque un algoritmo correspondiente a los detalles específicos de un área en particular). Los algoritmos genéticos se utilizan principalmente para optimizar la topología de las redes y escalas neuronales. Sin embargo, también es posible usarlos como un instrumento independiente.

3. Alcance de la aplicación

La tecnología de minería de datos tiene una gama verdaderamente amplia de aplicaciones, siendo, de hecho, un conjunto de herramientas universales para analizar cualquier tipo de datos.

Márketing

Una de las primeras áreas donde se aplicaron tecnologías de análisis de datos inteligentes fue la esfera de comercialización. La tarea con la que comenzó el desarrollo de los métodos de minería de datos, se denomina análisis de la canasta de compra.

Esta tarea es identificar las mercancías que los compradores buscan adquirir juntos. El conocimiento de la canasta de la compra es necesario para realizar empresas publicitarias, formando recomendaciones personales a los clientes, desarrollando estrategias para crear acciones de bienes y métodos para sus diseños en las salas de comercio.

También en marketing, tales tareas se resuelven como la definición de la audiencia objetivo de un producto para una promoción más exitosa; Estudio de plantillas temporales que ayudan a las empresas a tomar decisiones sobre la creación de inventarios; Crear modelos predictivos, lo que permite a las empresas aprender la naturaleza de las necesidades de varias categorías de clientes con cierto comportamiento; Predicción de la lealtad del cliente, lo que hace posible revelar el momento de la partida del cliente con anticipación al analizar su comportamiento y, tal vez, prevenir la pérdida de un cliente valioso.

Industria

Una de las direcciones importantes en esta área es el control de la supervisión y la calidad, donde el uso de las herramientas de análisis es posible predecir la salida del equipo, la aparición de fallas, las reparaciones del plan. La previsión de la popularidad de ciertas características y conocimiento de las características que generalmente se ordenan, ayuda a optimizar la producción, orientarlo a las necesidades reales de los consumidores.

Medicamento

En medicina, el análisis de datos también se aplica con bastante éxito. Un ejemplo de las tareas es el análisis de los resultados de las encuestas, el diagnóstico, la comparación de la efectividad del tratamiento y los medicamentos, el análisis de enfermedades y su distribución, detección de efectos secundarios. Las tecnologías de minería de datos, como las reglas asociativas y las plantillas en serie se utilizan con éxito en la detección de lazos entre la recepción de medicamentos y los efectos secundarios.

Genética molecular y ingeniería genética.

Quizás más agudamente y al mismo tiempo, la tarea de detectar patrones en datos experimentales es en genética molecular y ingeniería genética. Aquí se formula como una definición de marcadores, bajo los cuales los códigos genéticos que controlan estos u otros signos fenotípicos de un organismo vivo se entienden. Dichos códigos pueden contener cientos, miles y elementos más relacionados. El resultado del análisis de datos analíticos también es descubierto por científicos y dependencia entre los cambios en la secuencia de ADN humano y el riesgo de desarrollar diversas enfermedades.

Quimica APLICADA

Los métodos de minería de datos se utilizan en química aplicada. A menudo, existe la cuestión de descubrir las peculiaridades de la estructura química de ciertos compuestos que definen sus propiedades. Esta tarea es particularmente relevante en el análisis de complejos compuestos químicos, cuya descripción incluye cientos y miles de elementos estructurales y sus conexiones.

La lucha contra la delincuencia

En garantizar la seguridad, la minería de datos se aplica relativamente recientemente, sin embargo, los resultados prácticos ya se han obtenido confirmando la efectividad del análisis de datos inteligente en esta área. Los científicos suizos han desarrollado un sistema para analizar la actividad de protesta para predecir los incidentes futuros y el sistema que rastrean los ciberósticos y las acciones emergentes de los piratas informáticos en el mundo. El último sistema le permite predecir amenazas cibernéticas y otros riesgos de seguridad de la información. Además, los métodos de minería de datos se utilizan con éxito para detectar fraude de tarjetas de crédito. Al analizar las transacciones anteriores, que posteriormente fueron fraudulentas, el Banco identifica algunos estereotipos de dicho fraude.

Otras aplicaciones

· Análisis de riesgo. Por ejemplo, al identificar combinaciones de factores relacionados con las declaraciones de pago, las aseguradoras pueden reducir sus pérdidas en los pasivos. Existe un caso cuando en los Estados Unidos una gran compañía de seguros encontró que los montos pagados en las declaraciones de personas que se casan el doble de las importaciones de las declaraciones de las personas solitarias. La compañía respondió a esta nueva revisión de conocimiento de sus políticas generales para brindar descuentos a clientes familiares.

· Meteorología. La predicción del tiempo utilizando redes neuronales, en particular, se utilizan tarjetas Kohonen de autoorganización.

· Política de personal. Herramientas de análisis Ayuda a los servicios de administración de personal para seleccionar a los candidatos más exitosos según el análisis de datos de su resumen, modele las características de los empleados ideales para una posición o esa posición.

4. Fabricantes de la minería de datos.

Las herramientas de minería de datos tradicionalmente pertenecen a productos de software costosos. Por lo tanto, hasta hace poco, los principales consumidores de esta tecnología fueron bancos, compañías financieras y de seguros, grandes empresas comerciales y las principales tareas que requieren el uso de la minería de datos, la evaluación de los riesgos de crédito y de seguros y las políticas de comercialización, planes arancelarios y otros principios. Con los clientes fueron considerados. En los últimos años, la situación ha sufrido ciertos cambios: el mercado de software ha aparecido herramientas de minería de datos relativamente económicas e incluso sistemas de distribución gratuitos, que hicieron esta tecnología disponible para pequeñas y medianas empresas.

Entre las herramientas de pago y los sistemas de análisis de datos, los líderes son SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) y StatSoft (Minero de datos de Statistica). Las soluciones de Angoss (Angoss Knowledgestudio), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) y (Oracle) Se recomienda la minería de datos de Oracle.

Seleccionar software libre también es diferente. Hay herramientas de análisis universales, como JHEPWORK, ANUNCIO, NARANJA, RapidMiner y medios especializados, como Carrot2 - Freymvork para agrupar los datos de texto y las consultas de búsqueda, Quickize.org - Solución en química aplicada, NLTK (Kit de herramientas de lenguaje natural) natural Herramienta de procesamiento de idiomas (procesamiento de lenguaje natural).

5. Métodos de crítica.

Los resultados de la minería de datos dependen en gran medida del nivel de preparación de datos, y no de las "posibilidades maravillosas" de algún algoritmo o un conjunto de algoritmos. Alrededor del 75% del trabajo en la minería de datos es recopilar datos, que se realiza antes de aplicar las herramientas de análisis. Un uso analfabeto de las herramientas conducirá a un potencial de gasto sin sentido de la empresa y, a veces, millones de dólares.

La opinión de Herba Edelstein (Herb Edelstein), famosa en el mundo de expertos en el campo de la minería de datos, los almacenes de datos y el CRM: "El estudio reciente de dos cuervos ha demostrado que la minería de datos todavía está en una etapa temprana del desarrollo. Muchas organizaciones están interesadas en esta tecnología, pero solo algunas están implementando activamente tales proyectos. Fue posible averiguar otro punto importante: el proceso de implementación de la minería de datos en la práctica resulta ser más compleja de lo esperado. Las leyes están fascinadas por el mito de que las herramientas de minería de datos son fáciles de usar. Se supone que es suficiente para ejecutar dicha herramienta en la base de datos Terabyte, y aparecerá instantáneamente la información útil. De hecho, un proyecto de minería de datos exitoso requiere una comprensión de la esencia de la actividad, el conocimiento de los datos y las herramientas, así como el proceso de análisis de datos ". Por lo tanto, antes de usar la tecnología de minería de datos, es necesario analizar exhaustivamente las limitaciones impuestas por los métodos y los problemas críticos relacionados, así como apreciar sobriamente las capacidades de la tecnología. Los siguientes son los siguientes:

1. La tecnología no puede dar respuestas a las preguntas que no se especificaron. Ella no puede reemplazar a Analyst, sino que solo le da una poderosa herramienta para aliviar y mejorar su trabajo.

2. La complejidad del desarrollo y funcionamiento de la solicitud de minería de datos.

Dado que esta tecnología es un área multidisciplinaria, para desarrollar una solicitud que incluya la minería de datos, se deben utilizar especialistas de diferentes áreas, así como garantizar su interacción cualitativa.

3. Calificación del usuario.

Varias herramientas de minería de datos tienen un grado diferente de "amabilidad" de la interfaz y requieren una calificación de usuario específica. por lo tanto software Debe coincidir con el nivel de preparación del usuario. El uso de la minería de datos debe estar inextricablemente vinculado con un aumento en la habilidad del usuario. Sin embargo, los especialistas en minas de datos que hubieran sido entendidos bien en los procesos de negocios, actualmente no son suficientes.

4. Eliminar información útil es imposible sin una buena comprensión de la esencia de los datos.

Se requieren una cuidadosa selección del modelo e interpretación de dependencias o plantillas que se detectan. Por lo tanto, el trabajo con tales medios requiere una estrecha cooperación entre el experto en el área temática y el especialista en herramientas de la minería de datos. Los modelos publicados deben integrarse de manera competente en los procesos de negocios a evaluar y actualizar los modelos. Recientemente, el sistema de minería de datos se suministra como parte de la tecnología de almacenamiento de datos.

5. La complejidad de la preparación de datos.

El análisis exitoso requiere un camino cualitativo de datos. Según los analistas y usuarios de la base de datos, el proceso de preprocesamiento puede demorar hasta el 80% del proceso total de minería de datos.

De tal manera que la tecnología funcionará en sí mismos, se llevará mucho esfuerzo y tiempo que vaya a un análisis de datos preliminar, la elección del modelo y su ajuste.

6. Un gran porcentaje de resultados falsos, poco fiables o inútiles.

Con la ayuda de las tecnologías de minería de datos, puede encontrar información realmente muy valiosa, lo que puede dar una ventaja significativa de una planificación adicional, la gestión, la toma de decisiones. Sin embargo, los resultados obtenidos utilizando los métodos de minería de datos a menudo contienen conclusiones falsas y sin significado. Muchos especialistas argumentan que las herramientas de minería de datos pueden emitir una gran cantidad de resultados estadísticamente no confiables. Para reducir el porcentaje de tales resultados, verificando la adecuación de los modelos obtenidos en los datos de prueba. Sin embargo, es imposible evitar completamente conclusiones falsas.

7. Alto costo.

Cualitativo software Es el resultado de importantes costos laborales por parte del desarrollador. Por lo tanto, el software de minería de datos se relaciona tradicionalmente con productos de software costosos.

8. La presencia de un número suficiente de datos representados.

Las herramientas de minería de datos, en contraste con estadística, teóricamente, no requieren la presencia de un número estrictamente definido de datos retrospectivos. Esta característica puede causar la detección de modelos no confiables, falsos y, como resultado, adoptando en su base decisiones incorrectas. Es necesario monitorear la importancia estadística del conocimiento descubierto.

algoritmo de red neuronal que agrupa la minería de datos

Conclusión

Se da una breve descripción del ámbito de aplicación y la crítica de la tecnología de minería de datos y la opinión de los expertos en esta área.

Listaliteratura

1. Han y Micheline Kamber. Minería de datos: conceptos y técnicas. SEGUNDA EDICION. - Universidad de Illinois en Urbana-Champaign

Berry, Michael J. A. Técnicas de minería de datos: para el marketing, las ventas y la gestión de las relaciones con el cliente - 2ª ed.

Siu nin lam. Descubrir las reglas de la asociación en la minería de datos. - Departamento de Informática de la Universidad de Illinois en Urbana-Champaign

Le damos la bienvenida en el portal de minería de datos: un portal único dedicado a los métodos modernos de la minería de datos.

Las tecnologías de minería de datos son un poderoso aparato de análisis empresarial moderno y investigación de datos para detectar patrones ocultos y construir modelos predictivos. La minería o el conocimiento de los datos se basa en el razonamiento especulativo, pero en datos reales.

Higo. 1. Esquema de solicitud de minería de datos

Definición del problema: declaración de problemas: clasificación de datos, segmentación, construcción de modelos predecibles, previsión.
Recopilación y preparación de datos: recopilación y preparación de datos, limpieza, verificación, eliminación de registros repetidos.
Edificio modelo: construyendo un modelo, evaluación de precisión.
Despliegue del conocimiento: aplicación del modelo para resolver la tarea.

La minería de datos se utiliza para implementar proyectos analíticos a gran escala en negocios, marketing, Internet, telecomunicaciones, industria, geología, medicina, productos farmacéuticos y otras áreas.

La minería de datos le permite lanzar el proceso de encontrar correlaciones significativas y enlaces como resultado de sufrir una gran matriz de datos utilizando métodos modernos para reconocer imágenes y el uso de tecnologías analíticas únicas, incluidos árboles de toma de decisiones y clasificación, clustering, métodos neuronales y otros.

El usuario que descubrió por primera vez la tecnología de extracción de datos para sí mismo, se ve afectada por la abundancia de métodos y algoritmos efectivos, lo que permite encontrar enfoques para resolver tareas difíciles relacionadas con el análisis de grandes cantidades de datos.

En general, la minería de datos se puede describir como una tecnología diseñada para buscar grandes cantidades de datos. no obvio, objetivo Y prácticamente Útil patrones.

La minería de datos se basa en métodos y algoritmos efectivos desarrollados para analizar datos de datos y dimensiones no estructurados.

El punto clave es que los datos de gran volumen y la dimensión grande están desprovistas de estructuras y conexiones. El propósito de la tecnología de minería de datos es identificar estas estructuras y encontrar regularidades donde, a primera vista, reina el caos y arbitrariamente.

Aquí hay un ejemplo urgente del uso de la producción de datos en la industria farmacéutica y medicinal.

La interacción de sustancias medicinales es un problema creciente con el que se enfrenta la atención médica moderna.

Con el tiempo, aumenta el número de fármacos prescritos (no receptibles y de todo tipo de aditivos), lo que hace que la interacción cada vez más probable entre los medicamentos, lo que puede causar efectos secundarios graves que no sospechan a los médicos y los pacientes.

Esta área se refiere a estudios post-clínicos cuando el medicamento ya se ha liberado y se usa intensivamente.

Los estudios clínicos pertenecen a la evaluación de la efectividad de la droga, pero tienen en cuenta débilmente la interacción de este medicamento con otros medicamentos presentados en el mercado.

Los investigadores de la Universidad de Stanford en California estudiaron la base de datos de la FDA (Administración de Drogas y Alimentos, Oficina de Control de Alimentos y Administración de Drogas) los efectos secundarios de los medicamentos y encontraron que dos fármacos de uso frecuente: parokset de antidepresivos y handustatina, utilizados para reducir los niveles de colesterol: aumentar el riesgo de Desarrollo de la diabetes si se usa juntos.

Un estudio sobre la realización de dicho análisis basado en los datos de la FDA reveló 47 interacciones adversas previamente desconocidas.

Esto es maravilloso, con la reserva de que no se detectan muchos efectos negativos marcados con los pacientes. En este caso, la búsqueda de la red es capaz de manifestarse bien.

Cursos de próximos cursos en la Academia de Minería de Datos del Análisis de Datos de Statsoft en 2020

Estamos familiarizados con la minería de datos, utilizando maravillosos videos de la Academia de Análisis de Datos.

Asegúrese de ver nuestros videos, ¡y entenderá qué es la minería de datos!

Video 1. ¿Qué es la minería de datos?


Video 2. Descripción general de los métodos de producción de datos: árboles de toma de decisiones, modelos predictivos generalizados, agrupamiento y mucho más

Javascript está deshabilitado en tu navegador


Antes de iniciar un proyecto de investigación, debemos organizar el proceso de obtención de datos de fuentes externas, ahora mostraremos cómo se realiza.

El rodillo le presentará una tecnología única. Statistica. Procesamiento de bases de datos en el lugar y comunicación de minería de datos con datos reales.

Video 3. Orden de interacción con bases de datos: Interfaz gráfica Edificio SQL Solicitudes de SQL TECNOLOGÍA PROCESO DE DATOS DE LA DATOS

Javascript está deshabilitado en tu navegador


Ahora nos familiaricamos con las tecnologías de perforación interactivas, efectivas al realizar el análisis de exploración de los datos. El término en sí mismo refleja la minería de datos de tecnología de comunicación con exploración geológica.

Video 4. Perforación interactiva: Métodos de exploración y gráficos para la investigación de datos interactivos

Javascript está deshabilitado en tu navegador


Ahora introduciremos un análisis de asociaciones (reglas de la asociación), estos algoritmos le permiten encontrar enlaces disponibles en datos reales. El punto clave es la efectividad de los algoritmos en grandes cantidades de datos.

El resultado de algoritmos para el análisis de los enlaces, por ejemplo, el algoritmo apriori, encontrar las reglas de los bonos de los objetos en estudio con una confiabilidad dada, por ejemplo, el 80%.

En geología, estos algoritmos se pueden usar en un análisis de exploración de los minerales, por ejemplo, como un signo A asociado con los signos de B y C.

Puede encontrar ejemplos específicos de tales soluciones en nuestros enlaces:

En el comercio minorista, el algoritmo apriori o sus modificaciones permiten investigar la relación de varias mercancías, por ejemplo, al vender perfumes (perfume - laca - carcasas para pestañas, etc.) o bienes de diferentes marcas.

Un análisis de las secciones más interesantes del sitio también se puede realizar efectivamente utilizando las reglas de las asociaciones.

Entonces, familiarícese con nuestro próximo rodillo.

Video 5. Reglas de asociaciones.

Javascript está deshabilitado en tu navegador

Damos ejemplos de aplicar la minería de datos en áreas específicas.

Comercio en línea:

  • análisis de las trayectorias de los compradores de visitar el sitio antes de comprar bienes.
  • evaluación de la eficiencia de servicio, análisis de fallas debido a la falta de bienes.
  • comunicación de bienes que están interesados \u200b\u200ben los visitantes.

Retail: Análisis de información sobre compradores basados \u200b\u200ben tarjetas de crédito, tarjetas de descuento, etc.

Las tareas de minoristas típicas se resolvieron mediante minería de datos:

  • análisis de la cesta de compras.;
  • creando modelos predictivos. y los modelos de clasificación de compradores y productos comprados;
  • creando perfiles de clientes;
  • CRM, evaluación de la lealtad del cliente de varias categorías, planificar programas de lealtad;
  • estudio de series temporales. y dependencias temporales, selección de factores estacionales, evaluando la efectividad de las acciones promocionales en una amplia gama de datos reales.

El sector de las telecomunicaciones abre oportunidades ilimitadas para el uso de métodos de extracción de datos, así como modernas tecnologías de grandes datos:

  • clasificación del cliente basada en características clave de llamada (frecuencia, duración, etc.), frecuencias de SMS;
  • detección de la lealtad del cliente.;
  • determinación del fraude y otros.

Seguro:

  • análisis de riesgo. Al identificar combinaciones de factores relacionados con las declaraciones de pago, las aseguradoras pueden reducir sus pérdidas en los pasivos. El caso se conoce cuando la compañía de seguros ha encontrado que los montos pagados en las declaraciones de las personas que están en matrimonio son el doble de las sumas de las declaraciones de las personas solitarias. La Compañía respondió a esta revisión de las políticas de descuento a los clientes de la familia.
  • detección del fraude. Las compañías de seguros pueden reducir el nivel de fraude al buscar ciertos estereotipos en aplicaciones para el pago de la compensación de seguros que caracteriza la relación entre abogados, médicos y solicitantes.

La aplicación práctica de la producción de datos y la solución de tareas específicas se presenta en el siguiente video.

Seminario web 1. Webinar "Tareas prácticas Minería de datos: problemas y soluciones"

Javascript está deshabilitado en tu navegador

Seminario web 2. Seminario web "Minería de datos y minería de texto: ejemplos de resolución de tareas reales"

Javascript está deshabilitado en tu navegador


Los conocimientos más profundos de la metodología y la tecnología de minería de datos se pueden obtener en los cursos de Statsoft.