Miningul de date înseamnă. Tehnologii de extragere a datelor. Proprietățile cunoștințelor descoperite

Data Mining este împărțit în două grupuri mari pe baza principiului lucrului cu datele de formare inițială. În această clasificare nivel superior determinat în funcție de faptul dacă datele sunt stocate după Data Mining sau distilate pentru utilizare ulterioară.

1. Utilizarea directă a datelor sau stocarea datelor.

În acest caz, datele sursă sunt stocate într-o formă explicit detaliată și sunt utilizate direct în etape și/sau analiza excepțiilor. Problema cu acest grup de metode este că atunci când le folosiți, poate fi dificil să analizați baze de date foarte mari.

Metode din acest grup: analiza cluster, metoda celui mai apropiat vecin, metoda k-cel mai apropiat vecin, raționamentul analogic.

2. Identificarea și utilizarea formalizate modele, sau distilare șablon.

Cu tehnologie distilare șablon un eșantion (șablon) de informații este extras din datele sursă și convertit în anumite structuri formale, al căror tip depinde de metoda de Data Mining utilizată. Acest proces se realizează în etapă căutare gratuită, primul grup de metode nu are în principiu această etapă. Pe etape modelare predictivăŞi analiza excepțiilor sunt utilizate rezultatele etapei căutare gratuită, sunt mult mai compacte decât bazele de date în sine. Să reamintim că construcțiile acestor modele pot fi interpretate de un analist sau neinterpretabile („cutii negre”).

Metode din acest grup: metode logice; metode de vizualizare; metode de tabulare încrucișată; metode bazate pe ecuații.

Metodele logice, sau metodele de inducție logică, includ: interogări și analize neclare; reguli simbolice; arbori de decizie; algoritmi genetici.

Metodele acestui grup sunt, probabil, cele mai interpretabile - ele formalizează modelele găsite, în cele mai multe cazuri, într-o formă destul de transparentă din punctul de vedere al utilizatorului. Regulile rezultate pot include variabile continue și discrete. Trebuie remarcat faptul că arborii de decizie pot fi convertiți cu ușurință în seturi de reguli simbolice prin generarea unei singure reguli de-a lungul căii de la rădăcina arborelui la acesta. apex terminal. Arborele de decizie și regulile sunt de fapt în moduri diferite soluții la aceeași problemă și diferă doar prin capacitățile lor. În plus, implementarea regulilor este realizată de algoritmi mai lenți decât inducerea arborilor de decizie.

Metode de tabulare încrucișată: agenți, rețele bayesiene (încredere), vizualizare încrucișată. Ultima metodă nu îndeplinește una dintre proprietățile Data Mining - căutarea independentă modele sistem analitic. Cu toate acestea, furnizarea de informații sub formă de tabele încrucișate asigură implementarea sarcinii principale a Data Mining - găsirea modelelor, astfel încât această metodă poate fi considerată și una dintre metodele Data Mining.

Metode bazate pe ecuații.

Metodele acestui grup exprimă tiparele identificate sub formă de expresii matematice - ecuații. Prin urmare, ele pot funcționa numai cu variabile numerice, iar variabilele de alte tipuri trebuie să fie codificate corespunzător. Acest lucru limitează oarecum utilizarea metodelor din acest grup, cu toate acestea, ele sunt utilizate pe scară largă în rezolvarea diferitelor probleme, în special în probleme de prognoză.

Principalele metode ale acestui grup: metode statistice și rețele neuronale

Metodele statistice sunt cel mai adesea folosite pentru a rezolva problemele de prognoză. Există multe metode de analiză a datelor statistice, printre care, de exemplu, analiza corelației-regresiune, corelarea seriilor de timp, identificarea tendințelor în serii de timp, analiza armonică.

O altă clasificare împarte varietatea metodelor Data Mining în două grupe: metode statistice și cibernetice. Această schemă de separare se bazează pe diferite abordări ale antrenării modelelor matematice.

Trebuie remarcat faptul că există două abordări pentru clasificarea metodelor statistice ca Data Mining. Prima dintre ele contrastează metodele statistice și susținătorii săi consideră că metodele statistice clasice sunt un domeniu separat de analiză a datelor. Conform celei de-a doua abordări, metodele statistice de analiză fac parte din instrumentele matematice ale Data Mining-ului. Majoritatea autorităților adoptă a doua abordare.

În această clasificare, se disting două grupuri de metode:

  • metode statistice bazate pe utilizarea experienței medii acumulate, care se reflectă în date retrospective;
  • metode cibernetice, inclusiv multe abordări matematice eterogene.

Dezavantajul acestei clasificări: atât algoritmii statistici, cât și cei cibernetici se bazează într-un fel sau altul pe comparație experiență statistică cu rezultatele monitorizării situaţiei actuale.

Avantajul acestei clasificări este ușurința sa de interpretare - este folosită pentru a descrie mijloacele matematice ale abordării moderne a extragerea cunoștințelor din rețele de observații inițiale (operative și retrospective), adică în sarcinile Data Mining.

Să aruncăm o privire mai atentă asupra grupurilor prezentate mai sus.

Metode statistice Exploatarea datelor

Aceste metode sunt împărțite în patru secțiuni interdependente:

  • analiza preliminară a naturii datelor statistice (testarea ipotezelor de staționaritate, normalitate, independență, omogenitate, evaluarea tipului funcției de distribuție, a parametrilor acesteia etc.);
  • identificarea legăturilor și modele(analiza de regresie liniară și neliniară, analiza de corelație etc.);
  • analiză statistică multivariată (analiza discriminantă liniară și neliniară, analiza cluster, analiza componentelor, analiza factorială etc.);
  • modele dinamiceși prognoza bazată pe serii de timp.

Arsenalul de metode statistice pentru Data Mining este clasificat în patru grupe de metode:

  1. Analiza descriptivă și descrierea datelor sursă.
  2. Analiza relațiilor (analiza de corelație și regresie, analiza factorială, analiza varianței).
  3. Analiza statistică multivariată (analiza componentelor, analiza discriminantă, analiza regresiei multivariate, corelații canonice etc.).
  4. Analiza serii temporale ( modele dinamiceși prognoză).

Metode cibernetice de extragere a datelor

A doua direcție a Data Mining este o varietate de abordări unite de ideea matematicii computerizate și utilizarea teoriei inteligenţă artificială.

Dezvoltarea metodelor de înregistrare și stocare a datelor a dus la o creștere rapidă a volumului de informații colectate și analizate. Volumele de date sunt atât de impresionante încât este pur și simplu imposibil ca o persoană să le analizeze singură, deși necesitatea unei astfel de analize este destul de evidentă, deoarece aceste date „brute” conțin cunoștințe care pot fi folosite în luarea deciziilor. Pentru a efectua analiza automată a datelor, se utilizează Data Mining.

Data Mining este procesul de descoperire în „brută” a unor date necunoscute anterior, nebanale, practic utile și interpretabile, necesare pentru luarea deciziilor în diverse domenii ale activității umane. Data Mining este unul dintre pașii descoperirii cunoștințelor în baze de date.

Informații găsite în timpul aplicării Metode de date Mineritul trebuie să fie nebanal și necunoscut anterior, de exemplu, vânzările medii nu sunt. Cunoștințele ar trebui să descrie noi conexiuni între proprietăți, să prezică valorile unor caracteristici pe baza altora etc. Cunoștințele găsite trebuie să fie aplicabile unor date noi cu un anumit grad de fiabilitate. Utilitatea constă în faptul că aceste cunoștințe pot aduce anumite beneficii atunci când sunt aplicate. Cunoștințele trebuie să fie într-o formă nematematică, care să fie înțeleasă de utilizator. De exemplu, construcțiile logice „dacă... atunci...” sunt cel mai ușor percepute de oameni. Mai mult, astfel de reguli pot fi folosite în diferite SGBD-uri ca interogări SQL. În cazul în care cunoștințele extrase nu sunt transparente pentru utilizator, trebuie să existe metode de post-procesare pentru a le aduce într-o formă interpretabilă.

Algoritmii utilizați în Data Mining necesită o mulțime de calcule. Anterior, acesta a fost un factor limitativ pentru utilizarea practică pe scară largă a Data Mining, dar creșterea de astăzi a performanței procesoarelor moderne a atenuat gravitatea acestei probleme. Acum, într-un timp rezonabil, puteți efectua o analiză de înaltă calitate a sute de mii și milioane de înregistrări.

Probleme rezolvate prin metodele Data Mining:

  1. Clasificare– aceasta este atribuirea obiectelor (observații, evenimente) uneia dintre clasele cunoscute anterior.
  2. Regresia, inclusiv sarcinile de prognoză. Stabilirea dependenței ieșirilor continue de variabilele de intrare.
  3. Clustering este o grupare de obiecte (observații, evenimente) bazată pe date (proprietăți) care descriu esența acestor obiecte. Obiectele dintr-un cluster trebuie să fie „asemănătoare” între ele și diferite de obiectele incluse în alte clustere. Cu cât obiectele dintr-un cluster sunt mai asemănătoare și cu cât sunt mai multe diferențe între clustere, cu atât este mai precisă gruparea.
  4. Asociere– identificarea tiparelor între evenimentele înrudite. Un exemplu de astfel de model este o regulă care indică faptul că evenimentul X decurge din evenimentul Y. Astfel de reguli sunt numite asociative. Această problemă a fost propusă mai întâi pentru a găsi modele tipice de cumpărături în supermarketuri, așa că uneori este numită și analiza coșului de piață.
  5. Modele secvențiale– stabilirea tiparelor între evenimente legate în timp, i.e. detectarea unei dependențe care dacă apare evenimentul X, atunci după timp specificat evenimentul Y va avea loc.
  6. Analiza abaterilor– identificarea celor mai necaracteristice tipare.

Problemele de analiză a afacerii sunt formulate diferit, dar soluția pentru cele mai multe dintre ele se rezumă la una sau alta problemă de Data Mining sau o combinație a acestora. De exemplu, evaluarea riscului este o soluție la o problemă de regresie sau clasificare, segmentarea pieței este gruparea, stimularea cererii este reguli de asociere. De fapt, problemele de Data Mining sunt elementele din care se poate asambla o soluție pentru marea majoritate afaceri adevărate sarcini.

Pentru a rezolva problemele de mai sus, se folosesc diverse metode și algoritmi de Data Mining. Datorită faptului că Data Mining s-a dezvoltat și se dezvoltă la intersecția unor discipline precum statistica, teoria informației, învățarea automată, teoria bazelor de date, este destul de firesc ca majoritatea algoritmilor și metodelor de Data Mining au fost dezvoltate pe baza diverse metode din aceste discipline. De exemplu, procedura de grupare k-means a fost pur și simplu împrumutată din statistici. Următoarele metode de Data Mining au devenit foarte populare: rețele neuronale, arbori de decizie, algoritmi de clustering, inclusiv cei scalabili, algoritmi de detectare a conexiunilor asociative între evenimente etc.

Deductor este o platformă de analiză care include set complet instrumente pentru rezolvarea problemelor de Data Mining: regresie liniară, rețele neuronale supravegheate, rețele neuronale nesupravegheate, arbori de decizie, căutarea regulilor de asociere și multe altele. Pentru multe mecanisme, sunt furnizate vizualizatoare specializate, care facilitează foarte mult utilizarea modelului rezultat și interpretarea rezultatelor. Rezistenţă platforma nu este doar implementarea algoritmilor moderni de analiză, ci și capacitatea de a combina în mod arbitrar diverse mecanisme de analiză.

Rețele neuronale artificiale, algoritmi genetici, programare evolutivă, memorie asociativă, logica fuzzy. Metodele de extragere a datelor includ adesea metode statistice(analiza descriptivă, analiza de corelație și regresie, analiza factorială, analiza varianței, analiza componentelor, analiza discriminantă, analiza serii de timp). Astfel de metode presupun însă câteva idei a priori despre datele analizate, ceea ce este oarecum în contradicție cu obiectivele. Exploatarea datelor(descoperirea cunoștințelor necunoscute anterior, netriviale și utile practic).

Unul dintre cele mai importante scopuri ale metodelor Data Mining este prezentarea vizuală a rezultatelor calculelor, ceea ce permite utilizarea instrumentelor de Data Mining de către persoane care nu au pregătire matematică specială. În același timp, utilizarea metodelor statistice de analiză a datelor necesită o bună cunoaștere a teoriei probabilităților și a statisticii matematice.

Introducere

Metodele Data Mining (sau, ceea ce este același lucru, Knowledge Discovery In Data, prescurtat ca KDD) se află la intersecția bazelor de date, a statisticilor și a inteligenței artificiale.

Excursie istorică

Domeniul Data Mining a început cu un atelier condus de Grigory Pyatetsky-Shapiro în 1989.

Anterior, în timp ce lucra la GTE Labs, Grigory Pyatetsky-Shapiro a devenit interesat de întrebarea: este posibil să găsim automat anumite reguli pentru a accelera unele interogări către baze de date mari. În același timp, au fost propuși doi termeni - Data Mining („data mining”) și Knowledge Discovery In Data (care ar trebui tradus ca „descoperire de cunoștințe în baze de date”).

Enunțarea problemei

Inițial, sarcina este stabilită după cum urmează:

  • există o bază de date destul de mare;
  • se presupune că există unele „cunoștințe ascunse” în baza de date.

Este necesar să se dezvolte metode de descoperire a cunoștințelor ascunse în volume mari de date „brute” inițiale.

Ce înseamnă „cunoaștere ascunsă”? Aceasta trebuie să fie cunoștințe:

  • necunoscut anterior - adică cunoștințe care ar trebui să fie noi (și care nu confirmă unele informații obținute anterior);
  • non-triviale - adică cele care nu pot fi pur și simplu văzute (în timpul analizei vizuale directe a datelor sau la calcularea unor caracteristici statistice simple);
  • practic utile - adică cunoștințe care sunt valoroase pentru un cercetător sau consumator;
  • accesibile pentru interpretare – adică cunoștințe ușor de prezentat într-o formă clară pentru utilizator și ușor de explicat din punct de vedere al domeniului subiectului.

Aceste cerințe determină în mare măsură esența metodelor de data mining și forma și raportul în care tehnologia Data mining utilizează sisteme de gestionare a bazelor de date, metode de analiză statistică și metode de inteligență artificială.

Exploatarea datelor și baze de date

Metodele de extragere a datelor au sens numai pentru baze de date destul de mari. În fiecare zonă specifică Cercetarea are propriul criteriu pentru „măreția” unei baze de date.

Dezvoltarea tehnologiilor de baze de date a dus mai întâi la crearea unui limbaj specializat - un limbaj de interogare a bazelor de date. Pentru bazele de date relaționale, este limbajul SQL, care a oferit capabilități extinse pentru crearea, modificarea și preluarea datelor stocate. Apoi a apărut nevoia de a obține informații analitice (de exemplu, informații despre activitățile unei întreprinderi pentru o anumită perioadă) și s-a dovedit că tradițional baze de date relaționale datele care sunt bine potrivite, de exemplu, pentru menținerea înregistrărilor operaționale (într-o întreprindere), sunt slab potrivite pentru analiză. aceasta a dus, la rândul său, la crearea așa-zisului. „depozite de date”, a căror structură însăși în cel mai bun mod posibil corespunde unei analize matematice cuprinzătoare.

Exploatarea datelor și statistici

Metodele de extragere a datelor se bazează pe metode matematice de prelucrare a datelor, inclusiv metode statistice. În soluțiile industriale, astfel de metode sunt adesea incluse direct în pachetele de data mining. Cu toate acestea, trebuie luat în considerare faptul că adesea cercetătorii folosesc în mod nerezonabil teste parametrice în locul celor neparametrice pentru a simplifica lucrurile și, în al doilea rând, rezultatele analizei sunt greu de interpretat, ceea ce este complet în contradicție cu scopurile și obiectivele Data. minerit. Se folosesc însă metode statistice, dar aplicarea lor se limitează la efectuarea doar a anumitor etape ale studiului.

Exploatarea datelor și inteligența artificială

Cunoștințele obținute prin metodele Data mining sunt de obicei reprezentate în formular modele. Aceste modele sunt:

  • regulile de asociere;
  • arbori de decizie;
  • clustere;
  • functii matematice.

Metodele de construire a unor astfel de modele sunt de obicei denumite așa-numitele. "inteligenţă artificială".

Sarcini

Problemele rezolvate prin metodele Data Mining sunt de obicei împărțite în unele descriptive. descriptiv) și predictiv (ing. predictiv).

În sarcinile descriptive, cel mai important lucru este de a oferi o descriere vizuală a tiparelor ascunse existente, în timp ce în sarcinile predictive, prim-planul este problema predicției pentru acele cazuri pentru care încă nu există date.

Sarcinile descriptive includ:

  • căutarea regulilor sau modelelor de asociere (eșantioane);
  • grupare de obiecte, analiza cluster;
  • construirea unui model de regresie.

Sarcinile predictive includ:

  • clasificarea obiectelor (pentru clase predefinite);
  • analiza regresiei, analiza serii de timp.

Algoritmi de învățare

Problemele de clasificare sunt caracterizate prin „învățare supravegheată”, în care construcția (antrenamentul) unui model se realizează folosind un eșantion care conține vectori de intrare și de ieșire.

Pentru problemele de grupare și asociere se folosește „învățare nesupravegheată”, în care modelul este construit folosind un eșantion în care nu există niciun parametru de ieșire. Valoarea parametrului de ieșire ("aparține unui cluster ...", "este similar cu un vector ...") este selectată automat în timpul procesului de antrenament.

Pentru probleme de reducere a descrierii este tipic fără separare în vectori de intrare și de ieșire. De la lucrările clasice ale lui K. Pearson privind metoda componentelor principale, atenția principală a fost acordată aproximării datelor.

Etapele antrenamentului

Există o serie tipică de etape pentru rezolvarea problemelor folosind metodele Data Mining:

  1. Formarea ipotezelor;
  2. Colectarea datelor;
  3. Pregătirea datelor (filtrare);
  4. Selectarea modelului;
  5. Selectarea parametrilor modelului și a algoritmului de învățare;
  6. Antrenament model ( căutare automată alți parametri ai modelului);
  7. Analiza calității pregătirii, dacă trecerea la pct. 5 sau pct. 4 este nesatisfăcătoare;
  8. Analiza tiparelor identificate, dacă trecerea la pașii 1, 4 sau 5 este nesatisfăcătoare.

Pregătirea datelor

Înainte de a utiliza algoritmi de Data Mining, este necesar să pregătiți un set de date analizate. Deoarece IDA poate detecta doar modele prezente în date, datele sursă, pe de o parte, trebuie să aibă un volum suficient, astfel încât aceste modele să fie prezente în ele și, pe de altă parte, să fie suficient de compacte pentru ca analiza să aibă un volum acceptabil. timp. Cel mai adesea, depozitele de date sau magazinele de date acționează ca date sursă. Pregătirea este necesară pentru analiza datelor multidimensionale înainte de clustering sau data mining.

Datele curățate sunt reduse la seturi de caracteristici (sau vectori dacă algoritmul poate funcționa numai cu vectori cu dimensiuni fixe), un set de caracteristici per observație. Un set de caracteristici este format în conformitate cu ipotezele despre care caracteristici ale datelor brute au o putere predictivă mare pe baza puterii de calcul necesare pentru procesare. De exemplu, o imagine alb-negru a unei fețe care măsoară 100x100 pixeli conține 10 mii de biți de date brute. Ele pot fi convertite într-un vector caracteristic prin detectarea ochilor și gurii în imagine. Ca urmare, volumul datelor este redus de la 10 mii de biți la o listă de coduri de poziție, reducând semnificativ volumul datelor analizate și, prin urmare, timpul de analiză.

O serie de algoritmi sunt capabili să proceseze datele lipsă care au putere de predicție (de exemplu, lipsa unui client de achiziții de un anumit tip). De exemplu, atunci când utilizați metoda regulilor de asociere (engleză) rusă

Nu sunt procesați vectori de caracteristici, ci seturi de dimensiuni variabile.

Alegerea funcției obiectiv va depinde de care este scopul analizei; alegerea funcției „corecte” este fundamentală pentru data mining de succes.

Observațiile sunt împărțite în două categorii - set de antrenament și set de test. Setul de antrenament este folosit pentru a „antrena” algoritmul Data Mining, iar setul de testare este folosit pentru a verifica tiparele găsite.

Reşetova

Note

  • Literatură Paklin N. B., Oreshkov V. I.
  • Analiza de afaceri: de la date la cunoștințe (+ CD). - Sankt Petersburg. : Ed. Petru, 2009. - 624 p. Ducele V., Samoilenko A.
  • Data Mining: curs de formare (+CD). - Sankt Petersburg. : Ed. Petru, 2001. - 368 p. Zhuravlev Yu.I. , Ryazanov V.V., Senko O.V.
  • RECUNOAŞTERE. Metode matematice. Sistem software. Aplicații practice. - M.: Editura. „Faza”, 2006. - 176 p. - ISBN 5-7036-0108-8 Zinoviev A. Yu.
  • : BINOM: Laboratorul de cunoștințe, 2006. - 382 p. - ISBN 5-9556-0064-7 Ian H. Witten, Eibe Frank și Mark A. Hall

Data Mining: instrumente și tehnici practice de învățare automată. - Ediția a 3-a. - Morgan Kaufmann, 2011. - P. 664. - ISBN 9780123748560

  • Legături Software de extragere a datelor

Deductor Statistica SPSS

Fundația Wikimedia. 2010. data mining) și analiza exploratorie „brutală”, care formează baza operațională modele prelucrare analitică

Majoritatea metodelor statistice de identificare a relațiilor în date folosesc conceptul de mediere a eșantionului, care duce la operații pe valori inexistente, în timp ce Data Mining operează pe valori reale.

OLAP este mai potrivit pentru înțelegerea datelor istorice Data Mining se bazează pe date istorice pentru a răspunde întrebărilor despre viitor.

Perspective pentru tehnologia Data Mining

Potențialul Data Mining dă undă verde pentru a extinde limitele aplicării tehnologiei. În ceea ce privește perspectivele Data Mining-ului, sunt posibile următoarele direcții de dezvoltare:

  • identificarea tipurilor de domenii cu euristica corespunzătoare, a căror formalizare va facilita rezolvarea problemelor relevante de Data Mining legate de aceste domenii;
  • crearea de limbaje formale și instrumente logice cu ajutorul cărora va fi formalizat raționamentul și a căror automatizare va deveni un instrument de rezolvare a problemelor de Data Mining în domenii specifice;
  • crearea de metode de Data Mining capabile nu doar să extragă modele din date, ci și să formeze anumite teorii bazate pe date empirice;
  • depășirea decalajului semnificativ dintre capacitățile instrumentelor de Data Mining și realizările teoretice în acest domeniu.

Dacă ne gândim la viitorul Data Mining-ului pe termen scurt, este evident că dezvoltarea acestei tehnologii este îndreptată cel mai mult către domeniile legate de business.

Pe termen scurt, produsele Data Mining pot deveni la fel de comune și necesare e-mailși, de exemplu, să fie folosite de utilizatori pentru a găsi cele mai multe preturi mici pentru un anumit produs sau cele mai ieftine bilete.

Pe termen lung, viitorul Data Mining-ului este cu adevărat interesant - ar putea fi căutarea de către agenți inteligenți atât pentru noi tratamente pentru diferite boli, cât și pentru o nouă înțelegere a naturii universului.

Cu toate acestea, Data Mining este, de asemenea, plină de pericol potențial - la urma urmei, o cantitate din ce în ce mai mare de informații devine disponibilă prin World Wide Web, inclusiv informații private, și din ea pot fi extrase din ce în ce mai multe cunoștințe:

Nu cu mult timp în urmă, cel mai mare magazin online, Amazon, s-a trezit în centrul unui scandal legat de brevetul primit, „Metode și sisteme pentru a ajuta utilizatorii să cumpere bunuri”, care nu este altceva decât un alt produs Data Mining conceput pentru a colecta informații personale. date despre vizitatorii magazinului. Noua tehnică vă permite să preziceți cererile viitoare pe baza faptelor de achiziție, precum și să trageți concluzii despre scopul lor. Scopul acestei tehnici este cel menționat mai sus - obținerea cât mai multor informații despre clienți, inclusiv informații private (sex, vârstă, preferințe etc.). Astfel, se colectează date despre viața privată a clienților magazinului, precum și a membrilor familiei acestora, inclusiv a copiilor. Acesta din urmă este interzis de legislația multor țări - colectarea de informații despre minori este posibilă acolo numai cu permisiunea părinților lor.

Cercetările arată că există atât soluții de succes care folosesc data mining, cât și experiențe nereușite cu această tehnologie. Domeniile în care aplicațiile tehnologiei Data Mining sunt cel mai probabil să aibă succes includ următoarele:

  • necesită decizii bazate pe cunoștințe;
  • au un mediu în schimbare;
  • să aibă date accesibile, suficiente și semnificative;
  • oferiți dividende mari din deciziile corecte.

Abordări existente ale analizei

Pentru o perioadă destul de lungă, disciplina Data Mining nu a fost recunoscută ca un domeniu independent de analiză a datelor, fiind uneori numită „curtea din spate a statisticii” (Pregibon, 1997).

Până în prezent, au fost definite mai multe puncte de vedere despre Data Mining. Susținătorii unuia dintre ele îl consideră un miraj care distrage atenția de la analiza clasică

În prezent, elemente de inteligență artificială sunt introduse în mod activ în activitati practice manager Spre deosebire de sistemele tradiționale de inteligență artificială, tehnologia de căutare inteligentă și analiză a datelor, sau „Data Mining” (DM), nu încearcă să simuleze inteligența naturală, ci își îmbunătățește capacitățile cu puterea serverelor de calcul moderne, motoarele de căutareși depozite de date. Adesea, lângă cuvintele „Data Mining” există cuvintele „Knowledge Discovery in Databases”.

Orez. 6.17.

Data Mining este procesul de descoperire în date brute necunoscute anterior, nebanale, practic utile și interpretabile, necesare pentru luarea deciziilor în diverse domenii ale activității umane. Data Mining este de mare valoare pentru manageri și analiști în activitățile lor zilnice. Oamenii de afaceri au realizat că cu ajutorul metodelor de Data Mining pot obține avantaje competitive tangibile.

Baza tehnologie modernă Data Mining (Discovery-driven Data Mining) se bazează pe conceptul de Patterns, reflectând fragmente de relații multidimensionale în date. Aceste modele reprezintă modele inerente eșantioanelor de date care pot fi exprimate compact într-o formă care poate fi citită de om. Căutarea tiparelor se realizează folosind metode care nu sunt limitate de ipoteze a priori despre structura eșantionului și tipul de distribuție a valorilor indicatorilor analizați. În fig. Figura 6.17 prezintă o diagramă a conversiei datelor folosind tehnologia Data Mining.

Orez. 6.18.

Baza pentru toate tipurile de sisteme de prognoză este informațiile istorice stocate în baza de date sub formă de serii temporale. Dacă este posibil să se construiască șabloane care să reflecte în mod adecvat dinamica comportamentului indicatorilor țintă, există posibilitatea ca, cu ajutorul lor, să se poată prezice comportamentul sistemului în viitor. În fig. Figura 6.18 prezintă ciclul complet de utilizare a tehnologiei Data Mining.

Un punct important al Data Mining-ului este non-trivialitatea tiparelor căutate. Aceasta înseamnă că tiparele găsite trebuie să reflecte regularități neevidente, neașteptate (Neașteptate) în date, care constituie așa-numita cunoaștere ascunsă (Hidden Knowledge). Oamenii de afaceri au ajuns să înțeleagă că „datele brute” conțin un strat profund de cunoștințe și, cu o excavare adecvată, pot fi descoperite adevărate pepite care pot fi folosite în competiție.

Domeniul de aplicare al Data Mining nu este limitat în niciun fel - tehnologia poate fi folosită oriunde există cantități uriașe de date „brute”!


În primul rând, metodele de Data Mining au atras interesul întreprinderilor comerciale care desfășoară proiecte bazate pe depozite de date (Data Warehousing). Experiența multor astfel de întreprinderi arată că rentabilitatea extragerii datelor poate ajunge la 1000%. Există rapoarte despre un efect economic care este de 10-70 de ori mai mare decât costurile inițiale de 350 până la 750 de mii de dolari. Există informații despre un proiect de 20 de milioane de dolari care s-a plătit singur în doar 4 luni. Un alt exemplu este economiile anuale de 700 de mii de dolari datorate implementării Data Mining într-unul dintre lanțurile de supermarketuri din Marea Britanie.

Compania Microsoft a anunțat oficial consolidarea activității sale în domeniul Data Mining. Un grup special de cercetare Microsoft condus de Osama Fayyad și șase parteneri invitați (Angoss, Datasage, Epiphany, SAS, Silicon Graphics, SPSS) pregătesc un proiect comun pentru a dezvolta un standard de schimb de date și instrumente pentru integrarea instrumentelor Data Mining cu baze de date și depozite de date. .

Data Mining-ul este un domeniu multidisciplinar care a apărut și se dezvoltă pe baza realizărilor statisticii aplicate, recunoașterii modelelor, metodelor inteligenței artificiale, teoriei bazelor de date etc. (Fig. 6.19). De aici și abundența de metode și algoritmi implementați în diverse sisteme de Data Mining existente. [Ducele V.A. www.inftech.webservis.ru/it/datamining/ar2.html]. Multe dintre aceste sisteme integrează mai multe abordări simultan. Cu toate acestea, de regulă, în fiecare sistem există o componentă cheie pe care se face pariul principal.

Poți să numești cinci? tipuri standard modele identificate folosind metodele Data Mining: asociere, succesiune, clasificare, grupare și prognoză.

Orez. 6.19. Domenii de aplicare a tehnologiei Data Mining

O asociere apare atunci când mai multe evenimente sunt legate între ele. De exemplu, un studiu realizat într-un supermarket de calculatoare poate arăta că 55% dintre cei care cumpără un computer cumpără și o imprimantă sau un scanner, iar dacă există o reducere pentru un astfel de set, își cumpără o imprimantă în 80% din cazuri. Având informații despre o astfel de asociație, managerilor le este ușor să evalueze cât de eficientă este reducerea oferită.

Dacă există un lanț de evenimente legate în timp, atunci ele vorbesc despre o secvență. De exemplu, după cumpărarea unei case, în 45% din cazuri, o nouă sobă de bucătărie este achiziționată în termen de o lună, iar în două săptămâni, 60% dintre noii rezidenți achiziționează un frigider.

Cu ajutorul clasificării, sunt identificate semne care caracterizează grupul căruia îi aparține un anumit obiect. Acest lucru se realizează prin analizarea obiectelor deja clasificate și formularea unui set de reguli.

Clustering diferă de clasificare prin faptul că grupurile în sine nu sunt predefinite. Folosind clustering, instrumentele Data Mining identifică în mod independent diverse grupuri omogene de date.