Въведение в съвременното добиване на данни. Минно добив на данни · Loginom Wiki Min Data Mencies

Добивът на данни е разделен на две големи групи на принципа на работа с данни за обучение. В тази класификация горното ниво се определя въз основа на това дали данните се запазват след добива на данни или те се дестилират за по-късна употреба.

1. Директно използване на данни или спестяване на данни.

В този случай първоначалните данни се съхраняват в очевидна подробна форма и се използват директно на етапи и / или анализ на изключенията. Проблемът с тази група методи - когато се използва, може да има трудно да се анализират ултра-високи бази данни.

Методи на тази група: анализ на клъстери, най-близкия съседен метод, метод на K-най-близкия съсед, разсъждение по аналогия.

2. Откриване и използване на формализирана закони, или дестилационни шаблони.

С технологията дестилационни шаблони Една проба (шаблон) на информацията се извлича от източника на данни и се превръща в някои формални структури, чийто вида зависи от използвания метод за минни данни. Този процес се извършва на етапа. безплатно търсенеПри първата група методи този етап отсъства по принцип. На етапи прогностично моделиране и анализ на изключенията Резултатите от етапа се използват безплатно търсенете са значително по-компактни в самите бази данни. Припомнете си, че дизайните на тези модели могат да бъдат интерпретирани анализатор или неспособни ("черни кутии").

Методи на тази група: логически методи; Методи за визуализация; Методи за кръстосано табулация; Методи, базирани на уравнения.

Логическите методи или логически индукционни методи включват: размити искания и анализи; символични правила; Дървета на решенията; Генетични алгоритми.

Методите на тази група са може би най-интерпретирани - те изготвят намерените модели, в повечето случаи в доста прозрачна форма от гледна точка на потребителя. Получените правила могат да включват непрекъснати и дискретни променливи. Трябва да се отбележи, че дърветата на решенията могат лесно да се преобразуват в набори от символични правила чрез генериране на едно правило по пътя от корена на дървото до неговата. \\ T терминал връх. Дърветата на решенията и правилата са различни начини за решаване на една задача и се различават само в техните възможности. Освен това прилагането на правилата се извършва от по-бавни алгоритми, отколкото въвеждането на решения.

Методи за кръстосано разделяне: агенти, Baiec (Trust) мрежа, кръстосана визуализация. Последният метод не отговаря на едно от свойствата на добива на данни - самостоятелно търсене закони Аналитична система. Въпреки това предоставянето на информация под формата на кръстосана таблица осигурява прилагането на основната задача на добива на данни - търсене на шаблони, така че този метод може също да се счита за един от методите за минни данни.

Методи, базирани на уравнения.

Методите на тази група изразяват идентифицираните модели под формата на математически изрази - уравнения. Следователно те могат да работят само с цифрови променливи, а променливи от други видове трябва да бъдат съответно кодирани. Това донякъде ограничава използването на методите на тази група, но те се използват широко в решаването на различни задачи, особено прогнозни задачи.

Основните методи на тази група: статистически методи и невронни мрежи

Статистическите методи най-често се използват за решаване на задачите за прогнозиране. Съществуват много методи за статистически анализ на данните, например анализа на корелационната регресия, корелация на серията от динамика, идентифициране на тенденциите на динамични серии, хармоничен анализ.

Друга класификация споделя всички разновидности на методите за добиване на данни в две групи: статистически и кибернетични методи. Тази схема за разделяне се основава на различни подходи за изучаване на математически модели.

Трябва да се отбележи, че има два подхода на приписване на статистически методи към добива на данни. Първият от тях се противопоставя на статистическите методи и добива на данни, неговите поддръжници считат за класически статистически методи в отделна посока на анализа на данните. Според втория подход, методите за статистически анализ са част от минното дело на математическия инструментариум. Повечето реномирани източници се придържат към втория подход.

В тази класификация разграничават две групи методи:

  • статистически методи, основани на използването на средно натрупания опит, който се отразява в ретроспективни данни;
  • кибернетични методи, които включват много хетерогенни математически подходи.

Липсата на такава класификация: както статистически, така и кибернетични алгоритми по един или друг начин разчитат на сравнението на статистическия опит с резултатите от наблюдението на настоящата ситуация.

Предимството на такава класификация е неговото удобство за тълкуване - използва се при описване на математически средства за съвременен подход към извличане на знания от масиви на източници (оперативни и ретроспективни), т.е. В задачите за добив на данни.

По-подробно разгледайте горните групи.

Статистически методи Данни

Тези методи са четири взаимосвързани раздела:

  • предварителен анализ на естеството на статистическите данни (инспекция на хипотезата за стационарност, нормалност, независимост, еднообразие, оценка на вида на функцията за разпространение, нейните параметри и др.);
  • откриване на връзки I. закони (линеен и нелинеен регресионен анализ, корелационен анализ и др.);
  • многоизмерен статистически анализ (линеен и нелинеен дискриминационен анализ, клъстерен анализ, анализ на компонентите, факторна анализ и т.н.);
  • динамични модели и прогноза, основана на времеви серии.

Арсеналът на статистическите методи за миннодобисване на данни се класифицира за четири групи методи:

  1. Описателен анализ и описание на източниците.
  2. Анализ на връзката (корелация и регресионен анализ, \\ t факторна анализ, анализ на дисперсията).
  3. Многоизмерен статистически анализ (анализ на компонентите, дискриминационен анализ, многоизмерен регресионен анализ, канонични корелации и др.).
  4. Анализ на временните серии ( динамични модели и прогнозиране).

Кибернетични методи Данни за данни

Втората посока на добива на данни е много подходи, комбинираната идея на компютърната математика и използването на теория изкуствен интелект.

OLAP системите предоставят инструменти за анализ на тестването на хипотези при анализиране на данни, т.е. основната задача на анализатора е генерирането на хипотези, което той го решава, въз основа на неговите знания и опит. Въпреки това, знанието не е само при хора също в натрупаните данни, които се анализират. Такива знания се съдържат в огромно количество информация, която човек не може да проучи независимо. В това отношение има шанс да се пропуснат хипотези, които могат да донесат значителни ползи.

За откриване на "скрити" знания се използват специални методи за автоматичен анализ, с които трябва да извличат практически знания от "зората" на информацията. За това беше посочен терминът "датчик)" или "интелигентен анализ на данни".

Има много определения за датчик, които се допълват взаимно. Ето някои от тях.

DataMining е нетривиални и практически полезни модели в бази данни. (BaseGroup)

DataMining е процес на подбор, изследване и моделиране на големи количества данни за откриване на неизвестни на тези структури (Patters), за да се постигне предимство на бизнеса (SAS институт)

DataMining е процес, чиято цел е да се открият нови значими корелации, пробни тенденции в резултат на пресяване голямо количество съхранени данни с използването на метод за разпознаване на модела плюс използването на статистически и математически методи (Gartnergroup)

DataMining е проучване и откриване на машини (алгоритми, изкуствен интелект) в сурови скрити данните не са били известни по-рано, нетривиални, почти полезни, достъпни за тълкуванеот човека. (А. Баржес "Технологии за анализ на данни")

DataMining е процес на откриване на полезни знания за бизнеса. (N.m. Abdikeev "KBA")

Свойства на откриваеми знания

Помислете за свойствата на откриваемите знания.

  • Знанието трябва да бъде ново, неизвестно преди това. Очакваните усилия за откриване на знания, които вече са известни на потребителя, не се изплащат. Ето защо, нови, неизвестни преди това знания са ценни.
  • Знанието трябва да бъде нетривиално. Резултатите от анализа трябва да отразяват неочевидни, неочакванимодели в данните, съставляващи така наречените скрити знания. Резултатите, които могат да бъдат получени по-лесни начини (например, визуално преглеждане), не оправдават привличането на мощни методи за данни.
  • Знанието трябва да бъде практически полезно. Трябва да се прилагат знания, включително при нови данни, с доста висока степен на надеждност. Полезността е, че тези знания могат да доведат до определена полза, когато се прилагат.
  • Трябва да са на разположение знания за разбиране на човека. Намерените модели трябва да бъдат логично обяснени, в противен случай има вероятност те да са случайни. Освен това откритите знания трябва да бъдат представени в човек, разбираем.

При да се предоставят получени знания, моделът служи. Видовете модели зависят от методите за тяхното създаване. Най-често срещаните са: правила, дървета от решения, клъстери и математически функции.

Задачи за данни

Припомнете си технология на даннитеДобивът се поставя върху концепцията за шаблони, представляващи модели. В резултат на откриването на тях, моделите, скрити от голото око, са решени задачите за данни. Различни видове модели, които могат да бъдат изразени под формата на ясен човек, съответстват на определени задачи за данни.

Няма нито едно мнение за това какви задачи трябва да се приписват на данните. Най-реномираните източници изброяват следното: класификация,

клъстеризация, прогнозиране, асоцииране, визуализация, анализ и откриване

отклонения, оценка, анализ на връзките, обобщаване.

Целта на описанието, която следва, е да даде обща представа за задачите за данни, да сравнят някои от тях и да подават някои методи, с които са решени тези задачи. Най-често срещаните задачи за данни са класифициране, клъстеризация, асоциация, прогнозиране и визуализация. По този начин задачите се разделят на генерираните видове информация, това е най-разпространената класификация на задачите за данни.

Класификация (класификация)

Задачата за разделяне на различни предмети или наблюдения върху предварително определени групи, наречени класове, във всеки от които те се приемат, подобни помежду си с приблизително същите свойства и знаци. В този случай решението се основава наанализ Стойности на атрибут (знаци).

Класификацията е една от най-важните задачи.Извличане на данни . Използва се вмаркетинг При оценката на кредитоспособността на кредитополучателите, определянеклиентска лоялност, разпознаване на изображения , медицинска диагностика и много други приложения. Ако анализаторът знае свойствата на обектите на всеки клас, тогава, когато ново наблюдение се отнася до конкретен клас, тези свойства автоматично се прилагат за него.

Ако броят на класовете е ограничен до два, след това се извършвабинарна класификация Към кои много по-сложни задачи могат да бъдат намалени. Например, вместо да определяме такива степени на кредитен риск, като "висок", "средно" или "нисък", можете да използвате само два - "издаване" или "отказ".

За класификация в датчик се използват много различни модели:невронни мрежи, решения , машини вектори, метод на K-най-близки съседи, алгоритми за покритие и др., При изграждането на обучение с учител, когатоизходна променлива (класов етикет ) Задава се за всяко наблюдение. Официално класификацията се извършва въз основа на дялкосмически знаци в района, в рамките на всеки от коитомногоизмерни вектори Считани за идентични. С други думи, ако обектът падна в зоната на пространството, свързана с конкретен клас, той се отнася до него.

Клъстериране (клъстериране)

Кратко описание. Клъстерът е логично продължение на идеята

класификация. Тази задача е по-сложна, характеристиката на клъстера е, че класовете на обектите не са първоначално предварително определени. Резултатът от клъстерирането е разделянето на обекти в групи.

Пример за метода за решаване на проблема с клъстеризането: обучение "без учител" на специален вид невронни мрежи - самоорганизиране на картите на Kohonen.

Асоциация (асоциации)

Кратко описание. По време на решаването на задачата да се търсят асоциативни правила, намерени закономерности между свързани с тях събития в набора от данни.

Разликата между асоциацията от двете предишни задачи, която се извършва: търсенето на закономерности се извършва, не се основава на свойствата на анализирания обект, но между няколко събития, които се случват едновременно. Най-известният алгоритъм за решаване на задачата за търсене на асоциативни правила - алгоритъм Apriori.

Последователност или последователна асоциация (последователност)

Кратко описание. Последователността ви позволява да намерите временни модели между транзакциите. Задачата на последователността е подобна на асоциацията, но целта му е да установят модели не между едновременно предстоящи събития, но между събития, свързани с времето (т.е. се провеждат с определен интервал от време). С други думи, последователността се определя от високата вероятност за свързаните с веригата събития. Всъщност, сдружението е специален случай на последователност с временно закъснение, равно на нула. Тази задача DataMining също се нарича задача за намиране на последователни шаблони (последователно представяне).

Правило на последователност: След събитието x след определено време ще се случи.

Пример. След закупуване на апартамент наемателите в 60% от случаите за две седмици придобиват хладилник, а за два месеца телевизорът е закупен в 50% от случаите. Решението на тази задача е широко използвано в маркетинга и управлението, например при управлението на клиентаlifeclemanagement (клиентLifeclemanagement).

Регресия, прогнозиране (прогнозиране)

Кратко описание. В резултат на решаването на прогнозния проблем въз основа на характеристиките на историческите данни се оценяват пропуснатите или бъдещи стойности на целевите цифрови индикатори.

Широко се използват методи за математически статистически данни, невронни мрежи и др.

Допълнителни задачи

Дефиниция DeviationDection (DeviationDection), анализ на отклоненията или емисиите

Кратко описание. Целта на решаването на тази задача е да се открият и анализират данните, които са най-различни от общия набор от данни, идентифициране на така наречените нехарактеристични модели.

Оценка (оценка)

Задачата за оценка се свежда до прогнозиране на непрекъснати знаци.

Анализ на връзката (линкинкализация)

Задачата за намиране на зависимости в набора от данни.

Визуализация (визуализация, графична среда)

В резултат на визуализацията се създава графичен образ на анализираните данни. За да се реши задачата за визуализация, се използват графични методи, показващи наличието на шаблони в данните.

Пример за методи за визуализация е представянето на данни в 2-D и 3-D размери.

Обобщаване (обобщение)

Задачата, чиято цел е описание на специфични групи обекти от анализирания набор от данни.

Близо до горепосочената класификация е задачата за данни на следните: Изследвания и открития, прогнозиране и класификация, обяснения и описания.

Автоматично изследване и откриване (безплатно търсене)

Примерна задача: Откриване на нови пазарни сегменти.

За да се реши тази задача, се използват методи за анализ на клъстерите.

Прогнозиране и класификация

Проблем Пример: Прогнозиране на растежа на продажбите въз основа на текущите стойности.

Методи: регресия, невронни мрежи, генетични алгоритми, дървета от решения.

Задачите за класифициране и прогнозиране представляват група от така нареченото индуктивно моделиране, в резултат на което се изучават анализираният обект или система. В процеса на решаване на тези задачи се основават на набор от данни, се разработват общ модел или хипотеза.

Обяснение и описание

Пример Проблем: Характеристики на клиентите за демографски данни и търговски истории.

Методи: Дървета за вземане на решения, правила, система за асоцииране, анализ на връзката.

Ако доходът на клиента е по-голям от 50 условни единициИ възрастта му е повече от 30 години, тогава клиентският клас е първият.

Сравнение на клъстерирането и класификацията

Характеристика

Класификация

Клъстеринг

Контрол от ученето

Контролиран

Неконтролируеми

Стратегия

Обучение с учител

Обучение без учител

Наличност на класов етикет

Образователен комплект

придружен от етикет, който показва

клас към който принадлежи

наблюдение

Тагове за учебни класове

задава неизвестни

База за класификация

Новите данни се класифицират въз основа на набор от обучение.

Дадени много данни за целта на

установяване на съществуване

класове или клъстери за данни

Обхват на приложенията

Трябва да се отбележи, че днес DataMining технологията е получила най-голямото разпространение в решаването на бизнес задачи. Може би причината е, че в тази посока е, че връщането от използването на инструменти за данни може да бъде, според някои източници до 1000% и разходите за неговото прилагане могат бързо да се изплати.

Ще разгледаме четирите основни приложения на технологиите, които са подробно: науката, бизнеса, изследванията за правителството и уеб посоката.

Бизнес задачи. Основни дестинации: банкиране, финанси, застраховка, CRM, производство, телекомуникации, електронна комуникация, маркетинг, фондов пазар и други.

    Ще кредит кредит

    Сегментиране на пазара

    Привличане на нови клиенти

    Измами от кредитни карти

Приложението задава данни за решения за целите на държавното ниво. Основен: Търсене на лица, избягващи данъци; Средства в борбата срещу тероризма.

Приложението задава данни за научно изследване. Основни направления: Медицина, биология, молекулярна генетика и генетично инженерство, биоинформатика, астрономия, приложна химия, изследване, свързани с наркоманиите и други.

Приложението на данните за разрешаване Уеб задачи. Основни дестинации: Търсене на чанти (SARRENGENTINES), броячи и др.

Електронна търговия

В областта на електронната търговия се прилага за формиране

Такава класификация позволява на компаниите да идентифицират определени групи клиенти и да провеждат маркетингови политики в съответствие с интересите и нуждите на клиентите. Технологията за електронна търговия за електронна търговия е тясно свързана с телесната технология.

Основните задачи на данните в промишленото производство:

· Комплексна системна анализ на производствените ситуации;

· Краткосрочна и дългосрочна прогноза за развитието на производствените ситуации;

· Разработване на опции за оптимизационни решения;

· Прогнозиране на качеството на продукта в зависимост от някои параметри

технологичен процес;

· Откриване на скрити тенденции и модели на производство

процеси;

· Прогнозни модели на производствени процеси;

· Откриване на скрити ефекти от влияние;

· Откриване и идентифициране на неизвестни преди това междусистемни връзки между тях

производствени параметри и фактори на влияние;

· Анализ на взаимодействието на производствените процеси и прогнозиране

промени в нейните характеристики;

процеси;

· Визуализация на резултатите от анализа, подготовка на предварителни доклади и проекти

допустими решения с оценки за валидиране и ефективност на възможните изпълнения.

Маркетинг

В областта на маркетинга DataMining намира много широко разпространена употреба.

Основните въпроси на маркетинга "Какво се продава?", "Как да продадем?", "Кой е

консуматор? "

В лекциите по задачите на класифицирането и клъстерирането тя описва подробно използването на клъстерен анализ за решаване на маркетингови проблеми, като сегментация на потребителите.

Друг общ набор от методи за решаване на маркетингови проблеми - методи и алгоритми за намиране на асоциативни правила.

Също така успешно тук е търсенето на временни модели.

На дребно

В областта на търговията на дребно, както при маркетинга, се прилага:

· Алгоритми за намиране на асоциативни правила (за определяне на често срещани комплекти

стоки, които купувачите купуват едновременно). Идентифицирането на тези правила помага

поставете стоки на рафтовете на търговските зали, създават стратегии за закупуване на стоки

и тяхното настаняване в складове и др.

· Използвайте времеви последователности, например, за да определите

необходимите обеми на запасите от стоки на склад.

· Методи за класификация и клъстери за определяне на групи или категории клиенти,

познаването на което допринася за успешното насърчаване на стоките.

Фондова борса

Ето списъка на предизвикателствата на фондовия пазар, които могат да бъдат решени с помощта на технология за данни

Минно дело: · Прогнозиране на бъдещите стойности на финансовите инструменти и показатели

минали стойности;

· Прогноза за тенденциите (бъдещо ръководство за движение - растеж, есен, flet) финансов

инструмент и нейната сила (силна, умерено силна и т.н.);

· Избор на клъстерна структура на пазара, промишлеността, секторите за някои комплекта

характеристики;

· Динамично управление на портфейла;

· Прогноза за волатилността;

· Оценка на риска;

· Прогнозиране на възникването на кризата и прогнозата за неговото развитие;

· Избор на активи и др.

В допълнение към описаните по-горе дейности, технологията за данни може да се прилага в голямо разнообразие от бизнес зони, където има нужда от анализ на данните и натрупва някакво количество ретроспективна информация.

Приложение на данните в CRM

Една от най-обещаващите посоки за прилагане на данни е използването на тази технология в аналитичната CRM.

CRM (Customerrelationshammanagement) - управление на взаимоотношенията с клиентите.

Когато използвате тези технологии, добивът на знания се съчетава с "добив на пари" от клиентски данни.

Важен аспект в работата по маркетинга и отделите за продажби е да се компилирахолистично представяне на клиентите, информация за техните характеристики, характеристики, структура на клиентската база. CRM използва така нареченото профилиранеклиенти, които дават пълно представяне на цялата необходима информация за клиентите.

Профилирането на клиентите включва следните компоненти: сегментация на клиентите, рентабилност на клиентите, задържане на клиенти, анализ на реакцията на клиенти. Всеки от тези компоненти може да бъде проучен с помощта на данни и техният анализ в комплект, тъй като компонентите на профилирането, в резултат на това могат да дадат тези знания, които не могат да бъдат получени от всяка отделна характеристика.

Webmining.

WebMining може да бъде преведена като "Data Mining в мрежата". Webintelligence или Web.

Интелектът е готов да "отвори нова глава" в бързото развитие на електронния бизнес. Способността да се определят интересите и предпочитанията на всеки посетител, наблюдаващ поведението му, е сериозно и критично предимство на конкурентната борба в пазара за електронна търговия.

WebMining Systems могат да отговорят на много въпроси, например, които от посетителите е потенциален клиент на уеб магазина, коя група клиенти на уеб магазина носи най-голям доход, какви са интересите на определен посетител или група посетители.

Методи

Класификация на методите

Разграничаване на две групи методи:

  • статистически методи, основани на използването на средно натрупания опит, който се отразява в ретроспективни данни;
  • кибернетични методи, които включват много хетерогенни математически подходи.

Липсата на такава класификация: както статистически, така и кибернетични алгоритми по един или друг начин разчитат на сравнението на статистическия опит с резултатите от наблюдението на настоящата ситуация.

Предимството на тази класификация е неговото удобство за тълкуване - използва се при описване на математически средства за съвременен подход към извличането на знания от масивите на първоначалните наблюдения (оперативна и ретроспективна), т.е. т.е. В задачите за добив на данни.

По-подробно разгледайте горните групи.

Статистически методи Данни

В тези неща методите са четири взаимосвързани раздела:

  • предварителен анализ на естеството на статистическите данни (инспекция на хипотезата за стационарност, нормалност, независимост, еднообразие, оценка на вида на функцията за разпространение, нейните параметри и др.);
  • откриване на връзки I. закони (линеен и нелинеен регресионен анализ, корелационен анализ и др.);
  • многоизмерен статистически анализ (линеен и нелинеен дискриминационен анализ, анализ на клъстери, анализ на компонентите, факторно анализ и др.);
  • динамични модели и прогноза въз основа на времеви серии.

Арсеналът на статистическите методи за миннодобисване на данни се класифицира за четири групи методи:

  1. Описателен анализ и описание на източниците.
  2. Анализ на връзката (корелация и регресионен анализ, анализ на фактор, анализ на дисперсията).
  3. Многоизмерен статистически анализ (анализ на компонентите, дискриминационен анализ, многоизмерен регресионен анализ, канонични корелации и др.).
  4. Анализ на временните серии (динамични модели и прогнозиране).

Кибернетични методи Данни за данни

Втората посока на добива на данни е много подходи, идеята за компютърна математика и използването на теория на изкуствената интелигентност.

Тази група включва такива методи:

  • изкуствени невронни мрежи (признаване, клъстери, прогноза);
  • еволюционно програмиране (включително алгоритмите на груповото отчитане на аргументите);
  • генетични алгоритми (оптимизация);
  • асоциативна памет (търсене на аналози, прототипи);
  • размита логика;
  • дървета на решенията;
  • експертни системи за обработка на знания.

Анализ на клъстера

Целта на клъстер е да се търсят съществуващи структури.

Клъстерирането е описателна процедура, тя не прави статистически заключения, но дава възможност за провеждане на анализ на изследването и изследване на "структурата на данните".

Концепцията за "клъстер" се определя двусмислено: във всяко проучване неговите "клъстери". Концепцията за клъстер (клъстер) се превежда като "клъстер", "куп". Клъстерът може да бъде описан като група обекти, които имат общи свойства.

Характеристиките на клъстера могат да бъдат наречени две характеристики:

  • вътрешна хомогенност;
  • външна изолация.

Въпросът, определен от анализаторите в решаването на много задачи е как да се организират данни в визуални структури, т.е. Разширяване на таксономия.

Най-голямото клъстери, първоначално получено в такива науки като биология, антропология, психология. За да се решат икономически проблеми, клъстерирането е малко за дълго време поради спецификата на икономическите данни и явленията.

Клъстерите могат да бъдат необвързани или изключителни (не-припокриващи се, изключителни) и пресичане (припокриване).

Трябва да се отбележи, че в резултат на използването на различни методи за анализ на клъстера могат да бъдат получени клъстери с различни форми. Например, клъстерите от типа "верига" са възможни, когато клъстерите са представени от дълги "вериги", клъстерите на удължената форма и т.н., а някои методи могат да създадат произволни клъстери.

Различни методи могат да се стремят да създават клъстери с определени размери (например малки или големи) или да се приемат присъствието на клъстери в комплекта различни размери. Някои методи за анализ на клъстери са особено чувствителни към шума или емисиите, други по-малко. В резултат на използването на различни методи за клъстери, могат да бъдат получени неравномерни резултати, това е нормално и е характеристика на работата на определен алгоритъм. Тези функции трябва да се вземат предвид при избора на метод за клъстериране.

Представяме кратко описание на подходите за групиране.

Алгоритми, базирани на дяложнища, вкл. Итератив:

  • разделяне на обекти върху K клъстери;
  • итеративно преразпределение на обекти за подобряване на клъстерирането.
  • Йерархични алгоритми (йерархияалгоритми):
  • агломерация: всеки обект е първоначално клъстер, клъстери,
  • свързвайки помежду си, образувайте по-голям клъстер и т.н.

Методи, базирани на концентрации на обекти (базирани на плътност):

  • въз основа на възможността за свързване на обекти;
  • игнорирайте шума, намирането на клъстери с произволна форма.

Решетка - методи (базирани на мрежата методи):

  • количествено определяне на обекти в структурата на мрежата.

Методи на модела (базирани на модела):

  • използване на модела за намиране на клъстери най-подходящи данни.

Методи за анализ на клъстера. Итаривни методи.

С голям брой наблюдения, йерархичните методи за анализ на клъстери не са подходящи. В такива случаи се използват неионни методи, базирани на разделяне, които са итеративни методи за смачкване на първоначалния агрегат. В процеса на разделяне се образуват нови клъстери, докато се извърши правилото за спиране.

Такова неребрично клъстеризиране се състои в разделяне на набора от данни за определен брой индивидуални клъстери. Има два подхода. Първият е да се определят границите на клъстерите като най-плътните участъци в многоизмерното пространство на изходните данни, т.е. Дефиницията на клъстера, където има голямо "удебеляване на точките". Вторият подход е да се сведат до минимум разликите в измерването

K-среден алгоритъм (k-означава)

Най-често срещаните сред неребрични методи на K-среден алгоритъм, също наречен бързо клъстерен анализ. Пълното описание на алгоритъма може да се намери в Хартиган и Уонг (Hartiganandwong, 1978). За разлика от йерархичните методи, които не изискват предварителни предположения по отношение на броя на клъстерите, е необходимо да има хипотеза за най-вероятния брой клъстери.

Алгоритъмът на K-средната стойност изгражда k клъстери, разположени на възможни дълги разстояния един от друг. Основният тип задачи, които решават алгоритъма на K-средния, е наличието на предположения (хипотези) по отношение на броя на клъстерите, докато те трябва да бъдат възможно най-много. Изборът на номер k може да се основава на резултатите от предишни проучвания, теоретични съображения или интуиция.

Цялостната идея на алгоритъма: даден фиксиран номер k наблюдателни клъстери са картографирани към клъстери, така че средната стойност в клъстера (за всички променливи) да се различава максимално един от друг.

Описание на алгоритъма

1. Първоначалното разпределение на обектите според клъстерите.

  • Избраният номер k е избран и в първата стъпка тези точки се считат за "центрове" на клъстерите.
  • Всеки клъстер съответства на един център.

Изборът на първоначални бази може да се извърши, както следва: \\ t

  • избор на k-наблюдения за максимизиране на първоначалното разстояние;
  • случайна подбор на K наблюдения;
  • изборът на първите K-наблюдения.

В резултат на това всеки обект се присвоява на конкретен клъстер.

2. Итативен процес.

Центровете на клъстерите се изчисляват, които след това се считат за координатни средни клъстери. Отново се преразпределят обекти.

Процесът на изчисляване на центровете и преразпределението на обекти продължава, докато не бъде изпълнено едно от условията:

  • клъстерни центрове се стабилизират, т.е. Всички наблюдения принадлежат към клъстера, към който принадлежат на настоящата итерация;
  • броят на итерациите е равен на максималния брой повторения.

Фигурата показва пример за работата на K-среден алгоритъм за K, равна на две.

Пример за експлоатацията на алгоритъма на K-средния (K \u003d 2)

Изборът на броя клъстери е труден въпрос. Ако няма предположения за този номер, се препоръчва да се създадат 2 клъстера, след това 3, 4, 5 и т.н., сравняване на получените резултати.

Проверка на качеството на клъстерирането

След получаване на резултатите от клъстерния анализ по метода на K-средния, е необходимо да се провери коректността на клъстерирането (т.е. да оцени колко клъстери се различават един от друг).

За това се изчисляват средните стойности за всеки клъстер. С добро клъстериране трябва да се получат високо различни средни стойности за всички измервания или поне повече от тях.

Предимствата на алгоритъма K-среден:

  • лесна употреба;
  • употреба на скоростта;
  • удобство и прозрачност на алгоритъма.

Недостатъци на K-среден алгоритъм:

  • алгоритъмът е твърде чувствителен към емисиите, които могат да нарушат средната стойност.

Възможното решение на този проблем е да се модифицира алгоритъм алгоритъм K-MEDIAN;

  • алгоритъмът може бавно да работи върху големи бази данни. Възможното решение на този проблем е да се използва вземането на данни за данните.

Байезийски мрежи

На теория на вероятността, понятието за информационна зависимост се моделира чрез конвенционална зависимост (или строго: липса на условна независимост), която описва как нашето доверие в резултата от известно събитие се променя при получаване на ново познаване на фактите, че вече познаваме някои други факти.

Удобно и интуитивно разбирам зависимостта между елементите чрез насочен път, свързващ тези елементи в графиката. Ако зависимостта между X и Y елемента не е директно и се извършва с помощта на третия елемент Z, логично е да се очаква, че елементът Z ще бъде по пътя между X и Y. Такива посреднически възли ще "отрязват" връзката между x и y, т.е. Образете положението на условната независимост между тях с известен смисъл на преките фактори на влиянието.Такива езици за моделиране са байезийски мрежи, които служат за описване на конвенционалните зависимости между понятията за определена област.

Байезийските мрежи са графични структури за представяне на вероятностни отношения между голям брой променливи и за прилагане на вероятностни изхода въз основа на тези променливи."Наивна" (Байсовска) класификация е доста прозрачен и разбираем метод на класификация. "Наивно" се нарича, защото идва от предположението за взаимнонезависимост на знаците.

Класификационни свойства:

1. Използване на всички променливи и идентифициране на всички зависимости между тях.

2. Наличност на две предположения за променливи:

  • всички променливи са еднакво важни;
  • всички променливи са статистически независими, т.е. Стойността на един допустима не казва нищо за стойността на друг.

Има два основни скрипта за използване на байезийски мрежи:

1. Описателен анализ. Темата се показва като графика, възлите, които представляват концепциите, и посоката, показвани от стрелките, илюстрират непосредствените зависимости между тези концепции. Връзката между концепциите X и Y означава: Знанието за стойността на X помага да се направи по-разумно предположение за стойността на Y. Липсата на пряка връзка между понятията симулира условната независимост между тях с известните стойности на определен набор от "разделящи" концепции. Например, размерът на обувките на детето очевидно се свързва с способността на детето да чете през възрастта. Така че по-големите кадри дава голямо доверие, че детето вече чете, но ако вече сме известни на възраст, тогава знанието за размера на обувката няма да ни дава повече за повече информация За способността на детето да чете.


Като друг, обратното, пример, обмислете такива първоначално несвързани фактори като пушене и студ. Но ако сме известни със симптом, например, че човек страда от сутрешната кашлица, тогава знанието, че човек не пуши, увеличава доверието ни, че човек е нарязан.

2. Класификация и прогнозиране. Байесайската мрежа, позволяваща условната независимост на редица концепции, позволява да се намали броят на параметрите на обезпечението, което позволява на тяхната поверителна оценка на наличните обеми на данни. Така, при 10 променливи, всеки от които може да приема 10 стойности, броят на параметрите на съвместно разпределение е 10 милиарда - 1. Ако приемем, че само 2 променливи зависят един от друг, броят на параметрите става 8 * (10-1) + (10 * 10-1) \u003d 171. имащ твърд разпределителен модел с изчислителни ресурси, неизвестна стойност на всяка идея, която можем да предскажем, например, най-вероятната стойност на тази концепция с известните стойности на други концепции .

Отбелязва такива предимства на байезийските мрежи като метод за данни:

Моделите определят връзката между всички променливи, това го прави лесноситуации на процеса, при които някои променливи са неизвестни;

Байезийските мрежи са просто интерпретирани и разрешени на сценатапрогностичното моделиране е лесно да се анализира скрипта "това, ако";

Bayesian метод ви позволява естествено да комбинирате модели,получени от данните и например експертни познания, получени изрично;

Използването на байезийски мрежи избягва проблема с пояснението(преобразуване), т.е. излишно усложнение на модела, което е слаба странамного методи (например решения и невронни мрежови дървета).

Подходът Nao-Bayesovsky има следните недостатъци:

Умножете условните вероятности са правилни само когато всички входпроменливите са наистина статистически независими; Въпреки че често този методпоказва доста добри резултати в несъответствието със статистическите условиянезависимост, но теоретично такава ситуация трябва да бъде обработена по-сложнаметоди, базирани на преподаване на байезийски мрежи;

Невъзможно е да се обработват директно непрекъснати променливи - те се нуждаят от тяхтрансформация към интервала до атрибутите да бъдат дискретни; Въпреки това, такъвтрансформацията понякога може да доведе до загуба на значителни модели;

В резултат на класификацията в наивен байезийски подход влияе самоиндивидуални стойности на входни променливи, комбиниран ефект на двойките или. \\ Tтук не се вземат предвид войските на ценностите на различни атрибути. Тя може да се подобрикачеството на класификационния модел по отношение на предсказуема точността, \\ tвъпреки това, ще увеличи броя на приложимите варианти.

Изкуствени невронни мрежи

Изкуствените невронни мрежи (по-нататък невронни мрежи) могат да бъдат синхронни и асинхронни.В синхронните невронни мрежи във всеки момент от времето променя само състоянието муедин неврон. В асинхронни - държавата се променя незабавно в цялата група неврони, като правило, общослой. Можете да изберете две основни архитектури - слоежни и пълни свързани мрежи.Ключът в слоевите мрежи е концепцията за слой.Слоят е един или повече неврони, чиито входове се обслужват от същия общ сигнал.Сложни невронни мрежи - Невронни мрежи, при които невроните се разбиват на отделни групи (слоеве), така че обработката на информацията да се извършва в слоеве.В слоените неврони на невроните на I-тия слой се получават входни сигнали, конвертират ги и през клоните се предават на неврони (I + 1) слой. И така преди K-тата слой, която даваизходни сигнали за преводач и потребител. Броят на невроните във всеки слой не е свързан с броя на невроните в други слоеве могат да бъдат произволни.В рамките на един слой данните се обработват паралелно, а в мащаба на цялата мрежа обработката се извършва последователно - от слоя към слоя. Пластотираните невронни мрежи включват, например, многослойни перцепта, мрежи от радиални функции, когнитрон, не-Zynitron, асоциативни мрежи за памет.Въпреки това, сигналът не винаги се подава на всички слойни неврони. В кланитрона, например, всеки неврон на текущия слой получава сигнали само от невроните, близки до него от предишния слой.

Наслоените мрежи, от своя страна, могат да бъдат еднослойни и многопластови.

Еднослойна мрежа- мрежа, състояща се от един слой.

Многослойна мрежа- Мрежа с няколко слоя.

В многослойна мрежа, първият слой се нарича вход, следващ - вътрешен или скрит, последният слой - изход. По този начин междинните слоеве са всички слоеве в многослойна невронна мрежа, с изключение на входа и изхода.Мрежовият входен слой прилага комуникация с входните данни, изхода - на изхода.Така, невроните могат да бъдат вход, изход и скрити.Входният слой се организира от входни неврони (inprotneuron), които получават данни и ги разпространяват до входовете на невроните на скрития слой на мрежата.Hidden Neuron (Hiddenneuron) е неврон, разположен в скрит слой от невронната мрежа.Изходни неврони (изход), от които е организиран изходен слой на мрежата, проблемирезултатите от невронната мрежа.

В пълни мреживсеки неврон предава своята изход към останалите неврони, включително себе си. Изходите на мрежата могат да бъдат всички или някои невронни изходни сигнали след няколко цикъла на функциониране на мрежата.

Всички входни сигнали се хранят с всички неврони.

Обучение на невронни мрежи

Преди да използвате невронната мрежа, тя трябва да бъде обучена.Процесът на изучаване на невронната мрежа е да коригира вътрешните си параметри за конкретна задача.Алгоритъмът на невронната мрежа е итеративен, стъпките му се наричат \u200b\u200bепохи или цикли.Ерата е една итерация в учебния процес, включително представянето на всички примери от набора за обучение и, вероятно проверява качеството на обучение в контролакомплект. Процесът на обучение се извършва на пробата за обучение.Изборът на обучение включва входни стойности и съответстващи на изходните стойности на набора от данни. В хода на обучението невронната мрежа намира някои зависимости от изходните полета от входа.По този начин имаме въпрос - какви входни полета (знаци) за насда се използва. Първоначално изборът се извършва от съруристично, освен товаброят на входовете може да бъде променен.

Трудността може да доведе до въпрос за броя на наблюденията в набора от данни. И въпреки че съществуват определени правила, които описват връзката между необходимия брой наблюдения и размера на мрежата, тяхната лоялност не е доказана.Броят на необходимите наблюдения зависи от сложността на решаването на проблема. С увеличаване на броя на признаците, броят на наблюденията се увеличава непосредствено, този проблем се нарича "проклятие на измерението". С недостатъчно количестводанни Препоръчва се използването на линеен модел.

Анализаторът трябва да определи броя на слоевете в мрежата и броя на невроните във всеки слой.След това е необходимо да се присвоят такива стойности и премествания, които ще могатминимизиране на грешка в решението. Теглото и компенсацията се конфигурират автоматично по такъв начин, че да се сведе до минимум разликата между желания и изходен сигнал, който се нарича грешка в обучението.Грешката за обучение за изградената невронна мрежа се изчислява чрез сравняванеуикенди и целеви (желани) стойности. Функцията за грешка се генерира от разликите.

Функцията за грешка е целева функция, която изисква минимизиране в процеса.управляваха невронната мрежа.Използвайки функцията за грешка, можете да оцените качеството на невронната мрежа по време на обучението. Например, сумата от квадратите на грешките често се използва.Това зависи от качеството на ученето на невронната мрежа зависи от способността му да решава противоположната задача.

Връщане на невронната мрежа

Когато изучавате невронни мрежи, често се нарича сериозна трудностпроблем с обработката (преобразуване).Перереунинг или прекомерно затваряне - е прекалено точенневронна мрежа към конкретен набор от примери за обучение, в които мрежата губиспособност за обобщаване.Стабилността възниква в случай на твърде дълго обучение, недостатъчен бройобразователни примери или наети структура на невронната мрежа.Преквалификаторът се дължи на факта, че изборът на обучение (обучение)е случаен. От първата стъпка на ученето, грешка намалява. Напоследващи стъпки за намаляване на параметрите на грешката (целевата функция)регулира се към характеристиките на учебния комплект. Въпреки това, това се случва"Корекция" не е под общите модели на число, но в рамките на конкретната част от нея -образователни подгрупи. В този случай точността на прогнозата намалява.Една от възможностите за справяне с преквалификацията на мрежата - разделяне на пробата за обучение за двамакомплекти (учене и тест).На набора за обучение се случва обучение за невронни мрежи. Тестовият комплект се проверява от конструиран модел. Тези комплекти не трябва да се пресичат.С всяка стъпка, моделът на модела се променя, но постоянно намалениестойностите на целевата функция възникват в учебния комплект. Когато разделяте множество две, можем да наблюдаваме промяната в прогнозната грешка в теста, паралелно с наблюденията над образователния комплект. Някакъв видброят на стъпките за грешка на прогнозата намалява и двете групи. Въпреки това, на. \\ Tа определена грешка в теста започва да се увеличава, докато грешката върху набора от обучение продължава да намалява. Този момент се счита за началото на преквалификация.

Инструменти за данни

Развитието в сектора на световния софтуер на DataMining е зает както от световноизвестни лидери и нови развиващи се компании. Инструментите за данни могат да бъдат представени или като независимо приложение, или като добавки към основния продукт.Последният вариант се осъществява от много лидери на пазара на софтуер.Така че вече беше традиция, че разработчиците на универсални статистически пакети, потапяне в традиционните методи за статистически анализ, включват в опаковкатаопределения на данните. Mentaipacekak. SPSS (SPSS, Clentine), Statistica (Statsoft), SAS Institute (SAS Enterprise Miner).Някои разработчици на OLAP също предлагат набор от методи за данни, например, семейство Cognos продукти. Има доставчици, включително решения за данни в DBMS функционалност: това е Microsoft (microsoftsqlserver), Oracle, IBM (Ibmintelligentminerfordata).

Библиография

  1. Abdikeev n.m. Danko TP. ILDEMENOV S.V. Kiselev a.d, "Реинженеринг на бизнес процесите. MBA курс, m.: Eksmo, 2005. - 592 p. - (MVA)
  1. Abdikeev n.m., Kiselev A.D. "Управление на знанията в корпорацията и бизнеса Reengineering" - м.: Infra-M, 2011.- 382 p. - ISBN 978-5-16-004300-5.
  1. Barsegian A.A., Kupriyanov M.s., Stepanenko v.v., Chokhod.i. "Методи и анализ на данни Модели: OLAP и добив на данни", Санкт Петербург: BHV-Petersburg, 2004,336C., ISBN 5-94157-522-X
  1. Херцог В., Samoilenko. НО., "Извличане на данни.Курс за обучение "Санкт Петербург: Петър, 2001, 386c.
  1. Чумска I.A., минно дело на курса, http://www.intuit.ru/department/database/datamining/
  1. ИАН. Witten, Eie Frank, Марк А. Хол, Морган Кауфман, добив на данни: практически инструменти и техники за обучение на машини (трето издание), ISBN 978-0-12-374856-0
  1. Петрушин В.А. , Хан L., мултимедийни данни за предаване и откриване на знания

В момента елементите на изкуствения интелект се прилагат активно в практически дейности Мениджър. За разлика от традиционните изкуствени интелигентни системи, технологията на интелигентното търсене и анализ на данни или производство на данни (DAT Mining - DM) не се опитва да симулира естествената интелигентност и да подобрява възможностите си със силата на съвременните компютърни сървъри, търсачките и складовите данни. Често до думите "добив на данни" има думи "познания за знанието в базите данни" (откриване на знания в бази данни).

Фиг. 6.17.

Добивът на данни е процес на откриване в необработени данни от неизвестни по-рано, не тривиални, практически полезни и достъпни интерпретации на знанията, необходими за вземане на решения в различни области на човешката дейност. Добивът на данни е с голяма стойност за мениджърите и анализаторите в ежедневните им дейности. Бизнес хората осъзнаха, че с помощта на методи за минни данни, те могат да получат осезаеми предимства в конкурентна борба.

Основата на съвременната технология на добива на данни (Discovery Data Mining) е концепцията за шаблони (модели), отразяващи фрагменти от многоизмерни връзки в данните. Тези шаблони са модели, присъщи на проби от данни, които могат да бъдат устойчиви, изразени в ясен ръчно лице. Търсенето на шаблони се извършва по методи, които не са ограничени от рамката на предположенията за априори за структурата на вземане на проби и формата на стойностите на стойностите на анализираните индикатори. На фиг. 6.17 показва схема за преобразуване на данни, използваща технология за минни данни.

Фиг. 6.18.

Основата за всякакви системи за прогнозиране е историческата информация, съхранявана в базата данни под формата на временна серия. Ако успеете да изградите шаблони, адекватно отразявате динамиката на поведението на целите, има шанс да предскажете поведението на системата в бъдеще. На фиг. 6.18 показва пълен цикъл на приложение на технологията за добив на данни.

Важна позиция на добива на данни е нетривиалността на желаните шаблони. Това означава, че установените шаблони трябва да отразяват неочевидна, неочаквана (неочаквана) редовност в данните, представляващи така наречените скрити знания (скрити знания). Бизнес хората имаха разбиране, че "суровини" данни (необработени данни) съдържат дълбок слой от знания и с компетентните разкопки могат да бъдат открити реални нужди, които могат да бъдат използвани в конкурентна борба.

Обхватът на данните за прилагане на данните не е ограничен - технология може да се използва навсякъде, където има огромни количества от всякакви "сурови" данни!


На първо място, методите за добив на данни се интересуват от търговски предприятия, внедряването на проекти въз основа на информационни складове за данни (склад за данни). Опитът на много такива предприятия показва, че възвръщаемостта на използването на добива на данни може да достигне 1000%. Има съобщения за икономически ефект, 10-70 пъти първоначалната цена от 350 до 750 хиляди долара. Има информация за проекта от 20 милиона долара, който се изплати само за 4 месеца. Друг пример е годишните спестявания от 700 хиляди долара чрез прилагане на данни в една от Всенените във Великобритания.

Microsoft официално обяви засилването на дейността си в областта на минното поле. Microsoft Special Research Group, ръководена от Usamaya Fijad, и шест поканени партньори (Angoss, DataSage, Epiphany, SAS, Silicon Graphics, SPSS) подготвят съвместен проект за разработване на стандарт за обмен на данни и инструменти за интегриране на инструментите за добив на данни с бази данни и данни складове.

Добивът на данни е мултидисциплинарна площ, която е настъпила и развива въз основа на постиженията на приложната статистика, признаването на изображения, методи за изкуствен интелект, теория на базата данни и др. (Фиг. 6.19). Оттук и изобилието на методи и алгоритми, реализирани в различни работни системи за минното отделение. [Duke V.A. www.inftech.webservis.ru/it/datamining/ar2.html]. Много от тези системи интегрират няколко подхода наведнъж. Въпреки това, като правило, всяка система има някакъв ключов компонент, към който е направен основната ставка.

Можете да се обадите на пет стандартни типове Модели, открити с помощта на данни за данни: асоциация, последователност, класификация, групиране и прогнозиране.

Фиг. 6.19. Технологични приложения за предаване на данни

Асоциацията се осъществява, ако няколко събития са свързани помежду си. Например, проучване, проведено в компютърен супермаркет, може да покаже, че принтерът или скенерът купил 55% от компютъра или скенера, и ако има отстъпка за такъв комплект, принтерът е закупен в 80% от случаите. Да имаш информация за такава асоциация, мениджърите са лесни за оценка на това колко ефективна предоставената отстъпка.

Ако има верига от събития, свързани с времето, тогава те говорят за последователността. Например, след закупуване на къща в 45% от случаите, в рамките на един месец се закупува нова кухненска печка, а в рамките на две седмици 60% от новодошлите са иззети с хладилник.

С помощта на класификацията, характеристиките, характеризиращи групата, към която принадлежи един или друг обект. Това се прави чрез анализиране на вече класифицирани обекти и формулиране на определен набор от правила.

Клъстерът е различен от класификацията от факта, че самите групи не са определени предварително. Използване на клъстерирането на добива на данни, различни хомогенни групи данни независимо разпределят.

Министерство на образованието и науката на Руската федерация

Федерална държавна бюджетна образователна институция по висше професионално образование

"Национални изследвания Томск политехнически университет"

Институт Cybernetics.

Посока на информатиката и компютрите

Отдел W.

Тест

относно информатиката и изчислителната дисциплина

Тема: Методи за минни данни

Въведение

Извличане на данни. Основни понятия и определения

1 етапа в процеса на анализ на интелигентни данни

2 компонента на интелигентни системи за анализ

3 Методи за изследване на данни в добива на данни

Методи Мин

1 Заключение на асоциативните правила

2 алгоритми за невронни мрежи

3 метода на най-близкия съсед и най-близки съседи

4 Дървета Решения

5 алгоритми за групиране

6 генетични алгоритми

Обхват на приложение

Производители на данни за данни

Методи за критики

Заключение

Библиография

Въведение

Резултати от развитието информационни технологии Това е колосално количество данни, натрупани в електронната форма, нараства бързо. В същото време данните, като правило, притежават хетерогенната структура (текстове, изображения, аудио, видео, хипертекстови документи, релационни бази данни). Данните, натрупани за дълго време, могат да съдържат закономерности, тенденции и взаимоотношения, които са ценна информация при планирането, прогнозите, вземането на решения, контрола на процесите. Въпреки това, човек физически е в състояние ефективно да анализира тези обеми на нехомогенни данни. Методите на традиционната математическа статистика отдавна са претендирали за ролята на основния инструмент за анализ на данни. Въпреки това, те не позволяват синтезират нови хипотези и могат да бъдат използвани само за потвърждаване на предварително формулираните хипотези и "груб" анализ на изследването, което представлява основата за оперативна обработка на данни (онлайн аналитична обработка, OLAP). Често е именно формулировката на хипотезата, която се оказва най-трудната задача, когато се анализира за последващо вземане на решения, тъй като не всички закони в данните са очевидни с един поглед. Следователно данните интелигентни анализ на данни (добив на данни) се считат за една от най-важните и обещаващи теми за изследвания и приложения в индустрията за информационни технологии. Под анализа на интелектуалните данни в този случай процесът на определяне на нови, правилни и потенциално полезни знания, базирани на големи масиви за данни, се разбира. Така че прегледът на технологията на MIT описва данните за предаване на данни като една от десетте развиващи се технологии, които ще променят света.

1. Добив на данни. Основни понятия и определения

Добивът на данни е процес на откриване в "сурови" данни за неизвестни преди това, нетривиални, практически полезни и достъпни знания, необходими за вземането на решения в различни области на човешката дейност.

Същността и целта на технологията за предаване на данни могат да бъдат формулирани, както следва: Това е технология, която е предназначена да търси големи количества без очевидни, обективни и полезни модели на практика.

Не е очевидните модели са такива модели, които не могат да бъдат открити чрез стандартни методи или експерт по обработка на информация.

Съгласно обективните модели е необходимо да се разберат моделите, които са напълно значими реалност, за разлика от експертното мнение, което винаги е субективно.

Тази концепция за анализ на данните предполага, че:

§ Данните могат да бъдат неточни, непълни (съдържат мисии), противоречиви, хетерогенни, косвени и в същото време да имат гигантски томове; Следователно разбирането на данните в конкретни приложения изисква значителни интелектуални усилия;

§ Алгоритмите за анализ на данни могат да имат "елементи на интелигентност", по-специално способността да се учат от прецеденти, т.е. да направят общи заключения въз основа на частни наблюдения; Развитието на такива алгоритми също изисква значителни интелектуални усилия;

§ Процеси на обработка на необработени данни и информация в знанието не може да се извършва ръчно и да изисква автоматизация.

Технологията за добив на данни се основава на концепцията за шаблони (модели), отразяващи фрагменти от многоизмерни връзки в данните. Тези шаблони са закономерности, присъщи на подраздел данните, които могат да бъдат устойчиви, изразени в ясно ръководство.

Търсенето на шаблони се извършва по методи, които не се ограничават до рамката на предположения за априори за структурата на пробата и формата на стойностите на стойностите на анализираните индикатори.

Важна характеристика на добива на данни е нестандартна и недимостта на желаните шаблони. С други думи, инструментите за добив на данни се различават от статистическите инструменти на данните и OLAP инструментите в това, че вместо да тестват в напреднали предполагаеми потребители на взаимозависимост, те могат да намерят такива взаимозависими и да изграждат хипотези за техния характер. Тежки пет стандартни вида модели, открити чрез методи за добив на данни:

· Асоциацията е голяма вероятност за комуникация на събития един с друг. Пример за асоциацията е стоките в магазина, често купувани заедно;

· Последователност - високата вероятност за свързаните с веригата събития. Пример за последователност е ситуацията, когато в рамките на определен период след закупуването на един продукт ще бъде с висока степен на вероятност, закупена от друга;

· Класификация - има характеристики, характеризиращи групата, към която принадлежи едно или друго събитие или обект;

· Клъстерирането е модел, подобен на класификацията и се различава от него, че самите групи не са уточнени - те се откриват автоматично по време на обработка на данни;

· Временни модели - наличието на шаблони в динамиката на поведението на определени данни. Характерен пример за временни модели - сезонни колебания в търсенето на определени стоки или услуги.

1.1 Етапи в процеса на анализ на интелигентни данни

Традиционно, следните етапи се разпределят в процеса на интелигентен анализ на данните:

1. Изследването на тематичната област, в резултат на което са формулирани основните цели на анализа.

2. Събиране на данни.

Предварителна обработка на данни:

а. Почистващи данни - премахване на противоречия и произволен "шум" от източниците на данни

б. Интеграция на данните - данни, съчетаващи от няколко възможни източника на едно хранилище. Конвертиране на данни. На този етап данните се превръщат във форма, подходяща за анализ. Често прилага агрегиране на данни, атрибут вземане на проби, компресиране на данните и намаляване на измерението.

4. Анализ на данните. Като част от този етап алгоритмите за интелектуални анализи се използват за извличане на модели.

5. Тълкуване на разглежданите модели. Този етап може да включва визуализацията на възстановените модели, определянето на наистина полезни модели въз основа на известна полезност.

Използвайте нови знания.

1.2 Компоненти на интелигентни системи за анализ

Обикновено следните основни компоненти се разпределят в системите за анализ на данни за данни:

1. База данни, склад за данни или друго хранилище за информация. Това може да бъде една или повече бази данни, склад за данни, електронни таблици, други видове хранилища, които могат да бъдат почистени и интегриране.

2. сървър на база данни или склад за данни. Този сървър е отговорен за извличане на данни за материал въз основа на заявка за потребителя.

Знание. Това са познания по темата, които показват как да търсят и оценяват полезността на получените модели.

Услуга за добив на знания. Това е неразделна част от системата за данни за данни и съдържа набор от функционални модули за задачи като характеристика, търсене на асоциации, класификация, клъстерен анализ и анализ на отклоненията.

Модул за оценка на модела. Този компонент изчислява мерките за интерес или полезност на моделите.

Графичен потребителски интерфейс. Този модул отговаря за комуникациите между потребителя и системата на интелигентния анализ на данните, визуализацията на моделите в различни форми.

1.3 Методи за изследване на данни в добива на данни

Повечето аналитични методи, използвани в технологията за минно дело, са добре известни математически алгоритми и методи. Новото в тяхното приложение е възможността за тяхното използване в решаването на определени специфични проблеми, дължащи се на възникващите възможности на технически и софтуер. Трябва да се отбележи, че повечето методи за добив на данни са разработени в рамките на теорията на изкуствения интелект. Помислете за най-широко използваните методи:

Изхода на асоциативните правила.

2. алгоритми за невронни мрежи, идеята за която се основава на аналогии с функционирането на нервната тъкан и е, че първоначалните параметри се считат за сигнали, преобразувани в съответствие със съществуващите взаимоотношения между "невроните" и като отговор, Кой е резултат от анализа, се счита за отговор на цялата мрежа за източници.

Избор на близък аналог на източници от съществуващи исторически данни. Наричан също метод "най-близкия съсед".

Дървета на решения - йерархична структура въз основа на набор от въпроси, които предполагат отговора "да" или "не".

Клъстерни модели се прилагат за комбиниране на подобни събития в групи, базирани на подобни набори от няколко полета в набора от данни.

В следващата глава описваме горните методи.

2. Методи за минни данни

2.1 Заключение на асоциативни правила

Асоциативните правила са правилата на формата "ако ..., тогава ...". Търсене на такива правила в набора от данни открива скритите връзки в на пръв поглед, няма свързани данни. Един от най-често цитираните примери за търсенето на асоциативни правила е проблемът за намиране на устойчиви връзки в кошницата на купувача. Този проблем е да се определи кои стоки са закупени от купувачите заедно, така че експертите по маркетинг могат да приспособяват тези стоки в магазина, за да увеличат продажбите.

Асоциативните правила се определят като одобрение на формуляра (X1, X2, ..., XN) -\u003e Y, където се подразбира, че Y може да присъства в транзакцията, при условие, че X1, X2, ..., XN присъстват в същата сделка. Трябва да се отбележи, че думата "може" предполага, че правилото не е идентичност, но се извършва само с известна вероятност. В допълнение, като y, набор от елементи може да действа, а не само един елемент. Вероятността за намиране на Y в транзакция, в която елементи X1, X2, ..., XN се наричат \u200b\u200bнадеждност (увереност). Процентът на транзакциите, съдържащ правилото от общия брой на транзакциите, се нарича подкрепа (подкрепа). Нивото на надеждност, което трябва да надвишава надеждността на правилото, се нарича интерес (интереса).

Има различни видове асоциативни правила. В най-простата форма асоциативните правила докладват само за наличието или отсъствието на сдружението. Тези правила се наричат \u200b\u200bправило за булева асоциация (правило за булева асоциация). Пример за такова правило: "Купувачите, които придобиват кисело мляко, също придобиват масло с ниско съдържание на мазнини."

Правила, които събират няколко асоциативни правила заедно, се наричат \u200b\u200bмногостепенни или обобщени асоциативни правила (многостепенни или общи правила за асоцииране). При изграждането на такива правила, елементите обикновено се групират според йерархията и търсенето се извършва на най-високото концептуално ниво. Например, "купувачите, които придобиват мляко, също придобиват хляб." В този пример млякото и хлябът съдържат йерархия различни видове и марки, но търсенето на по-ниско ниво няма да позволи да се намерят интересни правила.

Количествените правила за асоцииране (количествени правила за асоцииране) са по-сложен тип правила. Този тип правила се търси чрез количествено (например, цена) или категоричен (например, полен) атрибути и дефинирани като ( , ,…,} -> . Например, "купувачи, чиято възраст е на възраст между 30 и 35 години с доход повече от 75 000 купени автомобили на стойност над 20 000 души."

Горните типове правила не засягат факта, че сделките по тяхната природа зависят от време. Например, търсенето преди продукта е било пуснато за продажба или след като е изчезнало от пазара, неблагоприятно влияе върху прага за подкрепа. Като се вземе предвид това, беше въведена понятието за атрибут в алгоритмите за търсене на временни асоциативни правила (правила за временна асоцииране).

Проблемът с търсенето на асоциативни правила може да бъде облагодетелстван на две части: търсенето на често срещани елементи и генериране на правила, основани на често срещани комплекти. Предишни проучвания в по-голямата си част се придържаха към тези области и ги разшириха в различни посоки.

Тъй като появата на алгоритъма Apriori, този алгоритъм се използва най-често в първата стъпка. Много подобрения, като скорост и мащабируемост, са насочени към подобряване на алгоритъма Apriori, за да коригират погрешното си собственост, за да генерира твърде много кандидати за най-често срещаните групи елементи. Apriori генерира елементи, използвайки само големи комплекта, намерени в предишната стъпка, без преразглеждане на транзакции. Модифицираният априориден алгоритъм подобрява Apriori поради факта, че той използва базата данни само при първия пропуск. При изчисляване в следващите стъпки се използват само данни, създадени при първия пропуск и имат много по-малък размер от източника на базата данни. Това води до колосално увеличение на производителността. Друга усъвършенствана версия на алгоритъма, наречена априририбрид, може да бъде получена, ако в няколко първите пасажа могат да се използват Apriori, а след това в по-късни коридори, когато K-кандидат Kits вече могат да бъдат изцяло публикувани в паметта на компютъра, превключете към асперирид.

По-нататъшните усилия за подобряване на алгоритъма Apriori са свързани с паралелизирането на алгоритъма (разпределение на преброяването, разпространението на данни, разпределението на кандидата и т.н.), неговото мащабиране (интелигентно разпределение на данни, хибридно разпределение), въвеждането на нови структури на данни, като често възникнали елементи (ръст на FP).

Втората стъпка се характеризира главно с точност и интерес. В новите модификации, описаните по-горе размери, качество и временна подкрепа се добавят към традиционните булеви правила на описаните по-горе правила. Еволюционен алгоритъм често се използва за търсене на правила.

2.2 Алгоритми за невронни мрежи

Изкуствените невронни мрежи се появяват в резултат на използването на математическия апарат за изследване на функционирането на човешката нервна система, за да го играят. А именно: способността на нервната система да научи и прави грешки, която трябва да позволи да се симулира, въпреки че е достатъчно груб, работата на човешкия мозък. Основната структурна и функционална част на невронната мрежа е официален неврон (официален неврон), представен на фиг. 1, където x0, x1, ..., xn са компонентите на входните сигнали вектор, w0, w1, ..., wn - стойностите на теглата на входните сигнали на неврон, и y е Изходен сигнал на неврон.

Фиг. 1. Официален неврон: синапси (1), adder (2), конвертор (3).

Официалният неврон се състои от елементи 3 вида: синапси, плътд и конвертор. Синапс характеризира силата на мощността между двете неврони.

Adder добавя допълнение към входните сигнали, предварително умножени по съответните тегла. Конверторът изпълнява функцията на един аргумент - изхода на adder. Тази функция се нарича функция за активиране или функцията на предавките на неврон.

Официалните неврони, описани по-горе, могат да бъдат комбинирани по такъв начин, че изходните сигнали на някои неврони да бъдат въведени за други. Полученият набор от взаимосвързани неврони се нарича изкуствени невронни мрежи (изкуствени невронни мрежи, ANN) или, накратко, невронни мрежи.

Следните три общи неврони се различават в зависимост от тяхната позиция в невронната мрежа:

Входните неврони (входни възли), към които се сервират входни сигнали. Такива неврони неврони обикновено са един вход с едно тегло, липсва офсет, а стойността на невронния изход е равна на входния сигнал;

Изходни неврони (изходни възли), стойностите на изхода, които представляват получените изходни сигнали на невронната мрежа;

Скрити неврони (скрити възли), които нямат директни връзки с входни сигнали, докато стойностите на изходните сигнали на скритите неврони не са известни сигнали на Ins.

Според структурата на междулинейните връзки, два класове се отличават:

Инк от директно разпространение, в което сигналът се прилага само от входните неврони към изхода.

Повтарящи се страни с обратна връзка. В такива врати могат да се предават сигнали между всички неврони, независимо от местоположението им в инча.

Има два общи подхода за обучение на Ins:

Обучение с учителя.

Обучение без учител.

Обучението с учителя (контролирано обучение) предполага използването на предварително определени множество учебни примери. Всеки пример съдържа векторните входни сигнали и съответния вектор на референтните изходни сигнали, които зависят от задачата. Този набор Обадете се на подбор на обучение или обучение. Обучението на невронната мрежа е насочено към такава промяна в теглата на облигациите за инс, в която стойността на изходните сигнали на INS възможно най-малко от необходимите стойности на изходните сигнали за този вектор входни сигнали.

Когато се учи без учител (безвъзстемното обучение), коригирането на тежестите се прави или в резултат на конкуренция между невроните, или като се вземе предвид корелацията на изходните сигнали на невроните, между които има връзка. В случай на обучение без учител, пробата за обучение не се използва.

Невронните мрежи се използват за решаване на широк спектър от задачи, например като Paypapers за космически трансфери и прогнозните валутни курсове. Въпреки това, те не се използват често в системите за анализ на интелектуалните данни поради сложността на модела (знанието, определено като тегла от няколко стотици междулинейни облигации, са абсолютно податливи на анализ и интерпретация от човек) и дългосрочно учене на голяма тренировка. От друга страна, невронните мрежи имат такива предимства за използване в задачи за анализ на данни, като стабилност за печени данни и висока точност.

2.3 Методи на най-близкия съсед и най-близки съседи

Най-близкият съсед алгоритъм и алгоритъм на K-съсед и алгоритъм на K-съсед (K-най-близкия съседен алгоритъм, KNN) са сходството на обектите. Алгоритъмът на най-близкия съсед разпределя обекта между всички известни обекти, колкото е възможно най-близо (метриката на разстояние се използва между обекти, например евклидоан) към нов неизвестен преди това обект. Основният проблем на метода на най-близкия съсед е чувствителността на емисиите в данните за обучението.

Описаният проблем ви позволява да избегнете алгоритъма на KNN, разпределяйки всички наблюдения на вече най-близките на K-най-близките съседи, подобно на нов обект. Въз основа на класа на близките съседи се прави решение за новия обект. Важна задача този алгоритъм Това е подборът на коефициент k - броя на записите, които ще се считат за сходни. Модификацията на алгоритъма, в която приносът на съседа е пропорционален на разстоянието до новия обект (методът на K-претеглените близки съседи) ви позволява да постигнете по-голяма класификационна точност. Методът K от най-близките съседи, същото, ви позволява да оцените точността на прогнозата. Например, всички K близки съседи имат същия клас, вероятността да се провери обектът ще има същия клас, много висок.

Сред характеристиките на алгоритъма, си струва да се отбележи съпротивата на необичайни емисии, тъй като вероятността за такъв запис до броя на най-близките съседи е малък. Ако това се случи, влиянието върху гласуването (особено претеглено) (в K\u003e 2) вероятно ще бъде незначително и следователно ще има малко въздействие върху резултата от класификацията. Също така, предимствата са лесни за прилагане, лекотата на интерпретиране на резултата от работата на алгоритъма, възможността за модифициране на алгоритъма, като се използват най-подходящите комбинирани функции и показатели, което ви позволява да регулирате алгоритъма за конкретна задача . Алгоритъмът има редица недостатъци. Първо, наборът от данни, използван за алгоритъма, трябва да бъде представителен. Второ, моделът не може да бъде отделен от данните: да класифицирате новия пример, трябва да използвате всички примери. Тази функция силно ограничава използването на алгоритъма.

2.4 Дървета Решения

Съгласно термина "дървета от решения" предполага семейно алгоритми, основано на представянето на правилата за класифициране в йерархична, последователна структура. Това е най-популярният клас алгоритми за решаване на задачи за интелектуални данни.

Семейството на алгоритмите за изграждане на решения дърво дава възможност да се предскаже всеки параметър за даден случай въз основа на голям брой данни по други подобни случаи. Обикновено алгоритмите на това семейство се използват за решаване на проблеми, които ви позволяват да разделите всички първоначални данни в няколко отделни групи.

Когато използвате алгоритми за изграждане на решения на набора от източници, резултатът се показва като дърво. Такива алгоритми позволяват няколко нива на такова разделяне, нарушавайки получените групи (клони на дървета), за да по-малък на базата на други признаци. Разделянето продължава, докато предвидените стойности, които трябва да бъдат предсказани, няма да бъдат еднакви (или, в случай на непрекъсната стойност на прогнозирания параметър, затваряне) за всички получени групи (дървесни листа). Това са тези стойности и се използват за прилагане на прогнози, основани на този модел.

Действието на алгоритмите за изграждането на решения за решения се основава на прилагането на методи за регресия и корелационни анализи. Един от най-популярните алгоритми на това семейство - количка (регресионни дървета), въз основа на разделението на данните в част на дървото на две дъщерни дружества; В същото време по-нататъшното разделяне на един или друг клон зависи от това дали първоначалните данни описват този клон. Някои други подобни алгоритми ви позволяват да разделите клона за по-голям брой дъщерни дружества. В този случай разделянето се извършва въз основа на коефициента на корелация, описан от клона между параметъра, според който се случва разделението, и параметърът, който в бъдеще трябва да бъде предвиден.

Популярността на подхода е свързана с видимост и разбиране. Но решенията не са фундаментално способни да намерят "най-добрите" (най-пълните и точни) правила в данните. Те прилагат наивния принцип на последователно гледане на знаците и всъщност са част от тези модели, създавайки само илюзията за логическа продукция.

2.5 алгоритми за групиране

Клъстерирането е задача за разделяне на различни обекти към групи, наречени клъстери. Основната разлика на групирането от класификацията е, че списъкът на групите не е ясно определен и се определя по време на работата на алгоритъма.

Използването на клъстерен анализ обикновено се свежда до следните стъпки:

· Избор на вземане на проби от обект за групиране;

· Определяне на набора от променливи, чрез които обектите ще бъдат оценени в пробата. Ако е необходимо, нормализиране на променливи стойности;

· Изчисляване на стойностите на мерките за прилика между обектите;

· Прилагане на клъстерен анализ метод за създаване на групи с подобни обекти (клъстери);

· Представяне на резултатите от анализа.

След получаване и анализиране на резултатите е възможно да се регулира избраният метрика и метода на клъстериране, докато се получи оптимален резултат.

Сред алгоритмите за групиране, йерархичните и плоските групи се отличават. Йерархични алгоритми (наричани още таксономични алгоритми) изграждат не едно разделяне на извадката върху не-такелажни клъстери и системата на приложените дялове. По този начин, изходът на алгоритъма е клъстерно дърво, чийто корен е цялата проба, а листата са най-малките клъстери. Плоските алгоритми изграждат едно разделяне на обекти върху не-циклични клъстери.

Друга класификация на алгоритмите за групиране е върху ясни и размити алгоритми. Изчистете (или не-изразени) алгоритми, всеки обект за вземане на проби се поставя в съответствие с клъстера, т.е. всеки обект принадлежи само на един клъстер. Размитите (или пресичащи се) алгоритми за всеки обект поставят набор от реални стойности, показващи степента на обектност към клъстерите. Така всеки обект се отнася до всеки клъстер с известна вероятност.

Сред йерархичните алгоритми за групиране са разпределени два основни вида: възходящи и надолу алгоритми. Алгоритмите надолу по веригата работят на принципа на "отгоре надолу": първо всички обекти се поставят в един клъстер, който след това се разбива във всички по-малки клъстери. Възходящите алгоритми са по-чести, които в началото на работното място всеки обект в отделен клъстер и след това се комбинират клъстери във все по-голямо, докато всички обекти за вземане на проби се съдържат в един клъстер. По този начин се изгражда системата на приложените дялове. Резултатите от такива алгоритми обикновено са представени като дърво.

Липсата на йерархични алгоритми включва пълна разделяща система, която може да бъде прекомерно в контекста на решаването на задачата.

Обмислете сега плоски алгоритми. Най-простият сред този клас е квадратичната алгоритми за грешка. Проблемът с клъстери за тези алгоритми може да се счита за изграждане на оптималното разделяне на обектите в групи. В същото време оптималността може да бъде дефинирана като изискване за минимизиране на RMS на грешката за разделяне:

,

където ° С. J - клъстер на "Mass Center" й. (точка със средни стойности на характеристиките за този клъстер).

Най-често срещаният алгоритъм на тази категория е методът на K-средния. Този алгоритъм изгражда определен брой клъстери, разположени, доколкото е възможно един от друг. Работата на алгоритъма е разделена на няколко етапа:

Шанс да изберете к. Точки, които са първоначални "масови центрове" на клъстерите.

2. Вземете всеки обект към клъстера с най-близкия "център на масите".

Ако критерият за спиране на алгоритъма не е удовлетворен, връщане към параграф 2.

Като критерий за спиране на работата на алгоритъма, обикновено се избира минималната промяна в стандартната грешка. Възможно е също така да се спре работата на алгоритъма, ако не се движат предмети от клъстера в стъпка 2. Недостатъците на този алгоритъм включват необходимостта от задаване на броя на клъстерите за счупване.

Най-популярният алгоритъм размит клъстеринг е С-средният алгоритъм (С-Средства). Това е модификация на метода на К-среден. Стъпки на алгоритъма:

1. Изберете първоначалния размит дял н. Предмети върху к. Клъстери чрез избор на аксесоар матрица Улавяне Размер n x K..

2. Използване на матрицата U, намерете стойността на критерия за размита грешка:

,

където ° С. К - "Mass Center" Fuzzy клъстер к.:

3. Разглеждайте обекти, за да намалите тази стойност на критерия за размита грешка.

4. Върнете се в параграф 2, докато промяната на матрицата Улавяне няма да стане незначително.

Този алгоритъм не може да се приближи, ако броят на клъстерите не е известен предварително или е необходимо да се припише недвусмислено всеки обект към един клъстер.

Следната група алгоритми са алгоритми въз основа на теорията на графиките. Същността на такива алгоритми е, че извадката от обекти е представена като графика G \u003d (v, e)Чиито върхове съответстват на обекти и ребрата имат тегло, равно на "разстоянието" между обектите. Предимството на графичните алгоритми за клъстеринг е видимост, относителна лекота на прилагане и възможността за привеждане на различни подобрения въз основа на геометрични съображения. Основните алгоритми са алгоритъм за разпределяне на свързани компоненти, алгоритъм за изграждане на минимално покритие (ос) алгоритъм за групиране на слой слой.

За избор на параметър R. Обикновено изградена хистограма на дистрибуции на двойки. В задачите с добре изразена структура на данните на клъстера, ще има два пика на хистограмата - човек съответства на вътрешни разстояния в Интрахалар, второто разстояние. Параметър R. Той е избран от зоната на минимум между тези върхове. В този случай контролират броя на клъстерите, използващи прага на разстоянието, е доста трудно.

Минималният покриващ алгоритъм за дървета първо изгражда минимално покритие на колоната и след това последователно премахва ребрата с най-голямо тегло. Алгоритъмът на слоя от слоя се основава на избора на свързани компоненти на графиката на някои нива между обекти (върхове). Нивото на разстоянието се определя от прага разстоянието ° С.. Например, ако тогава разстоянието между обектите.

Алгоритъмът на слоя от слоя, генерира поредица от графични подграфи Г.които отразяват йерархичните връзки между клъстерите:

,

където Г. T. \u003d (V, e T. ) - графика на нивото от T, ,

от T - T-та прага на разстоянието, m е броят на нивата на йерархията,
Г. 0 \u003d (V, o), O - празен набор от ръбове на графиката, получен при t. 0 = 1,
Г. М. \u003d G., т.е. графиката на обектите без ограничения на разстоянието (дължината на ръба на графиката), тъй като t. M \u003d 1.

Чрез промяна на праговете на разстоянието ( от 0 , ..., от м), където 0 \u003d от 0 < от 1 < …< от M \u003d 1 е възможно да се контролира дълбочината на йерархията на получените клъстери. По този начин алгоритъмът на клъстеринга на слоя е способен да създаде както плосък дял на данните, така и йерархичен.

Клъстерът ви позволява да постигнете следните цели:

· Подобрява разбирането на данните чрез идентифициране на структурните групи. Вземането на проби върху групи с подобни обекти дава възможност да се опрости по-нататъшната обработка на данните и вземането на решения, прилагането на неговия аналитичен метод за всеки клъстер;

· Позволява ви да съхранявате данните. За това, вместо да съхранявате цялата проба, можете да оставите едно типично наблюдение на всеки клъстер;

· Откриване на нови атипични обекти, които не влизаха в никакъв клъстер.

Обикновено клъстерирането се използва като дъщерен метод при анализиране на данните.

2.6 Генетични алгоритми

Генетичните алгоритми се отнасят до броя на универсалните методи за оптимизация, което позволява да се решават проблеми на различни видове (комбинаторни, общи задачи с ограничения и без ограничения) и различна степен на сложност. В този случай генетичните алгоритми се характеризират с възможност както за алтимерно, така и многокрикрито търсене в голямо пространство, чийто пейзаж е пренебрегнат.

Този метод на методите използва итеративен процес на развитието на последователността на поколенията на моделите, включително операциите на подбора, мутацията и пресичането. В началото на работата, алгоритъмското население се формира случайно. За да се оцени качеството на кодираните решения, се използва функцията на фитнес, която е необходима за изчисляване на адаптивността на всеки индивид. Според резултатите от оценката на индивидите, най-адаптирани от тях са избрани за преминаване. В резултат на преминаването на избраните индивиди чрез прилагане на генетичния оператор на кръстообретатора, се създава проекция, чиято генетична информация се формира в резултат на обмен на хромозомна информация между родителски лица. Потомците създадоха ново население, а част от потомците мутираха, които се изразяват в случайна промяна в техните генотипове. Етапът, който включва последователността на "оценка на населението" - "избор" - "пресичане" - "мутация" се нарича поколение. Еволюцията на населението се състои от поредица от такива поколения.

Разграничават се следните алгоритми за избор за пресичане на индивиди:

· Pumpmy. И двете лица, които ще направят родителска двойка, са произволно избрани от цялото население. Всяко лице може да стане член на няколко двойки. Този подход е универсален, но ефективността на алгоритъма намалява с нарастващото население.

· Избор. Родителите могат да бъдат индивиди с адаптивност, не по-ниска от средната. Този подход осигурява по-бързо сближаване на алгоритъма.

· Inbreeding. Методът е изграден върху образуването на двойка въз основа на роднини. В зависимост от връзката тук е разстояние между членовете на населението, както в смисъла на геометричното разстояние на индивидите в пространството на параметрите и разстоянието за получаване между генотипите. Следователно, генотипът и фенотипът инбридинг разграничават. Първият член на двойката за пресичане е избран случайно, а вторият най-вероятно ще бъде възможно най-близо до него. Inbreeding може да се характеризира с имуществото на концентрацията на търсенето в местни възли, което всъщност води до разделяне на населението в отделни местни групи около подозрителни към крайните зони на пейзажа.

· Изкривяване. Формирането на двойка въз основа на родство на далечни разстояния за най-далечните индивиди. Избухването е насочено към предотвратяване на конвергенцията на алгоритъма на вече намерени решения, принуждаването на алгоритъма да разгледа нови, неизследвани области.

Алгоритми за формиране на ново население:

· Избор с изместване. От всички индивиди със същите генотипове предпочитанията се дават на тези, чиято годност е по-висока. По този начин се постигат две цели: най-добрите решения, намерени с различни хромозомни комплекти, не се губят, в населението постоянно се поддържа достатъчно генетично разнообразие. Изместването представлява ново население от далеч от физически лица, вместо лица, които са групирани в близост до намереното в момента решение. Този метод се използва за мулти екстремални задачи.

· Елитен избор. Елитни методи за подбор гарантират, че при подбора непременно ще оцелеят най-добрите членове на населението. В този случай част от най-добрите индивида без никакви промени влизат в следващото поколение. Бързата конвергенция, предоставена чрез елитна селекция, може да бъде компенсирана с подходящ метод за избор на родителски двойки. В този случай често се използва освобождаването. Това е такава комбинация "избухването - елитен подбор" е един от най-ефективните.

· Избор на турнири. Избор на турнири прилага N турнири за избор на индивиди. Всеки турнир е изграден върху извадката на К елементи от населението и избира най-доброто лице сред тях. Най-често срещаният турнир с K \u003d 2.

Едно от най-търсените приложения на генетични алгоритми в областта на минните данни е търсенето на най-оптималния модел (търсене на алгоритъм, съответстващ на спецификата на дадена област). Генетичните алгоритми се използват предимно за оптимизиране на топологията на невронните мрежи и скалите. Възможно е също така да ги използвате като независим инструмент.

3. Обхват на приложението

Технологията за предаване на данни има наистина широк спектър от приложения, всъщност, набор от универсални инструменти за анализ на всякакъв вид данни.

Маркетинг

Една от първите области, в които бяха приложени интелигентни технологии за анализ на данни, беше маркетинговата сфера. Задачата, с която започна разработването на методи за минни данни, се нарича анализ на кошницата за покупка.

Тази задача е да се идентифицират стоките, които купувачите се стремят да придобият заедно. Знанието за кошницата за пазаруване е необходимо за провеждане на рекламни компании, формиращи лични препоръки към клиентите, разработване на стратегии за създаване на запаси от стоки и методи за техните оформления в търговските зали.

Също така в маркетинга тези задачи се решават като определяне на целевата аудитория на даден продукт за по-успешна промоция; проучване на временни шаблони, които помагат на предприятията да вземат решения за създаването на материалните запаси; Създаване на предсказуеми модели, което позволява на предприятията да научат естеството на нуждите на различни категории клиенти с определено поведение; Прогноза на лоялността на клиента, което дава възможност да се разкрие моментът на заминаването на клиента предварително, когато анализира поведението си и, може би, предотвратяване на загубата на ценен клиент.

Индустрия

Една от важните направления в тази област е наблюдение и контрол на качеството, където използването на инструментите за анализ е възможно да се предскаже производството на оборудването, появата на грешки, ремонт на планове. Прогнозиране на популярността на някои характеристики и познания за това какви характеристики обикновено се подреждат заедно, помага за оптимизиране на производството, ориентиране към реалните нужди на потребителите.

Лекарство

В медицината анализът на данните също се прилага доста успешно. Пример за задачи е анализът на резултатите от проучванията, диагнозата, сравнението на ефективността на лечението и лекарствата, анализ на заболявания и тяхното разпределение, откриване на странични ефекти. Технологиите за добив на данни, като асоциативни правила и серийни шаблони, се използват успешно при откриването на връзки между приемането на лекарства и странични ефекти.

Молекулярна генетика и генетично инженерство

Може би най-остро и в същото време, задачата за откриване на модели в експериментални данни е в молекулярна генетика и генно инженерство. Тук тя е формулирана като определение на маркерите, при които се разбира генетични кодове, които контролират тези или други фенотипни признаци на жив организъм. Такива кодове могат да съдържат стотици, хиляди и по-свързани елементи. Резултатът от аналитичния анализ на данни е открит и от учените и зависимостта между промените в човешката ДНК последователност и риск от развитие на различни заболявания.

Приложна химия

Методите за минни данни се използват в прилаганата химия. Често има въпрос за установяване на особеностите на химическата структура на някои съединения, определящи техните свойства. Тази задача е особено уместна при анализа на сложни химични съединения, описанието на което включва стотици и хиляди структурни елементи и техните връзки.

Борба с престъпността

При гарантиране на сигурността, добивът на данни се прилага сравнително наскоро, но вече са получени практически резултати, потвърждаващи ефективността на интелигентния анализ на данните в тази област. Швейцарските учени са разработили система за анализиране на протестната дейност, за да предскажат бъдещите инциденти и системата за проследяване на възникващите кибергрем и действия на хакерите в света. Последната система ви позволява да предсказвате кибернети и други рискове за сигурността на информацията. Също така, методите за добив на данни се използват успешно за откриване на измами с кредитни карти. Чрез анализиране на минали транзакции, които впоследствие бяха измамни, Банката идентифицира някои стереотипи на такива измами.

Други приложения

· Анализ на риска. Например, чрез идентифициране на комбинации от фактори, свързани с платени изявления, застрахователите могат да намалят загубите си на пасиви. Има случай, когато в Съединените щати голяма застрахователна компания установи, че сумите, изплатени на изявленията на хора, които са омъжени два пъти по-големи от изявленията на самотните хора. Компанията отговори на новото преразглеждане на знанията на своите общи политики, за да предостави отстъпки на семейните клиенти.

· Метеорология. Използва се прогнозиране на времето, като се използват невронни мрежи, по-специално самоорганизиращи се кохоновни карти.

· Политика на персонала. Инструментите за анализ помагат на услугите за управление на персонала да изберат най-успешните кандидати, основани на анализ на данните на тяхното резюме, моделират характеристиките на идеалните служители за една позиция или тази позиция.

4. Производители на данни за данни

Инструментите за минни данни традиционно принадлежат към скъпите софтуерни продукти. Ето защо доскоро основните потребители на тази технология бяха банки, финансови и застрахователни компании, големи търговски предприятия и основните задачи, изискващи използването на данни за данни, оценката на кредитните и застрахователните рискове и маркетинговите политики, тарифните планове и други принципи. с клиенти бяха разгледани клиенти. През последните години ситуацията е претърпяла някои промени: пазарът на софтуер се е появил сравнително евтини инструменти за миннодобиване и дори безплатни разпределителни системи, които правят тази технология достъпна за малки и средни предприятия.

Сред платените инструменти и системите за анализ на данни, лидерите са Институт SAS (SAS Enterprise Miner), SPSS (SPSS, клементине) и Statsoft (Statistica Data Miner). Решения от Angoss (Angoss Ingledlegestudio), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) и (Oracle) Oracle Data Mining са доста известни.

Изборът на свободен софтуер също е различен. Има и двата универсални инструменти за анализ, като JHEPWORW, KNIME, ORANGE, RAPIDMINER и специализирани средства, като Carrot2 - Freymvork за клъстерни текстови данни и заявки за търсене, checalize.org - решение в приложна химия, NLTK (натурален езиков инструментариум) естествен Инструмент за обработка на езици (обработка натурален език).

5. Методи за критики

Резултатите от добива на данни до голяма степен зависят от нивото на подготовката на данните, а не от "чудесните възможности" на някакъв алгоритъм или набор от алгоритми. Около 75% от работата по минно дело е да събират данни, които се извършват преди прилагането на инструментите за анализ. Неграмотното използване на инструменти ще доведе до интензивен потенциал на компанията, а понякога и милиони долари.

Мнението на Herba Edelstein (Herb Edelstein), известен в света на експерта в областта на добива на данни, складове за данни и CRM: "Неотдавнашното изследване на два врани показва, че добивът на данни е все още на ранен етап на развитие. Много организации се интересуват от тази технология, но само някои активно прилагат такива проекти. Възможно е да се разбере още един важен момент: процесът на прилагане на данните на практика се оказва по-сложен от очакваното. Законите са очаровани от мита, че инструментите за минни данни са лесни за използване. Предполага се, че е достатъчно да стартирате такъв инструмент на базата данни Terabyte, а полезната информация ще се появи незабавно. Всъщност успешният проект за добив на данни изисква разбиране на същността на дейността, познанията за данните и инструментите, както и процеса на анализ на данните. " По този начин, преди да се използва технология за добива на данни, е необходимо да се анализират задълбочените ограничения, наложени от методите, и свързаните с тях критични въпроси, както и трезво оценяват способностите на технологията. Следните са следните:

1. Технологията не може да дава отговори на въпроси, които не са посочени. Тя не може да замени анализатора, но само му дава мощен инструмент за облекчаване и подобряване на работата си.

2. сложността на разработването и функционирането на заявлението за добива на данни.

Тъй като тази технология е мултидисциплинарна площ, трябва да се използва заявление, което включва данни за данни, трябва да се използват специалисти от различни зони, както и да се гарантира тяхното качествено взаимодействие.

3. Потребителска квалификация.

Различни инструменти за добив на данни имат различна степен на "дружество" на интерфейса и изискват специфична ползвателна квалификация. Следователно софтуер Трябва да съответства на нивото на подготовка на потребителя. Използването на данни за данни трябва да бъде неразривно свързано с увеличаване на потребителското умение. Въпреки това, специалистите по миннодобив на данни, които биха били добре разбрани в бизнес процесите, в момента не са достатъчни.

4. Премахването на полезна информация е невъзможно без добро разбиране на същността на данните.

Необходими са внимателен подбор на модела и интерпретацията на зависимостите или шаблоните, които са необходими. Ето защо работата с такива средства изисква тясно сътрудничество между експерта в тематичната област и специалист по инструмент за миннодобив на данни. Публикуваните модели трябва да бъдат компетентно да бъдат интегрирани в бизнес процеси, които да бъдат оценявани и актуализират моделите. Наскоро системата за добива на данни се доставя като част от технологията за съхранение на данни.

5. сложността на подготовката на данните.

Успешният анализ изисква качествен път на данните. Според анализаторите и потребителите на бази данни процесът може да отнеме до 80% от общия процес на минни данни.

По такъв начин, че технологията да работи върху себе си, тя ще отнеме много усилия и време, които отиват на предварителен анализ на данните, изборът на модел и нейната корекция.

6. голям процент от фалшиви, ненадеждни или безполезни резултати.

С помощта на технологиите за добив на данни можете да намерите наистина много ценна информация, която може да даде значително предимство на по-нататъшното планиране, управлението, вземането на решения. Въпреки това, резултатите, получени при използване на методи за минни данни, често съдържат фалшиви и няма вероятности. Много специалисти твърдят, че инструментите за добив на данни могат да издават огромен брой статистически ненадеждни резултати. За да се намали процентът на тези резултати, проверка на адекватността на получените модели на тестовите данни. Въпреки това е невъзможно напълно да се избегнат фалшиви заключения.

7. Висока цена.

Качествен софтуер Това е резултат от значителни разходи за труд от страна на предприемача. Следователно софтуерът за миннодобиване на данни традиционно се отнасят до скъпите софтуерни продукти.

8. Наличието на достатъчен брой представители.

Инструментите за минни данни, за разлика от статистически, теоретично не изискват наличието на строго определен брой ретроспективни данни. Тази функция може да доведе до откриване на ненадеждни, лъжливи модели и в резултат на това да приеме на базата си неправилни решения. Необходимо е да се следи статистическата значимост на откритите знания.

невронна мрежова алгоритъма на клъстериране на данни

Заключение

Дадена е кратко описание на обхвата на кандидатстване и критика на технологиите за минни данни и мнението на експертите в тази област.

. \\ Tлитература

1. Хан и Мишелин Камбър. Данни за добив: Концепции и техники. ВТОРО ИЗДАНИЕ. - Университет на Илинойс в Urbana-Champaign

Berry, Michael J. A. Техники за добив на данни: за управление на търговията, продажбите и връзките с клиентите - 2-ри.

Сиу Нин Лам. Откриване на правила за асоцииране в добива на данни. - отдел "Компютърни науки" в Илинойс в Urbana-Champaign

Ние Ви приветстваме по портала за предаване на данни - уникален портал, посветен на съвременните методи за добиване на данни.

Технологиите за минно дело са мощен апарат на съвременни бизнес анализи и изследвания на данни за откриване на скрити модели и изграждане на предсказуеми модели. Данните или знанията се основават на спекулативните мотиви, но относно реалните данни.

Фиг. 1. Схема за кандидатстване за данни за данни

Дефиниция на проблема - Изявление на проблема: класификация на данни, сегментиране, изграждане на предвидими модели, прогнозиране.
Събиране и подготовка на данни - събиране и подготовка на данни, почистване, проверка, изтриване на повтарящи се записи.
Модел строителство - изграждане на модел, оценка на точността.
Разгръщане на знанието - Прилагане на модела за решаване на задачата.

Добивът на данни се използва за прилагане на широкомащабни аналитични проекти в бизнеса, маркетинга, интернет, телекомуникациите, промишлеността, геологията, медицината, фармацевтите и други области.

Data Mining ви позволява да стартирате процеса на намиране на значителни корелации и връзки в резултат на пресяване огромен масив за данни, като използвате съвременни методи за разпознаване на изображения и използване на уникални аналитични технологии, включително дървета за вземане на решения и класификация, клъстеризиране, невронални методи и други.

Потребителят, който за първи път е открил технологията на извличането на данни за себе си, е засегнат от изобилието на методи и ефективни алгоритми, което позволява да се намерят подходи за решаване на трудни задачи, свързани с анализа на големи количества данни.

Като цяло, добивът на данни може да бъде описан като технология, предназначена да търси големи количества данни. без очевиден, обективен И практически полезен модели.

Добивът на данни се основава на ефективни методи и алгоритми, разработени за анализиране на неструктурирани данни за големи данни и измерение.

Ключовата точка е, че данните за голям обем и голямото измерение са лишени от структури и връзки. Целта на технологията за добив на данни е да идентифицира тези структури и да намери закономерности, където на пръв поглед хаосът царува и произволно.

Тук е спешен пример за използването на производството на данни във фармацевтичната и лекарствената индустрия.

Взаимодействието на лекарствените вещества е нарастващ проблем, с който е изправен съвременното здравеопазване.

С течение на времето броят на предписаните лекарства (неприемливи и всички видове добавки) се увеличава, което прави все по-вероятно взаимодействие между лекарствата, което може да причини сериозни странични ефекти, които не подозират лекари и пациенти.

Тази област се отнася до постклинични проучвания, когато лекарството вече е било пуснато и се използва интензивно.

Клиничните проучвания принадлежат към оценката на ефективността на лекарството, но слабо вземат под внимание взаимодействието на това лекарство с други лекарства, представени на пазара.

Изследователи от Станфордския университет в Калифорния проучиха базата данни на FDA (администрация по храните и лекарствата - офис за контрол на храните и администрацията на лекарството) страничните ефекти на лекарствата и откриха, че две често използвани лекарства - антидепресант Paroksetin и Handustatin, използвани за намаляване на нивата на холестерола - повишаване на нивата на холестерола - увеличаване на риска Развитие на диабет, ако се използва заедно.

Проучване на поведението на такъв анализ, базиран на данните от FDA, разкри 47 неизвестни по-рано неблагоприятни взаимодействия.

Това е чудесно, с резервацията, която не се откриват много отрицателни ефекти, маркирани при пациенти. Само в този случай мрежовото търсене може да се прояви добре.

Предстоящи курсове по данни за предаване на данни за статистически анализ на данни през 2020 година

Ние сме запознати с добива на данни, използвайки прекрасни видеоклипове на Академията за анализ на данни.

Не забравяйте да погледнете нашите видеоклипове и ще разберете какъв е добивът на данни!

Видео 1. Какво представлява данните?


VIDEO 2. Преглед на методите за производство на данни: вземане на решения дървета, генерализирани предсказуеми модели, клъстеринг и много други

JavaScript е деактивиран в браузъра ви


Преди да стартирате изследователски проект, трябва да организираме процеса на получаване на данни от външни източници, сега ще покажем как се прави.

Валякът ще ви запознае с уникална технология Statistica. Обработка на бази данни и доставка на данни с реални данни.

Video 3. Поръчка на взаимодействие с бази данни: графичен интерфейс сграда SQL заявки за обработка на бази данни на място

JavaScript е деактивиран в браузъра ви


Сега ще се запознаем с интерактивните технологии за пробиване, ефективни при провеждането на проучвателен анализ на данните. Самият термин отразява добива на комуникационни технологии с геоложки проучвания.

Видео 4. Интерактивно пробиване: проучване и графични методи за интерактивни изследвания на данни

JavaScript е деактивиран в браузъра ви


Сега ще въведем анализ на асоциациите (правила за асоцииране), тези алгоритми ви позволяват да намерите линкове, налични в реални данни. Ключовата точка е ефективността на алгоритмите за големи количества данни.

Резултатът от алгоритмите за анализ на връзките, например, алгоритъм Apriori, намиране на правилата на облигациите на обектите в проучването с дадена надеждност, например, 80%.

В геологията тези алгоритми могат да бъдат използвани в проучвателен анализ на минералите, например като знак, свързан с признаци на В и С.

Можете да намерите конкретни примери за такива решения на нашите връзки:

В търговията на дребно алгоритъмът на Apriori или техните изменения позволяват да се проучи връзката на различни стоки, например при продажба на парфюми (парфюм - лакове - трупове за мигли и др.) Или стоки от различни марки.

Анализът на най-интересните секции на обекта също може да се извърши ефективно чрез правилата на сдруженията.

Така че, се запознайте с следващия ни валяк.

Видео 5. Правила на сдруженията

JavaScript е деактивиран в браузъра ви

Даваме примери за прилагане на данни за данни в определени области.

Онлайн търговия:

  • анализ на траекторите на купувачите от посещение на сайта преди закупуване на стоки
  • оценка на ефективността на услугите, анализ на неуспехи поради липсата на стоки
  • съобщаване на стоки, които се интересуват от посетители

Търговия на дребно: Анализ на информацията за купувачите въз основа на кредитни карти, отстъпки и т.н.

Типични задачи на дребно, решени чрез добив на данни:

  • анализ на кошницата за покупка;
  • създаване на предсказуеми модели и класификационни модели на купувачи и закупени стоки;
  • създаване на профили на клиенти;
  • CRM, оценка на лоялността на клиентите на различни категории, програми за лоялност;
  • проучване на временна серия и временни зависимости, подбор на сезонни фактори, оценка на ефективността на промоционалните действия върху широка гама от реални данни.

Секторът на далекосъобщенията отваря неограничени възможности за използване на методи за извличане на данни, както и съвременни големи технологии за данни:

  • класификация на клиента въз основа на характеристики на ключовите повиквания (честота, продължителност и др.), SMS честоти;
  • откриване на лоялност на клиентите;
  • определяне на измами и други.

Застраховка:

  • анализ на риска. Чрез идентифициране на комбинации от фактори, свързани с платени изявления, застрахователите могат да намалят загубите си на пасиви. Случаят е известен, когато застрахователната компания е установила, че сумите, изплатени на изявленията на хора, които са в брака, са два пъти по сумите за изявленията на самотните хора. Компанията отговори на това преразглеждане на политиките за отстъпки до семейните клиенти.
  • откриване на измама. Застрахователните компании могат да намалят нивото на измамите, като търсят определени стереотипи в заявления за плащане на застрахователна компенсация, характеризираща връзката между адвокати, лекари и кандидати.

Практическото прилагане на производството на данни и решаването на специфични задачи е представено в следващото видео.

Webinar 1. Webinar "Практически задачи Данни: Проблеми и решения"

JavaScript е деактивиран в браузъра ви

Webinar 2. Webinar "Data Mining и Text Mining: Примери за решаване на реални задачи"

JavaScript е деактивиран в браузъра ви


По-дълбоките познания за методологията и минната технология могат да бъдат получени в курсовете на Statsoft.