Первая страница
Наша команда
Контакты
О нас

    Головна сторінка



Конспект лекцій для студентів напряму підготовки 050101 «Комп’ютерні науки» денної форми навчання Луцьк

Конспект лекцій для студентів напряму підготовки 050101 «Комп’ютерні науки» денної форми навчання Луцьк




Сторінка1/12
Дата конвертації19.03.2017
Розмір2.11 Mb.
ТипКонспект
  1   2   3   4   5   6   7   8   9   ...   12


Міністерство освіти і науки України



інтелектуальний аналіз даних

Конспект лекцій для студентів напряму підготовки

6.

Аналіз даних - розділ математики, що займається розробкою методів обробки даних незалежно від їх природи.
050101 «Комп’ютерні науки»

денної форми навчання

Луцьк

2016
УДК 004.89(07)

І 73
До друку ________________ Голова Навчально-методичної ради Луцького НТУ

(підпис)
Електронна копія друкованого видання передана для внесення в репозитарій Луцького НТУ ________________ директор бібліотеки.

(підпис)
Затверджено Навчально-методичною радою Луцького НТУ,

протокол № від «­­__» 2016 року.


Рекомендовано до видання Навчально-методичною радою факультету КНІТ Луцького НТУ, протокол № від « » 2016 року.

________________ Голова навчально-методичної ради факультет КНІТ

(підпис)
Розглянуто і схвалено на засіданні кафедри КТ Луцького НТУ, протокол № від « » 2016 року.

Укладач: _______________ Н.М.Ліщина, доцент кафедри КТ Луцького НТУ

(підпис)
Рецензент: ____________ Н.В. Здолбіцька, кандидат технічних наук, доцент Луцького НТУ

(підпис)

Відповідальний

за випуск: __________ О.О.

Кандида́т нау́к - науковий ступінь в Україні до 31 грудня 2019 року. Прирівнюється до ступеню доктора філософії. Найвищим науковим ступенем в Україні є доктор наук.
Герасимчук, завідувач кафедри КТ Луцького НТУ, кандидат

технічних наук, доцент

(підпис)



Інтелектуальний аналіз даних [Текст] : конспект лекцій для студентів напряму підготовки 6.

Ка́федра - базовий структурний підрозділ вищого навчального закладу (його філій, інститутів, факультетів), що проводить навчально-виховну і методичну діяльність з однієї або кількох споріднених спеціальностей, спеціалізацій чи навчальних дисциплін і здійснює наукову, науково-дослідну та науково-технічну діяльність за певним напрямом.
050101 «Комп’ютерні науки» денної форми навчання / уклад. Н.М.Ліщина. – Луцьк : Луцький НТУ, 2016. – 112 с.

Видання знайомить студентів з технологією Data Mining, докладно розглядаються методи, інструментальні засоби й застосування Data Mining. Опис кожного методу супроводжується конкретним прикладом його використання.

Призначене для студентів напряму підготовки 6.050101 «Комп’ютерні науки» денної форми навчання.

©


Н.М.Ліщина, 2016
ЗМІСТ








АНОТАЦІЯ КУРСУ…………………………………………………………………………

4

ЛЕКЦІЯ 1. Основні поняття та визначення інтелектуального аналізу даних. Типи даних для роботи в Data Mining……………………………………………………………

5

ЛЕКЦІЯ 2. Методи і стадії Data Mining …………………………………………………

12

ЛЕКЦІЯ 3. Задачі інтелектуального аналізу даних ……………………………………

25

ЛЕКЦІЯ 4. Задачі Data Mining. Прогнозування й візуалізація. Методи візуалізації

35

ЛЕКЦІЯ 5. Методи класифікації й прогнозування. Дерева рішень. Метод опорних векторів. Метод "найближчого сусіда". Байєсовская класифікація…………………

39

ЛЕКЦІЯ 6. Нейронні мережі. Карти Кохонена, що самоорганізуються. Методи пошуку асоціативних правил ……………………………………………………………

43

ЛЕКЦІЯ 7. Методи кластерного аналізу. Ієрархічні методи. Ітеративні методи……

50

ЛЕКЦІЯ 8. Комплексний підхід до ІАД …………………………………………………

56

ЛІТЕРАТУРА………………………………………………………………………………

71

АНОТАЦІЯ КУРСУ

Дисципліна "Інтелектуальний аналіз даних" знайомить студентів з технологією Data Mining, докладно розглядаються методи, інструментальні засоби й застосування Data Mining. Опис кожного методу супроводжується конкретним прикладом його використання.

Обговорюються відмінності Data Mining від класичних статистичних методів аналізу й OLAP-систем, розглядаються типи закономірностей, що виявляють Data Mining (асоціація, класифікація, послідовність, кластерізація, прогнозування).

Стати́стика - наука, що вивчає методи кількісного охоплення і дослідження масових, зокрема суспільних, явищ і процесів. А також власне кількісний облік масових явищ. Зокрема, облік у будь-якій галузі господарства, суспільного життя, що здійснюється методами цієї науки, а також дані цього обліку.
Описується сфера застосування Data Mining. Вводиться поняття Web Mining. Докладно розглядаються методи Data Mining: нейронні мережі, дерева рішень, методи обмеженого перебору, генетичні алгоритми, еволюційне програмування, кластерні моделі, комбіновані методи.
Генети́чний алгори́тм (англ. genetic algorithm) - це еволюційний алгоритм пошуку, що використовується для вирішення задач оптимізації і моделювання шляхом послідовного підбору, комбінування і варіації шуканих параметрів з використанням механізмів, що нагадують біологічну еволюцію.
Знайомство з кожним методом проілюстровано рішенням практичного завдання за допомогою інструментального засобу, що використовує технологію Data Mining.

Розглянуті в дисципліні системи доцільно використовувати для рішення задач соціально-економічного прогнозування і планування розвитку промислових галузей, підприємств і в інших службах, що утворюють інфраструктуру міст, областей і регіонів. Наукову основу дисципліни складають теоретичні моделі, математичний апарат, сучасні концепції та парадигми, які визначають підходи до вивчення характеристик систем інтелектуального аналізу даних.

Математичний апарат - сукупність математичних знань, понять і методів, що застосовуються в деякій області науки, а тому необхідних для її розуміння й успішної в ній роботи. Наприклад, математичним апаратом класичної механіки є математичний аналіз та теорія диференціальних рівнянь, математичним апаратом квантової механіки є функціональний аналіз, математичним апаратом статистики є теорія ймовірності тощо.



Мета дисципліни — сформувати фундаментальні теоретичні знання та практичні навички щодо суті та застосування засобів дейтамайнінгу в інформаційних системах, зокрема в системах підтримки прийняття рішень та виконавчих інформаційних системах.
Тео́рія рі́шень - царина досліджень, яка математичними методами досліджує закономірності вибору людьми найвигідніших із можливих альтернатив і має застосування в економіці, менеджменті, когнітивній психології, інформатиці та обчислювальній техніці.


Завдання дисципліни:

  • вивчення методологічно-організаційних особливостей прийняття управлінських рішень на основі інтелектуального аналізу бізнес-інформації;

  • засвоєння теоретичних основ інформаційних систем, орієнтованих на застосування стандартів Data Mining;
    Інформацíйна систéма (англ. Information system) - сукупність організаційних і технічних засобів для збереження та обробки інформації з метою забезпечення інформаційних потреб користувачів.


  • опрацювання передового досвіду використання систем Data Mining в галузях корпоративного планування, менеджменту, маркетингу, фінансово-кредитної системи, прогнозування тощо;

  • набуття уміння програмувати окремі елементи систем Data Mining різного призначення і різної проблемної орієнтації на всіх стадіях життєвого циклу інформаційної системи.

У результаті вивчення дисципліни студенти повинні:

знати:

  • предмет та об'єкти вивчення, структуру даного курсу, сутність використаних у ньому основних методів досліджень, його місце в навчальному плані для підготовки дипломованих фахівців з даного напрямку;

  • базові визначення й поняття, основні етапи аналізу та інтерпретації даних, загальну структуру і функціонування інтегрованих інформаційно-аналітичних систем;

  • основи організації й технології обробки експериментальних і статистичних даних на ЕОМ;

  • змістовну й математичну постановку основних завдань аналізу даних, способи їхнього розв'язання;

  • сутність і властивості основних алгоритмів інтелектуального аналізу;

  • приклади рішення практичних завдань аналізу даних;

вміти:

  • зводити словесні постановки завдань до типових математичних й відносити їх до відповідних розділів математики та зв'язувати з відомими засобами обробки експериментальних даних;

  • створювати і користуватися типовими математичними моделями для дослідження випадкових явищ та процесів за результатами спостережень при розв'язанні завдань: порівняння, виявлення й відновлення закономірностей, класифікації, прогнозування;
    Математи́чна моде́ль - система математичних співвідношень, які описують досліджуваний процес або явище. Математична модель має важливе значення для таких наук, як: економіка, екологія, соціологія, фізика, хімія, механіка, інформатика, біологія та ін.


  • ставити завдання, вибирати засоби й методи обробки експериментальних даних для ефективного застосування;

  • представляти результати аналізу в зручному для сприйняття вигляді, інтерпретувати їх відповідно до поставленого завдання.

Лекція 1. Основні поняття та визначення інтелектуального аналізу даних. Типи даних для роботи в Data Mining

План

1. Історія виникнення та причини розвитку.

2. Суть, мета та сфера застосування технології Data Mining.

3. Типи закономірностей.

4. Класи систем Data Mining.

5. Якісний аналіз даних з використанням DM.

Тип даних - характеристика, яку явно чи неявно надано об'єкту (змінній, функції, полю запису, константі, масиву тощо). Тип даних визначає множину припустимих значень, формат їхнього збереження, розмір виділеної пам'яті та набір операцій, які можна робити над даними.
Я́кісний ана́ліз (рос. качественный анализ, англ. qualitative analysis; нім. qualitative Analyse f) в якому речовини ідентифікують або класифікують на основі їх хімічних або фізичних властивостей, таких, як хімічна реакційна здатність, розчинність, молекулярна вага, точка плавлення, випромінювальні властивості (емісія, абсорбція), мас-спектри, ядерний час напіврозпаду тощо Якісний аналіз - сукупність хім., фіз.-хім. та фіз. методів для визначення та ідентифікації компонентів - хім. елементів, молекул сполук, йонів, радикалів, функційних груп, мінералів тощо, які входять у досліджувану речовину або суміш речовин.

6. Дані, набір даних та їх атрибутів.

7. Формати зберігання даних.


1. Історія виникнення та причини розвитку

Поняття Data Mining, що з'явилося в 1978 р., набуло високої популярності в сучасному трактуванні приблизно з першої половини 90-х років. До цього часу обробка та аналіз даних здійснювалися в рамках прикладної статистики, при цьому в основному вирішувалися завдання обробки невеликих баз даних.

Термін iнтелектуальний аналіз даних походить від поняття Data Mining котре отримало свою назву з двох понять: пошуку цінної інформації у великій базі даних (Data) і видобутку (Mining). Обидва процеси вимагають або просіювання величезної кількості сирого матеріалу, або розумного дослідження і пошуку шуканих цінностей. Також термін Data Mining часто перекладається як видобуток даних, витягування інформації, розкопування даних, інтелектуальний аналіз даних, засоби пошуку закономірностей, вилучення знань, аналіз шаблонів, розкопування знань в базах даних.

Тео́рія розпізнава́ння о́бразів - розділ кібернетики, що розвиває теоретичні основи й методи класифікації і ідентифікації предметів, явищ, процесів, сигналів, ситуацій і т. п. об'єктів, які характеризуються кінцевим набором деяких властивостей і ознак.

Поняття «Виявлення знань в базах даних» (knowledge discovery in databases, KDD) можна вважати синонімом інтелектуального аналізу даних.



Розвиток технології баз даних:

  • 1960-і рр. У 1968 році була введена в експлуатацію перша промислова СУБД система IMS фірми IBM.

  • 1970-і рр. У 1975 році з'явився перший стандарт асоціації по мовах систем обробки даних - Conference on Data System Languages (CODASYL), який визначив ряд фундаментальних понять в теорії систем баз даних, які до цих пір є основоположними для мережевої моделі даних.
    Теорія систем (загальна теорія систем) - спеціально-наукова і логіко-методологічна концепція дослідження об'єктів, які є системами. З розвитком системології теорія систем набула необхідної уніфікації та універсальності, вичерпної однозначності та завершеності.
    Моде́ль да́них (англ. Data model) - абстрактне представлення реального світу, що відображає тільки ті об'єкти, що безпосередньо стосуються програми. Це, як правило, визначає специфічну групу об'єктів, їх атрибутивне значення і відношення між ними.
    Системи обробки даних (СОД) (англ. Electronic Data Processing) - комплекс взаємопов'язаних методів і засобів збору та обробки даних, необхідних для організації управління об'єктами та вирішення проблем автоматизованим способом.
    У подальший розвиток теорії баз даних великий внесок був зроблений американським математиком Е.Ф. Коддом, який є творцем реляційної моделі даних.

  • 1980-і рр. Протягом цього періоду багато дослідників експериментували з новим підходом у напрямках структуризації баз даних і забезпечення до них доступу. Метою цих пошуків було отримання реляційних прототипів для більш простого моделювання даних. У результаті, в 1985 році була створена мова, названа SQL. На сьогоднішній день практично всі СУБД забезпечують даний інтерфейс.

  • 1990-і рр. З'явилися специфічні типи даних - "графічний образ", "документ", "звук", "карта", типи даних для часу, інтервалів часу, символьних рядків з двобайтовим поданням символів були додані в мову SQL. З'явилися технології Data Mining, сховища даних, мультимедійні бази даних і веб - бази даних.
    Моделюва́ння да́них (англ. Data modeling) в програмній інженерії - це процес створення моделі даних для інформаційна система з застосуванням формальних підходів.
    Сховище даних (англ. data warehouse) - предметно орієнтований, інтегрований, незмінний набір даних, що підтримує хронологію і здатний бути комплексним джерелом достовірної інформації для оперативного аналізу та прийняття рішень.


У зв'язку з удосконаленням технологій запису і зберігання даних на людей обвалилися колосальні потоки «інформаційного видобутку» в найрізноманітніших областях. Діяльність будь-якого підприємства (комерційного, виробничого, медичного, наукового і т.д.) тепер супроводжується реєстрацією та записом всіх подробиць його діяльності. Що робити з цією інформацією? Стало ясно, що без продуктивної переробки потоки сирих даних утворюють нікому не потрібну звалище.

Специфіка сучасних вимог до такої переробки наступна:

• дані мають необмежений обсяг;

• дані є різнорідними (кількісними, якісними, текстовими);

• результати мають бути конкретні і зрозумілі;

•інструменти для обробки сирих даних повинні бути прості у використанні.

Традиційна математична статистика, яка довгий час претендувала на роль основного інструменту аналізу даних не могла більше ефективно вирішувати дані завдання.

Математична статистика - розділ математики та інформатики, в якому на основі дослідних даних вивчаються імовірнісні закономірності масових явищ. Основними задачами математичної статистики є статистична перевірка гіпотез, оцінка розподілу статистичних імовірностей та його параметрів, вивчення статистичної залежності, визначення основних числових характеристик випадкових вибірок, якими є: вибіркове середнє, вибіркові дисперсії, стандартне відхилення. Прикладом перевірки таких гіпотез є з'ясування питання про те, змінюється чи не змінюється виробничий процес з часом. Прикладом оцінки параметрів є оцінка середнього значення статистичної змінної за дослідними даними. Для вивчення статистичної залежності використовують методи теорії кореляції. Загальні методи математичної статистики є основою теорії похибок.
Головна причина - концепція усереднення за вибіркою, що призводить до операцій над фіктивними величинами (типу середньої температури пацієнтів по лікарні, середньої висоти будинку на вулиці і т.п.). Методи математичної статистики виявилися корисними головним чином для перевірки заздалегідь сформульованих гіпотез (перевірка керованості інтелектуального аналізу даних) і для "грубого" ​​розвідувального аналізу, що становить основу оперативної аналітичної обробки даних (аналітична обробка в реальному часі, online analytical processing, OLAP).



Причини популярності Data Mining:

• стрімке накопичення даних;

• загальна комп'ютеризація бізнес-процесів;

• проникнення Інтернету у всі сфери діяльності;

• прогрес в області інформаційних технологій: вдосконалення СУБД і сховищ даних;

Інформаці́йні техноло́гії, ІТ (використовується також загальніший / вищий за ієрархією термін інформаційно-комунікаційні технології (Information and Communication Technologies, ICT) - сукупність методів, виробничих процесів і програмно-технічних засобів, інтегрованих з метою збирання, опрацювання, зберігання, розповсюдження, показу і використання інформації в інтересах її користувачів.

• прогрес в області виробничих технологій: стрімке зростання продуктивності комп'ютерів, об'ємів накопичувачів, впровадження Grid систем.



Про популярність Data Mining говорить і той факт, що результат пошуку терміну «Data Mining» в пошуковій система Google (на вересень 2005 року) – становить більше 18 мільйонів сторінок, на вересень 2013 - 198 мільйонів сторінок.

Data Mining - мультидисциплінарна галузь, що виникла і розвивається на базі таких наук як прикладна статистика, розпізнавання образів, штучний інтелект, теорія баз даних та ін., див. рис. 1.1.

скругленный прямоугольник 9скругленный прямоугольник 10скругленный прямоугольник 11


прямая со стрелкой 17прямая со стрелкой 22


скругленный прямоугольник 13прямая со стрелкой 20


скругленный прямоугольник 2скругленный прямоугольник 12прямая со стрелкой 24


прямая со стрелкой 18


прямая со стрелкой 19прямая со стрелкой 23


скругленный прямоугольник 14скругленный прямоугольник 16прямая со стрелкой 21


скругленный прямоугольник 15
Рисунок 1.1 – Data Mining, як міждисциплінарна галузь
2. Суть, мета та сфера застосування технології Data Mining

Суть та мету технології Data Mining можна охарактеризувати так: це технологія, яка призначена для пошуку у великих обсягах даних неочевидних, об'єктивних і корисних на практиці закономірностей.

Неочевидних - це означає, що знайдені закономірності не виявляються стандартними методами обробки інформації або експертним шляхом.
Обробка інформації́ - вся сукупність операцій (збирання, введення, записування, перетворення, зчитування, зберігання, знищення, реєстрація), що здійснюються за допомогою технічних і програмних засобів, включаючи обмін по каналах передачі даних [6.


Об'єктивних - це означає, що виявлені закономірності будуть повністю відповідати дійсності, на відміну від експертної думки, яке завжди є суб'єктивним.

Практично корисних - це означає, що висновки мають конкретне значення, котрому можна знайти практичне застосування.

Знання - сукупність відомостей, яка утворює цілісний опис, відповідне деякому рівню обізнаності про описуваному питанні, предметі, проблемі і т.д.

Використання знань означає дійсне застосування знайдених знань для досягнення конкретних переваг (наприклад, в конкурентній боротьбі за ринок).

Практика (грец. πράξις «діяльність») - доцільна і цілеспрямована діяльність, яку суб'єкт здійснює для досягнення певної мети. Практика має суспільно-історичний характер і залежить від рівня розвитку суспільства, його структури.
Конкуре́нція - економічний процес взаємодії і боротьби товаровиробників за найвигідніші умови виробництва і збуту товарів, за отримання найбільших прибутків. Водночас - механізм стихійного регулювання виробництва в умовах вільних ринкових відносин.

Наведемо ще кілька визначень поняття Data Mining.

Data Mining - це процес виділення з даних неявної і неструктурованою інформації та представлення її у вигляді, придатному для використання.

Data Mining - це процес виділення, дослідження і моделювання великих обсягів даних для виявлення невідомих до цього структур (моделей ) з метою досягнення переваг у бізнесі (визначення SAS Institute).

Data Mining - це процес, мета якого - виявити нові значущі кореляції, зразки і тенденції в результаті просіювання великого обсягу збережених даних з використанням методик розпізнавання зразків плюс застосування статистичних і математичних методів (визначення Gartner Group).

Сфера застосування Data Mining нічим не обмежена - вона скрізь, де є будь-які дані. Але в першу чергу методи Data Mining сьогодні, м'яко кажучи, заінтригували комерційні підприємства, що розгортають проекти на основі інформаційних сховищ даних (сховища даних). Досвід багатьох таких підприємств показує, що віддача від використання Data Mining може досягати 1000%. Наприклад, відомі повідомлення про економічний ефект, що в 10-70 разів перевищив початкові витрати від 350 до 750 тис. дол. Є відомості про проект в 20 млн. дол., який окупився всього за 4 місяці. Інший приклад - річна економія 700 тис. дол. за рахунок впровадження Data Mining в мережі універсамів у Великобританії.

Data Mining становлять велику цінність для керівників та аналітиків в їх повсякденній діяльності. Ділові люди усвідомили, що за допомогою методів Data Mining вони можуть отримати відчутні переваги в конкурентній боротьбі. Коротко охарактеризуємо деякі можливі бізнес-додатки інтелектуального аналізу даних.



Роздрібна торгівля. Підприємства роздрібної торгівлі сьогодні збирають докладну інформацію про кожну окрему покупку, використовуючи кредитні картки з маркою магазина і комп'ютеризовані системи контролю.
Креди́тна ка́ртка - іменний платіжно-розрахунковий документ, який видають банки або торговельні фірми своїм клієнтам для оплати необхідних для них товарів і послуг, придбаних у кредит. На відміну від дебетової картки кредитна картка може бути не пов'язана з реальним банківським рахунком.
Ро́здрібна торгі́вля або рите́йл (від англ. retail - «роздрібний, в роздріб») - тип торгівлі товарами, а також виконання певних послуг, направлених на покупця, яким є кінцевий споживач, фізична чи юридична особа.
Ось типові завдання, які можна вирішувати за допомогою Data Mining у сфері роздрібної торгівлі:

аналіз купівельної корзини (аналіз подібності) призначений для виявлення товарів, які покупці прагнуть купувати разом. Володіння купівельної корзини необхідно для поліпшення реклами, вироблення стратегії створення запасів товарів і способів їх розкладки в торгових залах.

дослідження тимчасових шаблонів допомагає торговим підприємствам приймати рішення про створення товарних запасів. Воно дає відповіді на питання типу "Якщо сьогодні покупець придбав відеокамеру, то через який час він найімовірніше купить нові батарейки і плівку?"

створення прогнозуючих моделей дає можливість торговельним підприємствам дізнаватися характер потреб різних категорій клієнтів з певною поведінкою, наприклад, купують товари відомих дизайнерів або відвідують розпродажі. Ці знання потрібні для розробки точно спрямованих, економічних заходів щодо просування товарів.



Банківська справа. Досягнення технології Data Mining використовуються в банківській справі для вирішення наступних поширених завдань:

виявлення шахрайства з кредитними картками. Шляхом аналізу минулих транзакцій, які згодом виявилися шахрайськими, банк виявляє деякі стереотипи такого шахрайства.

сегментація клієнтів. Розбиваючи клієнтів на різні категорії, банки роблять свою маркетингову політику більш цілеспрямованою і результативною , пропонуючи різні види послуг різним групам клієнтів.

прогнозування змін клієнтури. Data Mining допомагає банкам будувати прогнозні моделі цінності своїх клієнтів, і відповідним чином обслуговувати кожну категорію.



Телекомунікації. В області телекомунікацій методи Data Mining допомагають компаніям більш енергійно просувати свої програми маркетингу і ціноутворення, щоб утримувати існуючих клієнтів і залучати нових. Серед типових заходів відзначимо наступні:

аналіз записів про докладних характеристиках викликів. Призначення такого аналізу - виявлення категорій клієнтів з схожими стереотипами користування їх послугами та розробка привабливих наборів цін і послуг;

виявлення лояльності клієнтів. Data Mining можна використовувати для визначення характеристик клієнтів, які, один раз скориставшись послугами даної компанії, з великою часткою ймовірності залишаться їй вірними. У підсумку кошти, що виділяються на маркетинг, можна витрачати там, де віддача найбільше.

Страхування. Страхові компанії протягом ряду років накопичують великі обсяги даних. Тут широке поле діяльності для методів Data Mining:

виявлення шахрайства. Страхові компанії можуть знизити рівень шахрайства, відшукуючи певні стереотипи в заявах про виплату страхового відшкодування, що характеризують взаємини між юристами, лікарями та заявниками.

Страхове́ відшкодува́ння - грошова сума, що виплачується страховиком за умовами майнового страхування і страхування відповідальності з настанням страхового випадку. Необхідним є встановлення ліміту відповідальності страховика С. в.

аналіз ризику. Шляхом виявлення поєднань факторів, пов'язаних з оплаченими заявами, страховики можуть зменшити свої втрати за зобов'язаннями. Відомий випадок, коли в США велика страхова компанія виявила, що суми, виплачені за заявами людей, одружених, вдвічі перевищує суми за заявами самотніх людей. Компанія відреагувала на це нове знання переглядом своєї загальної політики надання знижок сімейним клієнтам.

Інші області в бізнесі. Data Mining може застосовуватися в безлічі інших областей:

розвиток автомобільної промисловості.

Страховики́ (страхівники, страхові компанії) - юридичні особи, створені у формі акціонерних, повних, командитних товариств або товариств з додатковою відповідальністю згідно з Законом України "Про господарські товариства" з урахуванням особливостей, передбачених цим Законом, а також ті, що одержали у встановленому порядку ліцензію на здійснення страхової діяльності. *
Автомобільна промисловість (інколи також автомобілебудування) - галузь транспортного машинобудування, що виробляє моторизовані нерейкові транспортні засоби, зокрема легкові автомобілі, вантажні автомобілі а також автобуси, мотоцикли, тролейбуси, трактори й інші.
При складанні автомобілів виробники повинні враховувати вимоги кожного окремого клієнта, тому їм потрібні можливість прогнозування популярності певних характеристик і знання того, які характеристики зазвичай замовляються разом;

політика гарантій. Виробникам потрібно передбачати число клієнтів, які подадуть гарантійні заявки, і середню вартість заявок;

заохочення часто літаючих клієнтів. Авіакомпанії можуть виявити групу клієнтів, яких даними заохочувальними заходами можна спонукати літати більше. Наприклад, одна авіакомпанія виявила категорію клієнтів, які здійснювали багато польотів на короткі відстані, що не накопичуючи досить миль для вступу в їхні клуби, тому вона таким чином змінила правила прийому до клубу, щоб заохочувати число польотів так само, як і милі.



Медицина. Відомо багато експертних систем для постановки медичних діагнозів.
Експе́ртна систе́ма - це методологія адаптації алгоритму успішних рішень однієї сфери науково-практичної діяльності в іншу. З поширенням комп'ютерних технологій це тотожна (подібна, заснована на оптимізуючому алгоритмі чи евристиках) інтелектуальна комп'ютерна програма, що містить знання та аналітичні здібності одного або кількох експертів щодо деякої галузі застосування, і здатна робити логічні висновки на основі цих знань, тим самим забезпечуючи вирішення специфічних завдань (консультування, навчання, діагностування, тестування, проектування тощо) без участі експерта (фахівця в конкретній проблемній галузі). Також визначається як система, яка використовує базу знань для вирішення завдань (видачі рекомендацій) у деякій предметній галузі. Цей клас програмного забезпечення спочатку розроблявся дослідниками штучного інтелекту в 1960-ті та 1970-ті і здобув комерційне застосування, починаючи з 1980-х. Часто термін система, заснована на знаннях використовується як синонім експертної системи, однак можливості експертних систем ширші за можливості систем, заснованих на детермінованих (обмежених, реалізованих на поточний час) знаннях.
Вони побудовані головним чином на основі правил, що описують поєднання різних симптомів різних захворювань. За допомогою таких правил дізнаються не тільки, на що хворий пацієнт, але і як потрібно його лікувати. Правила допомагають вибирати засоби медикаментозного впливу, визначати показання - протипоказання, орієнтуватися в лікувальних процедурах, створювати умови найбільш ефективного лікування, пророкувати результати призначеного курсу лікування і т. п. Технології Data Mining дозволяють виявляти в медичних даних шаблони, що становлять основу зазначених правил.

Молекулярна генетика і генна інженерія.
Ге́нна інжене́рія - це біотехнологічний прийом, спрямований на конструювання рекомбінантних молекул ДНК на основі ДНК, взятої з різних джерел, сукупність прийомів, методів і технологій одержання рекомбінантних РНК і ДНК, виділення генів з організму (клітин), здійснення маніпуляцій з генами і введення їх в інші організми.
Мабуть, найбільш гостро і водночас чітко завдання виявлення закономірностей в експериментальних даних коштує в молекулярній генетиці та генної інженерії.
Молекуля́рна гене́тика - галузь науки, яка вивчає структури, що зберігають та формують генетичну інформацію (гени та інші структури, котрі беруть участь у генетичних процесах на субклітинному й молекулярному рівнях) та їх функціональні властивості.
Тут вона формулюється як визначення так званих маркерів, під якими розуміють генетичні коди, контролюючі ті чи інші фенотипічні ознаки живого організму. Такі коди можуть містити сотні, тисячі і більше пов'язаних елементів.

На розвиток генетичних досліджень виділяються великі кошти. Останнім часом в даній області виник особливий інтерес до застосування методів Data Mining. Відомо кілька великих фірм, що спеціалізуються на застосуванні цих методів для розшифровки генома людини і рослин.



Прикладна хімія. Методи Data Mining знаходять широке застосування в прикладної хімії (органічної та неорганічної). Тут нерідко виникає питання про з'ясування особливостей хімічної будови тих чи інших сполук, що визначають їх властивості. Особливо актуальна така задача при аналізі складних хімічних сполук, опис яких включає сотні і тисячі структурних елементів та їх зв'язків.
Хімі́чна сполу́ка - речовина, молекули якої складаються з атомів двох або більше різних хімічних елементів, сполучених між собою тим чи іншим типом хімічного зв'язку. Сполука має певний хімічний склад і їй можна приписати точну хімічну формулу.

Можна навести ще багато прикладів різних областей знання, де методи Data Mining відіграють провідну роль. Особливість цих областей полягає в їх складній системної організації. Вони відносяться головним чином до над кібернетичному рівню організації систем, закономірності якого не можуть бути достатньо точно описані на мові статистичних чи інших аналітичних математичних моделей. Дані в зазначених областях неоднорідні, гетерогенні, нестаціонарні і часто відрізняються високою розмірністю.


3. Типи закономірностей

Виділяють п'ять стандартних типів закономірностей, які дозволяють виявляти методи Data Mining: асоціація, послідовність, класифікація, кластеризація і прогнозування.

 Асоціація має місце в тому випадку, якщо кілька подій зв'язані один з одним. Наприклад, дослідження, проведене в супермаркеті, може показати, що 65 % купили кукурудзяні чіпси беруть також і "кока - колу", а за наявності знижки за такий комплект "колу" здобувають у 85% випадків. Маючи в своєму розпорядженні відомостями про подібну асоціацію, менеджерам легко оцінити, наскільки дієва надається знижка.

Якщо існує ланцюжок пов'язаних у часі подій, то говорять про послідовність. Так, наприклад, після покупки будинку в 45 % випадків протягом місяця купується і нова кухонна плита, а в межах двох тижнів 60 % новоселів обзаводяться холодильником.

За допомогою класифікації виявляються ознаки, що характеризують групу, до якої належить той чи інший об'єкт. Це робиться за допомогою аналізу вже класифікованих об'єктів і формулювання деякого набору правил.

Кластеризація відрізняється від класифікації тим, що самі групи заздалегідь не задані. За допомогою кластеризації засобів Data Mining самостійно виділяють різні однорідні групи даних.

Основою для всіляких систем прогнозування служить історична інформація, що зберігається в БД у вигляді часових рядів. Якщо вдається побудувати знайти шаблони, які адекватно відображають динаміку поведінки цільових показників, є ймовірність, що з їх допомогою можна передбачити і поведінку системи в майбутньому.


4. Класи систем Data Mining

Data Mining є мультидисциплінарною областю, яка виникла і розвивається на базі досягнень прикладної статистики, розпізнавання образів, методів штучного інтелекту, теорії баз даних та ін. (рис. 1.2). Звідси велика кількість методів і алгоритмів, реалізованих у різних діючих системах Data Mining. Багато з таких систем інтегрують в собі відразу кілька підходів. Проте, як правило, в кожній системі є якась ключова компонента, на яку робиться головна ставка. Нижче наводиться класифікація зазначених ключових компонент на основі роботи. Виділеним класам дається коротка характеристика.



блок-схема: процесс 26блок-схема: процесс 34


блок-схема: магнитный диск 25


блок-схема: процесс 27блок-схема: процесс 33


блок-схема: процесс 28

блок-схема: процесс 32

блок-схема: процесс 29блок-схема: процесс 31

блок-схема: процесс 30
блок-схема: процесс 35

Рисунок 1.2 – Data Mining - мультидисциплінарна область



Рисунок 1.3 – Популярні продукти для Data Mining


Предметно-орієнтовані аналітичні системи дуже різноманітні. Найбільш широкий підклас таких систем, що одержав поширення в галузі дослідження фінансових ринків, носить назву "технічний аналіз". Він являє собою сукупність декількох десятків методів прогнозу динаміки цін і вибору оптимальної структури інвестиційного портфеля, заснованих на різних емпіричних моделях динаміки ринку. Ці методи часто використовують нескладний статистичний апарат, але максимально враховують сформовану своїй області специфіку (професійна мова, системи різних індексів і пр.). На ринку є безліч програм цього класу. Як правило, вони досить дешеві (зазвичай $ 300-1000).

Статистичні пакети. Останні версії майже всіх відомих статистичних пакетів включають поряд з традиційними статистичними методами також елементи Data Mining. Але основна увага в них приділяється все ж класичним методикам - кореляційному, регресійному, факторному аналізу і іншим. Недоліком систем цього класу вважають вимогу до спеціальної підготовки користувача. Також відзначають, що потужні сучасні статистичні пакети є занадто "ваговитими" для масового застосування у фінансах і бізнесі. До того ж часто ці системи досить дорогі - від $ 1000 до $ 15000.

Є ще більш серйозний принциповий недолік статистичних пакетів, що обмежує їх застосування в Data Mining. Більшість методів, що входять до складу пакетів спираються на статистичну парадигму, в якій головними фігурантами служать усереднені характеристики вибірки. А ці характеристики, як зазначалося вище, при дослідженні реальних складних життєвих феноменів часто є фіктивними величинами.

В якості прикладів найбільш потужних і поширених статистичних пакетів можна назвати SAS (компанія SAS Institute), SPSS (SPSS), STATGRAPICS (Manugistics), STATISTICA, STADIA та інші.

Нейронні мережі. Це великий клас систем, архітектура яких має аналогію (як тепер відомо, досить слабку) з побудовою нервової тканини з нейронів.

Нерво́ва ткани́на - тканина ектодермального походження і є системою спеціалізованих структур, що утворюють основу нервової системи і забезпечують умови для реалізації її функцій.
В одній з найбільш поширених архітектурі зі зворотним поширенням помилки, імітується робота нейронів у складі ієрархічної мережі, де кожен нейрон більш високого рівня з'єднаний своїми входами з виходами нейронів нижчого шару. На нейрони самого нижнього шару подаються значення вхідних параметрів, на основі яких потрібно приймати якісь рішення, прогнозувати розвиток ситуації і т. д. Ці значення розглядаються як сигнали, що передаються в наступний шар, ослабляючись або посилюючись в залежності від числових значень (ваг), приписуваних між нейронних зв'язків. У результаті на виході нейрона самого верхнього шару виробляється деяке значення, яке розглядається як відповідь - реакція всієї мережі на введені значення вхідних параметрів. Для того щоб мережу можна було застосовувати надалі, її колись треба "натренувати" на отриманих раніше даних, для яких відомі і значення вхідних параметрів, і правильні відповіді на них. Тренування полягає в підборі ваг між нейронних зв'язків, що забезпечують найбільшу близькість відповідей мережі до відомих правильних відповідей.

Основним недоліком нейронно-мережевої парадигми є необхідність мати дуже великий обсяг навчальної вибірки. Інший суттєвий недолік полягає в тому, що навіть натренована нейронна мережа являє собою чорний ящик.

Чо́рний я́щик (чорна скринька) - це термін, який використовується у техніці й кібернетиці для позначення об'єкта чи системи, про принципи дії яких нічого невідомо, крім того, що певному вхідному сигналу відповідає певний вихідний сигнал.
Знання, зафіксовані як ваги кількох сотень між нейронних зв'язків, абсолютно не піддаються аналізу та інтерпретації людиною (відомі спроби дати інтерпретацію структурі налаштованої нейронної мережі виглядають непереконливими - система " KINOsuite - PR").

Приклади нейромережевих систем - BrainMaker (CSS ), NeuroShell (Ward Systems Group), OWL ( HyperLogic ). Вартість їх досить значна: $ 1500-8000.

Рисунок 1.4 – Поліноміальна нейронна мережа


Системи міркувань на основі аналогічних випадків. Ідея систем case based reasoning - CBR - на перший погляд вкрай проста. Для того щоб зробити прогноз на майбутнє чи вибрати правильне рішення, ці системи знаходять у минулому близькі аналоги наявної ситуації і вибирають ту ж відповідь, який був для них правильним. Тому цей метод ще називають методом "найближчого сусіда" (nearest neighbour ). Останнім часом поширення отримав також термін memory based reasoning, який акцентує увагу, що рішення приймається на підставі всієї інформації, накопиченої в пам'яті.

Системи CBR показують непогані результати в найрізноманітніших задачах. Головним їх мінусом вважають те, що вони взагалі не створюють будь-яких моделей або правил, узагальнюючих попередній досвід у виборі рішення вони ґрунтуються на всьому масиві доступних історичних даних, тому неможливо сказати, на основі яких конкретно факторів CBR системи будують свої відповіді.

Інший мінус полягає в свавіллі, який допускають системи CBR при виборі міри "близькості". Від цієї міри найрішучішим чином залежить обсяг безлічі прецедентів, які потрібно зберігати в пам'яті для досягнення задовільною класифікації або прогнозу.

Приклади систем, що використовують CBR, - KATE tools (Acknosoft, Франція), Pattern Recognition Workbench (Unica, США).



Дерева рішень (decision trees) є одним з найбільш популярних підходів до вирішення завдань Data Mining. Вони створюють ієрархічну структуру класифікуючи правил типу "ЯКЩО ...
Ієра́рхія (грец. ίεράρχίά, від ίερσς - священний, та άρχή - влада) - поділ на вищі й нижчі посади, чини; суворий порядок підлеглості нижчих щодо посади або чину осіб вищим. В ієрархії між її членами діють вертикальні зв'язки - відносини субординації.
ТО ..." (if - then), що має вигляд дерева. Для прийняття рішення, до якого класу віднести деякий об'єкт або ситуацію, потрібно відповісти на питання, що стоять у вузлах цього дерева, починаючи з його кореня. Запитання мають вигляд "значення параметра A більше x?". Якщо відповідь позитивна, здійснюється перехід до правого вузла наступного рівня, якщо негативний - то до лівого вузла; потім знову слід питання, пов'язане з відповідним вузлом.

Популярність підходу пов'язана як би з наочністю і зрозумілістю. Але дерева рішень принципово не здатні знаходити "кращі" (найбільш повні і точні) правила в даних. Вони реалізують наївний принцип послідовного перегляду ознак і "чіпляють" фактично оскільки справжніх закономірностей, створюючи лише ілюзію логічного висновку.

Разом з тим, більшість сислтем використовують саме цей метод. Найвідомішими є See5/С5.0 (RuleQuest, Австралія), Clementine (Integral Solutions, Великобританія), SIPINA (University of Lyon, Франція), IDIS (Information Discovery, США), KnowledgeSeeker (ANGOSS , Канада). Вартість цих систем варіюється від 1 до 10 тис. дол.

Рисунок 1.5 – Система KnowledgeSeeker обробляє банківську інформацію


Еволюційне програмування. Проілюструємо сучасний стан даного підходу на прикладі системи PolyAnalyst - вітчизняної розробки, що отримала сьогодні загальне визнання на ринку Data Mining. У даній системі гіпотези про вид залежності цільової змінної від інших змінних формулюються у вигляді програм на деякій внутрішній мові програмування. Процес побудови програм будується як еволюція у світі програм (цим підхід трохи схожий на генетичні алгоритми). Коли система знаходить програму, більш або менш задовільно виражає шукану залежність, вона починає вносити до неї невеликі модифікації і відбирає серед побудованих дочірніх програм ті, які підвищують точність. Таким чином система "вирощує" кілька генетичних ліній програм, які конкурують між собою в точності висловлювання шуканої залежності. Спеціальний модуль системи PolyAnalyst переводить знайдені залежності з внутрішньої мови системи на зрозумілу користувачеві мову (математичні формули, таблиці та ін.).

Інший напрям еволюційного програмування пов'язане з пошуком залежності цільових змінних від інших у формі функцій якогось певного виду. Наприклад, в одному з найбільш вдалих алгоритмів цього типу - методі групового урахування аргументів (МГУА) залежність шукають у формі поліномів. В даний час з продаються в Росії систем МГУА реалізований в системі NeuroShell компанії Ward Systems Group. Вартість систем до $500.



Генетичні алгоритми. Data Mining не основна область застосування генетичних алгоритмів. Їх потрібно розглядати скоріше як потужний засіб вирішення різноманітних комбінаторних завдань і завдань оптимізації.
Комбінато́рика (Комбінаторний аналіз) - розділ математики, присвячений розв'язанню задач вибору та розташування елементів деякої, зазвичай, скінченної множини відповідно до заданих правил. Кожне таке правило визначає спосіб побудови деякої конструкції із елементів вихідної множини, що зветься комбінаторною конфігурацією.
Проте генетичні алгоритми увійшли зараз в стандартний інструментарій методів Data Mining, тому вони і включені в даний огляд.

Перший крок при побудові генетичних алгоритмів - це кодування вихідних логічних закономірностей в базі даних, які іменують хромосомами, а весь набір таких закономірностей називають популяцією хромосом. Далі для реалізації концепції відбору вводиться спосіб зіставлення різних хромосом. Населення обробляється за допомогою процедур репродукції, мінливості (мутацій), генетичної композиції. Ці процедури імітують біологічні процеси. Найбільш важливі серед них: випадкові мутації даних в індивідуальних хромосомах, переходи (кросинговер) і рекомбінація генетичного матеріалу, що міститься в індивідуальних батьківських, та міграції генів.

Життєдіяльність - сукупність процесів, які відбуваються у живому організмі, слугують підтримці в ньому життя та є проявами життя. Для життєдіяльності характерний обмін речовин.
Генетичний матеріал - носій генетичної інформації будь-якого організму. Генетичний матеріал відомих на сьогодні організмів - майже винятково ДНК. Деякі віруси використовують РНК як свій генетичний матеріал.
У ході роботи процедур на кожній стадії еволюції виходять популяції з усе більш досконалими індивідуумами.

Генетичні алгоритми зручні тим, що їх легко розпаралелювати. Наприклад, можна розбити покоління на кілька груп і працювати з кожною з них незалежно, обмінюючись час від часу кількома хромосомами. Існують також і інші методи розпаралелювання генетичних алгоритмів.

Генетичні алгоритми мають ряд недоліків. Критерій відбору хромосом і використовувані процедури є евристичними і далеко не гарантують знаходження "кращого" ​​рішення. Як і в реальному житті, еволюцію може "заклинити" на який-небудь непродуктивною гілки. І, навпаки, можна навести приклади, як два неперспективних батька, які будуть виключені з еволюції генетичним алгоритмом, виявляються здатними призвести високоефективного нащадка. Це особливо стає помітно при вирішенні високо розмірних завдань зі складними внутрішніми зв'язками.

Прикладом може служити система GeneHunter фірми Ward Systems Group. Його вартість - близько $ 1000.

Алгоритми обмеженого перебору були запропоновані в середині 60- х років М.М. Бонгард для пошуку логічних закономірностей в даних. З тих пір вони продемонстрували свою ефективність при вирішенні безлічі завдань із всіляких областей.

Ці алгоритми обчислюють частоти комбінацій простих логічних подій у підгрупах даних. Приклади простих логічних подій: X = a ; X < a ; X a ; a < X < b та ін, де X - який або параметр, " a " і " b " - константи. Обмеженням служить довжина комбінації простих логічних подій ( у М. Бонгард вона дорівнювала 3). На підставі аналізу обчислених частот робиться висновок про корисність тієї чи іншої комбінації для встановлення асоціації в даних, для класифікації, прогнозування.

Найбільш яскравим сучасним представником цього підходу є система WizWhy підприємства WizSoft. Хоча автор системи Абрахам Мейдан не розкриває специфіку алгоритму, покладеного в основу роботи WizWhy, за результатами ретельного тестування системи були зроблені висновки про наявність тут обмеженого перебору (вивчалися результати, залежно часу їх отримання від числа аналізованих параметрів та ін.)

Автор WizWhy стверджує, що його система виявляє ВСЕ логічні if - then правила в даних. Насправді це, звичайно, не так. По-перше, максимальна довжина комбінації в if - then правилі в системі WizWhy дорівнює 6, і, по-друге, з самого початку роботи алгоритму виробляється евристичний пошук простих логічних подій, на яких потім будується весь подальший аналіз. Зрозумівши ці особливості WizWhy, неважко було запропонувати найпростішу тестову задачу, яку система не змогла взагалі вирішити. Інший момент - система видає рішення за прийнятний час тільки для порівняно невеликої розмірності даних.

Проте, система WizWhy є на сьогоднішній день одним з лідерів на ринку продуктів Data Mining. Це не позбавлене підстав. Система постійно демонструє більш високі показники при вирішенні практичних завдань, ніж всі інші алгоритми. Вартість системи близько $4000, кількість продажів - 30000.

Рисунок 1.6 – Система WizWhy виявила правила, що пояснюють низьку врожайність деяких сільськогосподарських ділянок


Системи для візуалізації багатовимірних даних. В тій чи іншій мірі засоби для графічного відображення даних підтримуються всіма системами Data Mining. Разом з тим, досить значну частку ринку займають системи, що спеціалізуються виключно на цій функції. Прикладом тут може служити програма DataMiner 3D словацької фірми Dimension5 (5-й вимір).

У подібних системах основну увагу сконцентровано на доброзичливості користувацького інтерфейсу, що дозволяє асоціювати з аналізованими показниками різні параметри діаграми розсіювання об'єктів (записів) бази даних.

Інтерфе́йс користувача́ (англ. user interface, UI, дружній інтерфейс) - засіб зручної взаємодії користувача з інформаційною системою. Сукупність засобів для обробки та відображення інформації, максимально пристосованих для зручності користувача; у графічних системах інтерфейс користувача реалізовується багатовіконним режимом, змінами кольору, розміру, видимості (прозорість, напівпрозорість, невидимість) вікон, їхнім розташуванням, сортуванням елементів вікон, гнучкими налаштовуваннями як самих вікон, так і окремих їхніх елементів (файли, папки, ярлики, шрифти тощо), доступністю багатокористувацьких налаштувань.
До таких параметрів належать колір, форма, орієнтація щодо власної осі, розміри та інші властивості графічних елементів зображення. Крім того, системи візуалізації даних забезпечені зручними засобами для масштабування і обертання зображень. Вартість систем візуалізації може досягати декількох сотень доларів.



Рисунок 1.7 – Візуалізація даних системою DataMiner 3D



  1   2   3   4   5   6   7   8   9   ...   12