Первая страница
Наша команда
Контакты
О нас

    Головна сторінка



5 Web Mining. Інтелектуальний аналіз даних в мережі Internet

Скачати 152.75 Kb.

5 Web Mining. Інтелектуальний аналіз даних в мережі Internet




Скачати 152.75 Kb.
Дата конвертації03.06.2017
Розмір152.75 Kb.

5.5. Web Mining. Інтелектуальний аналіз даних в мережі Internet


http://www.znannya.org/?view=technologies-km-3-1

Web Mining можна перекласти як «видобуток даних в Web». Web Intelligence або Web-Інтелект готовий «відкрити нову главу» в стрімкому розвитку електронного бізнесу. Здатність визначати інтереси і переваги кожного відвідувача, спостерігаючи за його поведінкою, є серйозною і критичною перевагою конкурентної боротьби на ринку електронної комерції.

Електро́нна коме́рція (від англ. e-commerce) - це сфера цифрової економіки, що включає всі фінансові та торгові транзакції, які проводяться за допомогою комп'ютерних мереж, та бізнес-процеси, пов'язані з проведенням цих транзакцій.

Системи Web Mining можуть відповісти на багато питань, наприклад, хто з відвідувачів є потенційним клієнтом Web-магазину, яка група клієнтів Web-магазину приносить найбільший дохід, якими є інтереси певного відвідувача або групи відвідувачів.

Технологія Web Mining охоплює методи, які здатні на основі даних сайту виявити нові, раніше невідомі знання і які надалі можна буде використовувати на практиці. Іншими словами, технологія Web Mining застосовує технологію Data Mining для аналізу неструктурованої, неоднорідною, розподіленої і значної за обсягом інформації, що міститься на Web- вузлах. Щоб краще зрозуміти предметну область, розглянемо основні поняття і принципи мережі Інтернет.

Предме́тна о́бласть (ПрО) - множина всіх предметів, властивості яких і відношення між якими розглядаються в науковій теорії. В логіці - гадана область можливих значень предметних змінних логічної мови.
Отримання да́них (англ. Data Mining) - виявлення прихованих закономірностей або взаємозв'язків між змінними у великих масивах необроблених даних. Зазвичай поділяють на задачі класифікації, моделювання та прогнозування.
Інтерне́т (від англ. Internet), міжмере́жжя - всесвітня система взаємосполучених комп'ютерних мереж, що базуються на комплекті Інтернет-протоколів. Інтернет також називають мережею мереж. Інтернет складається з мільйонів локальних і глобальних приватних, публічних, академічних, ділових і урядових мереж, пов'язаних між собою з використанням різноманітних дротових, оптичних і бездротових технологій.


Основні поняття і принципи


  • Електронний портал. Крупний сайт з розгалуженою структурою, що надає відвідувачам широкий спектр інформації та послуг.

  • Веб–сервер. Сервер, що приймає запити від клієнтів (часто веб- браузерів) і видає їм відповіді зазвичай разом з HTML - сторінкою, зображенням, файлом, медіа- потоком або іншими даними.

  • Веб–лог. Спеціальний файл, в який заносяться всі дії користувача на сервері.

  • Веб–контент. Інформаційний вміст Інтернет сторінки: текст, графіка, мультимедіа.

  • Веб–структура. Спосіб організації сторінок на сайті і зв'язків між ними.

  • Протокол. Мережний протокол - набір угод, який визначає правила обміну даними між різними програмами.
    Мережний протоко́л у комп'ютерних мережах - набір правил, що визначає комп'ютери у мережі. Протокол також задає загальні правила взаємодії різноманітних програм, мережевих вузлів чи систем і створює таким чином єдиний простір передачі.


  • IP–адреса. Мережна адреса вузла в комп'ютерній мережі, що побудована за протоколом IP (Internet Protocol).

  • Ідентифікація. Присвоєння відвідувачам сайту ідентифікатора і (або) порівняння його з переліком вже присвоєних.

  • Авторизація. Процес підтвердження прав зареєстрованих користувачів на виконання певних дій.

  • Клієнт. Комп'ютер або програма, що надсилає запити на сервер.

  • Гіперпосилання. Частина Інтернет сторінки (наприклад, текст або малюнок), що посилається на інший об'єкт (файл, сторінку) в мережі Інтернет.

Всі сайти мережі Інтернет зберігаються на веб-серверах. Щоб отримати сторінку сайту, браузер надсилає запити на веб-сервер. У відповідь на них повертаються файли, необхідні для формування Інтернет-сторінки у вікні браузера.

Рис. 1. Взаємодія браузера і веб-сервера

Завантаживши сторінку, користувач переглядає наявну на ній інформацію. Після чого він може перейти на іншу сторінку згідно структури сайту, зв'язки в якій встановлюються за допомогою гіперпосилань.

Для зручності навігації сторінки можуть бути об'єднані в категорії, а вони в свою чергу в розділи. Подібна структура зображена на малюнку 2.



Рис. 2. Приклад структури веб-сайту

Всередині категорій між сторінками може бути різноманітна структура (ієрархічна, послідовна, мережна). На більшості сайтів передбачено швидкий перехід з будь-якої сторінки на головну. Залежно від обраної структури користувач переміщається з однієї сторінки на іншу. На малюнку 3 зображено фрагмент структури сайту, де сторінки пронумеровані відповідно до порядку їх перегляду.

Рис. 3. Шлях користувача на сайті

Можна помітити, що між п'ятою та шостою сторінками прямого посилання немає, але виходячи зі структури, цілком очевидно, що після п'ятої сторінки користувач повернувся до першої. Звідси повний його шлях по сайту буде наступним: 1, 2, 1, 3, 4, 5, 4, 3, 1, 6, 7, 8, 7, 9, 7, 6, 10.

Виходячи з перелічених особливостей розміщення інформації в мережі Інтернет виникають різні складнощі аналізу веб-даних.


Складнощі аналізу даних з мережі Інтернет


Всесвітня мережа зараз містить величезну кількість інформації, знань. Користувачі на різних умовах можуть переглядати різні документи, аудіо- і відеофайли. Однак це різноманіття даних приховує в собі проблеми, які можуть виникнути не лише при аналізі, але і при пошуку необхідної інформації в Інтернет.

  1. Проблема пошуку потрібної інформації пов'язана з тим, що користувач не завжди відразу може знайти необхідні йому електронні ресурси. Лише невеликий відсоток посилань серед запропонованих пошуковими системами призводить до необхідних документів.
    В теорії інформації вла́сна інформ́ація (англ. self-information), або несподі́ваність (англ. surprisal), - це міра кількості інформації, пов'язаної з подією в імовірнісному просторі, або зі значенням дискретної випадкової величини.
    Електронний ресурс - це інформаційні ресурси, які керуються комп'ютером, у тому числі ті, які потребують використання периферійного пристрою, підключеного до комп'ютера. Електронними ресурсами є електронні дані (інформація у вигляді чисел, букв, символів, зображень, включаючи графічну інформацію, відеоінформацію тощо, або їхні комбінації), електронні програми або об'єднання цих видів в одному ресурсі.
    Пошуко́ва систе́ма (або скорочено пошукови́к) певна база даних - онлайн-служба (апаратно-програмний комплекс з веб-інтерфейсом), що надає можливість пошуку інформації в Інтернеті. У просторіччі під пошуковою системою розуміють веб-сайт, на котрому розміщено інтерфейс (фронт-енд) системи.
    Також такими засобами важким є пошук неіндексованої інформації.

  2. Проблема виявлення нових знань. Навіть якщо знайдено безліч інформації, для користувача витягування корисних знань є досить трудомістким і непростим завданням. Сюди ж можна і віднести складнощі, пов'язані з осмисленням відомостей, поняттям тих ідей, які були вкладені авторами.

  3. Проблема вивчення споживачів пов'язана з наданням користувачеві інформації, яка б була йому цікавою. Це особливо актуально для електронних торговельних порталів, які могли б «підказувати» користувачеві при виборі товару.

Враховуючи складності аналізу веб-даних розглянемо основні етапи Web Mining.

Етапи Web Mining


  1. Вхідний етап (input stage) - отримання «сирих» даних з джерел (логи серверів, тексти електронних документів).
    Електро́нний докуме́нт - документ, інформація в якому зафіксована у вигляді електронних даних, включаючи обов'язкові реквізити документа. Електронний документ може бути створений, переданий, збережений і перетворений електронними засобами у візуальну форму.


  2. Етап предобробки (preprocessing stage) - дані подаються у формі, що необхідна для успішної побудови тієї або іншої моделі.

  3. Етап моделювання (pattern discovery stage).

  4. Етап аналізу моделі (pattern analysis stage) - інтерпретація отриманих результатів.

Це загальні кроки, які необхідно пройти для аналізу даних мережі Інтернет.
Аналіз даних - розділ математики, що займається розробкою методів обробки даних незалежно від їх природи.
Конкретні процедури кожного етапу залежать від поставленого завдання. У зв'язку з цьому виділяють різні категорії Web Mining.

Категорії Web Mining


  1. Аналіз використання веб-ресурсів (Web Usage Mining).

  2. Витягування веб-структур (Web Structure Mining).

  3. Витягування веб-контенту (Web Content Mining).

Аналіз використання веб- ресурсів


Це напрямок ґрунтується на отриманні даних з логів веб-серверів. Метою аналізу є виявлення переваг відвідувачів при використанні тих чи інших ресурсів мережі Інтернет.

Тут вкрай важливо здійснити ретельну предобробку даних: видалити зайві записи логу, які не цікаві для аналізу.


Web Usage Mining містить складові:


  • Попередня обробка.

  • Операційна ідентифікація.

  • Інструменти виявлення шаблонів.

  • Інструменти аналізу шаблонів.

Кожен користувач мережі має свої індивідуальні смаки, погляди, залежно від яких він відвідує ті чи інші ресурси. Виявивши, які сторінки і в якій послідовності відкривав користувач, можна зробити висновок про його переваги. Аналіз загальних тенденції серед усіх відвідувачів показує, наскільки ефективно працює електронний портал, які його сторінки відвідуються найбільше, які менше.

На основі цього аналізу можна оптимізувати сайт: знайти раніше не помічені проблеми у функціонуванні, дизайні тощо.

Цей напрямок Web Mining також називають аналізом потоків кліків (click stream analysis) - упорядкована множина відвідувань сторінок, які переглянув користувач на веб-сайті.

Необхідні для аналізу дані знаходяться в логах серверів і cookie-файлах. При завантаженні веб-сторінки браузер також запитує все вставлені в неї об'єкти, наприклад графічні файли. У зв'язку з цим виникає проблема з тим, що сервер додає в журнал запису про кожний такий запит. Звідси випливає необхідність предобробки даних. Після того як виділено окремі перегляди сторінок користувачем, їх об'єднують в сесію.


Після очищення даних та підготовки їх для аналізу, варто задатися питаннями:


  • Яка сторінка є спільною точкою входу для користувачів?

  • Заходять відвідувачі на сайт через спеціально передбачену розробниками сторінку або ж вони відразу потрапляють на інші сторінки?

  • У якому порядку проглядалися сторінки? Чи відповідає цей порядок тому, що очікують від користувачів розробники?

  • Які інші веб-портали скеровують користувачів на досліджуваний сайт? З яких сайтів надходить найбільше і найменше число користувачів?

  • Як багато сторінок зазвичай переглядає користувач? Якщо користувачі йдуть з сайту після перегляду невеликого числа сторінок, то, можливо, варто зробити дизайн більш дружнім.

  • Як довго відвідувачі знаходяться на сайті? Якщо цей час менше за той, який очікують розробники, то варто знайти причини.

  • Як сторінка є найчастішою точкою виходу користувачів з сайту? Чому саме з цієї сторінки відвідувачі залишають сайт? Чи є вона спеціально передбаченої для цього чи є якісь причини, які відлякують користувача з сайту?

Лог-файли веб-серверів


Перш ніж приступити безпосередньо до аналізу потоків кліків, необхідно розібратися з типами доступних даних. Для цього розглянемо файли журналу веб-сервера - веб-логи. Для кожного запиту браузера до веб-сервера відгук генерується автоматично, і всі відомості заносяться в веб -лог-текстовий файл з роздільниками в кодуванні ASCII.

Існують різні формати журналів веб-серверів. Головна їхня відмінність полягає в кількості полів. Деякі з них є в логу будь-якого формату. Опишемо поля, які є спільними для всіх логів.



Поле «віддалений хост». Це поле веб-логу містить IP- адресу віддаленого хоста, який створив запит, наприклад «145.243.2.170». Якщо доступно ім'я віддаленого хоста, то воно може бути таким: «whgj3-45.gate.com». Його краще використовувати, ніж IP-адресу, оскільки воно може мати ще й семантичний зміст.

Поле «дата/час». У веб-логах може використовуватися формат дати/часу у вигляді «ДД: ГГ: ММ: СС», де ДД - це число місяця, ГГ: ММ: СС відображає час. Також зустрічається і більш загальний формат: «ДД/Міс/РРРР: ГГ: ММ: СС зміщення», де зміщення - позитивна чи негативна константа, що визначає часовий пояс відносно GTM (середнього часу за Гринвічем).
Часови́й по́яс - частина поверхні земної кулі, на якій прийнятий один стандартний час, який ще часто називають місцевим часом. Для зручності відліку поточного часу вся територія земної кулі поділена на 24 часові пояси шириною в середньому 15°.
Наприклад, «09/Jun/1988: 3:27:00 -0500» - 3 години 27 хвилин 9 червня 1988, час сервера на 5:00 позаду GTM.

Поле «HTTP запиту». У полі міститься інформація про те, що клієнтський браузер запитав з веб-сервера, і в ньому можуть бути виділені чотири частини:

  1. Метод запиту (правила, по яких передаються дані запиту).

  2. Уніфікований індикатор ресурсу (URI).

  3. Заголовок.

  4. Протокол.

Найчастіше зустрічається метод GET, який використовується для запиту вмісту зазначеного ресурсу. Крім цього можуть бути й інші методи: HEAD, PUT, POST.

Уніфікований індикатор ресурсу містить ім'я сторінки/документа і шлях до неї. Ця інформація може бути використана в аналізі частоти відвідувань для сторінок або файлів. Заголовок надає додаткову інформацію про запит браузера. За допомогою нього можна визначити, наприклад, які ключові слова використовує користувач в пошуковій машині сайту.

Ключове́ сло́во - слово, або сталий вислів природної мови, яке використовують для вираження деякого аспекту змісту документа (або запиту); слово, яке має істотне смислове навантаження. Воно може служити ключем під час пошуку інформації в інтернеті чи на сторінці сайту.
Пошуко́ва маши́на - програмно-апаратний комплекс, який складається з сервера, на якому встановлений і виконується пошуко́вий руші́й (англ. search engine). Пошукова машина забезпечує функціональність пошукової системи, здійснює автоматизацію пошуку в комп'ютерній мережі і паралельно виконує оперативне оновлення інформації у своїй базі даних без участі людей.
Далі зазначено найменування протоколу і його версія.



Поле коду стану. Не завжди запити браузерів закінчуються успішним результатом. Поле коду стану містить тризначне число, що позначає результат запиту сторінки браузером: вдалий чи невдалий.

Успішному завантаженню сторінки відповідає код формату «2хх», а «4хх» - помилку завантаження.

Розглянемо популярні формати веб-логів, які залежать від конфігурації сервера.

Common log format (CLF)


Формат CLF підтримується різними серверними додатками і містить сім полів:

  1. Віддалений хост.

  2. Ідентифікація.

  3. Аутентифікація.

  4. Дата/час.

  5. HTTP–запит.

  6. Код стану.

  7. Передана кількість даних.

Поле ідентифікації використовується для зберігання однакової інформації, переданої клієнтом у разі, якщо сервер виконує відповідну перевірку. Воно зазвичай містить прочерк, який означає, що інформація про ідентифікацію відсутня.

Якщо зареєстрований користувач відвідував сайт, то його ім'я заноситься в поле «аутентифікація». В інших випадках ставиться прочерк.


Extended common log format (ECLF)


ECLF - це розширений варіант формату CLF, отриманий додаванням в запис журналу двох полів: напрямок і користувацький агент.

Поле «Напрямок». Це поле містить URL попереднього сайту, з якого був перенаправлений клієнт. Для файлів, які завантажуються разом зі сторінкою, ця адреса збігається з адресою сторінки. Тут міститься важлива інформація про те, як і звідки користувачі потрапляють на портал.

Поле «Користувацький агент». Тут зосереджена інформація про клієнтський браузері і його версією, про операційну систему відвідувача.
Операці́йна систе́ма, скорочено ОС (англ. operating system, OS) - це базовий комплекс програм, що виконує управління апаратною складовою комп'ютера або віртуальної машини; забезпечує керування обчислювальним процесом і організовує взаємодію з користувачем.
Дане поле дозволяє вичислити ботів. Веб-розробники можуть використовувати це для блокування певної частини електронного порталу від подібних програм з метою рівномірного розподілу навантаження на сайт. Аналітик по цьому полю може відфільтрувати дані, залишивши тільки ті записи, які відображають діяльність реальних відвідувачів.

Приклад запису веб-логу


Розглянемо приклад запису логу формату ECLF.

149.1xx.120.116 -- smithj [28/OCT/2004:20:27:32-5000] ''GET /Default.htm HTTP/1.1'' 200 1270 ''http:/www.basegroup.ru/'' ''Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)''



  1. Віддалений хост: 149.1xx.120.116.

  2. Ідентифікація: -.

  3. Авторизація: smithj.

  4. Дата/час: [ 28/OCT/2004:20:27:32 - 5000 ].

  5. Запит: ''GET / Default.htm HTTP/1.1''.

  6. Код стану: 200.

  7. Передана кількість даних: 1270.

  8. Напрямок: ''http:/www.basegroup.ru/''

  9. Користувацький агент: ''Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)''.

Після того як витягнуто з веб-сервера лог-файл і визначено його формат, необхідно приступити до передобробки даних.

Передобробка даних


Вихідні дані, отримані з логу дозволяють отримати відомості про:

  • Перегляди сторінки.

  • Ідентифікація кожного користувача.

  • Сесія користувача, в особливості:

    • Переглянуті сторінки;

    • Порядок переглянутих сторінок;

    • Тривалість.

Для чого необхідна попередня обробка веб-даних?


Очищення даних. Набір даних необхідно відфільтрувати від записів, що генеруються автоматично спільно із завантаженням сторінки.

Видалення записів, що не відображають активність користувача. Веб-боти в автоматичному режимі переглядають безліч різних сторінок в мережі. Їх поведінка сильно відрізняється від людської, і вони не представляють інтересу з точки зору аналізу використання веб-ресурсів.
Автома́тика (грец. αύτόματος - самодіючий) - галузь науки і техніки, яка розробляє технічні засоби і методи для здійснення технологічних процесів без безпосередньої участі людини.
Аспект (лат. aspectus - вигляд, погляд) - поняття філософії (онтології, теорії пізнання). У філософії аспект розглядається


Визначення кожного окремого користувача. Більшість порталів в мережі Інтернет доступні для анонімних користувачів. Можна застосовувати інформацію про зареєстрованих користувачів, доступні cookie-файли для визначення кожного користувача.

Ідентифікація користувача сесії. Це означає, що для кожного візиту визначаються сторінки, які були запитані, порядок їх перегляду, а також коли користувач покинув веб-сайт.

Знаходження повного шляху. Багато людей використовують кнопку «Назад» для повернення до раніше переглянутої сторінці. Якщо це відбувається, то браузер відображає сторінку, раніше збережену в кеші. Це призводить до «дірок» в журналі веб-сервера. Знання про топологію сайту можна використати для відновлення таких пробілів.

Подальші кроки предобработки даних


Розглянуті вище методи предобробки специфічні виключно для даних веб-логів. Однак це не означає, що відомості вже готові до використання та побудові моделей. Далі необхідно провести звичайні кроки обробки, що використовуються в KDD, а саме:

  • Оцінка якості даних.

  • Відновлення пропущених значень.

  • Виявлення аномальних значень.

  • Нормалізація.

Витягування веб-структур


Даний напрямок розглядає взаємозв'язки між веб-сторінками, ґрунтуючись на зв'язках між ними. Побудовані моделі можуть бути використані для категоризації веб-ресурсів, пошуку схожих і розпізнавання авторських сайтів.

Залежно від поставленого завдання структура сайту моделюється з певним рівнем деталізації. У самому простому випадку гіперпосилання представляють у вигляді спрямованого графа:

G = (D, L), де D - це набір сторінок, вузлів або документів; L - набір посилань.

Витягування веб-структур може бути використано як підготовчий етап для витягування веб-контенту.


Витягування веб-контенту


Пошук знань в мережі Інтернет є непростим і трудомістким завданням, яке спроможне вирішити Web Mining. Воно засноване на поєднанні можливостей інформаційного пошуку, машинного навчання та Data Mining.
Машинне навчання (англ. machine learning) - це підгалузь інформатики (зокрема, м'яких[en] та гранульованих обчислень[en]), яка еволюціювала з дослідження розпізнавання образів та теорії обчислювального навчання[en] в галузі штучного інтелекту.
Крім того, Web Content Mining передбачає автоматичний пошук і витяг якісної інформації з різноманітних джерел Інтернету, перевантажених «інформаційним шумом». Тут також йдеться про різні засоби кластеризації та анотування документів.

В цьому напрямку, в свою чергу, виділяють два підходи: підхід, заснований на агентах, і підхід, заснований на базах даних.


Підхід, заснований на агентах (Agent Based Approach) містить системи:


  • Інтелектуальні пошукові агенти (Intelligent Search Agents).

  • Фільтрація інформації / класифікація.

  • Персоніфіковані агенти мережі.

Приклади систем інтелектуальних агентів пошуку:


  • Harvest (Brown та ін, 1994),

  • FAQ- Finder (Hammond та ін, 1995),

  • Information Manifold (Kirk та ін, 1995),

  • OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997),

  • ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),

  • ShopBot (Doorenbos та ін, 1996).

Підхід, заснований на базах даних (Database Approach) містить системи:


  • Багаторівневі бази даних.

  • Системи web-запитів (Web Query Systems).

Приклади систем web-запитів:


  • W3QL (Konopnicki і Shmueli, 1995),

  • WebLog (Lakshmanan та ін, 1996),

  • Lorel (Quass та ін, 1995),

  • UnQL (Buneman та ін, 1995 and 1996),

  • TSIMMIS (Chawathe та ін., 1994).

Аналізується зміст документів: знаходяться схожі за змістом слова та їх кількість. Потім вирішується завдання кластеризації та класифікації. Так документи групуються за змістовною близькістю. Цей напрямок можна використати для оптимізації пошуку індексованих документів.

Загальний взаємозв'язок між категоріями Web Mining і завданнями Data Mining зображено на малюнку 4.



Рис. 6. Категорії Web Mining і завдання Data Mining


Методи Web Mining в розв'язуванні завдань і реалізованих підходах

Пошук інформації


Для знаходження необхідної інформації користувачі зазвичай користуються пошуковими ресурсами. При цьому часто використовуються прості запити за ключовими словами. Результатом виконання запиту є список сторінок, відсортований за певним індексом релевантності, що описує ступінь збігу результату із запитом. Однак існуючі пошукові механізми мають недоліки.

Основним з них є низька точність результату, що викликана недостатнім врахуванням семантичних зв'язків і контексту знайдених в тексті виразів. Перспективним напрямком Web Mining в області пошуку інформації є індексація потрібних сегментів мережі з використанням інтелектуального аналізу даних, що застосовує алгоритми математичної лінгвістики і обробки природних мов.

Інформаці́йний по́шук (ІП) (англ. Information retrieval) - наука про пошук неструктурованої документальної інформації. Особливо це відноситься до пошуку інформації в документах, пошук самих документів, добуття метаданих з документів, пошуку тексту, зображень, відео та звуку у локальних реляційних базах даних, у гіпертекстових базах даних таких, як Інтернет та локальні інтранет.
Математи́чна лінгві́стика (також обчислю́вальна лінгві́стика або комп'ю́терна лінгві́стика) - напрямок штучного інтелекту, який ставить за мету використання математичних моделей для опису природніх мов.


Аналіз структури сегмента мережі


Цей метод полягає в аналізі структури посилань між різними веб-сторінками, внутрішніми і зовнішніми сайтами у виділеному мережному сегменті. Поява цього методу було викликана необхідністю вирішення завдань, що виникають при аналізі соціальних мереж або специфічних областей людської діяльності або знань, наприклад, в аналізі цитування авторів. Результатом такого аналізу може служити виявлений набір специфічних сторінок наступних типів:

  • Хаби - з такої сторінки посилання йдуть на найбільш значущі ресурси в даній галузі знань або на «знайомства»з найбільш значимими користувачами соціальної мережі;

  • Авторитети - сторінки, на які посилаються велика кількість авторів з даної тематики або користувачі соціальної мережі, до «дружбі» з якими прагне велика кількість користувачів.

Топологія структури посилань представляється у вигляді спрямованого графа з поміченими вузлами відповідно до їх функціональної класифікації і дугами з вагами, що описують, наприклад, частоти переходів за посиланнями. Для моделювання топології веб-посилань використовуються кілька алгоритмів, наприклад HITS (Jon M. Kleinberg, «Authoritative sources in hyperlink environment»).

Виявлення знань з веб-ресурсів


Це завдання перетинається з проблемою пошуку інформації. Тільки тут в дослідника вже є набір веб-сторінок, отриманих в результаті запиту. Далі потрібно провести їх обробку з точки зору автоматичної класифікації, складання змістів, виявлення ключових слів і загальних тем. Виявлені знання можуть представлятися у вигляді дерев, що описують структури документів або у вигляді логічних і семантичних виразів.

Рішення частини цих проблем пропонує Text Mining - технологія автоматичного вилучення знань у великих обсягах текстового матеріалу, що заснована на поєднанні лінгвістичних, семантичних, статистичних і машинних навчальних методик (Soumen Chakrabarti «Data mining for hypertext ", Helena Ahonen - Myka, «Finding co - occuring text phrases by combining sequence and frequent set discovery ")


Персоналізація інформації


Персоналізація веб-простору - завдання по створенню веб-систем, які адаптують свої можливості (навігація, контент, банери і інші рекламні пропозиції) під користувача на підставі зібраної та проаналізованої інформації про користувальницьких перевагах.

Класичним прикладом може бути ресурс на якому один раз замовивши дорогу книгу в твердій палітурці, користувач починає регулярно отримувати пропозиції про покупку подарункових видань за схожою тематикою.

Палітурка, оправа або тверда обкладинка (англ. hardcover) - цупка, захисна обкладинка книжки, зазвичай виготовлена з покритого з матерією картону, коленкору, важкого паперу, та рідше зі шкіри, з'єднана за допомогою подвійних аркушів паперу (форзаців) з книжковим блоком.
Інший приклад - на підставі аналізу кошиків замовлень користувача йому пропонуються товари, які він ніколи не замовляв, але які входять до кошика інших покупців, схожих з ним по транзакційній поведінці.

Для аналізу інформації про користувача слід в найменшій мірі використовувати декларовану про себе інформацію, а швидше ґрунтуватися на стійких шаблонах його «поведінки» в мережі - послідовності кліків всередині ресурсу, переходах на інші під ресурси, періодах мережної активності, здійснюваних покупках і т.д. (Masand, Redwood, «Web Usage Analysis and User Profiling», Miha Grčar «User profiling: Web usage mining»).

Пошук шаблонів в поведінці користувачів


Це завдання пов'язане з попередньою, але його метою є не адаптація ресурсу до переваг індивідуальних користувачів, а пошук закономірностей в шаблонах взаємодії користувача з веб-ресурсом з метою прогнозування його наступних дій. Аналізовані дії користувачів можуть містити не тільки переходи по посиланнях, але і відправку форм, прокрутку сторінок, додавання в обрані сторінки і т.д. Знайдені шаблони використовуються надалі для оптимізації структури сайту, вивчення цільової аудиторії і для прямого маркетингу.
Цільова́ аудито́рія - група людей, на яких розраховано певний товар, продукт, художній твір, послугу тощо. Цільова аудиторія може визначатися як до пропозиції товару чи ідеї, так постфактум за вивченням поточної ситуації.
Прямий маркетинг (з англ. direct marketing) - процес просування товарів та послуг напряму споживачу, який на відміну від просування через мас-медіа (ТВ, радіо, преса) використовує директ-медіа, медіа для доставки рекламного повідомлення безпосередньо потенційному споживачу (напр. пошта)

Розроблено багато підходів до вирішення завдання з виявлення знань з шаблонів навігації користувачів (Jose Borges і Mark Levene «Data Mining of User Navigation Patterns», AG Buechner «Navigation Pattern Discovery from Internet Data»).

З точки зору застосування алгоритмів інтелектуального аналізу даних при пошуку шаблонів користувача поведінки найчастіше використовуються такі методики:


  • Кластеризація - пошук груп схожих відвідувачів, сайтів, сторінок і т.д.

  • Асоціації - пошук спільно запитуваних сторінок або замовлених товарів.

  • Аналіз послідовностей - пошук послідовностей дій. Найбільш часто застосовується варіант алгоритму apriori, розробленого для аналізу частих наборів, але модифікованого для виявлення частих фрагментів послідовностей і переходів.

Особливо цікавий підхід кластеризації послідовностей - пошук груп користувачів з схожими послідовностями дій. На першому етапі в цьому підході виділяються послідовності класифікованих дій користувача, наприклад, в рамках однієї сесії. Потім підраховуються частоти переходів між різними діями для складання Марківського ланцюга заданого порядку. На заключному етапі отримані Марківські ланцюги кластеризуються для виявлення груп зі схожими частотами переходів.

Для прогнозування наступної дії користувача спочатку на підставі історії його дій в рамках сесії визначається група, до якої він належить з найбільшою ймовірністю. Потім визначається дія, яка виконується з найбільшою вірогідністю в цій групі з врахуванням останніх дій даного користувача. Для реалізації такого аналізу можна, наприклад, використовувати алгоритм Microsoft Sequential Clustering, що входить до Microsoft Analysis Services 2005 /2008. Недоліком алгоритму Microsoft є те, що до теперішнього часу реалізовано алгоритм, що використовує Марківські ланцюги тільки першого порядку.

Теперішній час - в українській мові - форма дієслова, що в основному виражає дію або стан, сучасні з моментом мовлення. Часто, однак, вона набуває значень безвідносних до цього моменту (у приказках, правилах, описах і т. д., наприклад, «Тиха вода греблю рве», «Київ лежить над Дніпром»)



Як приклад застосування методу аналізу послідовності дій можна привести завдання з оптимізації рубрикації одного книжкового Інтернет-магазину, проведену компанією Spellabs. Була виявлена група, що складається з користувачів, які переходять довгими шляхами по посиланнях на книги з різних рубрик і замовляють в кінцевому підсумку «езотеричну» літературу, до цього окремо не виділену в рубрику. Так було виявлено невраховану цільову аудиторію і оптимізовано структуру сайту.

В бізнес-аналітиці Web Mining вирішує наступні завдання:


  • Опис відвідувачів сайту (кластеризація, класифікація).

  • Опис відвідувачів, які здійснюють покупки в Інтернет-магазині (кластеризація, класифікація).

  • Визначення типових сесій і навігаційних шляхів користувачів сайту (пошук популярних наборів, асоціативних правил).

  • Визначення груп або сегментів відвідувачів (кластеризація).

  • Знаходження залежностей при користуванні послугами сайту (пошук асоціативних правил).




Скачати 152.75 Kb.

  • Основні поняття і принципи
  • Складнощі аналізу даних з мережі Інтернет
  • Аналіз використання веб- ресурсів
  • Web Usage Mining містить складові
  • Після очищення даних та підготовки їх для аналізу, варто задатися питаннями
  • Extended common log format (ECLF)
  • Для чого необхідна попередня обробка веб-даних
  • Подальші кроки предобработки даних
  • Витягування веб-структур
  • Витягування веб-контенту
  • Підхід, заснований на агентах (Agent Based Approach) містить системи
  • Приклади систем інтелектуальних агентів пошуку
  • Підхід, заснований на базах даних (Database Approach) містить системи
  • Методи Web Mining в розвязуванні завдань і реалізованих підходах
  • Аналіз структури сегмента мережі
  • Виявлення знань з веб-ресурсів
  • Персоналізація інформації
  • Пошук шаблонів в поведінці користувачів
  • В бізнес-аналітиці Web Mining вирішує наступні завдання