Первая страница
Наша команда
Контакты
О нас

    Головна сторінка



Магістерська кваліфікаційна робота присвячена розробці інформаційної технології індивідуального ранжування текстів на основі інтелектуального модуля категоризації для покращення методу рекомендацій фільтрації вмісту

Магістерська кваліфікаційна робота присвячена розробці інформаційної технології індивідуального ранжування текстів на основі інтелектуального модуля категоризації для покращення методу рекомендацій фільтрації вмісту




Сторінка1/6
Дата конвертації25.03.2017
Розмір1.14 Mb.
  1   2   3   4   5   6


АНОТАЦІЯ

Магістерська кваліфікаційна робота присвячена розробці інформаційної технології індивідуального ранжування текстів на основі інтелектуального модуля категоризації для покращення методу рекомендацій фільтрації вмісту.

Програмна реалізація є прикладом використання штучного інтелекту для розв’язання задач класифікації. Розробка рекомендаційної системи здійснена з дотриманням загальноприйнятих стандартів та використанням шаблонів проектування. Підтримується надання рекомендацій в режимі реального часу, одразу після розгортання системи в новому середовищі.

Під час виконання роботи розроблено інтелектуальну систему в середовищі розробки IntelliJ IDEA 15.0 при використанні мови програмування Java 8.

Шаблони проектування програмного забезпечення (англ. software design patterns) - ефектні способи вирішення задач проектування програмного забезпечення. Шаблон не є закінченим зразком, який можна безпосередньо транслювати в програмний код.
IntelliJ IDEA - комерційне інтегроване середовище розробки для різних мов програмування (Java, Python, Scala, PHP та ін.) від компанії JetBrains. Система поставляється у вигляді урізаної по функціональності безкоштовної версії «Community Edition» і повнофункціональної комерційної версії «Ultimate Edition», для якої активні розробники відкритих проектів мають можливість отримати безкоштовну ліцензію. Сирцеві тексти Community-версії поширюються рамках ліцензії Apache 2.0. Двійкові збірки підготовлені для Linux, Mac OS X і Windows.
Задача класифіка́ції - формалізована задача, яка містить множину об'єктів (ситуацій), поділених певним чином на класи. Задана кінцева множина об'єктів, для яких відомо, до яких класів вони відносяться.
Реальний час - режим роботи автоматизованої системи обробки інформації і керування, при якому враховуються обмеження на часові характеристики функціювання.
Java (вимовляється Джава; інколи - Ява) - об'єктно-орієнтована мова програмування, випущена 1995 року компанією «Sun Microsystems» як основний компонент платформи Java. З 2009 року мовою займається компанія «Oracle», яка того року придбала «Sun Microsystems».

Результат магістерської кваліфікаційної роботи може бути використаний для впровадження на підприємствах малого та середнього бізнесу, що займаються роботою з текстами (переважно електронні бібліотеки та сайти новин), наукових проектах тощо.

Електро́нна бібліоте́ка (англ. Digital library) - розподілена інформаційна система, що дозволяє зберігати і використовувати різнорідні колекції електронних документів (текст, графіка, аудіо, відео і т.і.)
Середній бізнес - бізнес-термін, яким позначають дещо середнє і взаємопроникне між малим і великим бізнесом. Але попри це, середній бізнес дуже часто згадується засобами масової інформації у парній конфігурації разом саме з малим бізнесом, що підкреслює їх більшу схожість за певними характеристиками.


ABSTRACT

Master's qualification work is devoted to the development of information technology of individual ranking based on text categorization module for improving content filtering recommendation method.

Інформаці́йні техноло́гії, ІТ (використовується також загальніший / вищий за ієрархією термін інформаційно-комунікаційні технології (Information and Communication Technologies, ICT) - сукупність методів, виробничих процесів і програмно-технічних засобів, інтегрованих з метою збирання, опрацювання, зберігання, розповсюдження, показу і використання інформації в інтересах її користувачів.

Program realization is an example of artificial intelligence use for resolving of classification problems. Development of recommendation system implemented in compliance with accepted standards and use of design patterns. Recommendations in real time supported immediately after the deployment in a new environment.

During the work execution was developed an intelligent system in the development framework IntelliJ IDEA 15.0 and used programming language Java 8.



Results of master's qualification work could be implemented in small and medium enterprises engaged in the text analysis (mainly electronic libraries and news sites), research projects, etc.

ЗМІСТ



ВСТУП.....................................................................................................................

7

1 АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ ІНДИВІДУАЛЬНОГО РАНЖУВАННЯ ТЕКСТІВ.....................................................................................

12

1.1 Аналіз проблеми розв’язання задачі індивідуального ранжування текстів..

12

1.2 Класифікація систем інтелектуального ранжування текстів..........................

13

1.2.1 Рекомендаційні системи на основі фільтрації вмісту...................................

16

1.2.2 Колаборативні рекомендаційні системи.......................................................

19

1.2.3 Гібридні рекомендаційні системи.................................................................

24

1.3 Аналіз методів індивідуального ранжування текстів.....................................

24

1.3.1 Алгоритм TF-IDF............................................................................................

24

1.3.2 Алгоритм BoW................................................................................................

27

1.3.3 Алгоритм колаборативної фільтрації............................................................

29

1.3.4 Алгоритм Slope One........................................................................................

29

1.3.5 Алгоритм K-Means..........................................................................................

31

1.4 Висновки.............................................................................................................

33

2 РОЗРОБКА ІНФОРМАЦІЙНОЇ ТЕХНОЛОГІЇ ІНДИВІДУАЛЬНОГО РАНЖУВАННЯ ТЕКСТІВ НА ОСНОВІ ІНТЕЛЕКТУАЛЬНОГО МОДУЛЯ КАТЕГОРИЗАЦІЇ....................................................................................................

34

2.1 Інтелектуальний модуль категоризації............................................................

34

2.1.1 Розробка моделі інтелектуального модулю категоризації..........................

36

2.1.2 Розробка алгоритму роботи інтелектуального модулю категоризації.......

41

2.2 Інформаційна технологія індивідуального ранжування текстів....................

48

2.2.1 Розробка моделі інформаційної технології індивідуального ранжування текстів.......................................................................................................................

49

2.2.2 Розробка алгоритму роботи інформаційної технології індивідуального ранжування текстів..................................................................................................

50

2.3 Висновки.............................................................................................................

54

3 ПРОГРАМНА РЕАЛІЗАЦІЯ ІНФОРМАЦІЙНОЇ ТЕХНОЛОГІЇ ІНДИВІДУАЛЬНОГО РАНЖУВАННЯ ТЕКСТІВ НА ОСНОВІ ІНТЕЛЕКТУАЛЬНОГО МОДУЛЯ КАТЕГОРИЗАЦІЇ........................................

55

3.1 Обґрунтування вибору мови програмування...................................................

55

3.2 Розробка функціональної частини інформаційної технології інтелектуального ранжування текстів...................................................................

57

3.3 Програмна реалізація інформаційної технології індивідуального ранжування текстів..................................................................................................

59

3.4 Тестування програмного продукту і аналіз отриманих результатів

62

3.5 Висновки.............................................................................................................

67

4. ЕКОНОМІЧНА ЧАСТИНА................................................................................

68

4.1 Оцінювання комерційного потенціалу розробки............................................

68

4.2 Прогнозування витрат на виконання наукової роботи та впровадження результатів................................................................................................................

76

4.3 Прогнозування комерційних ефектів від реалізації результатів розробки

81

4.4 Розрахунок ефективності вкладених інвестицій та періоду їх окупності

83

4.5 Висновки.............................................................................................................

87

ВИСНОВКИ.............................................................................................................

88

ПЕРЕЛІК ВИКОРИСТАНИХ ДЖЕРЕЛ................................................................

89

Додаток А Технічне завдання.................................................................................

92

Додаток Б Інструкція користувача.........................................................................

96

Додаток В Лістинг програми..................................................................................

98

Додаток Г Графічна частина...................................................................................

111



ВСТУП

Актуальність теми. Швидкий розвиток мережі Інтернет та простий доступ до комп’ютерів і глобальної мережі призвів до колосального збільшення кількості інформації, переважно текстової.
В теорії інформації вла́сна інформ́ація (англ. self-information), або несподі́ваність (англ. surprisal), - це міра кількості інформації, пов'язаної з подією в імовірнісному просторі, або зі значенням дискретної випадкової величини.
Інтерне́т (від англ. Internet), міжмере́жжя - всесвітня система взаємосполучених комп'ютерних мереж, що базуються на комплекті Інтернет-протоколів. Інтернет також називають мережею мереж. Інтернет складається з мільйонів локальних і глобальних приватних, публічних, академічних, ділових і урядових мереж, пов'язаних між собою з використанням різноманітних дротових, оптичних і бездротових технологій.
Сьогодні кожен підключений до мережі Інтернет з легкістю може доступитись майже до будь-якої інформації з будь-якої частини світу. Так само кожен може і внести свій вклад, створивши певну інформацію і виклавши її в мережу, де вона стане доступною кожному. Кількість веб-сторінок в мережі Інтернет зросла з 100 тисяч в 1996 році до більш, як 900 мільйонів в 2015 році. Ці фактори призводять до перенавантаження інформаційного простору.
Частини світу - це найбільші глобальні географічні регіони, до яких належать материки чи їхні значні частини разом із прилеглими островами. Зазвичай виділяють шість частин світу: Австралія і Океанія Азія Америка Антарктида Африка Європа
Інформаці́йний про́стір (англ. Information space) - сукупність результатів семантичної діяльності людства.
Щоб уникнути "потопу" від інформації потрібно автоматично обробляти та фільтрувати інформаційний потік за допомогою комп’ютерних можливостей. Одним з напрямків, який може допомогти у пошуку та відборі корисної інформації – це рекомендаційні системи [1].

Рекомендаційні системи можуть використовуватися для рекомендацій практично будь - яких сутностей: новин, фільмів, книг, статей, готелів, веб - сторінок, музики, тощо. Рекомендаційні системи широко застосовуються в електронній комерції та соціальних мережах.

Рекомендаційна система - підклас системи фільтрації інформації, яка будує рейтинговий перелік об'єктів (фільми, музика, книги, новини, веб-сайти), яким користувач може надати перевагу. Для цього використовується інформація з профілю користувача.
Інформаційний потік - стабільний рух інформації, спрямований від джерела інформації до отримувача, визначений функціональними зв’язками між ними.
Електро́нна коме́рція (від англ. e-commerce) - це сфера цифрової економіки, що включає всі фінансові та торгові транзакції, які проводяться за допомогою комп'ютерних мереж, та бізнес-процеси, пов'язані з проведенням цих транзакцій.
При створенні рекомендаційної системи може враховуватися думка всіх користувачів, експертів, близьких за інтересами користувачів. Рекомендації можуть бути генеровані для користувацьких груп (за віком, за статтю, за місцем проживання, місцем роботи, тощо) та персоналізовані [2].

Великий недолік рекомендаційних систем у використанні статичної інформації, що вже відома про об’єкт рекомендацій, а тексти розміщені в мережі Інтернет, або електронних бібліотеках, як правило не мають чітко сформованої теми, "хмар тегів" (або груп тем), чи іншої мета-інформації, крім, власне, самого тексту [3]. Тому постає нова проблема створення такої інформації автоматично без залучення людини (або з мінімальним її залученням), яка б читала і обробляла такі тексти. Одним з запропонованих рішень є модуль категоризації, який зможе автоматично, за допомогою алгоритмів добування інформації будувати список найбільш відповідних тем тексту.

Основним підходом до вирішення цієї проблеми є використання штучного інтелекту. Штучний інтелект надає можливість систематизувати інформацію та автоматизувати процес пошуку необхідних даних.

Одним з перспективних напрямків розвитку штучного інтелекту є обробка природної мови.

Отримання да́них (англ. Data Mining) - виявлення прихованих закономірностей або взаємозв'язків між змінними у великих масивах необроблених даних. Зазвичай поділяють на задачі класифікації, моделювання та прогнозування.
Обро́бка приро́дної мо́ви - загальний напрямок інформатики, штучного інтелекту та математичної лінгвістики. Він вивчає проблеми комп'ютерного аналізу та синтезу природної мови. Стосовно штучного інтелекту аналіз означає розуміння мови, а синтез - генерацію розумного тексту.
Цей напрямок вивчає проблеми комп'ютерного аналізу та синтезу природної мови. Стосовно штучного інтелекту аналіз означає розуміння мови, а синтез - генерацію розумного тексту. Розв'язок цих проблем буде означати створення зручнішої форми взаємодії комп'ютера та людини. Розуміння природної мови іноді вважають AI-повною задачею, тому що розпізнавання живої мови потребує величезних знань системи про оточуюче середовище та можливості взаємодіяти з ним.
В галузі штучного інтелекту, найскладніші задачі неформально називають AI-повними (англ. AI-complete, AI-hard), наголошуючи на тому, що обчислювальна складність цих задач еквівалентна складності вирішення головного завдання штучного інтелекту- створення комп’ютерів, настільки ж розумних, як і люди.
Саме означення змісту слова «розуміти» — одна з головних задач штучного інтелекту. У наш час значну роль у вирішенні задач з обробки даних природною мовою відіграють онтології, наприклад, WordNet, UWN.
Обро́бка да́них - систематична цілеспрямована послідовність дій над даними. Обробка даних містить в собі множину різних операцій.
Саме визначення сенсу слова "розуміти" – одна з основних задач штучного інтелекту [4].

Модуль категоризації використовує інтелектуальні алгоритми добування даних для обробки текстів написаних природною мовою і може не тільки визначати тематики текстів, але й допомогти вирішити ще безліч задач, таких як напівавтоматична перевірка творчих робіт на певну тему, або перевірка схожості робіт за змістом. Що до рекомендаційних систем він також може робити динамічну перевірку схожості двох тестів і надавати таку інформацію рекомендаційній системі, яка в свою чергу володіючи більш повною інформацію (як правило це користувацькі оцінки) про тексти, що є об’єктом рекомендації може провести процес рекомендації.

Використання методів штучного інтелекту для розв'язання поставленої задачі є актуальним через те, що простір пошуку розв'язків є нескінченно великим, а також на сьогоднішній день використання штучного інтелекту є одним з найперспективніших шляхів розвитку науки і техніки. Крім того використання методів штучного інтелекту надає великі можливості для модифікацій і налаштування різних методів під конкретну необхідну задачу, а отже дозволяє таким чином досягати кращий у порівнянні з традиційними існуючими методами результат [5].

Таким чином, застосування для розв’язання задачі сучасних методів штучного інтелекту забезпечує не лише впровадження інтелектуальних засобів обчислення на підприємство, а й являється актуальною темою дослідження нових методів використання штучного інтелекту.



Зв'язок роботи з науковими програмами, планами, темами.

Магістерська робота виконана відповідно до напрямку наукових досліджень кафедри комп’ютерних наук Вінницького національного технічного університету, теми кафедральної науково-дослідної роботи 22 К1 «Моделі, методи технології та пристрої інтелектуальних інформаційних систем управління, економіки, навчання та комунікацій» та плану наукової та навчально-методичної роботи кафедри.

Інформацíйна систéма (англ. Information system) - сукупність організаційних і технічних засобів для збереження та обробки інформації з метою забезпечення інформаційних потреб користувачів.
Наукове дослідження - процес дослідження певного об'єкта (предмета або явища) за допомогою наукових методів, яке має на меті встановлення закономірностей його виникнення, розвитку і перетворення в інтересах раціонального використання у практичній діяльності людей.
Вíнницький націона́льний технічний університе́т - вищий навчальний заклад четвертого рівня акредитації.


  1   2   3   4   5   6



  • ABSTRACT
  • ВСТУП Актуальність теми.
  • Звязок роботи з науковими програмами, планами, темами.
  • Вінницького національного технічного університету