Первая страница
Наша команда
Контакты
О нас

    Головна сторінка



Перелік умовних позначень

Перелік умовних позначень




Сторінка1/4
Дата конвертації07.06.2017
Розмір0.55 Mb.
  1   2   3   4

ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ




LSA

-

Латентно-семантичний аналіз, метод обробки інформації природною мовою

TF*IDF

-

Статичний показник, що використовується для оцінки важливості слів у контексті документу

XML

-

стандарт побудови мов розмітки ієрархічно структурованих даних









ЗМІСТ
ВСТУП………………………………………………………………………………… 7

1 АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ ІНТЕЛЕКТУАЛЬНИХ МОДУЛІВ

КАТЕГОРИЗАЦІЇ ТЕКСТІВ………………………………………………………….. 9



    1. Обґрунтування доцільності розробки інтелектуального модуля

категоризації текстів………………………………………………………………... 9

1.2 Визначення основних етапів категоризації текстів………………………….. 10

1.2.1 Використання морфології……………………………………………….. 11

1.2.2 TF*IDF…………………………………………………………………..... 12

1.2.3 Боротьба з високою розмірністю……………………………………….. 13

1.3 Обґрунтування вибору методу розв'язання задачі категоризації текстів.....

Класифікація документів - це одне з завдань інформаційного пошуку, яке полягає у зарахуванні документа до однієї з кількох категорій на підставі його змісту.
15

1.4 Висновок………………………………………………………………………... 16

2 РОЗРОБКА ІНТЕЛЕКТУАЛЬНОГО МОДУЛЯ КАТЕГОРИЗАЦІЇ

ТЕКСТІВ……………………………………………………………………………..... 17

2.1Математична модель методу LSA…………………………………………….. 17

2.2 Розробка алгоритму роботи методу LSA…………………………………...... 21

2.3 Висновок………………………………………………………………………... 26

3 ПРОГРАМНА РЕАЛІЗАЦІЯ ІНТЕЛЕКТУАЛЬНОГО МОДУЛЯ

КАТЕГОРИЗАЦІЇ ТЕКСТІВ………………………………………………………… 27

3.1 Обґрунтування вибору мови програмування………………………………… 27

3.2 Розробка функціональної частини інтелектуального модуля категоризації

текстів……………………………………………………………………………..... 29

3.3 Розробка інтелектуального модулю категоризації…………………………... 30

3.4 Тестування програми та аналіз результатів………………………………….. 36

3.5 Висновок………………………………………………………………………... 38

4 ОХОРОНА ПРАЦІ………………………………………………………………..... 39

4.1 Характеристика професії та приміщення…………………………………….. 39

4.2 Аналіз стану охорони праці у відділі програмного забезпечення…………..

Охорóна прáці (рос. охрана труда; англ. labour protection; нім. Arbeitsschutz m) - це: система правових, соціально-економічних, організаційно-технічних, санітарно-гігієнічних і лікувально-профілактичних заходів та засобів, спрямованих на збереження життя, здоров'я і працездатності людини в процесі трудової діяльності; діюча на підставі відповідних законодавчих та інших нормативних актів система соціально-економічних, організаційно-технічних, санітарно-гігієнічних і лікувально-профілактичних заходів та засобів, що забезпечують збереження здоров'я і працездатності людини в процесі праці. дозвіл на початок робіт підвищеної небезпеки, який необхідний організації чи підприємству, хто працює в будівництві.
43

4.3 Розробка заходів щодо покращення умов праці на робочому місці……….. 49

4.4 Висновок………………………………………………………………………... 50

ВИСНОВКИ…………………………………………………………………………... 51

ПЕРЕЛІК ПОСИЛАНЬ……………………………………………………………..... 52

ДОДАТКИ…………………………………………………………………………….. 55

Додаток А Інструкція користувача………………………………………………….. 55

Додаток Б Лістинг програми………………………………………………………… 57

Додаток В План приміщення користувача ЕОМ…………………………………… 62

Додаток Г Графічні матеріали……………………………………………………….. 63



ВСТУП

Штучний інтелект — розділ комп'ютерної лінгвістики та інформатики, що займається формалізацією проблем та завдань, які нагадують завдання, виконувані людиною. При цьому, у більшості випадків алгоритм розв'язання завдання невідомий наперед [1].

Отримання даних — виявлення прихованих закономірностей або взаємозв'язків між змінними у великих масивах необроблених даних. Як правило поділяється на задачі класифікації, моделювання та прогнозування [2].

Класифіка́ція (фр. , англ. classification походить від лат. classis - клас і facio - роблю) - система розподілення об'єктів (процесів, явищ) за класами (групами тощо) відповідно до визначених ознак. Інколи вживають термін категоризація у значенні «розподілення об'єктів на категорії».

У наш час накопичилось багато різноманітних статей, наукових робіт, тощо, при цьому багато текстів не мають чітко сформованої теми, а назва роботи не повністю передає зміст роботи. Тому постає проблема створення інформаційної системи, яка б змогла знаходити подібні за темою роботи, або роботи за необхідною темою і змістом, а найважчою її частиною – модуль, який би автоматично визначав зміст тексту.

Подібний модуль допоміг би вирішити ще безліч задач, таких як напівавтоматична перевірка творчих робіт на певну тему, або перевірка схожості робіт за змістом. Звісно основним місцем застосування даного модулю будуть електронні бібліотеки, яким необхідне автоматичне впорядкування робіт в ній, що полегшить подальший пошук.

Інформацíйна систéма (англ. Information system) - сукупність організаційних і технічних засобів для збереження та обробки інформації з метою забезпечення інформаційних потреб користувачів.
Електро́нна бібліоте́ка (англ. Digital library) - розподілена інформаційна система, що дозволяє зберігати і використовувати різнорідні колекції електронних документів (текст, графіка, аудіо, відео і т.і.)

Також проблема категоризації, або ж визначення тематики тексту є однією з задач створення штучного інтелекту, вирішивши яку можливо було б наблизитись до розуміння машиною текстів написаних природною мовою.

Проблема категоризації текстів є актуальною у наш час, оскільки її вирішення дозволяє швидко систематизувати інформацію в електронних базах даних текстів, наприклад, в електронних бібліотеках. Це пришвидшить і зробить зручнішим пошук потрібної інформації, або схожих за тематикою робіт. Більше того даний модуль міг би вбудовуватись в інші системи, яким необхідна автоматична категоризація текстів [3].

Метою даної роботи є створення алгоритму виконання методу категоризації текстів LSA та його практична реалізація.

Об’єктом дослідження є процес категоризації текстів, а предметом дослідження є методи та засоби автоматичної категоризації текстів.

У відповідності до поставленої мети в роботі необхідно вирішити такі задачі:



  1. Аналіз відомих методів категоризації текстів.

  2. Опис алгоритму категоризації текстів.

  3. Розробка програмного забезпечення для проведення категоризації текстів.

  4. Виконання експериментальних досліджень точності категоризації текстів.

Дослідження проводилися з використанням методів алгебри, дискретної математики, прикладної теорії інформації, теорії алгоритмів та статистики.
1 АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ ІНТЕЛЕКТУАЛЬНИХ МОДУЛІВ КАТЕГОРИЗАЦІЇ ТЕКСТІВ
1.
Теорія алгоритмів (англ. Theory of computation) - окремий розділ математики, що вивчає загальні властивості алгоритмів. Виникла в 30-х роках 20 століття.
Дискре́тна матема́тика - галузь математики, що вивчає властивості будь-яких дискретних структур. Як синонім іноді вживається термін дискре́тний ана́ліз, що вивчає властивості структур скінченного характеру.
Теóрія інформáції - це розділ математики, який досліджує процеси зберігання, перетворення і передачі інформації. Теорія інформації тісно пов'язана з такими розділами математики як теорія ймовірностей і математична статистика.
Предме́тна о́бласть (ПрО) - множина всіх предметів, властивості яких і відношення між якими розглядаються в науковій теорії. В логіці - гадана область можливих значень предметних змінних логічної мови.
1 Обґрунтування доцільності розробки інтелектуального модуля категоризації текстів
У зв’язку з поширенням глобальної мережі Інтернет і, як наслідок, різким прискоренням поширення інформації виникла різка необхідність в обробці великих об'ємів текстів написаних природньою мовою.
Інтерне́т (від англ. Internet), міжмере́жжя - всесвітня система взаємосполучених комп'ютерних мереж, що базуються на комплекті Інтернет-протоколів. Інтернет також називають мережею мереж. Інтернет складається з мільйонів локальних і глобальних приватних, публічних, академічних, ділових і урядових мереж, пов'язаних між собою з використанням різноманітних дротових, оптичних і бездротових технологій.
Одним з рішень, яке зможе прискорити пошук, або ж первинний аналіз текстів є автоматична категоризація текстів, тобто визначення теми (змісту) тексту.
Контент-аналіз - якісно-кількісний метод вивчення документів, який характеризується об'єктивністю висновків і строгістю процедури та полягає у квантифікаційній обробці тексту з подальшою інтерпретацією результатів.

Однією з основних областей застосування автоматичної категоризації текстів є електронні бібліотеки. Саме їм доводиться мати справу з великими об’ємами невпорядкованої інформації. Тема певної текстової роботи не завжди несе повну інформацію про зміст самої роботи, а ручне "читання" всіх робіт зайняло б занадто багато часу, тому автоматизація даного процесу пришвидшила б людську роботу під час категоризації робіт, а як наслідок і подальший пошук певної інформації.

В більшості поширених комп’ютерних системах навчання при тестуванні використовуються питання, що засновані на прямому порівняння відповіді з заздалегідь заданим варіантом (або варіантами) відповіді. Такі тести підходять для перевірки фактологічних знань і розуміння концептуальних зв’язків в предметній області, непрямої перевірки практичних навиків вирішення задач в певній предметній області. При цьому, однак, не доступні для оцінки аспекти знань, пов’язані з можливістю тестованого практично продемонструвати свої знання і вміння в обговореннях, дискусіях, відповідях на питання співрозмовників [4].

Також, практично неможливо автоматичне тестування творчих можливостей студентів, наприклад, в рамках таких спеціальностей, як журналістика, література і переклад. Однак, існує необхідність в системі напівавтоматичної оцінки, що значно полегшить працю перевіряючого. Така система може бути створена на основі пропонованого інтелектуального модуля категоризації.

Також, варто відмітити, що на сьогоднішній день існує дуже мало рішень, які дають можливість проводити категоризацію текстів, особливо українською мовою.

Украї́нська мо́ва (МФА: [ukrɑˈjɪnʲsʲkɑ ˈmɔwɑ], історичні назви - ру́ська, руси́нська[* 2]) - національна мова українців. Належить до слов'янської групи індоєвропейської мовної сім'ї[* 3]. Число мовців - близько 45 млн, більшість яких живе в Україні.

Усі вищезгадані завданнях допоможе розв’язати інтелектуальний модуль категоризації. Який буде просто вбудувати в будь-яку систему, призначену для автоматичного вирішення приведених завдань. А отже розробка інтелектуального модуля категоризації текстів є доцільною на наш час.


1.2 Визначення основних етапів категоризації текстів
Першим етапом рішення задач автоматичної категоризації текстів є перетворення документів, що мають вид послідовності символів, до вигляду, що підходить для алгоритмів машинного навчання у відповідності із завданням категоризації.
Машинне навчання (англ. machine learning) - це підгалузь інформатики (зокрема, м'яких[en] та гранульованих обчислень[en]), яка еволюціювала з дослідження розпізнавання образів та теорії обчислювального навчання[en] в галузі штучного інтелекту.
Зазвичай алгоритми машинного навчання мають справу з векторами в просторі (званому також простором ознак). Відображення документів у простір ознак також використовується і методами, заснованими на знаннях.

Другим етапом є побудова функції категоризації за допомогою навчання на прикладах.

Якість категоризації залежить і від того, як документи будуть перетворені в векторне подання, і від алгоритму, який буде застосований на другому етапі. При цьому важливо відзначити, що методи перетворення тексту в вектор специфічні для задачі класифікації текстів і можуть залежати від колекції документів, типу тексту (простий, структурований) і мови документа.

В розпізнаванні образів та машинному навчанні ве́ктор озна́к (англ. feature vector) - це n-вимірний вектор числових ознак, що представляють певний об'єкт. Багато алгоритмів у машинному навчанні вимагають чисельного представлення об'єктів, оскільки такі представлення полегшують обробку та статистичний аналіз.
Задача класифіка́ції - формалізована задача, яка містить множину об'єктів (ситуацій), поділених певним чином на класи. Задана кінцева множина об'єктів, для яких відомо, до яких класів вони відносяться.
Методи машинного навчання, застосовувані на другому етапі, не є специфічними для задачі класифікації текстів і застосовуються також в інших областях, наприклад, для задач розпізнавання образів.

Розглянемо класичний підхід для відображення тексту в вектор, який використовується багатьма системами автоматичної класифікації текстів. Цей метод ґрунтується на припущенні про те, що категорія, до якої належить цей документ, залежить від відносної частоти слів, що входять в текст. Це припущення, звичайно, є спрощенням. Існують приклади систем, які враховують більш складні фактори: порядок слів у тексті [5], структура тексту, що містить розмітку [6].

Тео́рія розпізнава́ння о́бразів - розділ кібернетики, що розвиває теоретичні основи й методи класифікації і ідентифікації предметів, явищ, процесів, сигналів, ситуацій і т. п. об'єктів, які характеризуються кінцевим набором деяких властивостей і ознак.
Структура тексту - поняття, формування якого ще не завершено, хоча структура є природною властивістю тексту. Стосовно тексту це означає, що будь-яка теорія, яка прагне адекватно його описати, повинна відобразити його структурність.

Базовий метод відображення тексту в вектор полягає в тому, що кожному слову, яке зустрічається в якомусь документі, відповідає певна координата в просторі ознак. Для слова, що зустрічається в документі, значення відповідної координати позитивно і пропорційно частоті слова в документі. Для слова, яке не зустрічається в документі, значення відповідної координати дорівнює нулю.

Є декілька причин, по яких слід прагнути зменшити розмір простору ознак. По-перше, облік всіх зустрінутих в документах слів призводить до занадто великої розмірності простору, хоча багато слова слабо впливають на результати категоризації (або взагалі не впливають). Висока розмірність простору ознак може призводити до високої обчислювальної похибки і низькій швидкості роботи алгоритмів навчання.

Розмі́рність, Вимір, Вимірність (англ. dimension) - кількість незалежних параметрів (вимірів), необхідних для опису стану об'єкта, або кількості ступенів вільності фізичної або абстрактної системи.
По-друге, відображення декількох близьких за значенням слів в одну координату може поліпшити результати категоризації. Наприклад, різні морфологічні форми слова слід вважати еквівалентними.

Опишемо основні прийоми, застосовувані для перетворення текстів в вектори простору ознак.
1.2.1 Використання морфології
Для того щоб об'єднувати різні морфологічні форми слова в одну координату простору ознак, кожне слово вихідного тексту приводиться до своєї нормалізованому формі (лемме). Для англійської мови зазвичай застосовується процедура нормалізації слів, яка полягає у відсіканні закінчення слова (stemming).

Англі́йська мо́ва (English, the English language) - мова, що належить до германської групи індоєвропейської сім'ї мов. Одна з найпоширеніших мов у світі, особливо як друга мова та мова міжнародного спілкування.
Для української мови процедура нормалізації слів є більш складною, але на даний момент існують поширені методи її вирішення [7]. Окремою проблемою є той факт, що в природній мові одному слову тексту може відповідати кілька різних початкових форм. У таких випадках має сенс додавати до тексту усі початкові форми слова. Існують методи дозволу багатозначності слів у тексті [8], які дозволяють визначати, який із значень слова слід використовувати в даному випадку, однак ми не будемо розглядати ці методи в рамках даної роботи.
1.2.2 TF*IDF
Окремим завданням при перетворенні тексту в вектор є обчислення значень координат у просторі, відповідних ознаками, також званих вагами ознак. Вибір ваг ознак істотно впливає на якість категоризації. У статті [9] наводиться докладне дослідження різних підходів до вибору ваг ознак. Результати експериментів, описаних в цій статті, показують, що однією з кращих формул обчислення ваг є

(1.1)

Де – вага i-ого слова, tfi частота використання i-ого слова в даному документі (term frequency), – логарифм відношення кількості всіх документів у колекції до кількості документів, в яких зустрічається i-е слово (inverse document frequency).

Такий вибір формули можна обґрунтувати теоретично такими міркуваннями:


  1. Чим частіше слово зустрічається в документі, тим воно важливіше. Цей факт враховує множник tfi.

  2. Якщо слово зустрічається в багатьох або у всіх документах, то це слово не може бути істотним критерієм приналежності документа категорії і його вага слід знизити. Навпаки, якщо слово зустрічається в малій кількості документів, то його вага слід підвищити. Множник враховує це міркування і відповідає вазі слова ("контрастності") в даній колекції документів.

  3. Для того щоб врахувати різну довжину текстів документів у колекції, ваги слів документів слід нормалізувати. У формулі (1) ваги нормалізуються так, щоб сума квадратів ваг кожного документа дорівнювала 1.

Існують також інші варіанти формули tf*idf, які дають близькі за якістю результати. У наших експериментах ми використовували TF * IDF у формулюванні INQUERY [10]:



(1.2)

де dl - міра довжини документа, avg_dl - середня довжина документа, β = 0.4, де N - кількість документів у колекції, n - кількість документів, де зустрілося i-е слово.

У деяких випадках для обчислення ваги слова в тексті залучається також додаткову інформацію. Наприклад, можна враховувати інформацію про структуру тексту і словами, зустрінутим в заголовку, присвоювати більшу вагу [11].


1.2.3 Боротьба з високою розмірністю
Боротьба з високою розмірністю означає скорочення числа використовуваних атрибутів шляхом виділення найбільш значимих.

Навіть після приведення всіх слів документа до нормалізованому формі, отримане простір ознак має дуже велику розмірність (десятки тисяч). Цю розмірність можна істотно зменшити без погіршення якості категоризації, якщо викинути слова, слабо впливають на результати категоризації [12].

По-перше, зазвичай із списку ознак видаляють так звані "стоп-слова" - прийменники, сполучники і т.п. Це не сильно скорочує розмірність простору ознак (список стоп-слів складається вручну і зазвичай є невеликим). Але зате видалення стоп-слів зазвичай покращує якість категоризації за рахунок видалення інформаційного шуму.

По-друге, зі списку ознак можна видалити занадто рідко зустрічаються слова.





(1.3)

Де





P(xi,c) - ймовірності спільного розподілу слів і категорії. Легко бачити, що якщо розподілу слова xi і категорії статистично c незалежні, то MI(xi,c) = 0. Якщо ж між зустрічаємістю слова xi і категорії c мається сувора логічна залежність, то MI(xi,c) - максимально. Метод скорочення розмірності на основі виділення найбільш інформаційно-значущих слів застосовується, наприклад, в роботі [13].
1.3 Обґрунтування вибору методу розв'язання задачі
В даній дипломній роботі було вибрано для інтелектуальної категоризації текстів метод LSA. Так, як він є одним з найперспективніших методів, що дозволяє отримувати дані, про зміст приведеного тексту.

LSA дозволяє знаходити значення слів з урахуванням контексту їх використання шляхом обробки великого набору текстів. Принцип дії методу заклечається у тому, що порівняння множини всіх контекстів, в яких слова, або групи слів використовуються і контекстів, в яких вони не використовуються, дозволяє зробити висновок про ступінь наближеності цих слів, або груп слів.

Вперше метод LSA був описаний в роботі [14] і потім розвинутий в роботах Scott Deerwester, Susan Dumais, George Furnas та інших. Сьогодні лідером в області застосування даного методу є компанія Pearson Knowledge Technologies. Її комерційні продукти дозволяють переконатись в гарній ефективності методу. Однак, конкретні алгоритми реалізації цього методу не опубліковані, оскільки вони є комерційною таємницею.

Комерці́йна таємни́ця - інформація, яка є секретною в тому розумінні, що вона в цілому чи в певній формі та сукупності її складових є невідомою та не є легкодоступною для осіб, які звичайно мають справу з видом інформації, до якого вона належить, у зв'язку з цим має комерційну цінність та була предметом адекватних існуючим обставинам заходів щодо збереження її секретності, вжитих особою, яка законно контролює цю інформацію.

Представлення слова та абзацу з допомогою методу LSA в багато чому моделює сприйняття тексту людиною [15]. Наприклад, з його допомогою можна оцінити есе на певну тему, або спів ставити змісти уривків тексту.

LSA можна розглядати, як:


  • практичний прийом для отримання наближений оцінок контекстного зв’язку слів в великих фрагментах по змісту, або оцінок змістових кореляцій між словом і набором слів;

  • як комп’ютерну модель отримання і використання знань людиною, що читає текст.

В якості практичного методу, що характеризує значення слова, LSA дозволяє виміряти кореляції типу "слово-слово", "слово-відривок" і "відривок-відривок". Ці кореляції моделюють механізм мислення людини, який спів ставляє частини тексту по змісту. Досвід показує присутність зв’язку між результатами роботи методу і людським сприйняттям. Важливо відмітити, що результати, що дає метод LSA, залежать не лише від частоти використання слів у відривках. Метод заснований на виявленні більш глибоких ("латентних") зв’язків і, таким чином, краще моделює людське сприйняття тексту, ніж прості методи, засновані на частоті використання слів [16].

Варто відмітити, що в методу LSA є певні обмеження. В ньому не використовується інформація про порядок слів, відповідно він не враховує синтаксичні відношення, логіку, або морфологію. Не дивлячись на це, результати методу достатньо достовірно відображають змістові кореляції між словами і уривками [14].

Існує дві основні різниці між методом LSA і іншими методами статистичної обробки текстів:


  • в якості вхідних даних LSA використовує частоту використання слів в відривках тексту,а не частоту спільного використання слів;

  • метод збирає дані не про парне сумісне використання слів, а про використання множини слів в великому масиві уривків.

Таким чином, метод розглядає вплив вибору, а не порядку слів на зміст уривку. Можна сказати, що LSA представляє значення слова, як середня значень уривків, в яких воно зустрічається, а значення уривку – як середнє значення всіх слів, що будують уривок.
1.4 Висновок
У зв’язку з зростанням необхідності

  1   2   3   4