Первая страница
Наша команда
Контакты
О нас

    Головна сторінка



Дисертацією є рукопис

Скачати 305.8 Kb.

Дисертацією є рукопис




Скачати 305.8 Kb.
Сторінка1/3
Дата конвертації09.04.2017
Розмір305.8 Kb.
ТипАвтореферат
  1   2   3

Міністерство освіти і науки, молоді та спорту України

Харківський національний університет радіоелектроніки


ШУБКІНА ОЛЬГА ВАСИЛІВНА


УДК 004.912:004.

Радіоелектро́ніка - галузь науки і техніки, яка охоплює теорію, методи створення та використання пристроїв для передавання, приймання та перетворення інформації за допомогою електромагнітної енергії.
8


Методи та моделі семантичного анотування текстових документів з використанням штучних нейронних мереж


05.13.23 – системи та засоби штучного інтелекту
Автореферат дисертації на здобуття наукового ступеня кандидата технічних наук

Харків – 2011

Дисертацією є рукопис.


Роботу виконано у Харківському національному університеті радіоелектроніки Міністерства освіти і науки, молоді та спорту України.

Анота́ція (лат. annotatio - зауваження, помітка) - короткий виклад змісту книги, статті, розробки, звіту тощо. Дозволяє робити висновки про доцільність їх докладнішого вивчення. При анотуванні крім змісту твору, враховується його призначення, цінність, направленість.
Сема́нтика мовна (давніше семасіологія) - розділ мовознавства, пов'язаний з лексикологією; вивчає значення (теж у діахронному, іст. перекрої) слів і їх складових частин, словосполук і фразеологізмів. Слово походить від грецького слова σημαντικός (семантікос), «значимий», з σημαίνω (семаіно), «значити, вказувати» та також від σήμα (сема), «знак, позначка, символ».
Нау́ка - сфера діяльності людини, спрямована на отримання (вироблення і систематизацію у вигляді теорій, гіпотез, законів природи або суспільства тощо) нових знань про навколишній світ. Основою науки є збирання, оновлення, систематизація, критичний аналіз фактів, синтез нових знань або узагальнень, що описують досліджувані природні або суспільні явища та (або) дозволяють будувати причинно-наслідкові зв'язки між явищами і прогнозувати їх перебіг.
Міністе́рство осві́ти і нау́ки Украї́ни (МОН України) - центральний орган виконавчої влади України.
Те́кстовий файл - форма подання послідовності символів у комп'ютері, де кожен символ із задіяного набору символів кодується одним байтом чи послідовністю двох, трьох і т. д. байтів. На відміну від терміна «текстовий формат», що характеризує вміст даних, термін «текстовий файл» стосується файлу та характеризує його як контейнер, який зберігає такі дані.
Штучна нейронна мережа (ШНМ, англ. artificial neural network, ANN, рос. искусственная нейронная сеть, ИНС) - це математична модель, а також її програмна та апаратна реалізація, побудовані за принципом функціювання біологічних нейронних мереж - мереж нервових клітин живого організму.
Харківський національний університет радіоелектроніки (ХНУРЕ) - вищий навчальний заклад в Україні, IV рівня акредитації. ХНУРЕ - унікальний технічний університет, єдиний в Україні спеціалізований університет, в якому зосереджені практично усі спеціальності, пов'язані з Інформаційними технологіями, радіотехнікою та електронікою.




Науковий керівник

кандидат технічних наук, доцент

Рябова Наталія Володимирівна,

Харківський національний університет радіоелектроніки, в.о. завідувача кафедри штучного інтелекту.


Офіційні опоненти:


доктор технічних наук, професор

Асєєв Георгій Георгійович,

Харківська державна академія культури Міністерства культури і туризму України, завідувач кафедри інформаційних технологій, м. Харків.
доктор технічних наук, професор

Єрохін Андрій Леонідович, Харківський національний університет внутрішніх справ Міністерства внутрішніх справ України, начальник факультету психології, менеджменту, соціальних та інформаційних технологій, м. Харків.


Захист відбудеться « » грудня 2011 р. о годині на засіданні спеціалізованої вченої ради Д 64.052.01 у Харківському національному університеті радіоелектроніки за адресою: 61166, м. Харків, пр. Леніна, 14.


З дисертацією можна ознайомитися у бібліотеці Харківського національного університету радіоелектроніки за адресою: 61166, м. Харків, пр. Леніна, 14.

Автореферат розісланий « » листопада 2011 р.




Вчений секретар

спеціалізованої вченої ради


С.Ф. Чалий




ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. З огляду на те, що більша частина інформації як у корпоративних системах, так і в Інтернет зберігається в текстовому вигляді (електронні документи, розсилки новин), кожному екземпляру концептів онтології, що відбиває структурні знання, можна поставити у відповідність певний текстовий документ або якусь його частину залежно від заданих умов. Такий процес формування метаданих називається семантичним анотуванням та використовує три основних компоненти: онтології, корпуси текстів та способи побудови класифікатора для отримання знань.
Докуме́нт - базова теоретична конструкція, яка відноситься до всього, що може бути збережене або представлене, щоб служити як доказ для певної мети.
Класифікатор (рос. классификатор, англ. classifier, нім. Klassierer m, Sichter m, Klassifikator m) - безситовий апарат, яким мінеральні суміші поділяють на класи крупності (під впливом сили ваги, відцентрових сил) залежно від розміру, форми або густини частинок.
Метада́ні, у загальному випадку, - це дані, що характеризують або пояснюють інші дані. Наприклад, значення «123456» само по собі недостатньо виразно. А якщо значенню «123456» зіставлено достатньо виразне ім'я «поштовий індекс» (що вже є метаданими), то в цьому контексті значення «123456» більш осмислено - можна витягати інформацію про місцеположення адресата, що має даний поштовий індекс.
Компонент (англ. component, нім. Komponente f) - різновид, складова частина чогось.

Створення семантичних анотацій вручну забирає досить багато часу й призводить до значних грошових витрат, що зумовило виникнення методів напівавтоматичної та автоматичної побудови семантичних анотацій, які, в свою чергу, мають низку недоліків, наприклад, використання шаблонів заповнення або апріорі заданих правил. При цьому часто необхідно істотно обмежувати розмірність об’єктів, що надходять на обробку. Це не дозволяє враховувати максимальну кількість релевантних характеристик, що є суттєвим за умов обмеженої навчальної вибірки.

Релева́нтність (англ. relevance) - міра відповідності отримуваного результату бажаному.
Кількість - в Арістотелівській логіці друга з 10 категорій (класів, розрядів, які спрощують процес розумового визначення будь-якої речі), побічна обставина матеріальних речей , за допомогою якої вони поширюються в просторі, вимірюються якоюсь математичною нормою і здатні бути поділеними на окремі частини.
Крім того, часто система видає лише однозначне рішення належності текстового об’єкта до певного класу онтології, що здебільшого не є достатнім для формування необхідних знань відносно текстових колекцій. Це є суттєвим недоліком відомих методів.

У рамках зазначених напрямків найбільш істотний внесок зробили такі вчені, як: Berners-Lee T., Hendler J., Lassila O., Gärdenfors P., Поспелов Г.С., Гаврилова Т.А., Хорошевський В.Ф., Палагін О.В., Леонтьєва Н.М., Piatetsky-Shapiro G., Frawley W. та інші.

Незважаючи на велику кількість наукових робіт, все ще існує проблема семантичного анотування текстових документів, викликана потребою в створенні семантичних анотацій або таких описів текстових документів у машинно-зрозумілому вигляді, які засновано на автоматичній обробці інформації та видобуванні нових знань із текстових джерел.

Наукове дослідження - процес дослідження певного об'єкта (предмета або явища) за допомогою наукових методів, яке має на меті встановлення закономірностей його виникнення, розвитку і перетворення в інтересах раціонального використання у практичній діяльності людей.
Обробка інформації́ - вся сукупність операцій (збирання, введення, записування, перетворення, зчитування, зберігання, знищення, реєстрація), що здійснюються за допомогою технічних і програмних засобів, включаючи обмін по каналах передачі даних [6.
Відповідно, існує потреба в таких методах і вирішенні завдань семантичного анотування. У зв’язку з цим, робота є актуальною, що і визначає перспективність як теоретичних, так і практичних результатів.
Результат, пі́дсумок, (заст. ску́ток, вислід) - кінцевий наслідок послідовності дій. Можливі результати містять перевагу, незручність, вигоду, збитки, цінність і перемогу. Результат є етапом діяльності, коли визначено наявність переходу якості в кількість і кількості в якість.
Тео́рія (від грец. θεωρία - розгляд, дослідження) - сукупність висновків, що відображає відносини і зв'язки між явищами реальності у вигляді інформаційноі моделі. Теорією стає гіпотеза, що має відтворюване підтвердження явищ та механізмів і дозволяє спостерігачу прогнозувати наслідки дій чи зміни стану об'єкта спостережень.



Зв’язок теми дисертації з планами наукових робіт. Роботу виконано на кафедрі штучного інтелекту Харківського національного університету радіоелектроніки відповідно до плану науково-дослідних робіт у рамках держбюджетних тем: № 195 «Розробка теоретичних засад, методів та моделей інтелектуальної обробки інформації та менеджменту знань у системах розподіленого штучного інтелекту» (№ ДР 0106U003286), №219 «Розробка Web-орієнтованої системи для підтримки процедур акредитації та ліцензування вищих навчальних закладів України» (№ ДР 0108U010139), № 233 «Розробка системи підтримки семантичних запитів до онтологічної бази акредитації і ліцензування» (№ ДР  0109U001647), № 243 «Методи, моделі та інформаційні технології розбудови соціально-економічної освітньо-наукової мережі з метою інтеграції у європейський простір» (№ ДР  0109U002497).
Ліце́нзія (лат. licentia - дозвіл) - у загальному значенні - це документ, що демонструє певний дозвіл. Документ державного зразка, що засвідчує право ліцензіата на провадження зазначеного в ньому виду господарської діяльності протягом визначеного строку за умови виконання ліцензійних умов.
Акредитація (лат. accredo, «довіряти») - процедура, у ході якої національний орган з акредитації документально засвідчує компетентність юридичної особи чи органу з оцінки відповідності. Акредитація - сукупність дій, пов'язаних з призначенням і вступом у дію (на посаду) постійного представника держави, глави дипломатичного представництва у певній державі чи міжнародній організації.
Ме́неджмент (або «управління») - це процес планування, організації, приведення в дію та контроль організації з метою досягнення координації людських і матеріальних ресурсів, необхідних для ефективного виконання завдань.
Інформаці́йні техноло́гії, ІТ (використовується також загальніший / вищий за ієрархією термін інформаційно-комунікаційні технології (Information and Communication Technologies, ICT) - сукупність методів, виробничих процесів і програмно-технічних засобів, інтегрованих з метою збирання, опрацювання, зберігання, розповсюдження, показу і використання інформації в інтересах її користувачів.
Навча́льний заклад (осві́тній заклад) - організація, що на постійній і безперервній основі здійснює освітній процес з метою навчання, виховання, розвитку і самовдосконалення особистості.
У межах наведених тем здобувачка як виконавець запропонувала модель семантичного анотування текстових документів із урахуванням бінарних виходів штучної нейронної мережі, ймовірнісну модель семантичного анотування текстових документів, методи семантичного анотування на основі ієрархічної радіально-базисної нейронної мережі та конкурентної ймовірнісної нейронної мережі.
Співа́к, або вока́ліст (жіночий рід - співа́чка, або вока́лістка; англ. singer) - людина, що займається співом. Термін «вокаліст» частіше використовують щодо співаків, які пройшли спеціальну виконавську школу.
Ієра́рхія (грец. ίεράρχίά, від ίερσς - священний, та άρχή - влада) - поділ на вищі й нижчі посади, чини; суворий порядок підлеглості нижчих щодо посади або чину осіб вищим. В ієрархії між її членами діють вертикальні зв'язки - відносини субординації.


Мета і задачі дослідження. Метою дисертаційної роботи є розробка методів та моделей семантичного анотування текстових документів з використанням штучних нейронних мереж для отримання метаданих на основі текстового корпусу та онтології предметної області (ПрО). В даному випадку семантичні анотації (або метадані) дозволяють отримувати опис текстового документа в машинно-зрозумілому вигляді для подальшого використання в онтологічних базах знань із метою зберігання інформації у стислому вигляді, виведення нових знань або підвищення якості пошуку.

Відповідно до поставленої мети, в дисертаційній роботі вирішуються такі задачі:



  • аналіз основних методів семантичного анотування текстових документів;
    Підвищення (елевація) - кутова висота об'єкта спостереження (земного предмета, літального апарату, небесного світила тощо) над істинним горизонтом. Підвищення спільно з азимутом служить для визначення напрямку на об'єкт.
    Документа́ція - сукупність офіційно визнаних, взаємопов'язаних та складених у визначеній формі документів, які містять передбачувану інформацію про виріб, процес або діяльність даного підприємства. Відповідно до області застосування Документа́цій поділяється на бухгалтерську, конструкторську, нормативну, технічну, товарну, тощо.
    Зберігання інформації - 1. Забезпечення належного стану інформації та її матеріальних носіїв. 2. Комплекс заходів, спрямований на забезпечення збереження повноти і цілісності сформованих даних про певну інформацію, створення і підтримання належних умов для їх використання, а також запобігання несанкціонованому доступу, поширенню і використанню.
    Предме́тна о́бласть (ПрО) - множина всіх предметів, властивості яких і відношення між якими розглядаються в науковій теорії. В логіці - гадана область можливих значень предметних змінних логічної мови.
    Ба́за зна́нь, БЗ (англ. Knowledge base, KB) - це особливого роду база даних, розроблена для управління знаннями (метаданими), тобто збором, зберіганням, пошуком і видачею знань. Розділ штучного інтелекту, що вивчає бази даних і методи роботи із знаннями, називається інженерією знань[джерело не вказане 1251 день].
    Дисерта́ція (лат. dissertatio - твір, обговорення, розсуд, доповідь) - спеціально підготовлена наукова праця на правах рукопису, яку виконують для прилюдного захисту на здобуття наукового ступеня. В Україні розрізняють дисертацію для здобуття наукового ступеня кандидата наук (кандидатська дисертація) та доктора наук (докторська дисертація).


  • розробка моделі семантичного анотування текстових документів з урахуванням бінарних виходів штучної нейронної мережі (ШНМ) та ймовірнісної моделі семантичного анотування для формування RDF-описів;

  • розробка ієрархічної радіально-базисної нейронної мережі з багатошаровою архітектурою для зниження кількості текстових ознак, які надходять на вхід кожного шару, за умов обмеженої вибірки;

  • розробка ймовірнісних нейронних мереж спеціального виду для визначення ймовірностей належності вхідного текстового об’єкта до кожного з класів онтології ПрО;

  • розробка методів семантичного анотування з використанням запропонованих ШНМ, а також розробка структурної схеми для роботи системи семантичного анотування текстових документів;
    Озна́чення, ви́значення чи дефіні́ція (від лат. definitio) - роз'яснення чи витлумачення значення (сенсу) терміну чи поняття. Слід зауважити, що означення завжди стосується символів, оскільки тільки символи мають сенс що його покликане роз'яснити означення.
    Структу́рна схе́ма - схема, яка визначає основні функціональні частини виробу, їх взаємозв'язки та призначення. Під функціональною частиною розуміють складову частину схеми: елемент, пристрій, функціональну групу, функціональну ланку.


  • розробка структури та функцій інструментальних засобів вирішення прикладних задач.
    Інструме́нт (лат. instrumentum - знаряддя) - технологічне оснащення (знаряддя або пристрій), які в процесі праці безпосередньо стикаються з предметом праці з метою зміни чи контролю його форми, стану, властивостей тощо.


Об’єктом дослідження є процес видобування знань в системах інтелектуальної обробки документів.

Предметом дослідження є методи та моделі семантичного анотування текстових документів з використанням штучних нейронних мереж.

Методи дослідження. Основними методами дослідження є методи штучного та обчислювального інтелекту: теорія штучних нейронних мереж, за допомогою якої синтезовано нові методи, які дозволяють виконувати класифікацію текстової інформації для отримання семантичних анотацій корпусу текстів; технологія Semantic Web, яка дозволила створити моделі отримання метаданих; принципи обробки природно-мовної інформації, які дозволили подати текстові документи в необхідному для машинної обробки форматі. Експериментальні дослідження проводилися в лабораторних умовах і на реальних об’єктах.
Принцип (лат. principium - начало, основа) - це твердження, яке сприймається як головне, важливе, суттєве, неодмінне або, принаймні, бажане. У повсякденному житті принципами називають внутрішні переконання людини, ті практичні, моральні та теоретичні засади, якими вона керується в житті, в різних сферах діяльності.
Си́нтез - процес з'єднання або об'єднання раніше розрізнених речей або понять в ціле або набір. Термін походить від грец. σύνθεση - поєднання, приміщення разом (σύν - з, разом і θεση - стан, місце). Синтез є способом зібрати ціле з функціональних частин як антипод аналізу - способу розібрати ціле на функціональні частини.
Техноло́гія (від грец. τεχνολογια, що походить від грец. τεχνολογος; грец. τεχνη - майстерність, техніка; грец. λογος - (тут) передавати) - наука («корпус знань») про способи (набір і послідовність операцій, їх режими) забезпечення потреб людства за допомогою (шляхом застосування) технічних засобів (знарядь праці).
Лабораторія (середньовічна лат. laboratorium, від лат. laboro - працюю, лат. labor - праця, робота) - багатозначний термін, що залежно від контексту, може означати: Спеціально обладнане та устатковане приладами, пристроями, мережами приміщення або транспортний засіб (наприклад, автомобіль, вагон потягу, літак, гелікоптер, субмарина тощо) для наукових досліджень, навчальних робіт, контрольних аналізів та випробувань (див. лабораторне устаткування). Установу або її відділ, що проводить експериментальну науково-дослідницьку та навчальну роботу. Внутрішні творчі процеси, внутрішню діяльність кого-небудь. Наприклад, творча лабораторія дослідника, митця тощо.
Експериме́нт (англ. experiment) - сукупність дослідів, об’єднаних однією системою їх постановки, взаємозв’язком результатів і способом їх обробки. В результаті експерименту отримують сукупність результатів, які допускають їхню сумісну обробку і зіставлення.


Наукова новизна отриманих результатів. У процесі вирішення поставлених задач отримано такі наукові результати:

1. Вперше запропоновано ієрархічну багатошарову радіально-базисну нейронну мережу, яка в кожному вузлі використовує радіально-базисну нейронну мережу зниженої розмірності, що дозволяє зменшити кількість ознак, які надходять на вхід кожного шару за умов обмеженої навчальної вибірки для формування семантичних анотацій текстових документів.

2. Вперше запропоновано ймовірнісні нейронні мережі спеціального виду, а саме: модифіковану та конкурентну, які розроблені на основі гібридизації стандартної ймовірнісної та узагальненої регресійної нейронних мереж, а також самоорганізовних мап Кохонена, що забезпечує простоту реалізації і високу швидкість обробки та дозволяє отримувати ймовірності належності вхідного текстового об’єкта до кожного з потенційно можливих класів онтології ПрО для генерації семантичних анотацій в послідовному режимі, по мірі надходження текстових документів.

Гібрид (від лат. hybrida – помісь) - результат природного чи штучного схрещування між двома організмами різних таксонів.
Ймові́рність (лат. probabilitas, англ. probability) - числова характеристика можливості того, що випадкова подія відбудеться в умовах, які можуть бути відтворені необмежену кількість разів. Імовірність є основним поняттям розділу математики, що називається теорія імовірностей.
Генерація - покоління, що представлене більш чи менш одноманітними особинами, які змінюються наступним поколінням, яке при диференціації життєвого циклу може істотно відрізнятися від попереднього. Наприклад: при чергуванні поколінь (гетерогонії, метагенезі) у тлі (Aphidoidea), галиць (Cecidomyiidae) та деяких інших комах.

3. Вперше запропонована ймовірнісна модель семантичного анотування текстових документів на основі введення в моделі опису RDF-структур імовірнісної складової, що дозволяє формувати метадані текстових документів з урахуванням ймовірностей належності текстового об’єкта до концепта онтології ПрО та забезпечує оцінку відношення текстових даних щодо поточної онтології.

Ді́лення (також діління́)- в математиці, бінарна операція, що обернена множенню.

4. Набула подальшого розвитку модель семантичного анотування з урахуванням бінарних виходів штучної нейронної мережі, яка відрізняється від моделей опису семантичних анотацій на основі RDF-структур використанням інформації з виходів ШНМ, поданої у бінарному вигляді, що дозволило доповнити нею формовані семантичні анотації текстових документів за умов обмеженої вибірки.

  1   2   3


Скачати 305.8 Kb.

  • Харківському національному університеті радіоелектроніки Міністерства освіти
  • ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ Актуальність теми
  • Зв’язок теми дисертації з планами наукових робіт.
  • Мета і задачі дослідження
  • Наукова новизна отриманих результатів.