Первая страница
Наша команда
Контакты
О нас

    Головна сторінка



Розділ 5 моделювання усного діалогу людини й машини в дискурсі програмного забезпечення

Розділ 5 моделювання усного діалогу людини й машини в дискурсі програмного забезпечення




Сторінка1/7
Дата конвертації19.03.2017
Розмір0.7 Mb.
  1   2   3   4   5   6   7

РОЗДІЛ 5

МОДЕЛЮВАННЯ УСНОГО ДІАЛОГУ ЛЮДИНИ Й МАШИНИ В ДИСКУРСІ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ

5.1.
Диску́рс (фр. discours - промова, виступ, слова, розмова (на тему)) - у широкому сенсі складна єдність мовної практики і надмовних факторів (значима поведінка, що маніфестується в доступних почуттєвому сприйняттю формах), необхідних для розуміння тексту, єдність, що дає уявлення про учасників спілкування, їхні установки й цілі, умови вироблення і сприйняття повідомлення.
Діало́г (dialog) - двосторонній обмін інформацією (розмова, спілкування) між двома або більше людьми (або у технічній мові - людиною та ЕОМ) у вигляді питань та відповідей.
Програ́мне забезпе́чення (програ́мні за́соби) (ПЗ; англ. software) - сукупність програм системи обробки інформації і програмних документів, необхідних для експлуатації цих програм.
Мовленнєві технології та вербальна комунікація людини й машини

Зростаюча роль мовленнєвого спілкування між людиною та комп’ютером приводить до переосмислення природи комунікативної поведінки загалом і мовленнєвої комунікації зокрема.

Поведі́нка - родовий термін, який охоплює різні реакції живого організму чи групи організмів.
Мовленнє́ва комуніка́ція - це процес спілкування за допомогою мови, який має свої внутрішні закони і базується на певній системі усталених культурних норм.
Очевидно, що використання мовленнєвих технологій уже вийшло за межі сфери ін­формаційних технологій та стає звичайним атрибутом повсякденного життя (Carpenter 1999;
Користува́ння - добування з речей їхніх корисних властивостей (наприклад, збирати врожай, вживати продукти харчування, носити одяг і взуття). Одна з трьох класичних правомочностей власника (нарівні з володінням і розпорядженням).
Атрибу́т (attribute) - невід'ємна, необхідна для забезпечення цілісності об'єкта (предмета) або суб'єкта (людини) властивість, його частина, додаток.
Cutler, Robinson 1992; Moore, Cutler 2001; Hol­mes, Holmes 2002; Georgila, Sgarbas 2003). Свідченням цього є інте­грування автоматичних синтезаторів мовлення у середовище тексто­вих редакторів, їх широке використання в мобільній телефонії, авто­матичних системах оголошення інформації та ін. (Lippmann 1997, 2).

Лише протягом останнього десятиліття спостерігається револю­ційний розвиток систем автоматичного розпізнавання мовлення: від розпізнавання ізольованих слів, вимовлених одним диктором із обмеженим лексиконом (приблизно 50 слів), до розпізнавання потоку зв’язного мовлення, згенерованого будь-яким мовцем із довільним словником (Nass, Gong 2000, 36).

Телефо́нний зв'язо́к - галузь зв'язку, електрозв'язку, телекомунікацій; передача на відстань мовної інформації, здійснюваної електричними сигналами телефонною мережею загального користування (ТМЗК) або радіосигналами.
Автома́тика (грец. αύτόματος - самодіючий) - галузь науки і техніки, яка розробляє технічні засоби і методи для здійснення технологічних процесів без безпосередньої участі людини.
Синтеза́тор - електронний пристрій, який синтезує звук за допомогою одного чи кількох електричних генераторів коливань. Необхідне звучання досягається регулюванням властивостей електричного сигналу (в аналогових синтезаторах), або параметрів центрального процесора (у цифрових синтезаторах).
Десятилі́ття, також - десятиріччя, декада - під десятиліттям найчастіше розуміють календарне десятиліття, період часу, що включає десять років.
Оголошення - це короткі текстові повідомлення, котрі містять різну за призначенням інформацію. Переважно оголошення містять інформацію приватного рекламного характеру. Це пропозиція певних товарів чи послуг приватними особами, або малими приватними підприємствами.
Словни́к - упорядкований в алфавітному чи тематичному порядку список заголовних слів, лексикографічно опрацьованих.
Розпізнава́ння мо́влення (англ. speech recognition) або Мо́влення у те́кст (англ. speech to text (STT))- процес перетворення мовленнєвого сигналу в текстовий потік. Не варто плутати із визначенням розпізнавання мови, оскільки «розпізнати мову» безпосередньо означає лише дати відповідь на питання, до якої мови належить сегмент мовленнєвого сигналу.
Реальністю сьогодення є ведення телефонного або письмового діалогу з комп’ютером на задану тему, наприклад отримання інформації щодо розкладу руху поїздів, літаків, наявності квитків та ін.
Сьогодення - частина лінії часу, що складається з подій, які відбуваються нині, тобто певна ділянка просторово-часового інтервалу. При певних умовах під теперішнім часом розуміються поточні дні, місяці та навіть роки.
Реа́льність (від лат. realis - речовинний, дійсний, від res - річ, предмет) - філософський термін, який означає те, що існує насправді. Окреслення того, що існує насправді, а що насправді не існує - складне онтологічне питання, а тому серед філософів термін реальність вживається в різних значеннях в залежності від філософського напрямку чи школи.
Письмо́ - знакова система фіксації мови на площині за допомогою умовних ідеографічних елементів двох вимірів для передачі інформації на відстані й закріплення її в часі. Найперші спроби письмової фіксації думок і повідомлень виникли ще в первіснообщинному суспільстві (кінець кам'яної доби).
Отримання да́них (англ. Data Mining) - виявлення прихованих закономірностей або взаємозв'язків між змінними у великих масивах необроблених даних. Зазвичай поділяють на задачі класифікації, моделювання та прогнозування.
(Georgila, Sgarbas 2003)

Забезпечення релевантного функціонування систем автоматич­ного синтезу та розпізнавання мовлення передбачає розв’язання низ­ки проблем, пов’язаних із моделюванням різних типів знань у самих системах, а також моделювання діалогічної комунікації людини й комп’ютера (Вейценбаум 1982). Під час аналізу діалогу, що відбу­вається між абонентом і оператором інформаційної системи, стає зрозуміло, що оператор наділений певними фізичними (слуховими, артикуляційними, зоровими) і когнітивними (сприйняття, розміркову­вання та ін.

Сино́німи (грец. synonymos - «однойменний») - це слова однієї частини мови, різні за звучанням і написанням, що мають дуже близьке або тотожне лексичне значення.
Моделювання (англ. scientific modelling, simulation, нім. Modellieren n, Modellierung f, Simulation f) - це метод дослідження явищ і процесів, що ґрунтується на заміні конкретного об'єкта досліджень (оригіналу) іншим, подібним до нього (моделлю).
Фі́зика (від грец. φυσικός природний, φύσις природа) - природнича наука, яка досліджує загальні властивості матерії та явищ у ній, а також виявляє загальні закони, які керують цими явищами; це наука про закономірності Природи в широкому сенсі цього слова.
Інформацíйна систéма (англ. Information system) - сукупність організаційних і технічних засобів для збереження та обробки інформації з метою забезпечення інформаційних потреб користувачів.
) властивостями (Fink, Kobsa, Schreck 1997). Отже, він здатен чути, розуміти й контекстуально інтерпретувати висловлю­вання абонента. Він також повинен здійснювати пошук інформації, координувати процес комунікації та надавати релевантну відповідь на запит абонента.
Інтерпретатор мови програмування (interpreter) - програма чи технічні засоби, необхідні для виконання інших програм, вид транслятора, який здійснює пооператорну (покомандну, построкову) обробку, перетворення у машинні коди та виконання програми або запиту (на відміну від компілятора, який транслює у машинні коди всю програму без її виконання).
Релева́нтність (англ. relevance) - міра відповідності отримуваного результату бажаному.
Інформаці́йний по́шук (ІП) (англ. Information retrieval) - наука про пошук неструктурованої документальної інформації. Особливо це відноситься до пошуку інформації в документах, пошук самих документів, добуття метаданих з документів, пошуку тексту, зображень, відео та звуку у локальних реляційних базах даних, у гіпертекстових базах даних таких, як Інтернет та локальні інтранет.
В інтерфейсах багатьох комп’ютерних програм утілено таку модель комунікації. Однак результати її використання свідчать, що релевантний діалог можливий лише за умови обмеження комунікації конкретною предметною галуззю (наприклад прогноз погоди, розклад руху потягів, редагування тексту та ін.
Прогнозування - процес передбачення майбутнього стану предмета чи явища на основі аналізу його минулого і сучасного, систематично оцінювана інформація про якісні й кількісні характеристики розвитку обраного предмета чи явища в перспективі.
Редагува́ння - це приведення об'єкта редагування у відповідність із чинними у певний час у конкретному суспільстві нормами, а також його творча оптимізація, метою яких є отримання заданого соціального ефекту.
Прогнóз погóди (англ. Weather forecasting, нім. Wettervorhersage) - складання науково-обґрунтованих передбачень про майбутнє стану погоди. Прогноз погоди синоптичним методом ділиться на прогноз синоптичного розташування і, на його основі, власне сам прогноз погоди, тобто, значень або ходу метереологічних елементів або втілення тих чи інших атмосферних процесів (випадання дощу, утворення туману, гроза тощо).
) (Bennacef, Neel, Bonneau-Maynard 1995).

Будь-яке моделювання комунікації передбачає, передусім, моде­лювання взаємодії. Взаємодія (інтеракція) – це взаємний вплив суб’єктів комунікації один на одного (Minker, Bennasef 2004). Розмова – це особливий вид узаємодії, тобто взаємодія за допомогою голосу. У нашому дослідженні ми визначаємо діалог як вербальну інтеракцію, що передбачає обмін висловлюваннями, вимовленими двома людьми або людиною та машиною.

Інтеракція (від англ. interaction < лат. inter + activus - діючий) - безпосередня міжособистісна взаємодія («обмін символами»), найважливішою особливістю котрої визнається здатність людини «приймати на себе роль іншої».
Дослі́дження, до́сліди - (широко розуміючи) пошук нових знань або систематичне розслідування з метою встановлення фактів; (вузько розуміючи) науковий метод (процес) вивчення чого-небудь.

Усний діалог із комп’ютером є альтернативою письмово-графіч­ній комунікації за допомогою мовних засобів, представлених у інтер­фейсах комп’ютерних програм.

Альтернати́ва (фр. alternative, рос. альтернатива, англ. alternative, нім. Alternative) -
Однак обидва способи комунікації користувача й комп’ютера, на нашу думку, інтегруються в дискурсі програмного забезпечення.
Кори́стува́ч - той, хто користується чим-небудь - майном, землею, комп'ютером тощо.
Отже, у межах дискурсу програмного за­безпечення доречно розрізняти усну та письмово-графічну мовлен­нєву комунікацію (схема 5.1).





Схема 5.1. Функціонально-структурні аспекти дискурсу програмного забезпечення

Особливості письмово-графічної комунікації користувача й ком­п’ютера були проаналізовані в попередніх розділах. Зупинимося детальніше на вивченні усної мовленнєвої взаємодії людини та маши­ни. Із зазначеної схеми стає зрозуміло, що автоматична обробка усного мовлення представлена двома напрямами:



  1. автоматичний синтез мовлення (від друкованого тексту до усного мовлення);
    Друка́рство - принцип одержання відбитків письмових знаків за допомогою тиснення. Отримані таким чином роботи можна використовувати у великих кількостях - що і стало суттю друкарства. До цього винаходу, на створення та відтворенням рукописних документів і книг мали монополію лише невелика кількість фахівців (особливо освічені ченці монастирях).
    Си́нтез мо́влення (СМ) - перетворення друкарського тексту у мовний сигнал (в широкому сенсі - відновлення форми мовного сигналу за його параметрами.


  2. автоматичне розпізнавання мовлення (від усного мовлення до друкованого тексту).

Однак, жоден із підходів не дає можливості досягнення основної мети комунікації, а саме результативного обміну інформації між її учасниками.
Можливість - це дія, що може відбутися або ні (можливо, приїду, а, можливо, і ні). Можливість можна забезпечити чи покладатись на «авось» та якось буде. Альтернатива дає шанс, але не гарантує без відповідних дій забезпечення результату і адекватності та конструктиву діяльності.
Отже, ми висуваємо припущення про те, що дискурсив­на комунікація актуалізується винятково в автоматичних діалогових системах, які поєднують у собі функції синтезу та розпізнавання мовлення, а також містять моделі знань, необхідні для розгортання релевантного діалогу між людиною й комп’ютером.

У сучасних діалогових системах реалізуються два традиційних типи ведення усного діалогу:



  1. надання людиною команд у вигляді звукових повідомлень і послідовне реагування системи на ці команди;
    Про́даж - це оплатна передача майна однією особою у власність іншій особі.
    Тради́ція - досвід, звичаї, погляди, смаки, норми поведінки і т. ін., що склалися історично і передаються з покоління в покоління; звичайна, прийнята норма, манера поведінки, усталені погляди, переконання когось; узвичаєння, узвичаєність, неписаний закон.


  2. взаємний обмін звуковими повідомленнями між людиною та комп’ютером.

Орієнтація на звукове мовлення під час розробки систем, які забезпечують спілкування людини й комп’ютера, спричиняє дифе­ренційований підхід до вирішення завдань автоматичного розпізна­вання ізольованих команд та розпізнавання зв’язного мовлення.
Задача - проблемна ситуація з чітко визначеною метою, яку необхідно досягти; в більш вузькому сенсі задачею називають також цю саму мету, що дана в рамках проблемної ситуації, тобто те, що необхідно виконати.
Роз­в’язання цих завдань ускладнюється через існування низки факторів, таких як:

  1. варіативність мовленнєвого сигналу, який подається на авто­матичний розпізнавач;

  2. залежність продуктивності системи від індивідуальних власти­востей вимови мовця, його психологічного стану, гучності, темпу та ступеня чіткості вимови;

  3. характери акустичних шумів;

  4. обсяг лексичної, синтаксичної й семантичної інформації, що потребує обробки.
    Аку́стика (від грец. ακουστικός - чутний, такий, що сприймається на слух), у вузькому значенні слова - вчення про звук, тобто про пружні коливання та хвилі у газах, рідинах і твердих тілах, чутних людським вухом (частоти таких коливань знаходяться у межах від 16 Гц до 20 кГц); у широкому сенсі - область фізики, що досліджує властивості пружних коливань та хвиль від найнижчих частот (умовно від 0 Гц) до гранично високих частот 1012 - 1013 Гц, їхньої взаємодії з речовиною і застосування одержаних знань для вирішення широкого кола інженерних проблем. Терміном акустика зараз також часто характеризують систему звуковідтворюючої апаратури.
    Психоло́гія (від грецького ψυχή (psyché) - душа, дух; λόγος (logos) - вчення, наука) - наука, що вивчає психічні явища (мислення, почуття, волю) та поведінку людини, пояснення яких знаходимо в цих явищах.
    Існува́ння (від екзистенція) - центральне поняття екзистенціалізму, унікальна особистісна сутність людини, що втілює в собі духовну, психоемоційну неповторність особи.
    Сема́нтика мовна (давніше семасіологія) - розділ мовознавства, пов'язаний з лексикологією; вивчає значення (теж у діахронному, іст. перекрої) слів і їх складових частин, словосполук і фразеологізмів. Слово походить від грецького слова σημαντικός (семантікос), «значимий», з σημαίνω (семаіно), «значити, вказувати» та також від σήμα (сема), «знак, позначка, символ».
    Лексика (від дав.-гр. τὸ λεξικόν - сукупність слів якоїсь мови чи діалекту та словниковий склад мови письменника чи художнього твору) - словниковий склад мови. Наука, яка вивчає словниковий склад, називається лексикологією.


Розпізнавання звукового мовлення в багатьох випадках набуває спільних рис із розпізнаванням графічних зображень.
Гра́фіка (нім. Graphik, грец. graphikos «написаний») - вид образотворчого мистецтва, для якого характерна перевага ліній і штрихів, використання контрастів білого і чорного та менше, ніж у живописі, використання кольору.
Суть процедури зводиться до наступного: якщо можна подати опис об’єкта, то елементи цього опису можуть використовуватись як ознаки цього об’єкта (Dusan, Rabiner 2005, 1235). При цьому сам опис є фунда­ментом побудови середовища, у якому розв’язуватимуться власне завдання розпізнавання. Аналіз фрагментів об’єкта дає змогу розро­бити певний словник термінів, за допомогою якого будуватиметься опис.
Матеріа́л - речовина, або суміш речовин, первинний предмет праці, який використовують для виготовлення виробу (основний матеріал), або які сприяють якимось діям. У останньому випадку уточнюють, що це допоміжний, чи витратний матеріал.
Фрагмент (лат. fragmentum - уламок, шматок, скалка) - яка-небудь частина цілого.
Розпізнавання звукових іміджів полягатиме у створенні “детер­мінованого або імовірнісного вирішального правила, яке даватиме змогу відносити нові іміджі, що надходитимуть, до того чи іншого класу об’єктів” (Потапова 1990, 16).

Процесу класифікації передують такі аналітичні процедури:



  • сегментування об’єкта;

  • розробка словника, який міститиме описи основних фрагмен­тів;

  • розробка методів пошуку фрагментів (Потапова 1990).

Власне лінгвістичні завдання можуть вирішуватися лише після успішного проведення процедури сегментації.
Мовозна́вство, також лінгві́стика - наука, що вивчає мову в усій складності її прояву; наука про мову взагалі й окремі мови світу як індивідуальних її представників. Це гуманітарна наука, яка є розділом культурології (нарівні з мистецтвознавством і літературознавством) і філології (нарівні з літературознавством), а також галуззю семіотики.
Існує два класи методів, що застосовуються в розпізнаванні:

  1. дискримінантні методи – під час застосування яких об’єкти розпізнавання характеризуються набором чисел, що є резуль­татом певної множини вимірів, які характеризують ознаки об’єкта; власне розпізнавання відбувається шляхом розбиття ознак об’єкта на класи (лінгвістична категоризація);

  2. синтаксичні методи – під час застосування яких домінуюча роль відводиться опису структури об’єкта; метою розпізна­вання є не лише віднесення певного об’єкта до певного класу, а також опис тих властивостей об’єкта, які виключають його віднесення до іншого класу.

На сучасному етапі відомі різні механізми сегментації.
Механі́зм (грец. μηχανή mechané - машина) - система тіл, що призначена для перетворення руху одного або декількох тіл у потрібний рух інших тіл. Механізм складає основу більшості машин і застосовується в різноманітних технічних об'єктах.
Особливо поширеною є машинна сегментація, яка проводиться в часовій та частотній площинах або в одній площині “час-частота”(Holmes, Holmes 2002).

Наприклад, під час сегментації за часом звукова хвиля розчле­новується на послідовність мінімальних сегментів.

Сегмент (від лат. segmentum ‘відрізок, смуга’ від лат. seco ‘ріжу, розсікаю’) - у загальному значенні - відрізок, частина чого-небудь, наприклад, сегмент програми, сегмент пам'яті, сегмент слова.
Тривалість кож­ного сегмента є настільки малою, що протягом цього сегмента не від­бувається жодних змін. Зазвичай, тривалість таких сегментів стано­вить 10 мс (мілісекунд). Розміщені послідовно мінімальні мілісегмен­ти із подібними характеристиками групуються в сегменти більшого розміру. Групування відбувається з урахуванням інтенсивності, оскільки відомо, що інтенсивність різних категорій звуків (голосних, фрикативних, сонорних та ін.) є відносно стабільною. Як правило, тривалість комплексних сегментів дорівнює 30 мс. Сегмент, трива­лість якого не перевищує 30 мс, називають постійним, усі інші сегмен­ти є перехідними. Далі кожен постійний сегмент пов’язується із тією чи іншою фонемою або переходом між фонемами. Класифікують отримані фонеми за допомогою дискримінантних евристичних мето­дів, які передбачають застосування описів формантних частот (Davis, Marslen-Wilson, Gaskell 2002).

Поряд із описаним методом сегментації існують також інші під­ходи. Одним із напрямів, що розвивається, є метод складової сегмен­тації, при якому розглядають відхилення у фонетичній маніфестації фонем та одночасно пропонується фонологічне переосмислення влас­не поняття складу.

Частота́ (англ. frequency) - фізична величина, що дорівнює кількості однакових подій за одиницю часу. Вона є характеристикою будь-яких процесів, які регулярно повторюються (кількість подій за одиницю часу) або величиною, що виражає: кількість рухів, коливань, повторень за одиницю часу тощо.
Еври́стика (грец. ευρίσκω (heuristiko) - знаходжу, відшукую, відкриваю) - наука, яка вивчає творчу діяльність, методи, які використовуються у відкритті нового і в навчанні.
Фоне́ма - найменша (неподільна) структурно-семантична звукова одиниця, що здатна виконувати деякі функції у мовленні. Зокрема фонема творить, розділяє і розпізнає морфеми, слова, їхні форми в мовному потоці.
Класифіка́ція (фр. , англ. classification походить від лат. classis - клас і facio - роблю) - система розподілення об'єктів (процесів, явищ) за класами (групами тощо) відповідно до визначених ознак. Інколи вживають термін категоризація у значенні «розподілення об'єктів на категорії».
Фоне́тика (грец. φωνητικός - звуковий) - це розділ мовознавства, в якому вивчають звуковий склад мови. Об'єктом вивчення фонетики є звуки, їх властивості і функції, закономірності поєднання, фонетичні процеси, одиниці, засоби, ознаки.
Таке диференційоване розуміння складу вияви­лося надзвичайно зручним для сегментації в часовому аспекті.
Розум (лат. ratio; грец. νους) - сукупність пізнавальних та аналітичних здібностей людини, завдяки яким формується інтелект особистості. Не існує загальноприйнятого визначення, що саме є розумом, тому що у релігійних, філософських і наукових текстах це поняття сприймається по різному, і у кожній з цих галузей існує довга традиція того чи іншого використання.
Складова сегментація відбувається на двох рівнях:

  1. виділення кордонів складу;

  2. уміст складу сегментується на різноманітні звукові типи (Потапова 1990).

М. Вестер зазначає, що “алгоритм знаходження складу загалом базується на аналізі загальної інтенсивності сигналу. Оскільки голос­ні звуки, зазвичай, є інтенсивнішими порівняно з приголосними, що їх оточують, у процедурі сегментації їх тлумачать як локальні макси­муми, яким передують ділянки значного збільшення інтенсивності” (Wester 2003, 233).
Приголосний звук, шелестівка - звук, що твориться за допомогою голосу й шуму або тільки шуму.
Цей алгоритм правильно визначає більшість кордонів складу, винятком є склади зі значно редукованим рівнем наголосу. Вважається що виділені таким чином склади забезпечують підвищену надійність і незалежність сегментування від мовленнєвої варіативності, оскільки їх виділення передбачає одночасне порівнян­ня значно більших фрагментів даних.

В основу поділу на сегменти під час складової сегментації по­кладено пошук ядра голосного звука.

Більшість - велика частина чого-небудь, або кількісне переважання прихильників якоїсь ідеї чи рішення над їхніми противниками. Вважається найпершою засадою демократичного способу прийняття спільних рішень, головною й необхідною умовою обрання кандидата на виборну посаду.
Наді́йність - властивість технічних об'єктів зберігати у часі в установлених межах значення всіх параметрів, які характеризують здатність виконувати потрібні функції в заданих режимах та умовах застосування, технічного обслуговування, зберігання та транспортування.
Ви́ділення (екскреція) - процес виведення кінцевих продуктів, які утворилися в ході обміну речовин в клітинах тіла при розщепленні органічних енерговмісних речовин. Цю функцію виконують як спеціалізовані видільні органи, так і інші органи чи системи, для яких видільна функція може бути побічною, другорядною.
Голосни́й звук, голосі́вка - звуки мови, що утворюються при вільному проходженні видихуваного повітря через ротову порожнину, тобто мають вільну артикуляцію . У гортані внаслідок ритмічного коливання напружених зв’язок утворюється голос певного тону.
Кожен такий сегмент характе­ризується максимальним значенням інтенсивності, що значно переви­щує обидва мінімальних значення, які становлять кордони складу. Склад повинен мати лише одне ядро – голосний. Під час сегментації такого типу враховуються наступні параметри:



  • різниця між максимальною й наступною мінімальною інтен­сивністю;
    Пара́метр (від дав.-гр. παραμετρέω) - відмірюю, розмірюю)(рос. параметр, англ. parameter, нім. Parameter m, Kennwert m, Kenngrösse f, Kennzahl f) - величина, що нею характеризують якусь властивість, стан, розмір або форму об'єкта, робочого тіла, процесу, явища або системи тощо.


  • середнє значення інтенсивності кожного сегмента;

  • максимальне значення;

  • загальна зміна спектрограми голосного звука (Потапова 1990).

Під час сегментації мовлення інформативності набувають також просодичні характеристики. Стратегія автоматичного розпізнавання мовлення з урахуванням просодичних характеристик базується, як правило, на розподілі зв’язного мовлення на фрази та визначення наголосу в цих фразах.
Озна́чення, ви́значення чи дефіні́ція (від лат. definitio) - роз'яснення чи витлумачення значення (сенсу) терміну чи поняття. Слід зауважити, що означення завжди стосується символів, оскільки тільки символи мають сенс що його покликане роз'яснити означення.
Страте́гія - (дав.-гр. στρατηγία, страта тегів - ранг вищого керівника військовими підрозділами які мають марку, тег, прапор, знак та пов'язуеться з талантом управління стратега полководця вищоі страти) - мистецтво керівництва суспільною боротьбою, загальний для очільника і деталізований в процесі управління план певної діяльності з ведення цієї боротьби, який є незмінним в своїй основі охоплює тривалий період, та направлений на досягнення головної, складної цілі.
Надійна й достовірна інформація отримується шляхом визначення диференціальних ознак наголошених складів. Кількість та розмежування синтаксичних кордонів і наголошених складів використовуються для відбору “можливих семантичних та синтаксичних структур, у межах яких прогнозуватимуться слова, що частково відповідають тим характеристикам, які були отримані під час проведення акустичного аналізу” (Maier, Moore 2005, 1246).
Кількість - в Арістотелівській логіці друга з 10 категорій (класів, розрядів, які спрощують процес розумового визначення будь-якої речі), побічна обставина матеріальних речей , за допомогою якої вони поширюються в просторі, вимірюються якоюсь математичною нормою і здатні бути поділеними на окремі частини.

Система акустико-фонетичного аналізу зв’язного мовлення роз­глядається як частина загальної системи автоматичного розпізна­вання. Звукова хвиля подається на вхід до системи, а на виході одер­жується послідовність фонемоподібних одиниць, які позначаються як акустичні фонетичні елементи (наділені конкретними акустичними параметрами) (McQueen 2004). Акустичний аналіз починається з обробки вхідного сигналу та визначення параметрів. На цьому етапі проводиться спектральний аналіз і використовується лінійне перед­бачення.

В оптиці спе́ктром (лат. spectrum - привид) називається сукупність монохроматичних випромінювань, що належать до складу складного випромінювання. Спектр випромінювання може описуватися графічною, аналітичною або табличною залежністю.
Наступний етап зводиться до проведення детальнішої сег­ментації та класифікації, які є необхідними для подальшого лінгвіс­тичного аналізу (McQueen 2004).

Р. Потапова наголошує на тому, що якість роботи систем авто­матичного розпізнавання мовлення залежить від таких факторів (По­тапова 1990, 18):


  1. вид мовлення (послівні реалізації із паузами для віддавання команд чи зв’язне мовлення);

  2. індивідуальні стилі вимови;

  3. кількість користувачів системи;

  4. спектр вхідного сигналу;

  5. налаштування системи (на весь словник, на частину словника);

  6. обсяг словника;

  7. синтаксичні обмеження (типові фрази, штучний словник);

  8. характер мовлення (діалогічне мовлення, монологічне мовлення);
    Монолог - компонент художнього твору, що становить мовлення, яке звернене до самого себе чи інших (мовлення від 1-ї особи), на відміну від діалогу.


  9. час розпізнавання (у реальному чи нереальному масштабі часу);

  10. структура програмного забезпечення системи (наявність зво­ротного зв’язку, паралельної обробки);

  11. характер шумів у приміщенні;

  12. ступінь натренованості системи на індивідуальні параметри мовлення користувачів.

Одним із найважливіших моментів, які враховуються в розробці сучасних програм автоматичного розпізнавання мовлення, є твер­дження про те, що “інформація, яка необхідна для правильної інтер­претації висловлювань, не представлена повністю у вхідному сигналі, тобто у фонологічних параметрах звуків мовлення” (Norris 1994, 191).
Примі́щення - частина внутрішнього об'єму будівлі, обмежена будівельними елементами, з можливістю входу і виходу.
Індивідуальність (лат. individuitas - неподільність) - сукупність своєрідних особливостей і певних властивостей людини, які характеризують її неповторність і виявляються у рисах характеру, у специфіці інтересів, якостей, що відрізняють одну людину від іншої.
Фонологія (від грец. φωνή - звук, голос і λόγος - слово, вчення)- розділ мовознавства, що вивчає звуки з погляду їхнього функціонування у мові.
Мова як динамічна, чітко структурована система застосовує синтак­сичні, семантичні й прагматичні обмеження задля компенсації поми­лок та усунення двозначностей, які можуть виникати під час акустич­ної реалізації висловлювань. Цей факт знаходить підтвердження в дослідженні фізіологічних та ментальних властивостей процесу сприйняття мовлення людиною (Moore, Cutler 2001).

У багатьох сучасних системах здійснюються спроби моделюван­ня деяких властивостей діяльності людського мозку в процесі спри­йняття мовлення (Beale, Finlay 1992). Характерною рисою цих систем є комбіноване використання даних із метою подвійної інтерпретації висловлювання: з точки зору його синтаксичної та семантичної при­пустимості та з точки зору його акустично-фонологічного аналізу.

Мента́льність (від лат. mens - пов'язаний з духом, духовністю) - спосіб мислення, загальна духовна налаштованість, установка індивіда або соціальної групи (наприклад етнії, професійного або соціального прошарку) до навколишнього світу.
Сприйняття́, сприйма́ння (перцепція, від лат. perceptio) - пізнавальний психічний процес, який полягає у відображенні людиною предметів і явищ, у сукупності всіх їх якостей при безпосередній дії на органи чуття.
Фізіоло́гія (грец. φυσιολογία - природознавство)- це наука про життєві процеси, діяльність окремих органів та їх системи і в цілому всього організму. Основним у фізіології є експериментальний метод дослідження, який обґрунтував англійський учений Френсіс Бекон.
Аспект (лат. aspectus - вигляд, погляд) - поняття філософії (онтології, теорії пізнання). У філософії аспект розглядається
Інколи різні типи інформації координуються за допомогою спеціаль­ного пристрою – парзера (parser), що здійснює граматичний розбір речень із метою передбачення послідовності слів у висловлюваннях.

У сучасних системах розпізнавання зв’язного мовлення викорис­товується також теорія надмірності, яка притаманна природному зв’язному мовленню. Це проявляється в спробах перенесення процесу прийняття рішень на найвищий рівень інформативності (Holmes, Holmes 2002).

При́стрій (англ. device, appliance, нім. Vorrichtung f, Einrichtung f) - обладнання, конструктивно завершена технічна система, що має певне функціональне призначення і за допомогою якої виконується яка-небудь робота або спрощується, полегшується певний процес.
Речення - граматична конструкція, побудована з одного чи кількох слів певної мови, яка становить окрему, відносно незалежну думку; це значеннєве, граматичне і інтонаційне ціле, що виражає якусь думку в відношенні її до дійсності (предикативність, створена категоріями модальності, часу й особи) одним словом чи сполукою слів.
Перене́сення, або Енжамбема́н (фр. enjambement) - віршовий прийом, який полягає у перенесенні фрази або частини слова з попереднього рядка у наступний, зумовлений незбіжністю ритмічної паузи зі смисловою, хоч рядок при цьому втрачає свою інтонаційну викінченість.
Передбачення в науці - футурологічний метод визначення, опису об'єктів, явищ фізичної реальності, соціальних процесів, які ще не існують на момент дослідження, але можуть з'явитися і бути виявленими та вивченими в майбутньому.
Грама́тика (грец. γραμματική, від γράμμα - «літера», «написання») - термін, який вживається в двох пов'язаних значеннях: як будова мови і як розділ мовознавства, що вивчає граматичну будову мови.
Тео́рія рі́шень - царина досліджень, яка математичними методами досліджує закономірності вибору людьми найвигідніших із можливих альтернатив і має застосування в економіці, менеджменті, когнітивній психології, інформатиці та обчислювальній техніці.
Прийняття будь-якого рішення на акустичному рівні супроводжується втратою певної кількості інформації. Цей процес не базується на лінгвістичній інформації, використання якої є можливим лише на рівні повної інтерпретації повідомлення. Процес розпізна­вання слів таким чином із розпізнавання знаків із наступним контекс­туальним аналізом зводиться до власне розпізнавання слів як дис­кретних одиниць мовлення. Лінгвістичний розпізнавач отримує на вході “відсегментовану стрічку векторів, кожен сегмент якої розгля­дається як вихідний символ, тобто як термінальний знак граматичної системи, яка, у свою чергу, зумовлює кожне конкретне лінгвістичне висловлювання” (Потапова 1990, 19).

Кінцевою метою процесу розпізнання мовлення є ведення діалогу між людиною й комп’ютером із використанням природної мови. Ефективне використання діалогової системи передбачає розв’язання низки завдань, таких як:



  • запит інформації,

  • віддавання наказів

  • автоматичне введення інформації.

Режим діалогу реалізується шляхом постановки питання користувачем. Система працює в циклічному режимі. Кожен цикл роботи включає:

  1. надсилання усного повідомлення;

  2. отримання усного повідомлення;

  3. розробку відповіді;

  4. виконання дії, що передбачена відповіддю;

  5. перехід до наступного циклу.

Типова діалогова система складається із таких частин:

  1. фонетичного аналізатора;

  2. детектора фонетичних слів;

  3. детектора акустичних слів;

  4. синтаксичного аналізатора;

  5. інтерпретатора аналізу;

  6. програми просодичної сегментації;

  7. програми фонетико-орфографічної транскрипції;

  8. генератора мовлення;

  9. діалогового автомату.

Фонетичний аналізатор дає змогу перейти від реального мовлен­нєвого сигналу до його фонетичної інтерпретації. Кожному сегменту, який виділений фонетичним аналізатором, відповідає певна множина впорядкованих висловлювань, які розміщені в базі даних згідно зі зменшенням вірогідності їх використання. Ця множина висловлювань має назву “фонетичного спектра фрази” (Weintraub, Murveit, Cohen, Price, Bernstein, Baldwin, Bell 1989, 699).

Фонетичний аналіз проводиться поетапно: на першому етапі від­бувається кодування акустичного сигналу в цифровий формат, яке здійснюється за допомогою вокодера;

Вірогі́дність - властивість знання, істинність якого твердо встановлена суб'єктом.
Код (франц. code, від лат. codex) (англ. code, нім. Schlüssel m, Kennzahl f, Kode m) - зведення законів, система умовних знаків (символів, позначень) для передачі, обробки та зберігання (запам'ятовування) різноманітної інформації.
Цифровий формат (англ. Digital data) - тип сигналів і форматів даних в електроніці, що використовують дискретні стани (на відміну від аналогового сигналу, який використовує безперервні зміни сигналу).
на другому етапі здійснюється сегментація звукового сигналу; на третьому − відбувається іденти­фікація фонем.

Центральною частиною всієї системи є діалоговий автомат, який виконує дві функції (Minker, Bennasef 2004):


  1. визначає, які типи фраз мають найбільшу вірогідність бути вимовленими оператором відповідно до контексту діалогу;
    Словосполучення - поєднання слів, утворене за нормами мови з двох або більше повнозначних слів, пов'язаних між собою синтаксично, яку використовують як лексично-семантичний матеріал номінативної (знакової) функції в реченні й поза ним.


  2. вирішує, яке спрямування буде мати діалог (запит інформації, відповіді на питання та ін.).

Досвід використання діалогових систем підтверджує гіпотезу про те, що спілкування між людиною й машиною допомагає поетапно виправляти помилки в розпізнаванні.

Важливою проблемою, яка спричиняє значні труднощі під час розпізнавання мовлення, є проблема адаптованості систем до кон­кретних дикторів. Нормалізація параметрів або ознак для “усунення відмінностей між індивідуальним дикторським мовленням та адап­тацією систем до роботи без орієнтації на конкретного диктора відбу­вається шляхом запровадження універсальної шкали формантних частот” (Потапова 1990, 21).

Орієнтація, в класичному випадку - вибір одного класу систем координат, пов'язаних між собою «додатньо» в деякому певному сенсі. Кожна система задає орієнтацію, визначаючи клас, до якого вона належить.
Ця шкала успішно застосовується для ідентифікації стаціонарних голосних звуків. Однак її ефективність значно зменшується при різноманітних ефектах ко-артикуляції. Можливі шляхи розв’язання цієї проблеми передбачають вивчення формантних дистрибуцій для ідентифікації голосних звуків із ураху­ванням довготи голосного, контекстно-зумовлених часових характе­ристик і спектральних характеристик консонантного оточення.

У процесі створення систем автоматичного розпізнавання звуко­вого мовлення особливого значення набувають експерименти в галузі сприйняття мовлення (Shi, Werker, Cutler 2003).

Ідентифіка́ція: (лат. identifico - ототожнювати) - ототожнення, прирівнювання, уподібнення, розпізнавання. Наприклад, ідентифікація мінералів (англ. mineral identification).
Експериме́нт (англ. experiment) - сукупність дослідів, об’єднаних однією системою їх постановки, взаємозв’язком результатів і способом їх обробки. В результаті експерименту отримують сукупність результатів, які допускають їхню сумісну обробку і зіставлення.
ЕОМ, що розпізнає мовлення, часто копіює не тільки функції людського вуха, що по­кликані аналізувати звуки, а й деякі функції людського мозку, які відповідають за запам’ятовування та генерування логічних зв’язків між елементами мови.
Елеме́нт (лат. elementum - стихія, первинна речовина) - нерозкладний (у даній системі) компонент складних тіл, матеріальних систем, теоретичних побудов; будь-який об'єкт, пов'язаний певними відношеннями з іншими об'єктами в єдиний комплекс.
Однак, як відзначають дослідники (Cutler, Robinson 1992; Carpenter 1999; Holmes, Holmes 2002), відсоток поми­лок під час голосового введення інформації все ще складає 10 %, у той час, як під час уведення тексту він є в 10 разів меншим та складає 0,1 %.

Таким чином, постає питання про оптимізацію систем розпізна­вання.

Дослі́дник - людина, яка веде дослідження, займається науковими дослідженнями, вивченням, спостереженням, аналізом чого-небудь, сприяє отриманню нових знань.
Оптиміза́ція (англ. optimization, optimisation) - процес надання будь-чому найвигідніших характеристик, співвідношень (наприклад, оптимізація виробничих процесів і виробництва). Задача оптимізації сформульована, якщо задані: критерій оптимальності (економічний - тощо; технологічні вимоги - вихід продукту, вміст домішок в ньому та ін.)
Сучасні їх зразки розглядають мовлення як знакову систему, а комп’ютер, що розпізнає мовлення, виконує функції перетворювача пропускної здатності (Dusan, Rabiner 2005). Оптимізація роботи сис­теми базуватиметься на аналізі надлишковості мовленнєвих знаків. Надлишковість у цьому контексті розуміють як образи відповідних джерел інформації, які можна виміряти й описати за допомогою акустичних характеристик.

Аналіз згаданих образів доводить, що обидва компоненти мов­лення – фонетика та просодика – є однаково важливими для роз­пізнавання фонетичних знаків.

Компонент (англ. component, нім. Komponente f) - різновид, складова частина чогось.
Збільшення словника призводить до збільшення надмірності в природному мовленні й до зменшення надмірності в закодованому мовленні. Крім того, збільшення словни­ка спричиняє експонентне збільшення помилок у природному мов­ленні та зменшення помилок у закодованому мовленні. Таким чином, аналіз надмірності знакових систем допомагає оптимізувати процес розпізнавання мовлення, установлює кращий розподіл у процесі кодування адитивних і мисленнєвих функцій.

Як уже зазначалось, акустичний аналіз просодичних явищ, навіть виконаний на найвищому рівні, не дає змоги робити висновки про релевантність фонетичних явищ. Виникає необхідність звернення до вивчення перцепції. Дослідники вказують на те, що, враховуючи той факт, що потенційним розпізнавачем мовлення є комп’ютер, “люди­на, яка генерує мовлення, може запроваджувати механізми внутрішнього контролю та внутрішнього виробництва спеціального мовлення” (Du­san, Rabiner 2005, 1235).

Необхідність - система зв'язків і відносин, що зумовлює зміну, поступальний рух, розвиток у жорстко визначеному напрямку з жорстко визначеними результатами. Іншими словами, необхідність - це такий зв'язок, що обов'язково призводить до певної події.
Виробни́цтво - процес створення матеріальних і суспільних благ, необхідних для існування і розвитку. Створюючи певні блага люди вступають у зв'язки і взаємодію – виробничі відносини. Тому виробництво є завжди суспільним.
Це спеціальне мовлення вимовлятиметься чіткіше, ніж звичайно, його синтаксичні й прагматичні характеристи­ки відповідатимуть вимогам потенційного перцептора – комп’ютера.

Для підвищення ефективності автоматичного розпізнавання мовлення необхідно також вивчити питання про матеріальні кореляти звуків мовлення.

Підвищення (елевація) - кутова висота об'єкта спостереження (земного предмета, літального апарату, небесного світила тощо) над істинним горизонтом. Підвищення спільно з азимутом служить для визначення напрямку на об'єкт.
Виявлення та експліцитний опис матеріальних реалізацій звуків мовлення є основними завданнями експерименталь­ної фонетики. Сферою дослідження експериментальної фонетики є фізіологічні й акустичні кореляти звуків мовлення. Розвиток теорії сприйняття мовлення привів до визначення певних типів сигналів для реалізації матеріальних аудитивних процесів. Вивченням цих сигна­лів займається сигнальна фонетика (Потапова 1990, 21). Відомо, що всі матеріальні процеси, які супроводжують конкретний акт кому­нікації та напряму від головного мозку мовця до головного мозку слухача, можуть бути представлені й описані за допомогою різних типів сигналів.

Сигнальна фонетика намагається встановити та описати зв’язки між одиницями мовлення й певними класами реалізацій у формі сигналів, що можуть бути акустично виміряні. Як відомо, лінгвістич­ні одиниці не можуть бути описані без урахування внутрішньої ком­петенції комунікантів як соціальних психо-фізичних систем. У той же час відомо, що акустичний мовленнєвий сигнал – це насамперед власне фізичний феномен.

Дослідженням акустичних мовленнєвих сигналів займається лінгвістична акустика, яка також вивчає можливості розпізнавання й опису тексту, що представлений у звуковому форматі. Ці досліджен­ня базуються на твердженні про те, що мовленнєвий сигнал містить достатньо надмірної інформації, яка робить можливим процес звукової мовленнєвої комунікації.

  1   2   3   4   5   6   7



  • Реальністю сьогодення
  • Стратегія