Первая страница
Наша команда
Контакты
О нас

    Головна сторінка



Компоненти інформаційної системи підтримки рішень для наукових періодичних видань

Скачати 333.1 Kb.

Компоненти інформаційної системи підтримки рішень для наукових періодичних видань




Скачати 333.1 Kb.
Сторінка2/3
Дата конвертації03.06.2017
Розмір333.1 Kb.
ТипАвтореферат
1   2   3

У другому розділі сформульовано дерево цілей системи керування науковим періодичним виданням та описаний процес створення структури бази да­них для забезпечення функцій системи керування. У розділі також обґрунтовано використання даних, що одержуються з різних джерел, в якості базового полігону для видобування знань про наукове періодичне видання. При цьому розрізняємо так звані зовнішні дані, що отримуються із зов­нішніх джерел, та внутрішні дані, що містяться безпосередньо у публікаціях видання. Зовнішні дані дають можливість оцінити доступність видання для читачів та потенційних авторів, що є важливим показником та своєрідним гарантом якості публікацій, забезпечуючи наявність здорової конкуренції та зовнішньої критики. Саме завдяки доступності опублікованих матеріалів стає можливим механізм здійснення наукових цитувань, що реалізує функцію оцінювання всередині самої системи науки. Аналіз зовнішніх даних про видання дає можливість оцінити їх інтегрованість у глобальний науковий інформаційний простір, одержати інформацію про частку видань, що є «видимими» у міжнародних базах даних та у мережі Інтернет, оцінити відсоток нецитованих статей та інтенсивність цитування окремих статей у виданні чи всього видання загалом.
Інформаці́йний про́стір (англ. Information space) - сукупність результатів семантичної діяльності людства.
Особливої уваги заслуговує аналіз внутрішніх даних про видання. Нині для аналізу та оцінювання наукових періодичних видань переважно використовуються внутрішні дані формального характеру: наклад, склад редакційної колегії, дотримання процедур розсилання опублікованих примірників, тощо.

В якості прикладу, було здійснено комплексний аналіз вибраного наукового періодичного видання на основі сукупності як внутрішніх, так і зовнішніх даних.

Компле́ксний ана́ліз, або тео́рія фу́нкції компле́ксної змі́нної (ТФКЗ) - розділ математики, що вивчає функції, які залежать від комплексної змінної. Використовується у багатьох розділах математики, зокрема у теорії чисел, прикладній математиці та фізиці.
Об’єктом такого аналізу став український науковий журнал «Condensed Matter Physics» («CMP»), що визнається ВАК України як фахове видання з фізико-математичних наук з 9 червня 1999 року.






Рис. 1. Структура бази даних видання «CMP».
Розроблено структуру бази даних, що реалізована для наукового періодичного видання «CMP» (рис. 1) і визначається спектром задач, які покликана вирішувати інформаційна система підтримки рішень. Перш за все вона повинна відображати багатовимірність даних про наукове періодичне ви­дання, які можуть розглядатись на рівні авторів, окремих статей та цитованих джерел. Розроблена програма забезпечує можливість в автоматизованому режимі одержати у структурованому вигляді дані про кожну із статей зокрема.

На основі проведеного дослідження встановлено, що використання простих методів аналізу доступних даних дає можливість описати наукове періодичне видання лише з точки зору формальних вимог: констатувати факт його наявності в переліку ВАК, списку Thomson Scientific Master Journal List, тощо.

Аспект (лат. aspectus - вигляд, погляд) - поняття філософії (онтології, теорії пізнання). У філософії аспект розглядається
З іншого боку, можливості кількісного порівняльного аналізу наукового періодичного видання, що активно використовуються нині у світі, є сильно обме­женими, так як для їх використання необхідно мати доступ до сервісів Thomson Scientific, який є можливим лише для видань, що включені у ці бази даних, та вимагає відповідної оплати. При цьому слід зауважити, що лише близько 0,3% зі списку фахових видань ВАК України входять до списку Master Journal List і, відпо­відно, можуть аналізуватися з використанням сервісів Thomson Scientific.



У третьому розділі описано методи інтелектуального аналізу даних про публікації у науковому періодичному виданні, що розроблені на основі теорії складних мереж та теорії випадкових графів. Наведено результати аналізу побудованих мереж на основі даних про публікації у виданні «CMP». Розглядалися мережі двох видів, у яких, відповідно, вузли представляють окремих авторів або їх статті, що опубліковані у журналі. При цьому між вузлами будувались зв’язки з врахуванням даних про: 1) авторство статей, 2) цитовані у статтях джерела, 3) використані номери PACS (запропонованована Американським інститутом фізики класифікаційна схема для окреслення тематики наукових публікацій з фізики та астрономії, акронім від «Physics and Astronomy Classification Scheme»).
Американський інститут фізики (англ. American Institute of Physics, скорочено AIP) - фахове товариство фізиків США, під крилом якого об'єднана низка інших наукових товариств. Інститут був заснований у 1931 з метою підтримки фінансування досліджень в області фізики у період Великої депресії.

У розділі наведені результати детального аналізу кожної їз побудованих мереж: розраховано значення базових параметрів, побудовано розподіли ступенів вузлів, характеристики зв’язності та результати аналізу найбільших зв’язаних компонент. Також запропоновано інтерпретацію для структурних елементів мереж: зв’язаних компонент, вузлів із найвищим ступенем, тощо.

Першою було побудовано та проаналі­зовано мережу співавторства, вузли якої поз­начають авторів, що коли-небудь публікували свої роботи у «CMP», а зв'язки означають наявність хоча б однієї спільної статті у журналі. Незважаючи на порівняно невеликий розмір бази даних, побудована мережа співавторства має всі характерні риси великих мереж, що належать до класу безмасштабних: високе значення коефіцієнта кластерності, близький до степеневого розподіл ступенів вуз­лів та малий середній найкоротший шлях між парою довільних вузлів. Одержані значення для різних параметрів мережі співавторства журналу також свідчать про тип та спрямованість видання і можуть використовуватись для його опису та моніторингу. Наприклад, середня кількість співавторів у статтях видання «CMP» рівна 2, а максимальна – 8, з чого можна зробити висновок про доміную­чий теоретичний характер публікацій у досліджуваному виданні, що відповідає його задекларованому опису. З літератури відомо, що для типової теоретичної статті це значення коливається від 1 до 3 (9 для для окремих галузей), в той час як для публікацій із результатами експериментальних досліджень цей показник може досягати сотень або й тисяч. Про теоретичний характер публікацій у «CMP» свідчить також одержане значення середнього ступеня вузлів у мережі співавторства журналу, що дорівнює приблизно 2,77. Відомо, що для набору чисто теоретичних публікацій цей показник не перевищує 4, а для повністю чи частково експериментальних робіт середнє значення ступеня вузлів приблизно рівний (для специфічних галузей – більше 100).




Рис. 2. Незв’язна мережа співавторства журналу «CMP»: виділено головний та два наступні за розміром кластери, а решту мережі згруповано окремо.
Побудована мережа співавторст­ва не є зв’язаною – вона містить набір ізольова­них кластерів та вузлів (рис. 2). Із 838 вуз­лів мережі до най­більшої зв’язаної компо­ненти ввійшло 116, що представляють «ключових» ав­торів журналу. Високий ступінь зв'язності мережі співавторства під­тверджує мала середня відстань між парою взаємнодосяжних вузлів: для «CMP» цей показник є близьким до 4.

Побудова мереж співавторства на основі даних за кожен рік існування ви­дання дає можливість побачити її еволю­цію: спочатку мережа складаєть­ся із набо­ру окремих фрагментів неве­ликого розмі­ру, а далі відбуваєть­ся усклад­нення мережі внаслідок пов’язу­вання її фрагмен­тів. Еволю­ція мережі завершується, утворюючи типову кар­ти­ну, зображену на рис. 2. Такий аналіз дає мож­ливість побачити зміни у «ша­блонах наукової співпраці»: появу нових колективів авторів, співпрацю між різ­ними робочими групами, тощо. Вра­хування ж додаткових даних про місце праці кожного автора дає можли­вість про­слідкувати динаміку міжна­родної співпраці у рамках видання.






Рис. 3. Схематичний рисунок мережі цитувань (двосортний граф) та дві її одномодові проекції.
У роботі було досліджено мережу цитувань, що є прикладом так званої дво­сортної напрямленої мережі. При цьому перший тип вузлів позначає тих, «які циту­ють» (в нашому випадку це статті у «CMP»), а другий, відповідно, «кого циту­ють» (авто­ри), див. рис. 3 (а). Маючи дво­сортну мере­жу, завжди можна перейти до її простих одномодових проек­цій, як це схематично показано на рис. 3 (б). Проекція вузлів чорно­го кольору – це мере­жа всіх статей, опубліко­ваних у досліджу­ваному виданні, що з'єдну­ються зв'язком тоді, коли в обох статтях ци­тувався той самий автор (хоча б один раз), тобто це мережа бібліографічних пар. Відпо­відно, проекція вуз­лів сірого кольору є мережею співцитувань, тобто мережею, де вули представляють усіх співцитованих авторів у статтях даного видання.




Рис. 4. Узагальнений алгоритм знаходження тематично пов’язаних авторів наукового періодичного видання.
При аналізі мережі цитувань також можна визначити ряд специфічних показників, що мають свою інтерпретацію для наукового періодичного видання. Так, значення густини цитувань (середня кількість цитованих джерел на одну статтю) є специфічним для кожної галузі науки, а його відносне значення свідчить про тип публікацій. Зокрема, у статтях-оглядах списки цитованих джерел є набагато довшими. У виданні «CMP» густина цитувань складає 24 цитовані джерела на статтю, крім того, можна виділити як мінімум 6 робіт, що цитують понад 100 джерел і позиціонуються як оглядові. Ще одним показником, що характеризує здійснені цитування, є їх півперіод, що показує кількість років у минуле від поточного року, впродовж яких було опубліковано 50% процитованих джерел.

За допомогою розроблених у дисертації методів та засобів детально проаналізовано побудовані прості проекції мережі цитувань – мережа співцитувань та мережа бібліографічних пар. Показано, що мережа співцитувань є добре скорельованою та характеризується високим рівнем зв'язності. Особливої уваги у ній заслуговують вузли із великим значеннями ступеня, що інтерпретуються як автори, автори­тетні в своїй науковій ділянці, яких називаємо «класиками». Для видання «CMP» визначено декілька таких авторів. При цьому показано, що аналогічні результати одержуються не лише при аналізі простої мережі співцитувань, де зв’язок між авторами утворюється вже при їх одноразовому співцитуванні, але й при враху­ванні заданого мінімального числа співцитувань авторів як певного порогу чутливості. Мережа бібліогра­фічних пар є слабо скорельованою та харак­теризується порівняно малим рівнем зв’яз­ності. При її аналізі особливої уваги заслуго­вують ізольовані вузли, що інтерпрету­ються як статті з нехарактерною для журналу темати­кою.

Описано розроблений метод виявлення те­матики науково­го періодич­ного видання. Пред­став­лен­ня даних у вигляді складної мережі дає можливість використову­вати ряд алгоритмів на мережах, зокрема, алгоритм Гірвана-Ньюмена для знаходження «природної структури мережі». При цьому мається на увазі виявлення зв’яза­них груп вузлів, що мають більшу концентра­цію зв’язків між собою, проте не представлені ізо­льованими кластерами. У випадку аналізу даних про публікації в науковому виданні знаходження структури мережі статей чи авторів, поєднаних певними зв’язками, забезпечує групування їх за спільною науковою тематикою.

Узагальнений алгоритм методу знаходження тематич­них груп авторів видання на основі мережі спів­авторства наведений на рис. 4. Для знаходження зв’язаних компонент мережі можуть використо­вуватися типові алгоритми, відомі із теорії гра­фів. Побудова гістограм вико­ристання номерів PACS у статтях авторів для кож­ної зі знайдених груп дає мож­ливість визна­чити, у яких напрямках збіга­ються їх наукові ін­тереси. Ієрархічна будова номерів PACS (подібно до УДК) дає можливість пере­віряти спорідненість наукових напрямків як на загальному рівні, так і з вра­хуванням більш детального тематичного розбиття.

Метод використано і для виявлення тематичних груп серед опублікованих у виданні статей. Перевагою використання мере­жі статей в якості базової є те, що тематика окре­мих публікацій вже є визначеною та незмінною, на відміну від авторів, які можуть з часом зміню­вати вектор своїх наукових інтересів.




Рис. 5. Приклад реалізації пошуку за автором (D.J. Henderson) на мережі співавторства видання «CMP».
Розроблений метод розширеного ін­фор­ма­цій­ного пошуку в рамках науково­го пе­ріо­дич­но­го видання також ґрун­тується на використанні алгоритмів на мережах. Пред­ставивши ав­то­рів/статті ви­дання у виг­ляді вузлів складної мережі, знаходимо їх відо­браження першого, дру­гого, чи n-го поряд­ку (сусіди на відстані 1, 2 чи n кроків). Ви­лучений із загальної мере­жі фрагмент, що містить стартовий вузол та його сусідів ра­зом із внутрішніми зв’яз­ками, утворює так звану егоцентричну ме­режу, тобто ме­режу, побудовану навколо вибраного вузла. По­дальший аналіз дає можливість виявити, чи одер­жана мережа є однорідною і чи можливо виділити її структуру.

На рис. 5 показані резуль­тати засто­сування методу роз­ширеного інформацій­ного по­шуку за автором «D.J. Hender­son» (ідентифікатор: 990) у рам­ках ви­дання «CMP». У цьому випадку було знайдено его­цент­рич­ну мережу, що містить почат­ковий вузол («D.J. Hender­son») та 17 сусід­ніх до ньо­го вузлів на відстані 2 кроків, що позначають спорідених за те­матикою ав­торів. Застосуван­ня алгоритму для зна­хо­дження структури мережі дало можли­вість розділити усіх авто­рів на 4 групи. Статис­тичний ана­ліз використаних номерів PACS показав домінуючі тема­тики усіх груп. При цьому автор, за яким вівся пошук, на­лежить до першої групи, що займається проблемами фізичної хімії та хімічної фізики, зокрема – дисперсними системами та складними рідинами.



У четвертому розділі описано застосування підходів теорії систем масового обслуговування (СМО) для дослідження часових характеристик про­цесу опрацювання статей у редакції наукового періодичного видання, а також побудовано відповідну імітаційну модель та проведено аналіз результатів моделювання.
Хімічна фізика - міждисциплінарна галузь науки, яка досліджує хімічні процеси методами молекулярної фізики та фізики твердого тіла. Хімічна фізика відрізняється від суміжної дисципліни фізичної хімії ухилом у бік фізичної сторони процесів, у той час, як фізична хімія більше зосереджена на хімічних явищах.
Фізи́чна хі́мія - галузь науки, що вивчає хімічні явища та процеси на основі загальних принципів фізики з використанням фізичних експериментальних методів.
Система масового обслуговування (СМО) - система, яка виконує обслуговування вимог, що надходять до неї . Обслуговування вимог у СМО проводиться обслуговуючими приладами. Класична СМО містить від одного до нескінченного числа приладів.

У термінах теорії СМО процес виконання довільних завдань людиною можна представити як послідовне виконання завдань із черги на основі їх непе­рервних пріоритетів. Природною є ситуація, коли перед людиною постав­лено ряд завдань, які вона виконує, починаючи з найважливішого (найбільш пріоритетного) для неї у даний момент часу. При дослідженні часових характеристик процесів людської активності переважно досліджуються дві випадкові величини: інтервал часу між здійсненням двох послідовних дій (interevent time) та проміжок часу, протягом якого конкрет­не завдання очікує на виконання (waiting time).

Момент часу - точка на часовій осі. Про події, що відповідають одному моменту часу, говорять як про одночасні.
Випадкова величина (англ. Random variable) - одне з основних понять теорії ймовірностей.
Нещодавно, у результаті емпіричного аналізу та моделювання процесів виконання певних дій людьми було вияв­лено, що у критичному та суперкритичному режимах, коли утворюєть­ся черга завдань, виникають степеневі або близькі до степеневих закони розподілів цих випадкових величин (А. Васкес, Й. Олівейра, А. Боробаші та ін.):



(1)

При цьому значення показників степеня для різних досліджуваних процесів змінюються у діапазоні від 1 до 3/2. Припускається, що степенева форма знайдених розподілів пояснюється особливістю природної поведінки людини, яка діє на основі власних динамічних пріоритетів.





Рис. 6. Схематичне зображення процесу опрацювання статей, надісланих у редакцію наукового журналу.

Використовуючи дані, доступні з опублікованих статей певного наукового періодичного видання, можна проаналізувати, скільки часу вони перебували у редакцїі наукового журналу, очікуючи на опублікування. Для цього достатньо використати інформацію про дати надходження та формального прийняття до друку статті. У деяких виданнях ці дати вказуються безпосередньо у заголовках опублікованих статей. Проміжок часу, що проходить між вказаними двома датами, називаємо часом очікування статті до друку :

де – дата надходження статті у редакцію, а – дата прийняття статті до друку (рис. 6). Через опрацювання сукупності статей є можливість дослідити розподіл випадкової величини .

Для дослідження розподілу часу очікування статей до друку та перевірки його спорідненості зі законами розподілу, знайденими для інших про­цесів людської діяльності, було проаналізовано дані про публікації у декількох міжнародних наукових журналах видавництва Elsevier: «Physica A: Statistical Mechanics and its Applications», «Physica B: Condensed Matter» та «Information Systems», а також у журналі «CMP».

В комп'ютерних системах поділ часу - це спосіб розподілу обчислювальних ресурсів між багатьма користувачами за допомогою мультипрограмування та багатозадачності. Вперше презентований в 1960-тих, та розвинутий в помітну обчислювальну модель в 1970-тих він здійснив значний технологічний прорив в історії обчислювальної техніки.
Закон розподілу ймовірностей - це поняття теорії ймовірностей, яке для дискретної випадкової величини показує множину можливих подій з ймовірностями їхнього настання.
На основі спеціально розробленої програми було зібрано доступні на веб-сторінках журналів дані про дати редакційного опрацювання статей, отримано розподіли для часів очікування , здійснено порівняння побудованих розподілів між собою та перевірено їх близькість до степеневої функції (1).
Степене́ва функція - функція вигляду f ( x ) = x a \!\ } , де a - дійсне число.

Враховуючи обмеженість вибірки даних та відомі з літератури результати аналізу інших процесів людської діяльності, одержані розподіли апроксимувалися такими функціями:



, , (2)

логнормальною, де і – математичне сподівання та середньоквадратичне відхилення ве­ли­чи­ни , – константи апроксимації;

Станда́ртне відхи́лення (англ. standard deviation) або середнє квадратичне відхилення, позначається як S або σ. - у теорії ймовірності і статистиці найпоширеніший показник розсіювання значень випадкової величини відносно її математичного сподівання.



, , (3)

степеневою з експоненційним обрізанням та різними зна­чен­нями показника степеня , де – характеристика часу очікування, що залежить від інтенсивності процесу , а – константа апроксимації.

На рис. 7 показано результати проведених апроксимацій розподілу видання «Phy­sica A», які практично не відрізняються для «Phy­sica B» та «Information Systems». Перевірка точності апроксимації за критерієм показала, що в усіх випадках розподіл часу очікування статей до друку однаково добре описується обрізаною сте­пеневою функцією з (3) і лог­нор­мальним законом (2). В обох випадках форма розподілу виз­на­ча­єть­ся сте­пеневою функ­цією (1) з показником степеня рівним 1, відрізняючись лише функ­ціо­наль­ною фор­мою екс­по­нен­цій­ної поправки: для (2) це величи­на, а для (3) це . На основі одержаних результа­тів стверджуємо, що характерний розподіл часу очікування статей до друку для нормально функціонуючого наукового видання у довгочасовій границі спадає за законом, близьким до степеневого зі значенням показника степеня рівним 1. Природна обмеженість реальних даних спричиняє виникнення експоненційних поправок та осциляції даних, проте такі ефекти будуть спостерігатись для будь-якого наукового видання.



Рис. 7. Розподіл часу очікування у виданні «Physica А». Пунктирна крива – апроксимація логнормальним законом (2), штрихова та суцільна криві – апроксимації степеневим законом із експоненційним образінням (3) та значеннями показника степеня β = 1 та β = 3/2, відповідно.

На основі одержаних результатів висунуто гіпотезу про те, що найбільш імовірною причиною появи так званих «довгих хвостів» у функціях розподілу часів очікування статей до друку є присутність етапу незалежного рецензування. На відміну від інших редакційних процесів, що є періодичними та регламентованими у часі, рецензування статей протікає у найбільш природній для людей спосіб.

Щоб перевірити висунуту гіпотезу, а також дослідити основні характерні риси процесу опрацювання надісланих статей у редакції наукового періодичного видання, було побудовано модель, що імітує роботу редакційної колегії. При цьому процес редакційного опрацювання статей виглядає як СМО з одним пристроєм виконання (редакційна колегія), на вхід якої надходять надіслані рукописи, а на виході з якої є сукупність статей, прийнятих до друку у черговому випуску.



Найпростіша імітаційна модель базується на таких передумовах: етап незалежного рецензування відсутній, тому усі надіслані статті розглядаються на засіданнях редакційної колегії; засідання редколегії відбуваються з періодичністю публікації самого видання; час очікування статей до друку виз­начається проміжком між її надходженням та черговим засіданням редколегії. Вхідними параметрами моделі є інтенсивність (тип) вхідного потоку, сценарії опрацювання та відхилення статей, максимальне та мінімальне обмеження на кількість статей в одному випуску, періодичність видання (у днях) та проміжок часу, на якому проводиться дослідження, обмеження на довжину черги. Контрольованими величинами в ході моде­лювання є максимальне значення часу очікування статей до друку, довжина утвореної черги, частка критично неповних номерів, частка відхилених статей. У загальному вигляді модельований процес виглядає так, як це показано на рис. 8. Вхідний потік може задаватися як детермінований або ж як пуасонівський із заданим значенням інтенсивності. Передбачений також варіант вхідного потоку за законом Гауса для можливості керування двома параметрами: середнім значення кількості надісланих статей та дисперсією від цього значення. Реалізовано два сценарії вибору статей з «портфеля»: випадковим чином або у порядку їх надходження. У випадку формування черги обмеженої довжини може виникати потреба у відхиленні частини статей, яке також може відбуватися випадковим чином або ж у порядку їх надходження.




Рис. 8. Схематичне зображення змодельованого процесу редакційного
опрацювання статей.

В результаті моделювання різних випадків, виявилось, що оптимальним є критичний режим роботи системи. При цьому критеріями оптимізації є мінімальна кількість критично неповних номерів (менше 1%) та стала довжина черги. Проте система не може самостійно перебувати у такому квазістаціонарному стані, тому необхідним стає штучне обмеження довжини черги. На рис. 9 приведено деякі типові результати моделювання процесу редакційного опрацювання статей, коли довжина черги обмежена за принципом «випуск у запасі».




Рис. 9. Усереднені результати моделювання для випадків, коли довжина черги обмежується кількістю статей, рівною одному випуску, а вибір рукописів для опрацювання відбувається (а) в порядку їх надходження та (б) випадковим чином.
Результати моделювання у різних режимах свідчать про те, що при досягненні системою стаціонарного режиму роботи та при відсутності етапу незалежного рецензування, розподіл часу очікування статей до друку в жодному випадку не спадає за законом, близьким до степеневого. Отже, можна зробити висновок про те, що за формою розподілу можна судити про наявність чи відсутність рецензування рукописів при підготовці публікацій у науковому періодичному виданні. Звідси випливає рекомендація, що може бути сформульована як вимога для видавців наукової періодики: подавати у статтях дані про основні дати редакційного опрацювання статей для можливості аналізу роботи редакційної колегії без додаткового втручання у неї. З іншого боку, побудована модель дала змогу виявити характерні риси можливих розподілів (наявність максимумів та їх розміщення, «східчаста» форма, наявність «довгих хвостів» і швидкість їх спадання) та запропонувати їх інтерпретацію, що дає можливість описати поточний режим роботи редакційної колегії даного видання. За допомогою побудованої моделі можна прогнозу­вати перехід на інші режими роботи за умови зміни тих чи інших параметрів: зміни фізичного обсягу випуску видання, його періодичності, тощо.

Результати проведеного дослідження було застосовано на прикладі журналу «CMP». Побудований розподіл часу очікування статей до друку та його апроксимація степеневою функцією наведений на рис. 10 (a). Додаткову інформацію щодо зміни середньорічного значення величини можна почерпнути із рис. 10 (б).





Рис. 10. (а) Розподіл часу очікування статей до друку у виданні «CMP» та його апроксимація степеневою функцією зі значенням показника степеня ≈-1,45. (б) Динаміка зміни середньорічної тривалості обслуговування статей у «CMP».
1   2   3


Скачати 333.1 Kb.

  • Американським інститутом фізики