Первая страница
Наша команда
Контакты
О нас

    Головна сторінка



Львівська політехніка

Скачати 92.39 Kb.

Львівська політехніка




Скачати 92.39 Kb.
Сторінка1/2
Дата конвертації28.03.2017
Розмір92.39 Kb.
  1   2

УДК 681.3

Н.Н Лило

Національний університет “Львівська

політехніка”, кафедра електронних

обчислювальних машин


Сховище навігаційних даних
© Лило Н. Н., 2015
У статті проаналізована технологія Big Data, призначена для реалізації сховищ великих даних.
Вели́кі да́ні (англ. Big Data) в інформаційних технологіях - набори інформації (як структурованої, так і неструктурованої) настільки великих розмірів, що традиційні способи та підходи (здебільшого засновані на рішеннях класу бізнесової аналітики та системах управління базами даних) не можуть бути застосовані до них.
Запропоновано методи використання даної технології для роботи з великими навігаційними даними.


Store navigation data

© Lylo N. N., 2015
The article the technology of Big Data, is designed to implement large data repositories. Methods of using this technology for large navigational data.
Вступ
Big Data - в інформаційних технологіях - серія підходів, інструментів і методів обробки структурованих і неструктурованих даних великих обсягів і значного різноманіття для отримання сприйманих людиною результатів, ефективних в умовах безперервного приросту, розподілу по численних вузлам обчислювальної мережі, що сформувалися в кінці 2000-х років, альтернативних традиційним системам управління базами даних і рішенням класу Business Intelligence .
бізнесова аналітика (англ. Business Intelligence, скорочено BI) - процес перетворення даних в інформацію, тобто у нові знання, які можуть бути використані для збільшення ефективності та конкурентноздатності підприємства.
Інформаці́йні техноло́гії, ІТ (використовується також загальніший / вищий за ієрархією термін інформаційно-комунікаційні технології (Information and Communication Technologies, ICT) - сукупність методів, виробничих процесів і програмно-технічних засобів, інтегрованих з метою збирання, опрацювання, зберігання, розповсюдження, показу і використання інформації в інтересах її користувачів.
У дану серію включають кошти масово-паралельної обробки невизначено структурованих даних, насамперед, рішеннями категорії NoSQL, алгоритмами MapReduce, програмними каркасами та бібліотеками проекту Hadoop .
Фреймворк (англ. Framework, каркас, платформа, структура, інфраструктура) -інфраструктура програмних рішень, що полегшує розробку складних систем. Спрощено дану інфраструктуру можна вважати своєрідною комплексною бібліотекою.

Як визначальні характеристики для великих даних відзначають три основні: обсяг ,швидкість, різноманіття .

Незважаючи на те, що термін вводився в академічному середовищі, і насамперед, розбиралася проблема росту і різноманіття наукових даних, починаючи з 2009 року термін широко поширився в діловій пресі, а до 2010 року відносять появу перших продуктів і рішень, що відносяться виключно і безпосередньо до проблемі обробки великих даних. До 2011 року більшість найбільших постачальників інформаційних технологій для організацій у своїх ділових стратегіях використовують поняття про великі даних, у тому числі IBM , Oracle , Microsoft , Hewlett-Packard , EMC , а основні аналітики ринку інформаційних технологій присвячують концепції виділені дослідження.

У 2011 році Gartner відзначає великі дані як тренд номер два в інформаційно-технологічної інфраструктурі (після віртуалізації і як більш істотний, ніж енергозбереження та моніторинг) . Прогнозується, що впровадження технологій великих даних найбільший вплив зробить на інформаційні технології у виробництві, охороні здоров'я, торгівлі, державному управлінні, а також у сферах і галузях, де реєструються індивідуальні переміщення ресурсів.

Держа́вне управлі́ння (публічне управління, англ. public administration) - є видом діяльності держави, здійснення управлінського організуючого впливу шляхом використання повноважень виконавчої влади через організацію виконання законів, здійснення управлінських функцій з метою комплексного соціально-економічного та культурного розвитку держави, її окремих територій, а також забезпечення реалізації державної політики у відповідних сферах суспільного життя, створення умов для реалізації громадянами їх прав і свобод. Державне управління є складовою політичного управління, тобто є процесом реалізації державної виконавчої влади як засобу функціонування будь-якої соціальної спільноти. У деяких країнах (наприклад, у Хорватії) цією діяльністю держави відає окреме міністерство.

З 2013 року великі дані як академічний предмет вивчення з'явився в вузівських програмах по науці про даних і обчислювальним наукам та інженерії .

В якості прикладів джерел виникнення великих даних наводяться безперервно надходять дані з вимірювальних пристроїв, події від радіочастотних ідентифікаторів, потоки повідомлень із соціальних мереж, метеорологічні дані, дані дистанційного зондування Землі, потоки даних про місцезнаходження абонентів мереж стільникового зв'язку, пристроїв аудіо- і відеореєстрації.

Дистанці́йне зондува́ння Землі (ДЗЗ)́ - спостереження поверхні Землі авіаційними і космічними засобами, оснащеними різноманітними видами знімальної апаратури.
Очікується, що розвиток і початок широкого використання цих джерел ініціює проникнення технологій великих даних як в науково-дослідну діяльність, так і в комерційний сектор і сферу державного управління.

Методи і техніки аналізу, застосовні до великих даними, виділені в звіті McKinsey :

Методи класу Data Mining: навчання асоціативним правилам (англ.

Отримання да́них (англ. Data Mining) - виявлення прихованих закономірностей або взаємозв'язків між змінними у великих масивах необроблених даних. Зазвичай поділяють на задачі класифікації, моделювання та прогнозування.
association rule learning), класифікація (методи категоризації нових даних на основі принципів, раніше застосованих до вже наявним даними), кластерний аналіз, регресійний аналіз;

Краудсорсінг - категоризація і збагачення даних силами широкого, невизначеного кола осіб, залучених на підставі публічної оферти, без вступу в трудові відносини;

Змішання і інтеграція даних - набір технік, що дозволяють інтегрувати різнорідні дані з різноманітних джерел для можливості глибинного аналізу, в якості прикладів таких технік, складових цей клас методів наводяться цифрова обробка сигналів та обробка природної мови (включаючи тональний аналіз );

Інтеграція даних (Data integration) - діяльність, що має на меті оптимальну організацію бази даних, при якій реалізовано всі необхідні взаємозв'язки між елементами даних, але база не містить повторів і зайвих елементів (так як по мірі використання бази даних вона має тенденцю роззосереджуватись).
Трудові́ відно́сини - врегульовані нормами трудового права суспільні відносини, що виникають як результат впливу норм трудового права на поведінку суб'єктів трудової діяльності в результаті укладення трудового договору, внаслідок якого між ними виникають правові зв'язки, а також відносини з приводу встановлення умов праці на підприємстві, навчання й перекваліфікації за місцем роботи та відносини, пов'язані з наглядом і контролем за додержанням трудового законодавства, вирішенням трудових спорів та працевлаштуванням громадян.
Регресі́йний ана́ліз - розділ математичної статистики, присвячений методам аналізу залежності однієї величини від іншої. На відміну від кореляційного аналізу не з'ясовує чи істотний зв'язок, а займається пошуком моделі цього зв'язку, вираженої у функції регресії.
Кластерний аналіз (англ. Data clustering) - задача розбиття заданої вибірки об'єктів (ситуацій) на підмножини, що називаються кластерами, так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних кластерів істотно відрізнялися.
Обро́бка приро́дної мо́ви - загальний напрямок інформатики, штучного інтелекту та математичної лінгвістики. Він вивчає проблеми комп'ютерного аналізу та синтезу природної мови. Стосовно штучного інтелекту аналіз означає розуміння мови, а синтез - генерацію розумного тексту.
Цифрова обробка сигналів (ЦОС - англ. digital signal processing, DSP) - перетворення сигналів, представлених у цифровій формі.

Машинне навчання, включаючи навчання з учителем і без учителя, а також Ensemble learning - використання моделей, побудованих на базі статистичного аналізу або машинного навчання для отримання комплексних прогнозів на основі базових моделей;

Штучні нейронні мережі, мережевий аналіз, оптимізація, в тому числі генетичні алгоритми;

Розпізнавання образів;

Прогнозна аналітика;

Імітаційне моделювання;

Просторовий аналіз - клас методів, що використовують топологічну, геометричну і географічну інформацію в даних;

Статистичний аналіз, як приклади методів наводяться A / B-тестування та аналіз часових рядів;

Штучна нейронна мережа (ШНМ, англ. artificial neural network, ANN, рос. искусственная нейронная сеть, ИНС) - це математична модель, а також її програмна та апаратна реалізація, побудовані за принципом функціювання біологічних нейронних мереж - мереж нервових клітин живого організму.
Генети́чний алгори́тм (англ. genetic algorithm) - це еволюційний алгоритм пошуку, що використовується для вирішення задач оптимізації і моделювання шляхом послідовного підбору, комбінування і варіації шуканих параметрів з використанням механізмів, що нагадують біологічну еволюцію.
Машинне навчання (англ. machine learning) - це підгалузь інформатики (зокрема, м'яких[en] та гранульованих обчислень[en]), яка еволюціювала з дослідження розпізнавання образів та теорії обчислювального навчання[en] в галузі штучного інтелекту.
Аналіз часових рядів - сукупність математико-статистичних методів аналізу, призначених для виявлення структури часових рядів і для їх прогнозування. Сюди належать, зокрема, методи регресійного аналізу.

візуалізація аналітичних даних - подання інформації у вигляді малюнків, діаграм, з використанням інтерактивних можливостей та анімації як для отримання результатів, так і для використання в якості вихідних даних для подальшого аналізу.


Аналіз публікації

Для обробки Big Data використовують наступн технологї:

NoSQL

MapReduce



Hadoop

Мова програмування R

Найбільш часто вказують в якості базового принципу обробки великих даних в SN-архітектуру , що забезпечує масивно-паралельну обробку, масштабовану без деградації на сотні і тисячі вузлів обробки . При цьому, McKinsey, крім розглянутих більшістю аналітиків технологій NoSQL, MapReduce, Hadoop, R, включає в контекст застосовності для обробки великих даних також технології Business Intelligence і реляційні системи управління базами даних з підтримкою мови SQL.

"Big Data " відноситься до поєднання підходу до інформування процесу прийняття рішень з аналітичним розумінням основі даних, і набір ефективних технологій, які дозволяють, що розуміння буде економічно отримано з часом дуже великі, різноманітні джерела даних.

Система керування, також Система управління (англ. control system) - систематизований набір засобів впливу на підконтрольний об'єкт для досягнення цим об'єктом певної мети. Об'єктом системи керування можуть бути як технічні об'єкти так і люди.
Тео́рія рі́шень - царина досліджень, яка математичними методами досліджує закономірності вибору людьми найвигідніших із можливих альтернатив і має застосування в економіці, менеджменті, когнітивній психології, інформатиці та обчислювальній техніці.
Досягнення в технологіях зондування, оцифровка торгівлі і комунікацій, а також поява і зростання соціальних медіа деякі з тенденцій, які створили можливість використовувати великий масштаб, дрібнозернисті дані, щоб зрозуміти поведінку системи, і комерції;
Соціа́льні ме́діа (англ. Social media) - вид мас-медіа, ряд онлайнових технологій на принципах Веб 2.0, завдяки яким споживачі контенту через свої дописи стають його співавторами і можуть взаємодіяти, співпрацювати, спілкуватися, ділитися інформацією або брати участь у будь-якій інший соціальній активності із теоретично усіма іншими користувачами певного сервісу.
в той час як інновації в технології робить його життєздатним економічно використовувати цю інформацію, щоб повідомляти рішення і поліпшити результати .



Постановка задачі

Метою роботи є аналіз алгоритмів роботи з великими даними, а також пошук свого рішення для вирішеня проблеми великих дани. При роботі з великими даними потрібно розглянути технології які зараз є для вирішення ціє проблеми.У нас час з кожними роком розмір даних тільки збільшується.Потрібно реалізувати алгорит для оптимізації даних а також для зберігання тільки потрібної нам інформації.



Існуючі підходи до роботи з навігаційними даними

Навігаційні дані використовуються кожний день для пошуку місця куди нам потрібно.Навігаціїй дані зберігаються у база даних в окремих фрагментах.Кожного дня ми зберігаєм нові навігаційні дані які ми використовуємо при цьому старі залишаються зберігатись у базах даних.Потрібно розробити алгорми для того щоб звертатись тільки до цих даних що нам потрібні і позбуватись не потрібних нам.Зараз існують такі підходи для роботи з навгаційними даними.Одним з основних підходів це зберігання навігаційних даних на кластерах.Для цього використовують технологію MapReduce –це модель розподілених обчислень, представлена ​​компанією Google, використовувана для паралельних обчислень над дуже великими, кілька петабайт, наборами даних у комп'ютерних кластерах.

Робота MapReduce складається з двох кроків: Map і Reduce.

На Map-кроці відбувається попередня обробка вхідних даних. Для цього один з комп'ютерів (званий головним вузлом - master node) отримує вхідні дані завдання, розділяє їх на частини і передає іншим комп'ютерам (робочим вузлам - worker node) для попередньої обробки. Назва даний крок отримав від однойменної функції вищого порядку.

Паралельні обчислення Паралельні обчислення - це форма обчислень, в яких кілька дій проводяться одночасно. Ґрунтуються на тому, що великі задачі можна розділити на кілька менших, кожну з яких можна розв'язати незалежно від інших.
Розподілені обчислення Розподі́лені обчи́слення (розподілена обробка даних) - спосіб розв'язання трудомістких обчислювальних завдань з використанням двох і більше комп'ютерів, об'єднаних в мережу.
Функція вищого порядку - функція, що приймає як аргументи інші функції або повертає іншу функцію як результат. Основна ідея полягає в тому, що функції мають той же статус, що й інші об'єкти даних.

На Reduce-кроці відбувається згортка попередньо оброблених даних. Головний вузол отримує відповіді від робочих вузлів і на їх основі формує результат - рішення задачі, яка спочатку формулювали.

Перевага MapReduce полягає в тому, що він дозволяє розподілений виробляти операції попередньої обробки і згортки. Операції попередньої обробки працюють незалежно один від одного і можуть проводитися паралельно (хоча на практиці це обмежена джерелом вхідних даних та / або кількістю використовуваних процесорів). Аналогічно, безліч робочих вузлів можуть здійснювати згортку - для цього необхідно тільки щоб все результати попередньої обробки з одним конкретним значенням ключа оброблялися одним робочим вузлом в один момент часу.

Момент часу - точка на часовій осі. Про події, що відповідають одному моменту часу, говорять як про одночасні.
Хоча цей процес може бути менш ефективним у порівнянні з більш послідовними алгоритмами, MapReduce може бути застосований до великих обсягів даних, які можуть оброблятися великою кількістю серверів. Так, MapReduce може бути використаний для сортування петабайта даних, що займе всього лише кілька годин. Паралелізм також дає деякі можливості відновлення після часткових збоїв серверів: якщо в робочому вузлі, що виробляє операцію попередньої обробки або згортки, виникає збій, то його робота може бути передана іншій робітникові вузлу (за умови, що вхідні дані для проведеної операції доступні).

Фреймворк у великій мірі заснований на функціях map і reduce, широко використовуваних у функціональному програмуванні, хоча фактично семантика фреймворку відрізняється від прототипу.Також при робот з великими даними використовую технологію Hadoop

  1   2


Скачати 92.39 Kb.

  • У статті проаналізована технологія Big Data, призначена для реалізації сховищ великих даних
  • Store navigation data
  • Існуючі підходи до роботи з навігаційними даними