Извор: Агсандрев / Дреамстиме.цом
Одузети:
Изворно-агностичке методе идеалне су за обраду података за Хадооп анализу.
Комбиновање извора података у Хадоопу је сложен посао. Неки од разлога за то су:
- Прилагођене скрипте специфичне за извор који комбинују изворе података су проблематичне.
- Коришћење интеграције података или алата за науку података уноси превише несигурности.
- Додавање података из спољних извора је готово немогуће.
Данас ћу разговарати о томе како се Хадооп аналитика побољшава кроз изворно-агностичке технологије које олакшавају комбиновање унутрашњих и екстерних извора података. Осим што ћу описати како изворно-агностичке методе функционишу, такође ћу објаснити зашто су Хадооп аналитикама потребне уграђене способности интелигенције и преноса знања, разумевање односа и карактеристика података, као и скалабилна и високо-перформанса архитектура.
- Изворно-агностичке методе укључују флексибилан модел ентитетске резолуције који омогућава додавање нових извора података користећи статистички исправне, поновљиве процесе науке о подацима. Ови процеси користе алгоритме за прикупљање знања из података и процењују их, анализирају како би одредили најбољи приступ интеграције.
Без обзира колико фрагментирани или непотпуни оригинални изворни записи, Хадооп аналитичке технологије треба да буду изворни агностик и да могу да обједине податке без промене или манипулације изворним подацима. Ове технологије би такође требале да креирају индексе ентитета на основу података и атрибута о појединцима и њиховом постојању у свету. Да би то постигли, морају разумјети садржај података, кон, структуру и начин на који се компоненте међусобно односе. - Уграђена наука о подацима и експертиза за интеграцију података омогућава да се подаци очисте, стандардизују и повежу са високим степеном тачности и прецизности. Алати и извештаји за визуализацију помажу аналитичарима да процене и науче из података и изврше подешавање система на основу знања стеченог из различитих корака у процесу.
- Разумевање односа између ентитета резултира тачнијим процесима рјешавања ентитета. Како ентитети у стварном свету нису само зброј њихових атрибута, већ и њихова веза, знање о везама треба користити за откривање када су записи исти. Ово је посебно важно за руковање угаоним случајевима и великим подацима.
- Карактеризација података побољшава анализу, решавање и повезивање података идентификовањем и пружањем сагласности за информације унутар извора података. Може помоћи у валидацији садржаја, густине и дистрибуције података у ступцима структурираних информација. Карактеризација података се такође може користити за идентификацију и вађење важних података повезаних са ентитетом (име, адреса, датум рођења итд.) Из неструктурираних и полуструктурираних извора ради корелације са структурираним изворима.
- Скалабилна, паралелна архитектура брзо врши аналитику чак и када подржава стотине структурираних, полуструктурираних и неструктурираних извора података и десетине милијарди записа.
Хадооп мења начин на који свет спроводи аналитику. Када се у Хадооп екосистеме додају нове аналитичке информације о изворима, организације могу повезати тачке кроз многе унутрашње и екстерне изворе података и стећи увиде који раније нису били могући.
Овај чланак је првобитно објављен на Новетта.цом. Овде је дозвољено уз дозволу. Новетта задржава сва ауторска права.