Хадооп Аналитика: Комбиновање података захтева изворно-агностички приступ

Аутор: Laura McKinney
Датум Стварања: 1 Април 2021
Ажурирати Датум: 16 Може 2024
Anonim
Technology Stacks - Computer Science for Business Leaders 2016
Видео: Technology Stacks - Computer Science for Business Leaders 2016


Извор: Агсандрев / Дреамстиме.цом

Одузети:

Изворно-агностичке методе идеалне су за обраду података за Хадооп анализу.

Комбиновање извора података у Хадоопу је сложен посао. Неки од разлога за то су:

  • Прилагођене скрипте специфичне за извор који комбинују изворе података су проблематичне.
  • Коришћење интеграције података или алата за науку података уноси превише несигурности.
  • Додавање података из спољних извора је готово немогуће.

Данас ћу разговарати о томе како се Хадооп аналитика побољшава кроз изворно-агностичке технологије које олакшавају комбиновање унутрашњих и екстерних извора података. Осим што ћу описати како изворно-агностичке методе функционишу, такође ћу објаснити зашто су Хадооп аналитикама потребне уграђене способности интелигенције и преноса знања, разумевање односа и карактеристика података, као и скалабилна и високо-перформанса архитектура.


  • Изворно-агностичке методе укључују флексибилан модел ентитетске резолуције који омогућава додавање нових извора података користећи статистички исправне, поновљиве процесе науке о подацима. Ови процеси користе алгоритме за прикупљање знања из података и процењују их, анализирају како би одредили најбољи приступ интеграције.
    Без обзира колико фрагментирани или непотпуни оригинални изворни записи, Хадооп аналитичке технологије треба да буду изворни агностик и да могу да обједине податке без промене или манипулације изворним подацима. Ове технологије би такође требале да креирају индексе ентитета на основу података и атрибута о појединцима и њиховом постојању у свету. Да би то постигли, морају разумјети садржај података, кон, структуру и начин на који се компоненте међусобно односе.
  • Уграђена наука о подацима и експертиза за интеграцију података омогућава да се подаци очисте, стандардизују и повежу са високим степеном тачности и прецизности. Алати и извештаји за визуализацију помажу аналитичарима да процене и науче из података и изврше подешавање система на основу знања стеченог из различитих корака у процесу.
  • Разумевање односа између ентитета резултира тачнијим процесима рјешавања ентитета. Како ентитети у стварном свету нису само зброј њихових атрибута, већ и њихова веза, знање о везама треба користити за откривање када су записи исти. Ово је посебно важно за руковање угаоним случајевима и великим подацима.
  • Карактеризација података побољшава анализу, решавање и повезивање података идентификовањем и пружањем сагласности за информације унутар извора података. Може помоћи у валидацији садржаја, густине и дистрибуције података у ступцима структурираних информација. Карактеризација података се такође може користити за идентификацију и вађење важних података повезаних са ентитетом (име, адреса, датум рођења итд.) Из неструктурираних и полуструктурираних извора ради корелације са структурираним изворима.
  • Скалабилна, паралелна архитектура брзо врши аналитику чак и када подржава стотине структурираних, полуструктурираних и неструктурираних извора података и десетине милијарди записа.

Хадооп мења начин на који свет спроводи аналитику. Када се у Хадооп екосистеме додају нове аналитичке информације о изворима, организације могу повезати тачке кроз многе унутрашње и екстерне изворе података и стећи увиде који раније нису били могући.


Овај чланак је првобитно објављен на Новетта.цом. Овде је дозвољено уз дозволу. Новетта задржава сва ауторска права.