Како СКЛ на Хадоопу може помоћи при великој анализи података?

Аутор: Roger Morrison
Датум Стварања: 19 Септембар 2021
Ажурирати Датум: 19 Јуни 2024
Anonim
How I Became a Data Analyst (without a related degree)
Видео: How I Became a Data Analyst (without a related degree)

Садржај



Извор: Мациек905 / Дреамстиме.цом

Одузети:

СКЛ он Хадооп комбинује ове две методе управљања подацима да би створио ново средство за анализу података.

СКЛ он Хадооп је група алата за аналитичку апликацију која комбинују испитивање у СКЛ стилу и обраду података са најновијим елементима оквира Хадооп података. Појава СКЛ-а на Хадоопу важан је развој за велику обраду података јер омогућава широким групама људи да успешно раде са оквиром за обраду података Хадооп покретањем СКЛ упита на огромној количини великих података које Хадооп обрађује. Очигледно је да Хадооп оквир раније није био толико доступан људима, посебно у погледу његових могућности упита. На основу развоја, у раду је рађено неколико алата који обећавају побољшање продуктивности предузећа када је у питању обрада и анализа великих података квалитетом и брзином. Такође, није потребно много улагати у учење алата, као што то треба учинити традиционално знање СКЛ-а.

Дефиниција СКЛ-а на Хадоопу

СКЛ он Хадооп је група апликација која вам омогућава покретање упита у стилу СКЛ на великим подацима који су у оквиру Хадооп оквира за обраду података. Очигледно је да су упити, дохваћање и анализа података постали лакши додавањем СКЛ-а на Хадооп-у. С обзиром да је СКЛ првобитно дизајниран за релацијске базе података, морао је бити модификован према Хадооп 1 моделу који садржи МапРедуце и Хадооп Дистрибуирани датотечни систем (ХДФС) и Хадооп 2 модел који нема МапРедуце и ХДФС.


Један од најранијих напора за комбиновање СКЛ-а са Хадооп-ом резултирао је стварањем складишта података Хиве са ХивеКЛ софтвером који би могао превести упите у СКЛ стилу у задатке МапРедуце. Након тога развијено је неколико апликација које би могле да ураде сличне послове. Истакнутији део каснијих алата су бушилица, БигСКЛ, ХАВК, Импала, Хадапт, Стингер, Х-СКЛ, машина за спајање, Престо, ПолиБасе, Спарк, ЈетхроДата, Схарк (кошница на искре) и Тез (кошница на Тез).

Како функционише СКЛ на Хадооп-у?

СКЛ он Хадооп ради са Хадооп на следеће начине:

  • Конектори у Хадооп окружењу преводе СКЛ упит у МапРедуце формат тако да Хадооп разуме упит.
  • Пусхдовн системи извршавају СКЛ упит унутар Хадооп кластера.
  • Системи деле огромну количину СКЛ упита између МапРедуце-ХДФС кластера, у зависности од оптерећења кластера.

Изгледа да СКЛ упит не мења његову природу; Хадооп прилагођава упит формату који разуме.

Главне предности СКЛ-а на Хадоопу

Као што је већ речено, СКЛ на Хадоопу важан је развој у смислу чињенице да се анализа великих података учини доступном већини људи и да се анализа података учини лакшом и бржом. Нема сумње да је Хадооп оквир података био сјајно средство за анализу великих података, али и даље му је доступан само ограничена група људи, не само због огромних напора потребних за учење његове јединствене архитектуре, већ и због тога што има проблема са компатибилношћу са другим технологијама. СКЛ на Хадоопу обећава да ће решити ова питања.


Сада више људи може приступити Хадоопу

Чини се да је СКЛ на Хадоопу Хадооп учинио егалитарнијим у смислу да шире групе људи сада могу користити Хадооп за обраду и анализу података. Раније, да бисте користили Хадооп, морали сте познавати Хадооп архитектуру - МапРедуце, ​​Хадооп Дистрибуирани датотечни систем или ХБасе. Сада можете прикључити готово било који аналитички или извештајни алат и приступити и анализирати податке.Захваљујући СКЛ-у на Хадоопу, број СКЛ-а на Хадооп моторима као што су Цлоудера Импала, Цонцуррент Лингуал, Хадапт, ЦитусДБ, ИнфиниДБ, МаммотхДБ, МемСКЛ, Пивотал ХАВК, Апацхе Дрилл, СцлераДБ, Прогресс ДатаДирецт, Симба и Сплице Мацхине сада су комерцијално доступни за употребу са великим подацима. Очигледно је да је ово Хадооп отворило широј публици која сада може очекивати да ће повећати свој повраћај улагања у велике податке.

Анализа великих података помоћу Хадоопа сада је једноставнија

Сада, све што требате да урадите је покренути стари добри СКЛ упит на великим подацима како бисте преузели и анализирали податке. СКЛ се развио од само алата релацијске базе података до великог алата за анализу података, што је заиста значајна промена. Не требате бринути како Хадооп обрађује упите - он има свој начин тумачења СКЛ упита и даје вам резултате. Стручњаци сматрају да иако систем дистрибуције датотека Хадооп има паралелне процесе робних кластера за велике податке, он може побољшати своје могућности обраде уколико ради са интерактивним питањима у СКЛ стилу. Пре него што се ХДФС комбинује са СКЛ-ом, требало би дуго времена да се подаци обрађују с ХДФС-ом ​​и да тај задатак захтева специјализоване научнике података. А упити нису били интерактивни. Са оквиром Апацхе Тез, који садржи аналитички мотор Спарк и интерактивни убрзавач Стингер упита за складиште података Хиве, ови проблеми су решени. Према Ану Јаин, групном менаџеру стратегије и архитектуре у малопродаји Таргет Цорпоратион, „За нас је веома важно да осигурамо да корисницима дајемо приступ интерактивним упитима. Са Тезом смо у могућности да пружимо ту способност пословању. "

Без грешака, без стреса - Ваш корак по корак водич за креирање софтвера за промену живота без да вам уништи живот


Не можете побољшати своје вештине програмирања када никога није брига за квалитет софтвера.

Популарност интерактивне аналитике расте међу корисницима Хадоопа, показало је истраживање Гартнера. Према истраживању, 32% испитаника користи интерфејсе треће стране са ХДФС или ХБасе, 27% користи само креиране упите путем Хиве, док 23% користи алате специфичне за дистрибуцију Хадооп, као што су Цлоудера Импала и Пивотал ХАВК.

Друга перспектива на СКЛ на Хадоопу

Иако се чини да ће СКЛ на Хадоопу решити велики број проблема које имамо са Хадоопом, постоји и други поглед који верује да СКЛ може имати пуно проблема, посебно у комбинацији са Хадооп-ом. Према овом мишљењу, СКЛ можда ипак није толико ефикасан као аналитичко средство када је реч о великим подацима. Према кориснику панелиста корисника Хадооп Суммит Јохна Виллиамса, СКЛ можда није најбоље аналитичко средство за рад са великим подацима. Према Виллиамс-у, који је виши потпредседник за оперативне платформе ТруеЦар-а, који корисницима нуди интернетску платформу за куповину аутомобила, „време извршења СКЛ-а на великом скупу података је споро. У међувремену, Хадооп на СКЛ-у постаје бржи са стварима попут ИАРН и Тез. "

А то није једини проблем са СКЛ-ом. Постоји пуно општих задатака као што су проучавање података, креирање шема, креирање индекса и упита и нормализација о којој требате водити рачуна када комбинујете СКЛ са Хадоопом и можда ћете трошити пуно времена и труда. Након овог труда, нема гаранције да сте постигли било шта трајно. Ако се било шта промијени, можда ће се од вас тражити да поновите оно што сте већ направили. Уместо СКЛ-а, велики развој података усмерен на податке требало би да се заснива на Јава и Питхон-у, јер су ови језици погоднији за неструктурирану обраду података.

Закључак

Жири је још увијек отворен да ли је СКЛ на Хадоопу одговор на проблеме људи са којима се суочава коришћење Хадоопа. Али очигледно је да је индустрији потребна боља алтернатива могућностима Хадоопових података за испитивање података и та алтернатива мора бити интерактивна. СКЛ на Хадооп алатима пружа интерактивну аналитику, што је корисно. Предузећа не желе да губе време на покушајима да се смисле из компликоване, дуготрајне аналитике. За сада компаније сматрају да је СКЛ на Хадооп алатима врло користан.