10 најважнијих Хадооп термина које морате знати и схватити

Аутор: Eugene Taylor
Датум Стварања: 10 Август 2021
Ажурирати Датум: 1 Јули 2024
Anonim
The Great Gildersleeve: Gildy’s New Car / Leroy Has the Flu / Gildy Needs a Hobby
Видео: The Great Gildersleeve: Gildy’s New Car / Leroy Has the Flu / Gildy Needs a Hobby

Садржај



Извор: Труеффелпик / Дреамстиме.цом

Одузети:

Да бисте заиста разумели велике податке, морате мало да разумете Хадооп и језик око њега.

Велики подаци, атрактиван назив за огромне количине структурираних, неструктурираних или полуструктурираних података, ноторно је тешко ухватити, похранити, управљати, дијелити, анализирати и визуализирати, барем користећи традиционалне базе података и софтверске апликације. Зато технологије великих података имају потенцијал да ефикасно и ефикасно управљају и обрађују огромне количине података. И његов Апацхе Хадооп који пружа оквир и придружене технологије за дистрибуцију великих скупова података у кластерима рачунара на дистрибуирани начин. Дакле, да бисте заиста разумели велике податке, морате мало разумјети Хадооп. Ево, погледајте врхунске појмове које ћете чути у вези с Хадоопом - и шта они значе.

Али прво, погледајте како функционира Хадооп

Пре него што уђете у Хадооп еко-систем, морате јасно да схватите две основне ствари. Први је начин на који се датотека чува у Хадоопу; друго је како се процесирају похрањени подаци. Све технологије повезане са Хадооп-ом углавном раде на ове две области и чине их пријатнијим за кориснике. (Набавите основе како Хадооп функционише у начину на који Хадооп помаже у решавању проблема са великим подацима.)


Сада, о условима.

Хадооп Цоммон

Хадооп оквир има различите модуле за различите функционалности и ти модули могу међусобно комуницирати из различитих разлога. Хадооп Цоммон се може дефинисати као заједничка библиотека услужних програма која подржава те модуле у Хадооп екосуставу. Ове алате су у основи Јава, архивиране (ЈАРс) датотеке. Ове алате углавном користе програмери и програмери током развојног времена.

Хадооп дистрибуирани систем датотека (ХДФС)

Хадооп Дистрибуирани датотечни систем (ХДФС) је под-пројекат Апацхе Хадооп у оквиру софтверске фондације Апацхе. Ово је окосница складиштења у Хадооп оквиру. То је дистрибуирани, скалабилни и фаулт-толерантни систем датотека који се протеже кроз више робних хардвера познатих као Хадооп цлустер. Циљ ХДФС-а је поуздано складиштење огромне количине података с високим приступом подацима апликације. ХДФС прати мастер / славе архитектуру, где је мастер познат као НамеНоде а робови су познати као ДатаНодес.


Карта смањити

Хадооп МапРедуце је такође подпројект Апацхе софтверске фондације. МапРедуце је заправо софтверски оквир чисто написан на Јави. Његов примарни циљ је обрада великих скупова података у дистрибуираном окружењу (који се састоји од робног хардвера) на потпуно паралелан начин. Оквир управља свим активностима попут заказивања послова, надгледања, извршавања и поновног извршавања (у случају неуспјелих задатака).

ХБасе

Апацхе ХБасе позната је као Хадооп база података. То је колонаста, дистрибуирана и скалабилна продавница великих података. Такође је позната и као врста НоСКЛ базе података која није систем за управљање релацијским базама података. ХБасе апликације су такође написане на Јави, изграђене на врху Хадоопа и раде на ХДФС. ХБасе се користи када вам је потребно читање / писање у стварном времену и случајни приступ великим подацима. ХБасе се моделира на основу Гооглес БигТабле концепата.

Кошница

Апацхе Хиве је софтверски систем за складиштење података отвореног кода. Пањ је првобитно развио пре него што је ушао у програм Апацхе Софтваре Фоундатион и постао опен соурце. Омогућује управљање и постављање упита великих скупова података на дистрибуираној Хадооп компатибилној меморији. Хиве обавља све своје активности користећи језик сличан СКЛ-у познат као ХивеКЛ. (Сазнајте више у кратком уводу у кошницу Апацхе и свиње.)

Без грешака, без стреса - Ваш корак по корак водич за креирање софтвера за промену живота без да вам уништи живот

Не можете побољшати своје програмирање кад никога није брига за квалитет софтвера.

Апацхе Пиг

Свињу је првобитно покренуо Иахоо за развој и извршавање послова МапРедуце на великој количини дистрибуираних података. Сада је постао пројекат отвореног кода у оквиру Апацхе Софтваре Фоундатион. Апацхе Пиг се може дефинисати као платформа за ефикасно анализирање веома великих скупова података. Инфраструктурни слој свиња производи секвенце МапРедуце послова ради вршења стварне обраде. Слој језика свиња познат је под називом свињски латински и пружа функције сличне СКЛ-у за обављање упита на дистрибуираним скуповима података.

Апацхе Спарк

Спарк је изворно развијен од стране АМПЛаб у УЦ Беркелеи. Пројект на највишем нивоу Апацхе постао је у фебруару 2014. Апацхе Спарк може се дефинисати као опен соурце, општи наменски оквир кластер-рачунарства који знатно брже анализира податке. Изграђен је на врху Хадооп дистрибуираног датотечног система, али није повезан са оквиром МапРедуце. Перформансе искре су много брже у поређењу са МапРедуцеом. Омогућава АПИ високе разине у Сцала, Питхон и Јава.

Апацхе Цассандра

Апацхе Цассандра је још једна опен-соурце НоСКЛ база података. Касандра се широко користи за управљање великим количинама структурираних, полуструктурираних и неструктурираних распона података у вишеструким центрима података и складишту у облаку. Цассандра је дизајнирана на основу „мастерлесс“ архитектуре, што значи да не подржава модел мастер / славе. У овој су архитектури сви чворови исти, а подаци се аутоматски и једнако расподјељују по свим чворовима. Цассандрас-ове најважније карактеристике су непрекидна доступност, линеарна скалабилност, уграђена / прилагодљива репликација, нема јединствене тачке квара и оперативна једноставност.

Још један преговарач о ресурсима (ИАРН)

Још један преговарач о ресурсима (ИАРН) познат је и под називом МапРедуце 2.0, али у ствари спада под Хадооп 2.0. ИАРН се може дефинисати као оквир за распоред послова и управљање ресурсима. Основна идеја ИАРН-а је заменити функционалности ЈобТрацкер-а два одвојена демона одговорна за управљање ресурсима и заказивање / надгледање. У овом новом оквиру постојаће глобални РесоурцеМанагер (РМ) и мастер специфичан за апликацију познат као АпплицатионМастер (АМ). Глобални РесоурцеМанагер (РМ) и НодеМанагер (по чвору славе) формирају стварни оквир за рачунање података. Постојеће МапРедуце в1 апликације се такође могу покренути на ИАРН, али те апликације морају бити прекомпоноване са стакленкама Хадооп2.к.

Импала

Импала се може дефинисати као мотор СКЛ упита са огромном снагом паралелне обраде (МПП). Изворно ради на оквиру Апацхе Хадооп. Импала је осмишљена као део екосистема Хадооп. Дијели исти флексибилни систем датотека (ХДФС), метаподатке, управљање ресурсима и сигурносне оквире као и друге компоненте екосистема Хадооп. Најважнија ствар је напоменути да је Импала много бржи у обради упита у поређењу са кошницом. Али требамо се такођер сјетити да је Импала намијењена за упите / анализе малог низа података, а углавном је замишљена као аналитичко средство које дјелује на обрађене и структуриране податке.

Хадооп је важна тема у ИТ-у, али постоје они који су скептични у погледу његове дугорочне одрживости. Прочитајте више у Шта је Хадооп? Теорија цинице.