Како Хадооп помаже у решавању проблема са великим подацима

Аутор: Eugene Taylor
Датум Стварања: 8 Август 2021
Ажурирати Датум: 12 Може 2024
Anonim
Porsche Taycan Turbo и Turbo S - технология, все функции, все особенности подробно описаны
Видео: Porsche Taycan Turbo и Turbo S - технология, все функции, все особенности подробно описаны

Садржај



Одузети:

Хадооп може помоћи у решавању неких великих изазова великих података.

Велики подаци су ... па ... велике величине! Тачно колико се података може класификовати као крупни подаци није баш јасан исечак, па се не допуштамо да се загушимо у тој дебати. За малу компанију која се користи са подацима у гигабајтима, 10 ТБ података би било ВЕЛИКО. Међутим, за компаније попут Иахоо-а, петабајти су велики.

Управо величина великих података онемогућава их (или бар превисоко кошта) складиштење у традиционалну меморију попут база података или уобичајених датотека. Говоримо о трошковима складиштења гигабајта података. Употреба традиционалних датотека за складиштење може коштати много новца за складиштење великих података.

Овде добро погледајте велике податке, његове изазове и како Хадооп може да их помогне у решавању.Прво, велики подаци највећи изазови.

Велики подаци су неструктурирани или полуструктурирани

Много великих података је неструктурирано. На пример, подаци из евиденције стриминга могу изгледати:

временски жиг, усер_ид, страница, референце_паге

Недостатак структуре чини да релацијске базе података нису баш погодне за чување великих података. Поред тога, нема много база података може се носити са смештањем милијарди редака података.

Нема смисла за складиштење великих података ако их не можемо обрадити

Чување великих података је део игре. Морамо га обрадити да бисмо из њега извукли интелигенцију. Традиционални системи складиштења су прилично "глупи" у смислу да само смештају битове. Не нуде никакву моћ обраде.

Традиционални модел обраде података садржи податке похрањене у кластеру за складиштење који се копирају у рачунски кластер за обраду. Резултати се враћају у складишни кластер.

Овај модел, међутим, не делује баш за велике податке јер копирање толико података у рачунски кластер може бити предуго или немогуће. Па, шта је одговор?

Једно решење је обрада великих података на месту, као што је у кластеру складишта који се удвостручује као рачунски кластер.

Као што смо видели горе, велики подаци пркосе традиционалном складиштењу. Па како се бавимо великим подацима?

Како Хадооп решава проблем великих података

Хадооп је створен да ради на групи машина
Почнимо са примером. Рецимо да морамо да похранимо пуно фотографија. Почећемо са једним диском. Када премашимо један диск, можда ћемо користити неколико дискова наслаганих на машини. Када максимизирамо све дискове на једној машини, морамо набавити гомилу машина, од којих свака има гомилу дискова.

Управо тако је изграђен Хадооп. Хадооп је дизајниран да ради на групи машина од почетка.




Хадооп кластери се хоризонтално скалирају
Више складиштења и снаге рачунања може се постићи додавањем више чворова у Хадооп кластер. Ово елиминише потребу за куповином све снажнијег и скупљег хардвера.

Хадооп може руковати неструктурираним / полуструктурираним подацима
Хадооп не намеће шему на подацима које похрањује. Може да обрађује произвољне и бинарне податке. Тако Хадооп може лако пробавити све неструктуриране податке.

Хадооп кластери омогућавају складиштење и рачунање
Видели смо како постојање одвојених кластера за похрану и обраду није најбоље погодно за велике податке. Хадооп кластери, међутим, обезбеђују складиштење и расподељено рачунање све у једном.

Пословни случај за Хадооп


Хадооп обезбеђује складиштење великих података по разумним ценама
Чување великих података помоћу традиционалног складиштења може бити скупо. Хадооп је изграђен око робног хардвера, тако да може обезбедити прилично велико складиштење за разумне трошкове. Хадооп је коришћен на терену у петабајтној скали.

Једно истраживање Цлоудера сугерише да предузећа обично троше око 25 000 до 50 000 долара по терабајту годишње. Код Хадоопа, овај трошак пада на неколико хиљада долара по терабајту годишње. Како хардвер постаје све јефтинији и јефтинији, овај трошак и даље опада.

Хадооп омогућава снимање нових или више података
Понекад организације не снимају врсту података јер их је превише коштало њихово складиштење. Пошто Хадооп обезбеђује складиштење по повољним ценама, ова врста података може се снимити и сачувати.

Један пример су дневници клика на веб локацији. Будући да количина ових записа може бити врло велика, ниједна организација их није ухватила. Сада је са Хадоопом могуће снимање и складиштење трупаца.

Помоћу Хадоопа можете дуже чувати податке
Да би управљале количином сачуваних података, компаније периодично чисте старије податке. На пример, могу се сачувати само евиденције за последња три месеца, док су старији дневници избрисани. Помоћу Хадоопа је могуће дуже чување историјских података. То омогућава да се изврши нова аналитика на старијим историјским подацима.

На пример, узмите записе о кликом са веб локације. Пре неколико година, ови записи су били сачувани кратко време да би се израчунали статистички подаци попут популарних страница. Сада је са Хадооп-ом одрживо складиштење ових евиденција кликова током дужег временског периода.

Хадооп пружа скалабилну аналитику
Нема смисла чувати све ове податке ако их не можемо анализирати. Хадооп пружа не само дистрибуирано складиштење, већ и дистрибуирану обраду, што значи да можемо паралелно дробити велику количину података. Оквир рачунања Хадоопа назива се МапРедуце. МапРедуце је доказан на скали петабајта.

Хадооп пружа богату аналитику
Нативе МапРедуце подржава Јава као примарни програмски језик. Такође се могу користити и други језици попут Руби, Питхон и Р.

Наравно, писање прилагођеног МапРедуце кода није једини начин за анализу података у Хадоопу. Доступно је смањење карте на вишем нивоу. На пример, алат назван Пиг узима језик протока података на енглеском и преводи их у МапРедуце. Други алат, Хиве, узима СКЛ упите и изводи их користећи МапРедуце.

Алат за пословну интелигенцију (БИ) може пружити још већи ниво анализе. Постоје и алати за ову врсту анализе.

Овај садржај је издвојен из „Хадооп Иллуминатед“ Марка Керзнера и Сујее Манииам. Доступна је путем Цреативе Цоммонс Аттрибутион-НонЦом Цоммерциал-СхареАлике 3.0 непоражене лиценце.