Када СКЛ није довољан: контрола за нове масовне центре података

Видео: Crypto Pirates Daily News - January 19th, 2022 - Latest Crypto News Update

Садржај

Гоогле систем датотека: велика студија случаја
Без грешака, без стреса - Ваш корак по корак водич за креирање софтвера за промену живота без да вам уништи живот
Поглед у основну технологију
Како други велики системи то постижу?
Одржавање ДФС-а

Одузети:

Програмери и инжењери морају континуирано радити на убрзавању и унапређењу услуга на платформама које су надилазиле много више од класичних архетипова из деведесетих.

Уз сву гужву о огромним НСА центрима података који држе газилионе дијелова података о нашим приватним животима, постоји једна ствар о којој се није пуно причало, барем на ЦНН-у. То укључује инжењерски проблем који се појавио заједно са облачном технологијом, великим подацима и импресивним физичким центрима за чување података који се данас граде широм света. Па шта је? Па, без обзира ко администрира неки од мамутских ИТ система који покрећу ове уређаје, постоји потреба за софтверским системима који помажу да сви ти подаци брзо уђу и изађу из цевовода. Та потреба представља једно од најзанимљивијих ИТ питања или загонетки са којима се професионалци данас суочавају.

Као што многи стручњаци истичу, данашња екстремна потражња за обрадом података превазилази традиционалне приступе. Једноставно речено, коришћење једноставних структура базе података и алата као што је СКЛ интерфејс за упите неће пружити довољно процесијске снаге или функционалности за сличне власничким системима који су се развили у последњих неколико година. Архиви данашњих великих технолошких компанија требају изузетно скалабилну технологију. Потребни су им алати за обраду података који могу уносити и излазити резултате у много већој количини од оне коју поједини сервер може олакшати. Потребна су им рјешења која се могу брзо повећати за раст, рјешења која укључују сложене нивое вјештачке интелигенције, рјешења која су створена за једноставно управљање од стране ИТ одјела.

Питање је како компаније и владине агенције превладају ограничења традиционалног пута за обраду података? Овде добро погледајте једну врло обећавајућу опцију: Софтвер који управља великим подацима и администрацијом вишеструких података центара.

Гоогле систем датотека: велика студија случаја

Властита технологија коју Гоогле користи за приступ својим центрима података један је од најбољих примера уобичајених модела за руковање великим подацима и администрацију вишеструких података. Гоогле датотечни систем (ГФС), развијен 2003. године, дизајниран је да подржи огромну количину брзих измена у системима података који су део увођења толико нових информација у једну платформу и ван ње док милиони корисника кликну на исто време. Стручњаци ово називају дистрибуираним системом датотека и користе термин "складиштење података" да би описали ове веома сложене технике. У стварности, међутим, ови изрази чак и не огреботине по површини описују оно што делује.

Појединачно, функције и компоненте које чине систем попут ГФС-а можда више нису револуционарне, али су сложене. Многи од њих су на овој страници покривени као релативно нове иновације које су део темеља за нови, увек укључени, увек повезани глобални ИТ систем. Колективно, систем попут ГФС-а много је више од зброја његових делова: то је углавном невидљива, али изузетно сложена мрежа која се на овај начин баца на појединачне комаде података и који би у процесу који би визуелно био потпуно моделиран изгледао као хаос. Разумевање куда иду сви подаци захтева пуно енергије и посвећености, јер ће они који се баве бојним станицама ових система то лако признати.

"Превише је детаља који имају дубок утицај на подручја употребљивости - укључујући спољну и унутрашњу фрагментацију, ажурирања заснована на евиденцији у односу на место и нивое доследности трансакција - да би сажели начин рада у једној језгровитој реченици ", каже Момчило Михаилов, генерални директор и суоснивач компаније Санболиц.

"Дистрибуирани систем датотека је или дистрибуирани агрегатор локалних именских простора и слободних простора чворова који учествују, или локални систем датотека који ради на више чворова који приступају заједничкој меморији уз помоћ дистрибуиране компоненте менаџера закључавања", рекао је.

Керри Лебел је старији менаџер производа у Аутомиц-у, компанији познатој по скалабилним платформама за аутоматизацију. Лебел каже да иако је тачно описати ДФС као систем који једноставно додељује радно оптерећење серверима прикљученим на јефтине делове хардвера, то заправо не говори читаву причу.

Без грешака, без стреса - Ваш корак по корак водич за креирање софтвера за промену живота без да вам уништи живот

Не можете побољшати своје вештине програмирања када никога није брига за квалитет софтвера.

"Оно што вам недостаје све је цоол фактор како они раде оно што раде ", рекла је Лебел.

Кад се одвојите од техничких детаља и само размислите о основној идеји иза дистрибуираног система датотека, видљив је "цоол фактор" о којем Лебел говори. Ови системи за обраду великих података замењују старе системе датотека / мапа са структурама које укључују не само вишеструки систем испоруке, већ и „објектно оријентисан“ приступ, где се огроман број јединица ту и тамо премешта да спречи уска грла.

Замислите, на пример, најсавременији систем аутопута, где стотине хиљада аутомобила нису сравњене низ вишеслојни правац, већ урезане у уредне мале притоке детелине или оксида, који се врте и шаљу. ка њиховим дестинацијама на разним обиласцима. Са неба је све изгледало кореографски као швајцарски сат. То је врста визуелног модела на који инжењери гледају када сањају о новим начинима за усмеравање информација око ограничења тако што ће их „ударити“ на различите нивое шестеростепене шеме за задржавање података. Остављајући по страни спецификације, ово је циљ највишег нивоа система за руковање: да се ти самостални предмети са уграђеним метаподацима крећу највећом брзином до места где требају бити, да би постигли циљеве конзистентности, да би задовољили крајњег корисника или чак и да обавештавање вршења или анализе.

Поглед у основну технологију

Чланак Сеана Галлагхера који се појавио на Арс Тецхница разбија ГФС дизајн доле на нешто управљивије делове и наговештава шта се налази испод листа на Гооглеу.

ГФС започиње сувишним и толерантним моделом за читање и писање података. Идеја овде је да уместо писања одређеног ажурирања на један погон, нови системи пишу делове података на више одредишта. На тај начин, ако једно писање не успе, остало ће и друго. Да би се ово прилагодило, једна примарна компонента мреже користи руковање подацима у другим подређеним јединицама, обнављајући податке када их клијент "позове". Све то омогућава протокол метаподатака који помаже да се препозна где су одређена ажурирања и резултати преноса у већем систему.

Други врло важан аспект овога је како ови дупликатни и тешки системи намећу конзистентност података. Као што Галлагхер напомиње, ГФС дизајн жртвује одређену доследност, док још увек „намеће атомску снагу“ или штити принцип како се подаци ажурирају на више јединица за складиштење да се временом поклапају. Чини се да Гоогле-ов „модел опуштене конзистентности“ следи суштинску теорију БАСЕ модела, који омогућава већу флексибилност у замену за дужи временски оквир за примену доследности.

Како други велики системи то постижу?

"Када се достигне довољно велика количина, недоследности или корупције података постају неизбежне", каже Михаилов. "Према томе, основни циљ дистрибуираних датотека треба да буде могућност да се изврши што више операција у присуству корупције, истовремено пружајући ефикасне методе за суочавање са корупцијом." Михаилов такође спомиње потребу очувања перформанси пажљивим спровођењем вишка.

"На пример, креирање метаподатака (података о подацима) на сваком диску омогућава том диску да обнови своју исправну структуру података ако је његова огледала копија оштећена", рекао је Михаилов. "Поред тога, нивои РАИД-а могу се користити за борбу против грешака у меморији било на агрегатору датотечног система или на нивоу заједничког менаџера волумена."

Разговарајући о другом моделу конзистентности, Лебел се фокусира на систем зван Хадооп дистрибуирани систем датотека (ХДФС), који назива "индустријским стандардом де фацто".

У ХДФС-у, каже Лебел, сваки се блок података реплицира три пута на различите чворове и на два различита сталка. Подаци се провјеравају крај до краја. Неуспјеси се пријављују на НамеНоде, руковаоцу података који се рјешава корумпираних блокова и ствара нове.

Све ово подржава врсте „чистих података“ који су толико битни за интегритет једног од ових система масовних података.

Одржавање ДФС-а

Други врло другачији поглед на ГФС долази из чланка ожиченог писца Стевена Левија из октобра 2012. године. Много је краће карактеризирати софтверски приступ за заједничко руковање Гоогле-ом од врха према доље.

"Током година," пише Леви, "Гоогле је такође изградио софтверски систем који му омогућава да управља својим безбројним серверима као да су то један дивовски ентитет. Њени интерни програмери могу се понашати попут мајстора лутака, отпремивши хиљаде рачунара за обављање посла задаци лако као и покретање једне машине. "

У то се убраја и мноштво одржавања на цибер-у и одржавање животне средине, од наменских испитних тимова који покушавају да "разбију" системске сервере, до пажљиво контролисаних температура широм дворана крипте података.

Леви такође помиње додатне технологије за ГФС, попут МапРедуце, алата за коришћење облака и Хадоопа, аналитичког мотора који дели неке принципе дизајна са ГФС-ом. Ови алати имају сопствени утицај на то како се дизајнирају велики системи за обраду података и шта ће се вероватно појавити у будућности. (Сазнајте више о овим технологијама у Еволуцији великих података.)

Михаилов верује да МапРедуце има потенцијал да подржи све веће системе података и говори о „јединственој имплементацији“ заједничких и обједињених датотека датотека који би могли да „чворове имена збирног датотечног система задрже у заједничком кластеру са ССД-овима за складиштење . "

Са своје стране Лебел види одмак од батцх обраде (метода коју подржава Хадооп) до струјне обраде, што ће ове податке података приближити реалном времену.

"Што брже можемо обрадити податке и учинити их доступним доносиоцима пословних одлука или нашим купцима, то ће бити већа конкурентска предност", каже Лебел, која такође предлаже да горњу терминологију обраде замените терминима који су усредсређени на крајњи корисник. Размишљајући о „синхроним“ активностима или активностима синхронизованим са активностима крајњег корисника и „асинхроним“ активностима које су флексибилније у погледу имплементације, Лебел каже да компаније могу да користе СЛА-ове и друге ресурсе да дефинишу како ће одређени систем услуга функционисати .

Све ово се, у извесном смислу, своди на то да програмери и инжењери морају континуирано да раде на убрзавању и унапређењу услуга на платформама које су нарасле далеко од класичних архетипова из деведесетих. То значи да критички сагледавамо машинерију података и пробијамо уска грла на начине који подржавају не само растућу популацију, већ и ону експоненцијалну промену која се дешава брзином пукнућа врата, што стручњаци називају "следећом индустријском револуцијом". Вероватно је да ће они који пробију највише темеља на овим фронтовима бити доминантни на тржиштима и економијама будућности.