Кључ за квалитету аналитике великих података: Разумевање различитог - Транскрипт ТецхВисе Епизода 4 - Технологија

Садржај

Без грешака, без стреса - Ваш корак по корак водич за креирање софтвера за промену живота без да вам уништи живот

Извор: Јакуб Јирсак / Дреамстиме.цом

Одузети:

Домаћин Ериц Каванагх разговара о аналитикама великих података са стручњацима из индустрије.

Ериц: Даме и господо, крај 2014. је крај - барем, скоро. То је наша последња веб емисија у години, људи! Добродошли у ТецхВисе! Да заиста! Моје име је Ериц Каванагх. Бићу вам модератор за феноменалну веб емисију, народе. Заиста сам узбуђена. Имамо два сјајна аналитичара на мрежи и две сјајне компаније - прави иноватори у целом овом великом екосистему података. И разговараћемо о кључу велике аналитике података је разумевање разлике. Дакле, идемо напред и заронимо унутра, народе.

Имамо неколико презентатора. Као што видите, заиста је ваш врх на врху. Мике Фергусон звао се из Велике Британије, где је морао добити посебне привилегије да би остао у својој пословној згради до касно. То је за њега касно. Имамо др Робина Блоора, нашег властитог главног аналитичара из Блоор Групе. И ми ћемо имати Георгеа Цоругеда, генералног директора и суоснивача РедПоинт Глобал-а, и Кеитха Ренисон-а, Сениор Солутионс Арцхитецт-а из САС Института. Ово су фантастичне компаније, народе. То су компаније које заиста иновирају. И ми ћемо истражити неке добре ствари онога што се тренутно догађа у целом свету великих података. И суочимо се са тим, мали подаци нису нестали. У вези с тим, дозволите ми да овде дам свој резиме.

Дакле, постоји стари француски израз: "Што се више ствари промени, више ће остати исте." И суочимо се са неким чињеницама овде - велики подаци неће решити проблеме малих података. Мали подаци о корпорацији су још увек ту. Још увек је свуда. То је гориво за пословање у данашњој економији информација. А велики подаци нуде комплимент за ове такозване мале корпоративне податке, али не замењују мале податке. Још увек ће бити около. Волим пуно ствари о великим подацима, посебно ствари попут машинско генерисаних података.

И данас ћемо вероватно разговарати мало о подацима на друштвеним медијима, што је такође врло моћна ствар. А ако размишљате, на пример, о томе како се друштвено предузеће променило, добро размислите о три брза веб места: ЛинкедИн и. Размислите о чињеници да пре пет година нико није радио такве ствари. је апсолутни џигерица ових дана. наравно, огромно. То је гаргантуан. А онда, ЛинкедИн је фактички стандард за корпоративно умрежавање и комуникацију. Ове веб локације су хумонне, а да бисмо могли да искористимо податке који су у њима, оживјет ће неке функције за промену игара. Стварно ће учинити пуно добра за многе организације - барем оне које то користе.

Без грешака, без стреса - Ваш корак по корак водич за креирање софтвера за промену живота без да вам уништи живот

Не можете побољшати своје вештине програмирања када никога није брига за квалитет софтвера.

Дакле, управљање и даље остаје важно. Опет, велики подаци не умањују потребу за управљањем. Искрено, потпуно се нова потреба усредсредити на то како управљати светом великих података. Како осигурати да имате своје процедуре и смернице; да прави људи добијају приступ правим подацима; да имате контакте, овде имате умешане лозе? Заправо знате одакле подаци долазе, шта се са њима догодило. И то се све мења.

Искрено сам импресиониран неким оним што сам видео тамо у целом новом свету, користећи Хадооп екосустав, што је, наравно, много више од складиштења у смислу функционалности. Хадооп је такође рачунски мотор. Компанија мора смислити како да искористи рачунску моћ, ту могућност паралелне обраде. Они ће радити стварно, стварно цоол ствари. Данас ћемо научити о томе.

Друга ствар коју треба поменути, ово је о чему је др Блоор говорио у недавној прошлости, а то је да иновативни талас није готов. Дакле, видели смо много, наравно, пажње око Хадоопа. Видели смо компаније попут Цлоудере и Хортонворкс, знате како праве неке таласе. И данас развијају партнерства са, добро, компанијама на позив, сасвим искрено. И развијају партнерства са много људи. Али талас иновација није готов. Из Апацхе фондације се завршава више пројеката који мењају не само крајњу тачку, ако желите - апликације које људи користе - већ и саму инфраструктуру.

Дакле, цео овај развој пређа - још једног преговарача о ресурсима - заиста је попут оперативног система за велике податке. И то је велика, велика ствар. Дакле, научићемо како и то промени ствари. Дакле, само неколико битова очигледних савета, припазите да дуги уговори иду даље, знате, петогодишњи уговори биће талас, пут који ми се чини. Желећете да избегнете закључавање по сваку цену. Данас ћемо научити о свему томе.

Дакле, наш први аналитичар који данас говори - наш први говорник целог програма је Мике Фергусон, који се јавља из Велике Британије. С тим, даћу вам кључеве, Мике, и пустит ћу вам да га однесете. Мајк Фергусон, под је твој.

Мајк, јеси ли ту? Можда сте искључени. Не чујем га. Можда ћемо га морати поново назвати. И ми ћемо скочити право на слајд Робин Блоор. Робин, овде ћу добити место за сиромашног Микеа Фергусона. Идем на секунду.

Јеси ли то ти, Мике? Да ли нас чујете? Не. Мислим да ћемо прво морати да идемо са Робином. Иекај мало, народе. Овде ћу повући и неке везе до слајдова за неколико минута. Па уз то, дајте ми кључеве Робин Блоор. Робин, можеш прво ићи уместо Микеа, а ја ћу назвати Мајка у секунди.

Робин: Добро.

Ериц: Чекај, Роб. Пусти ме напријед и довежи твој торањ, Роб. Проћи ће секунд

Робин: Добро.

Ериц: Да. Можете, на неки начин, разговарати о ономе чиме се бавимо, међутим, у погледу управљања. Знам да ћете разговарати о управљању. О томе се обично размишља у контексту малих корпоративних података. Дакле, имам клизач, Робин. Не померај ништа. И ево га. Спрат је твој. Однеси то.

Робин: Добро. Да. Мислим, добро, претходно смо се договорили, Мике ће говорити о аналитичкој страни, а ја ћу говорити о управљачкој страни. У одређеној мери, управљање прати аналитику у смислу да је то разлог да радите ствари са великим подацима, а разлог због којег састављате сав софтвер да бисте радили аналитику је, у томе је вредност.

Постоји проблем. А проблем је у томе што, знате, подаци морају да се мешају. Подаци се морају исправити. Подаци се морају објединити и њима управљати на начин који омогућава аналитику да се одвија с потпуним повјерењем - претпостављам, ријеч је. Дакле, мислио сам да ћу разговарати о управљачкој једначини. Претпостављам да је ствар која се мора рећи заиста била да је управљање већ било проблем. Управљање је већ било проблем и оно почиње да постаје проблем у целој игри складишта података.

Оно што се заправо догодило је претворено у много веће питање. А разлог што се претворио у много веће питање, као и више података, али мислим, то су заиста разлози. Број извора података се драстично проширио. Раније су нам извори података у великој мери дефинисани према ономе што је хранило складиште података. Складиште података би се обично напајало од стране РТП система. Могуће је мало спољних података, не много.

Сада смо отишли у свет где, знате, управо тржиште података постоји, и зато ће се трговати подацима. Већ имате мноштво различитих токова података које можете да донесете у организацију. Имамо податке са друштвених медија који су их узели, скинули за свој рачун, да тако кажем. Мислим, страшно пуно тога, вредност на сајтовима на друштвеним медијима су заправо информације које они обједињују и зато их могу учинити доступнима људима.

Такође смо открили, као да су већ постојали. Знате, већ смо имали те датотеке дневника, када се догодио Сплунк. И убрзо је постало очигледно да у датотеци дневника постоји вредност. Дакле, унутар организације је било података који смо могли назвати новим изворима података као и спољним изворима. Дакле, то је једно. А то заиста значи да, знате која год правила управљања подацима имали раније, морат ће их се, на овај или онај начин, проширити и даље ће требати да буду проширена како би заправо управљали података. Али сада се почињемо састављати на овај или онај начин.

И спуштањем ове листе имамо стриминг и брзину доласка података. Један од, мислим, разлога популарности Хадоопа је тај што се он у великој мери може користити за прикупљање пуно података. Такође може да гута брзину података, ако вам заправо не треба одмах да је употребите, то је лепо паралелно, огромно паралелно окружење. Али такође имате чињеницу да сада постоји прилична количина аналитичке струје. Некада су то били само банкарски сектори заинтересовани за струјање апликација, али сада су постали глобални. И сви гледају на неки или други начин стреаминг апликација, потенцијално средство за добијање вредности из података и обављање аналитике за организацију.

Имамо неструктуриране податке. Статистика, обично део само 10% светских података, била је у релацијским базама података. Сада, један од главних разлога за то је углавном био то што је он био неструктуриран, и то је био - добар део тога био је вани на Интернету, али прилично много информација о разним веб локацијама. Показало се да су ови подаци такође анализирани и такође корисни. А с појавом Симантец технологије која се постепено увлачи у ситуацију, постаје све више и више.Дакле, треба заиста прикупити и управљати неструктурираним подацима, а то значи да су они много већи него што је то био случај раније. Имамо социјалне податке које сам већ напоменуо, али поанта у вези с тим, да ли је вероватно потребно чишћење.

Имамо податке о Интернету ствари. То је врста другачије ситуације. Вјероватно ће бити толико тога, али много тога ће морати остати дистрибуирано негдје у близини мјеста на којем се креће. Али такође ћете желети, на овај или онај начин, да га повучете да бисте урадили аналитику унутар организације на подацима. Дакле, то је додао још један фактор. И ти ће подаци бити структурирани на другачији начин, јер ће вероватно - вероватно бити форматирани у ЈСОН или КСМЛ, тако да се декларишу. И не само, на овај или онај начин, што ми заправо увлачимо податке и можемо да направимо неку врсту шеме за читање на том одређеном делу података.

Имамо питање провенијенције, а ово је питање аналитике. Резултати у било којој анализи у којој радите податке заиста не могу бити - ако желите - одобрени, узети као валидни, осим ако не знате порекло података. Мислим, то је само професионализам у погледу активности истраживача података. Али знате, да бисмо имали порекло података, то значи да ми заправо морамо управљати подацима и водити белешке о његовој линији.

Имамо проблем са рачунарском снагом и паралелама и све што је потребно је да све прође брже. Проблем је у томе што су очигледно да ће се одређени процеси које имамо успоставити превише спори за све остало. Дакле, могуће су разлике у погледу брзине.

Имамо појаву машинског учења. Машинско учење заиста утиче на то да аналитику чини другачијом игром него што је била пре. Али стварно га можете користити само ако имате снагу.

Добили смо чињеницу нових аналитичких оптерећења. Имамо паралелни свет и неки аналитички алгоритми се морају извршити паралелно да би се постигао максималан ефекат. И зато је проблем заправо управљање начином на који на један или други начин гурате податке, стављате податке ако су доступни. А где заправо извршавате аналитичка оптерећења, јер то можда радите у бази података. Дакле, то можете учинити у аналитичким апликацијама.

Дакле, постоји читав низ изазова управљања. Оно што смо урадили ове године - истраживање које смо урадили ове године заиста је било око велике архитектуре података. А кад то заправо покушавамо да генерализирамо, закључак до којег смо дошли - дијаграм до којег смо дошли изгледао је отприлике овако.

Нећу се бавити овим, посебно јер ће Мике урадити приличну количину података о архитектури података за аналитику. Али оно што заправо волим да се људи само фокусирају је ово дно подручја где ми, на овај или онај начин, скупљамо податке. Желим да се осврнем на рафинерију података или на центар за обраду података. И ту се одвија управа. Значи, ако се ми некако фокусирамо, то изгледа тако. Знате, то се храни подацима из унутрашњих и екстерних извора. Теоретски центар би требао узимати све податке који се генерирају. Требало би или да се струји и управља онако како се стримује ако требате да урадите аналитику и стримујете податке, а затим их проследите на чвориште. Или иначе, све то долази у саставницу. А ту се догађа и низ ствари - које се дешавају у концентратору. И не можете имати одређену количину аналитике и СКЛ-а који се одвијају на чворишту. Али такође имате потребу за виртуализацијом података у свакој ћелији да бисте податке пребацили у друга подручја. Али пре него што се било шта од тога догоди, на један или други начин вам је потребно да прочистите припрему података. Можете то назвати припремом података. Много је већа од тога. Мислим да то укључују ствари.

Имамо управљање системом и управљање услугама, у извесном смислу, да је то главни део слоја података, тада заправо морамо да применимо све системе који управљају напорима у управљању оперативним системом, што смо традиционално чинили на готово свим оперативним системима. Али такође требамо, на овај или онај начин, да надгледамо друге ствари које се дешавају да би били сигурни да се испуњавају различити нивои услуга, јер морају бити дефинисани нивои услуга или било које врсте аналитике како се делује, или БИ подаци се понаша.

Потребно нам је праћење и управљање перформансама. Ако ништа друго, потребно нам је то да бисмо знали које даље рачунарске ресурсе ће нам можда требати да додијелимо у различитим тренуцима. Али такође, огромно је оптерећење у ствари у ствари, прилично сложено и међусобно се такмичи за ресурсе. Постоји нешто прилично софистицирано што треба учинити у тој области.

Сада имамо животни циклус података на начин на који га никада раније нисмо имали. Договор овде заиста је изнад ичега другог, да податке нисмо прикупили и бацили раније. Склони смо прикупљању података који су нам потребни и вероватно смо их чували, а затим их архивирамо. Али грозно много онога што ћемо радити одавде је истраживање података. А ако не желите податке, сахраните их. Дакле, животни циклуси података су различита ствар, овисно о ситуацији, али бит ће и много више обједињавања података. Дакле, знате, знајући одакле долази агрегат од оног ... шта је извор здруживања, и тако даље, и тако даље. То је све неопходно.

Линија података наравно позајмљује. Без тога морате знати проблеме, па подаци ... Морамо знати да су подаци валидни, али колико су заправо поуздани.

Такође имамо и мапирање података, јер ће заиста бити пуно података на овај или онај начин. А ово је, ако желите, то се у одређеној мери односи и на МДМ. Само је то сада много сложеније, јер када имате грозно пуно података дефинисаних ЈСОН-ом или на основу наше КСМЛ шеме на читању, морат ћете, на овај или онај начин, врло активно активности мапирања података се одвијају.

Постоји ситуација управљања метаподацима која је и више од МДМ-а, јер постоји потреба, на овај или онај начин, да се изгради оно што бих сада желео да мислим као својеврсно складиште метаподатака свега што вас занима. Постоје метаподаци откриће, јер неки подаци неће нужно декларисати своје метаподатке и желимо их одмах искористити. А онда, постоји чишћење података, што је огромна ствар у томе колико серија ствари тамо може да се уради. А ту је и сигурност података. Сви ови подаци морају бити осигурани на прихватљив ниво, а то може значити и у одређеним случајевима - на пример, шифрирање великог броја вредности.

Дакле, све ово оптерећење је заправо империја управљања. Све ово, на овај или онај начин, мора се одвијати у исто време или пре, све наше аналитичке активности. Ово је велики број координираних апликација. То је систем сам по себи. А онда, они који то не учине у разним временима, патиће од недостатка тога како напредују, јер грозно много тога није заиста факултативно. Завршавате само повећањем ентропије ако их не радите.

Дакле, у погледу аналитике података и управљања, оно што бих рекао је да, у ствари, једна рука пере другу. Без управљања, аналитика и БИ неће пропасти на време. А без аналитике и БИ-а, ионако не би било много потребе за управљањем подацима. Две ствари заиста иду руку под руку. Како кажу на Блиском Истоку, "једна рука пере другу". И то је заправо све што морам да кажем. Надам се - надам се да смо сад добили Микеа.

Ериц: Имамо. Мајк, претпостављам да си тамо. Гураћу твој слајд горе.

Мајк: Јесам. Ок, да ли ме чујете?

Ериц: Да, чујем те. Звучиш дивно. Дозволите да вам представим ... Ево. А ви сте сада водитељ. Однеси то.

Мајк: У реду, хвала! Добро јутро, добар дан, добро вече за све вас напољу. Опрости штуцање на почетку. Из неког разлога сам се искључио и могу видјети све, али нису ме могли чути.

У реду. Дакле, оно што желим брзо урадити је разговор о, знате, аналитичком екосистему великих података. Ако желите да ми поставите питања, рећи ћу, током ове сесије или касније, можете ме добити на основу мојих контакт података. Као што рекох, усред ноћи овде у Великој Британији.

Па, да пређем на оно о чему желим да причам. Јасно је да смо у последњих неколико година видели појаву свих врста нових врста података које предузећа сада желе да анализирају - све од кликовних података до разумевања понашања на мрежи, података о друштвеним мрежама о којима је Ериц говорио на почетак програма овде. Мислим да је Робин споменуо ЈСОН, БСОН, КСМЛ - дакле, полуструктуриране податке који се самоописују. Наравно, имамо и читаву тону осталих ствари - све од неструктурираних података, евиденције ИТ инфраструктуре, података сензора. Сви ови релативно нови извори података за које су се предузећа сада интересовали јер садрже драгоцени увид који би могао продубити оно што знамо.

Дакле, то у основи значи да је аналитички пејзаж прешао даље од традиционалног складиштења података. Ми и даље структуирамо податке у свет комбинације структуираних и мултиструктурираних података, где би вишеструкоструктурирани подаци могли доћи у унутрашњости или са спољашње стране предузећа у многим случајевима. Као резултат ових нових типова података и нових потреба за анализом, видели смо појаву нових аналитичких радних оптерећења - све од анализе података у покрету, што на неки начин окреће традиционалну архитектуру складиштења података, негде где , у традиционалним круговима интегришите податке, очистили их, трансформисали, сачували и анализирали. Али анализирајући податке у покрету, ухваћамо их, интегришемо, припремамо кроз анализу и затим их чувамо. Дакле, сада се врши анализа података пре него што се они сачувају било где.

Комплексна анализа структурираних података, можда за развој модела, развој статистичких и предиктивних модела, за неке људе није ништа ново у традиционалном простору за складиштење података. Имамо истраживачку анализу података на моделу. То је количина структурираних података тамо. Добили смо нова оптерећења у облику анализе графикона која за моје клијенте у финансијским услугама укључује ствари попут превара. Такође укључује цибер сигурност. Укључује друштвене мреже, наравно, разумевање утицаја и сличне ствари тамо. Чак сам то савладао и у менаџменту, има неколико година анализе графова.

Имамо оптимизацију складишта података или пребацивање ЕТЛ обраде, што је више врста ИТ употребе, а ЦИО би могао то да финансира. Па чак и архивирање података и складишта података како би се одржавали на мрежи у стварима као што је Хадооп. Дакле, сва ова нова аналитичка оптерећења су додала нове платформе, нове платформе за складиштење у аналитички пејзаж. Дакле, уместо да имамо традиционална складишта података, марку података, Хадооп је сада доступан. Имамо НоСКЛ базе података као што су базе података графикона које се често користе за аналитичко оптерећење. Наравно, сада можемо направити анализу графова на самом Хадооп-у као и у ДБМС-има НоСКЛ графа. Имамо аналитичку струју коју је Робин споменуо. И имамо - ако желите - изградњу модела, можда и на аналитичким уређајима за складиштење података. Али све је то комплицирало аналитички пејзаж, сада је потребно више платформи. И претпостављам да је изазов за било који посао са фронтом или стражњом канцеларијом, или финансије, набавке, људство и неке врсте операција, открити који су аналитички пројекти повезани са традиционалном сценом складиштења података. А кад знате да су аналитички пројекти повезани са овим новим великим платформама података и где да се покренете, знате које аналитичко радно оптерећење, али да не бисте изгубили из вида посао у смислу да је то - сада ћете видети да је то комбинација великог аналитички пројекти података и традиционални пројекти складиштења великих података који су заједно потребни како би се ојачали унутар клијента или око операција, око ризика, финансирања или одрживости. И зато желимо да све то буде усклађено са нашим стратешким пословним приоритетима, да останемо на путу да, знате, гурнете игле које треба угурати, знате, да побољшате пословне перформансе, да смањите трошкове, за смањење ризика итд. за нашу компанију у целини. Дакле, није да овде један замењује други великим подацима и традиционалним. Обоје се користе заједно. А то драстично мења архитектуру, знате.

Оно што овде имам је релативно нова архитектура коју ћу користити са својим клијентима. И тако, као што видите сада дуж дна, огроман распон извора података, који нису више само структурирани. Неки од њих преносе податке уживо попут сензора, попут података са тржишта, такве ствари. То би могли бити чак и ливе стреамстреам подаци. То могу бити ливе стреаминг података. Тако да није требало да се структуира. Дакле, ми можемо да радимо ток обраде тих података да би се аутоматски вршиле радње у реалном времену, а сви подаци који су од интереса могли би бити филтрирани и прослеђени у алатке за управљање информацијама о предузећу које се могу користити за попуњавање аналитичких складишта података. Ако не можете да видите овде комбинацију, сада имамо традиционално складиштење података, Хадооп и НоСКЛ базе података. Имамо и управљање главним подацима у миксу. А то врши већи притисак на читав пакет алата за управљање подацима, не само да се попуне ове залихе података, већ да се премештају подаци између њих.

Поврх тога, морамо поједноставити алате за приступ. Не можемо се само обратити кориснику и рећи, "набавите све ове залихе података, држите ове АПИ-је - ваш проблем." Оно што морате учинити је да поједноставите приступ. И тако, у тачканим линијама, видећете да виртуализација података и оптимизација некако крију сложеност вишеструког складиштења података, покушајте и крајњим корисницима олакшајте приступ томе. И наравно, постоји низ алата на врху, знате - све од традиционалних БИ алата који су се некако покренули при врху складиштења података, постепено се крећући лево од графикона како би се некако повезали у Хадоопс а затим и светске базе података НоСКЛ.

Тражили смо тражење новог закупа живота, посебно око неструктурираних података о телу који су често похрањени у Хадоопу. Имамо прилагођене аналитичке апликације да се раде на Хадооп платформи помоћу МапРедуце-а, на пример Спарк оквира, на пример. Имамо алате за анализу графова који треба да се фокусирамо на врло специфична радна оптерећења. Дакле, низ алата и проток података су такође сложенији. Више није само једносмерна улица у складишту података. Сада су, наравно, главни подаци.

Долазе нам нови извори података, било да смо заробљени у НоСКЛ-у, складиште података попут МонгоДБ, попут Цассандра, као ХБасе. Имамо податке који се директно доносе у Хадооп ради анализе и припреме података. Добили смо нове увиде из Хадоопа и складишта података. Имамо архиву која излази из складишта података у Хадооп. Сад имамо и феедове података који ће ићи, знате, и у све НоСКЛ базе података и мартове података. Дакле, оно што овде можете видети је да се у управљању подацима одвија много више активности. А то значи да је софтвер за управљање подацима под великим притиском. Више није само једносмерна улица. То је двосмерно кретање података. Много је више активности и зато је скалабилност важна на фронту алата за управљање подацима као и на извору података.

Дакле, овај графикон се враћа у ону архитектуру коју сам малопре поменуо. Показује вам различита аналитичка оптерећења у различитим деловима ове архитектуре. Поред тога на дну лево, добили сте стриминг у стварном времену, обрада токова на подацима који излазе из, знате, било које врсте података уживо. Имамо анализу класа у базама података НоСКЛ графова. Може се десити и на Хадоопу. На пример, са Спарк оквиром и ГрапхКс-ом, добили смо истражну анализу и рафинерију података о којој је Робин говорио да се догађа на Хадоопу. Имамо традиционално радно оптерећење и складиштење података, корисници енергије граде статистичке и предиктивне моделе, можда на уређајима за складиштење података. И ми и даље покушавамо да поједноставимо приступ свему томе да бисмо га олакшали крајњим корисницима.

Дакле, успех у читавом овом сету је више него само аналитичка страна. Знате, можемо поставити аналитичке платформе, али ако не можемо да снимимо и гутамо, знате, податке о брзини и великој количини, у скали, нема пуно смисла. Знате, немам шта да анализирам. И тако, успех аналитике великих података захтева оперативне системе да се повећају. То значи, бити у могућности да подржавате нове трансакције, знате, врхунац. Знате, било који не-трансакциони подаци који се тамо забележе могу бити, знате, било које нове стопе доласка, врло, веома високе стопе доласка на податке са великим брзинама, попут сензора или било којег гутања. Морамо бити у стању да се побринемо за све то - да бисмо могли да снимимо ову врсту података и доставимо их на анализу. Морамо такође да скалирамо аналитику, да поједноставимо приступ подацима које сам већ споменуо. А онда, вежи то. Знате, морамо бити у могућности да се вратимо у те оперативне системе да бисмо му дали затворену петљу.

Дакле, скалирање оперативне стране куће за прикупљање података, знате, преузима у свијет НоСКЛ базе података. Мислим, овде видите пет категорија НоСКЛ базе података. Ова категорија ће се моделирати само комбинацијом осталих четири горе. Уопште, знате, његове кључне вредности, ускладиштени документи и базе података породице колона - прве три тамо - које се користе за више врста трансакционих и нетраксацијских података.

Неке од тих база података које подржавају као својства; неки не. Али свеједно, знате, видимо их увођењем како би се скалирале такве врсте апликација. И тако, на пример, како смо се одмакли од само запослених који уносе трансакције на тастатури, садашњих купаца и масе користећи нове уређаје да би то могли да ураде. Приметили смо огроман пораст броја трансакција које се склапају у предузећа. И тако, за то морамо да разместимо трансакционе апликације.

Сада, генерално гледано, то се може учинити на НевСКЛ базама података као релациона база података попут НуоДБ и ВолтДБ приказана овде. Или неке од НоСКЛ база података које можда подржавају АЦИД својства која могу гарантовати обраду трансакција. Ово се такође односи и на нетраксацијске податке, као што су подаци о кошарицама пре трансакције, знате, пре него што људи купују ствари, податке сензора, знате, јер губим очитавање сензора међу стотинама милиона очитавања сензора. То није велика ствар. Кликови, знате, у свету клика - ако користим клик, то није велика ствар.Дакле, знате, не морамо нужно да имамо АЦИД својства тамо, а то је често место у којем се појављују НоСКЛ базе података, јер је ту била могућност да се изврши врло велика, исправна обрада у обиму да би се снимиле ове нове врсте података.

У исто време, желимо да се аналитика повећа. И тако, повлачење података из складишта података на аналитичке платформе више неће хаковати јер су подаци превелики. Оно што стварно желимо је да гурнемо аналитику на други начин, у складиште података предузећа у Хадооп, у струјну обраду да бисмо могли потиснути аналитику на податке. Међутим, само зато што неко каже да се ради о анализи података базе података или Хадооп анализи не значи нужно да се аналитика одвија паралелно. Искрено, ако желите да улажете у нове масовно паралелне скалабилне технологије попут Хадоопа, попут уређаја за складиштење података и слично, попут кластера за обраду токова података, потребна нам је паралелна анализа.

То је само одјава. Знате, ако имамо аналитику која ће вам помоћи да предвидимо ствари купцима, операцијама, ризику итд., Желимо да се покрећу паралелно, а не само да раде на платформи. Желимо обоје. И то је зато што, знате, технологија је попут ових нових алата за визуелно откривање попут САС-а. То је заправо један од наших спонзора.

Једна ствар коју људи желе је барем да искористе оне у Хадоопу, а затим аналитику база података. А ми желимо да се они покрећу паралелно како би могли да пруже перформансе потребне за тако велике количине података. У исто време покушавамо да поједноставимо приступ свему овоме. И тако, СКЛ је сада на дневном реду. Знате, СКЛ јесте - СКЛ на Хадоопу је тренутно активан. Управо га пратим у 19 СКЛ и Хадооп иницијативама. Осим тога, видите, до тих података можемо доћи на бројне начине, тако да директно приступајући СКЛ-у на самом Хадоопу, можемо ићи СКЛ-ом до индекса претраживања. На такав начин, као што су, знате, неки од добављача претраживања на том простору, можемо имати СКЛ приступ аналитичким релацијским базама података који имају Екцел табеле до Хадоопа.

Сада можемо имати СКЛ приступ серверу за виртуализацију података који сам након тога може бити повезан са складиштем података на Хадоопу. Чак и сада почињем да видим појаву СКЛ приступа ливе стреаминг подацима. Дакле, СКЛ приступ свему томе брзо расте. А део изазова је управо зато што се вани пласира СКЛ приступ. Питање је, може ли се СКЛ бавити сложеним подацима? А то није нужно једноставно. Овде постоје све врсте компликација, укључујући чињеницу да би се ЈСОН подаци могли угнеждити. Можемо имати записе о варијанти шема. Дакле, први запис има једну шему. Други запис има другачију шему. Ове ствари су веома различите од онога што се догађа у релацијском свету.

Дакле, морамо поставити питања о томе које врсте података покушавамо да анализирамо и које су врсте аналитичких карактеристика. Да ли је то, знате, панел који желите да урадите? Да ли је то машинско учење? Да ли је то анализа графова? Можете ли то да урадите из СКЛ-а? Знате, да ли се то може позвати из СКЛ-а? Колико паралелних корисника имамо ово радећи? Знате, имамо стотине истодобних корисника. Да ли је то могуће на сложеним подацима? Знате, све су то кључна питања. Дакле, некако сам направио списак неколико овде за које мислим да би требало да размислите. Знате, какви су то формати датотека? О којим врстама података причамо? Какве се аналитичке функције можемо позвати из СКЛ-а да бисмо добили сложене податке? И врста функција ради паралелно. Мислим, они морају да се покрећу паралелно ако морамо то да изменимо. И могу ли се данас придружити подацима у Хадоопу изван њега, знате, или то није могуће? И шта ћу са свим тим различитим врстама посла упита?

И као што ћемо видети, знате, по ономе што сам видео, постоје велике разлике у СКЛ и Хадооп дистрибуцији. Ово су све које пратим. Успут, то је чисти СКЛ на Хадоопу. То чак не укључује виртуализацију података у овом тренутку. И тако, пуно вани и пуно простора за консолидацију, што мислим да ће се догодити током следеће године, осамнаест месеци или тако нешто. Али то такође отвара још једну ствар, а то је да могу да имам потенцијално више СКЛ мотора на истим подацима у Хадоопу. А то је нешто што не бисте могли да урадите у релацији.

Наравно, то значи да тада морате знати, знате, какво радно оптерећење упита вршим? Да ли би то требало да покренем у пакету на одређеном СКЛ-у на Хадооп иницијативи? Да ли треба да покренем радна оптерећења интерактивног упита путем другог СКЛ-а на Хадооп иницијативу итд., Тако да знам на кога се треба повезати? У идеалном случају, наравно, то не бисмо смели радити. Требали смо само поставити питање о томе. Знате, неки оптимизатор проналази најбољи начин да то постигне. Али према мом мишљењу још нисмо у потпуности.

Али свеједно, виртуализација података, коју сам раније споменуо, има веома важну улогу за поједностављивање приступа вишеструким спремиштима података. А ако створимо нове увиде о Хадоопу, сигурно је вероватно да ћемо се придружити тим подацима и традиционалним складиштима података виртуализацијом података, на пример, без нужног премештања података из Хадоопа у традиционална складишта података. Наравно, и ви то можете. Такође је веродостојно ако у Хадооп архивирам податке из традиционалних складишта података. Још увијек могу то добити и придружити се стварима које се налазе у нашем складишту података за виртуализацију података. Дакле, за мене мислим да виртуализација података има велику будућност у овој целокупној архитектури и поједностављује приступ свим тим складиштима података.

И да не заборавимо да када стварамо ове нове увиде, било да се ради о релацијским или НоСКЛ системима, ми и даље желимо да вратимо те увиде у наше операције, како бисмо максимизирали вредност онога што смо пронашли, како бисмо могли искористити то за ефикасније и благовременије одлуке у том окружењу за оптимизацију нашег пословања.

Дакле, да бисмо закључили оно што видим онда су нам потребни, знате, нови извори података. Имамо нове платформе сложеније архитектуре, ако желите, да то решимо. И Хадооп постаје врло, веома важан, довољан за припрему података за наше сандуче са течним пескама, за архивске упите, архиву из складишта података, за управљање подацима која шири крила да би превазишла складиштење података у управљању подацима на свим овим платформама и нове алате у стању да анализира и приступа подацима у овим окружењима, да буде у могућности да има скалабилне технологије за бољи унос података и скалирање аналитике гурајући их доле на платформе како би их учинили више паралелним. А онда, надамо се, и да поједноставимо приступ свему томе, преко надолазећег СКЛ-а који долази преко врха. Дакле, то вам даје идеју о томе куда смо кренули. Дакле, с тим, вратит ћу се, претпостављам, Ерицу, зар не?

Ериц: У реду, то је фантастично. А људи, морам рећи, између онога што сте управо добили од Робина и Микеа, вероватно се ради о тако свеобухватном и сажетом прегледу целог пејзажа са гледања као што ћете га наћи било где. Пустите ме да прво кренем редом према Георгеу Цоругеду. И ево га. Дозволите ми да узмем кратко. У реду, Георге, управо ћу ти предати кључеве и однети их. Спрат је твој.

Георге: Сјајно! Пуно хвала, Ериц, и хвала, Роб и Мике. То су биле сјајне информације и пуно са чиме се слажемо. Дакле, враћање на Робинову расправу, јер, знате, то није случајност да је РедПоинт овде, а САС овде. Због тога што се РедПоинт фокусирамо на његовој страни података на управљању, обради података и припреми за употребу у аналитици. Дакле, допустите ми да провалим кроз ова два слајда. И стварно разговарајте о Робинновом ставу о МДМ-у и колико је он важан и колико је користан, мислим - и мислимо - Хадооп може бити у свету МДМ-а и квалитета података.

Знате, Робин је мало причао, знате, како је то повезано са светом складишта података о предузећима и ја долазим - знате, провео сам неколико година на Аццентуре-у. А оно што је тамо било занимљиво је колико пута смо морали ући у компаније и покушати да схватимо шта да радимо са складиштем података која је у основи напуштена. А пуно тога се догодило јер тим складишта података није заиста ускладио свој посао са пословним корисницима или потрошачима података. Или је то трајало толико дуго да су се, кад су ствар направили, развила пословна употреба или пословно образложење за то.

И једна од ствари за коју мислим да ме толико узбуђује идеја о коришћењу Хадоопа за главно управљање подацима, за квалитет података и за припрему података је чињеница да се увек можете вратити атомским подацима у Хадооп језеро података или резервоар података, складиште података или састајалиште, или било који облик зујања који желите да користите. Али зато што увек чувате те атомске податке, увек имате прилику да се ускладите са пословним корисницима. Јер, као аналитичар - зато што сам заправо започео каријеру статистичара - знате, ништа није горе него, знате, складишта података о предузећима су дивна за вођење извештаја, али ако желите да урадите заиста предиктивну аналитику, они заиста и није тако корисно, јер оно што стварно желите су детаљни подаци о понашању који су некако сакупљени и обједињени у складишту података. Дакле, мислим да је то заиста важна карактеристика, и то је једна ствар око које мислим да се можда не бих сложио са Робин-ом, а то је то што бих лично остављао податке у језеру података или возилу података што је дуже могуће, јер све док подаци су ту и чисти су, можете да гледате из једног, другог правца. Можете га спојити са другим подацима. Увек имате ту прилику да јој се вратите и реструктуирате, а затим се ускладите са пословном јединицом и потребом које ова јединица може имати.

Једна од других врста занимљивости у вези с тим је да зато што је ово тако моћна рачунарска платформа, пуно тог посла о коме смо разговарали, видимо да све долази директно у Хадооп. И док је, мислим, Мике говорио о свим различитим технологијама које постоје тамо у свету - у овом типу екосистема великих података, ми мислимо да је Хадооп заиста радни коњ који ради тако велике размере у рачунски интензивној обради која захтевају се мастер подаци и квалитета података. Јер ако то можете учинити тамо, знате, само чиста економија премештања података из ваших скупих база података у економичне базе података, то сада заиста води у велику количину примене у великим предузећима.

Сада, наравно, постоје неки изазови, зар не? Око технологија постоје изазови. Многи од њих су веома незрели. Рекао бих, не знам колико, али бројне технологије које је Мике споменуо још увек су у издањима нулте тачке-нешто, зар не? Дакле, ове технологије су веома младе, веома незреле, још увек засноване на коду. А то заиста ствара изазов за предузећа. И заиста се фокусирамо на решавање проблема на нивоу предузећа. И тако, ми мислимо да мора постојати другачији начин, а то је оно што ми предлажемо да буде различит начин на који ће се неке ствари користити коришћењем неких од ових врло нових технологија.

И тако, а затим други занимљиви проблем овде, који је претходно поменут, а то је да када имате податке које снимате у Хадооп окружењу било које врсте, знате, то је обично шема на читању, а не шема на писању са изузецима. А то читање, много тога раде статистичари. И тако, статистичари морају имати алате који им омогућавају да правилно структуирају податке у аналитичке сврхе, јер на крају дана, да би подаци били корисни, они морају бити структурирани у неком облику да би их видели или одговорили на питање или посао, нека врста посла, ствара пословну вредност.

Дакле, тамо где смо дошли је да имамо веома широки и зрели ЕПЛ, ЕЛТ матични кључ за квалитет података и апликацију за управљање. На тржишту је већ много, много година. И има сву функционалност или већину функционалности које је Робин наведио у том кружном графикону - све од чистог необрађеног хватања података у читавом низу формата и КСМЛ структура и сличних, до могућности да се уради цијело чишћење, попуњавање података, исправка података, геопросторна битна језгра података. То је нешто што постаје све важније ових дана са Интернетом ствари. Знате, географија је повезана са већином онога што радимо или већином тих података. И тако, сав рашчлањивање, токенизација, чишћење, исправљање, форматирање, структурирање итд., Све се то ради на нашој платформи.

А онда, и можда ми мислимо да је најважнија идеја о дедупликацији. Знате, у основи, ако погледате било коју дефиницију главног управљања подацима, срж је дедупликација. Моћи ће идентификовати ентитете из различитих извора података, а затим створити главну евиденцију за тај ентитет. А тај ентитет може бити особа. Ентитет би могао бити дио авиона, на примјер. Ентитет би могао бити храна као што смо то учинили за једног од наших клијената из здравственог клуба. Направили смо главну базу података о храни за њих. Дакле, без обзира на ентитете са којима радимо - и наравно, све чешће, постоје људи и пуномоћници за њихов идентитет који су ствари попут друштвених квадрата или рачуна, без обзира на уређаје који су повезани са људима, неке ствари попут аутомобила и телефони и све друго што можете замислити.

Знате, сарађујемо са клијентом који ставља све врсте сензора у спортску одећу. Дакле, подаци долазе из сваког правца. И на овај или онај начин то је одраз или представљање језгре ентитета. И све више, то су људи и способност да се идентификују односи између свих тих извора података и како се они односе на тај главни ентитет, а затим да будете у могућности да пратите тај главни ентитет током времена, тако да можете анализирати и разумети промене између тог ентитета и сви они други елементи који су у тим представкама тог ентитета, на примјер, заиста критични за дугорочну и лонгитудиналну анализу људи. И то је заиста једна од заиста битних предности које, мислим, велики подаци могу да нам донесу је много боље разумевање људи, и дугорочно, разумевање кон и како се људи понашају када се понашају кроз које уређаје итд. .

Дакле, дозволите ми да се брзо преселим овде. Ериц је споменуо ИАРН. Знате, кажем ово на само неколико секунди, јер док ПРЕЖЕТЕ - људи причају о ПРИЈАВИ. Још увек је пуно незнања, мислим на ИАРН. А није баш пуно људи - још увек је пуно неспоразума у вези са ПРИЈЕТОМ. А чињеница је да ако је ваша апликација пројектована на правилан начин и ако имате одговарајућу разину или паралелизацију у вашој архитектури апликација, тада можете искористити ИАРН да бисте користили Хадооп као платформу за скалирање. И то је управо оно што смо урадили.

Знате, опет, само да укажем на неке дефиниције око пређе. За нас је стварно оно што ИАРН омогућава нама и другим организацијама да постанемо вршњаци МапРедуце и Спарк и свих осталих алата који су вани. Али чињеница је да наше апликације оптимизују код директно у ЈАРН у Хадооп. И постоји заиста занимљив коментар који је Мајк споменуо, јер, знате, питање о аналитикама и нашој аналитици, само зато што су у кластеру, да ли стварно паралелно раде? Можете поставити исто питање о већини алата за квалитет података који су вани.

Већину дана, квалитетни алати који су тамо вани или морају извадити податке или гурају код. И у многим случајевима то је један ток података који се обрађује због начина на који морате упоредите записе, понекад у врстама квалитета података. А чињеница је да, зато што користимо ИАРН, заиста смо могли да искористимо паралелизацију.

И само да вам брзо пружим преглед, јер се даје још један коментар о важности могућности проширења традиционалних база података, нових база података, итд., Које имплементирамо или инсталирамо изван кластера. А ми гурнемо своје бинарне датотеке директно у управитеља ресурса, НАД. И то, и онда га ИАРН дистрибуира по чворовима у кластеру. А оно што се заправо састоји је та да ПРЕДЊА - допуштамо ИАРН-у да управља и ради свој посао, а то је да схвати где су подаци и да радимо на податке, кодирамо на податке и не померамо податке. Кад чујете алате за квалитет података и кажу вам да је најбоља пракса да се подаци преместију са Хадоопа, трчите за свој живот, јер то једноставно није тако. Желите да рад пребаците на податке. И то је оно што ИАРН прво ради. Одводи наше бинарне записе до чворова у којима се подаци налазе.

А такође зато што смо изван кластера, можемо приступити и свим традиционалним и релацијским базама података, тако да можемо имати задатке који су 100% клијентски сервер на традиционалној бази података, 100% Хадооп или хибридни послови који иду преко Хадооп клијентског сервера. , Орацле, Терадата - шта год желите и сви у истом послу, јер једна имплементација може приступити обе стране света.

А онда, вративши се целој идеји о новостечености алата, видите овде, ово је само једноставан приказ. А оно што покушавамо је да поједноставимо свет. А начин на који то радимо је што доносимо врло широк скуп функционалности око ХДФС-а како бисмо га направили ... И није због тога што покушавамо елиминирати све иновативне технологије тамо. Само је предузећима потребна стабилност и не воле решења заснована на коду. И тако, оно што покушавамо учинити је дати предузећима познато, понављајуће, конзистентно окружење апликација које им даје могућност да граде и обрађују податке на врло предвидљив начин.

Брзо, то је врста утицаја који добијамо нашом апликацијом. Видите МапРедуце вс. Пиг вс. РедПоинт - у РедПоинту нема линија кода. Шест сати развоја на МапРедуцеу, три сата развоја у Свињи и 15 минута развоја у РедПоинту. И ту имамо заиста огроман утицај. Време обраде је такође брже, али време људи, време продуктивности људи, се знатно повећава.

И мој последњи слајд овде, желим да се вратим овој идеји, јер ово је наше коришћење језера података или чворишта података, или рафинерија података као централна тачка гутања. Не могу се више сложити са том идејом. И тренутно разговарамо са великим бројем главних службеника за податке великих глобалних банака и ово је архитектура избора.Унос података из свих извора врши процесирање квалитета података и управљање њима у језеру података, а затим гурајте податке тамо где је потребно да бисте подржали апликације, подржали БИ, ма шта то могло бити. А онда, ако имате аналитику у БИ-у, они се могу покренути директно у језеру података, где је још боље, а то може почети одмах. Али веома се слажемо са овом идејом. Ова топологија овде је та која налазимо да добија доста привлачности на тржишту. И то је то.

Ериц: Добро, добро. Идемо овде. Ја ћу ићи напред и предати га Кеитху. И, Кеитх, имаш око 10, 12 минута да се овде разбаци кућа. У овим емисијама требало нам је мало дуже. И рекламирали смо 70 минута за овај. Дакле, само напред и кликните било где на том клизачу и користите стрелицу надоле и однесите је.

Кеитх: Наравно. Нема проблема, Ериц. Ценим то. Идем напред и ударићу само пар комада о САС-у, а затим ћу кренути право у технолошке архитектуре где САС пресече са светом великих података. Има пуно тога за објаснити у свим овим стварима. Могли бисмо провести сате детаљно кроз то детаљно, али десет минута - требали бисте бити у могућности да се прошетате само са кратким разумевањем где је САС преузео аналитику, управљање подацима и технологије пословне интелигенције у овај свет великих података.

Прво, само мало о САС-у. Ако нисте упознати са овом организацијом, последњих 38 година бавимо се напредном аналитиком, пословном интелигенцијом и управљањем подацима не само великим подацима, већ и малим подацима и богатством података последњих 38 година. Имамо огромно постојеће стопа за купце, око 75.000 локација широм света, сарађујемо са неким од најбољих организација тамо. Ми смо приватна организација са око 13.000 запослених и 3 милијарде долара прихода. И заиста, ваљда, важан део је што традиционално имамо дугогодишњу историју инвестирања значајних количина свог прихода у нашу истраживачко-развојну организацију, што је заиста донело пуно ових невероватних технологија и платформи “ видимо се данас.

Дакле, скочићу право у ове заиста застрашујуће дијаграме архитектуре. Ми ћемо радити с лијева на десно у мојим слајдовима. Дакле, постоје познате ствари које ћете видети унутар ове платформе. На левој страни су сви ти извори података о којима говоримо о гутању у те велике платформе података. А онда, имате ту велику платформу података.

Нисам само ставио реч Хадооп тамо на врху, јер на крају, примери које ћу данас дати су тачно око свих технологија у којима се пресекамо са овим великим платформама података. Управо се Хадооп догодио као један од оних где имамо неке од најснажнијих опција размештања, али такође смо се пресрели доста и развили већину ових технологија већ неко време са неким од наших других партнера у складишту података као што су Терадата, Орацле, Пивотал и слично. Дакле, не могу да улазим у сјајне детаље с обзиром на то да се на којој платформи подржавају различите технологије, али будите сигурни да су све ове које данас описујем углавном све што је Хадооп и огромна количина њих се пресијеца са другим технолошким партнерима који имамо. Дакле, имамо толико велику платформу која седи тамо.

Следећи десно, имамо САС ЛАСР аналитички сервер. Сада је то у суштини масовна паралела у апликацијском аналитичком серверу меморије. Било би нам јасно да то није база података у меморији. Стварно је дизајниран од темеља. То није механизам упита, али дизајниран је да масовно служи паралелним аналитичким захтевима. То су апликације за сервисне кључеве које видите тамо с десне стране.

Мало ћемо се позабавити, како људи размештају ове ствари. Али у суштини, апликација - видите ли ту - прву, је наша САС анализа високих перформанси. То ће бити - користим пуно наше постојеће технологије и платформе као што су Ентерприсе Минер или само САС, а не само радим мултитхреадинг са неким од тих алгоритама које смо уградили у оне алате за које смо радили година, али и масовно паралелно с тим. Дакле, да преместимо податке са те велике платформе података у меморијски простор на тај ЛАСР аналитички сервер, тако да можемо да извршавамо аналитичке алгоритме - знате, пуно новог машинског учења, неуронске мреже, случајне регресије шума, такве врсте ствари - опет, подаци који сједе у сјећању. Дакле, ослобађање од одређеног уског грла парадигме МапРедуце где се налазимо на тим платформама, то није начин на који желите аналитички радити. Дакле, желимо да можемо једном подићи податке у меморијски простор и поновити их, знате, понекад и хиљадама пута. То је концепт коришћења аналитичког ЛАСР сервера високих перформанси.

Ми такође - остале апликације испод њега, визуелна аналитика, која нам омогућава да те податке уверимо у меморију и опслужујемо већу популацију на истим подацима. Дакле, омогућавање људима да истражују велике податке. Дакле, пре него што радимо на развоју нашег модела, истражујемо податке, разумемо их, радимо корелације, радимо прогнозу или трендове стабала одлука - такве ствари - али на врло визуелни, интерактивни начин на податке који седе у памћењу платформа. То такође пружа услугу нашој БИ заједници у томе што имамо веома широке базе корисника који могу погодити ту платформу да би направили стандардне врсте снимања које бисте видели - што је поприлично било који, знате, БИ добављач тамо.

Следећи корак прелазимо на сервис. И да помогнемо нашим статистичарима и нашим аналитичарима да омогуће такво ад-хоц моделирање са подацима који седе у меморији, уклоњеним из визуелне аналитике и истраживања у нашој апликацији за визуелну статистику. Ово је прилика за људе да узимају статистике у серијама које су некада понављале моделе, покретале моделе, виделе резултате. Дакле, то може покренути модел, погледајте резултате. Ово је циљ да се визуелно повуче и упусти у интерактивно статистичко моделирање. Дакле, ово пружа услуге нашим статистичарима и нашим научницима података да ураде много тога раног истраживачког визуелног статистичког рада.

А онда, нисмо заборавили да кодирају - људи који то заиста желе да буду способни да скидају слојеве интерфејса супротно, то је писање апликација и писање сопствене базе кодова у САС-у. А то је наша статистика за памћење за Хадооп. А то је - у суштини слој кода који нам је омогућио интеракцију с тим аналитичким ЛАСР сервером за директно издавање наредби и прилагођавање тих апликација на основу нашег захтева. То је аналитички део.

Како се ове ствари постављају ... Упс, жао ми је људи. Ево га.

Дакле, постоји заиста неколико начина на које то радимо Једно је учинити са великим подацима - у овом случају са Хадооп-ом. И ту имамо САС ЛАСР аналитички сервер који ради у посебном скупу машина које су оптимизоване за хардцоре аналитику. Ово је лепо постављено и близу је велике платформе података, што нам омогућава да га скалирамо одвојено од велике платформе података. Дакле, видимо како људи то раде кад не желе да имају нешто што ја окарактеришем као што је вампирски софтвер који једе на свим чворовима у њиховом кластеру Хадооп. И не морају нужно да скалирају ту велику платформу података погодну за вршење тешких подизања у меморији. Дакле, можда имате 120 чворова њиховог Хадооп кластера, али они могу имати 16 чворова аналитичких сервера који су дизајнирани за такву врсту посла.

Још нам је дозвољено да одржавамо тај паралелизам са велике платформе података да бисмо податке повукли у меморију. Дакле, то је заиста употреба САС-а са Хадооп платформом. Различити модел именовања тада треба рећи, добро, можемо користити и ту робну платформу и погурати је - у суштини покренути аналитички ЛАСР сервер на Хадооп платформама. Дакле, то је оно где ми ... ви радите унутар велике платформе података. То су такође и неки други наши добављачи уређаја. Дакле, то нам је омогућило да у основи користимо ту робну платформу да бисмо радили.

Чешће видимо да ствари попут аналитике високих перформанси код које се ради о аналитичкој вожњи са једном или једном употребом, више врсте оријентисане на шаржу где сте - не желите нужно да трошите меморијски простор на Хадооп-у платформа. Ми смо веома флексибилни у оваквом моделу размештања, дефинитивно у нашем раду са ИАРН-ом у многим овим случајевима да бисмо били сигурни да играмо лепе кластере.

Ок, тако да је то аналитички свет, само да то буде јасно са аналитичком апликацијом. Али споменуо сам да је САС у самом почетку такође платформа за управљање подацима. Постоје ствари које су погодне да се логика угура у ту платформу, где је то прикладно. Дакле, постоји неколико начина на које то радимо. Један је у свету интеграције података, ако радите на трансформацији података можда нема смисла да то повучете онако како смо чули, изводећи уобичајене рутине квалитета података. Желимо дефинитивно гурнути ствари попут рутина квалитета података доле на ту платформу. А онда, ствари попут модела бодовања. Дакле, развио сам свој модел. Не желим да преиспитујем ту ствар у МапРедуце и да ми буде тешко и пуно времена да то радим поново у матичну платформу базе података.

Дакле, ако погледате, на пример, наш акцелератор за оцењивање за Хадооп, који нам омогућава да у суштини узмемо модел и гурнемо САС математичку логику доле на ту Хадооп платформу и тамо је извршимо, користећи паралелизам који је унутар те велике платформе података. Затим имамо свој акцелератор кода за разне платформе, укључујући Хадооп, и то нам омогућава да у основи покрећемо САС корак корака података унутар платформе на масовно паралелни начин - тако, радећи трансформацију података на неки начин раде на платформи. А затим наш САС убрзавач квалитета података који нам омогућава да имамо базу знања о квалитету која седи тамо и која може радити ствари као што су подударност пола, шифрирање подударања по стандардима - све различите ствари о квалитету података које сте чули већ данас.

И онда, последњи део, ту је Учитавач података. Знамо да ће наши пословни корисници морати да не морају да пишу код, да ли рад на трансформацији података функционише на овим великим платформама података. Дата Лоадер је симпатични ВИСИВИГ ГУИ који нам омогућава да заједно уклопимо те друге технологије. То је попут чаробњака за пролазак, рецимо, покретања упита Хиве или покретања рутине квалитета података и у том случају не морате писати код.

Последња ствар коју ћу поменути је овај предњи део. Као што сам већ напоменуо, имамо огромну САС ногу тамо у свету. И ово, не можемо једноставно нужно да радимо све оне платформе које су напољу да буду одмах у овом простору. Дакле, ми дефинитивно имамо постојеће кориснике који морају да добију податке седећи на овим великим платформама података, као што су вађење података из Терадата и њихово враћање у Хадооп, и обрнуто. Покретање модела већ знам како се изводити на мојим САС серверима, али морам да добијем податке који су сада смештени у Хадооп платформи. Дакле, ту је и друга мала икона која се зове „од“ и која нам омогућава повезивање помоћу наших САС мотора за приступ - приступних мотора на Хадооп-у до Цлоудера у Поли, до Терадата, до Греенплум-а до… И листа се наставља. То нам омогућава да користимо постојеће зреле САС платформе које су већ успостављене за добијање података са тих платформи, да радимо посао који треба да завршимо, да резултате вратимо на та подручја.

Посљедње што ћу споменути је да све ове технологије које видите су под истим стандардним заједничким метаподацима. Дакле, ми говоримо о томе да преобразимо посао, правило квалитета података на делу, преместимо га у меморију да бисмо могли да урадимо аналитику, развој модела у бодовању. Тамо имамо читав аналитички начин живота, животни циклус који управљају заједничким метаподацима, управљањем, безбедношћу, свим стварима о којима смо данас разговарали.

Дакле, само резиме, ту су заиста потребне три велике ствари. Једно је, што можемо да третирамо платформу података као и било који други извор података, повлачећи се из њих, гурајући их када је то прикладно и згодно. Можемо радити са оним великим платформама података, уврштавањем података у наменски напредну аналитику у меморијској платформи. То је ЛАСР сервер.

И онда, последње, можемо директно радити на тим великим платформама података, користећи своје дистрибутивне могућности обраде без померања података.

Ериц: Па то су фантастичне ствари. Да, ово је сјајно! Дакле, уђимо мало у нека питања. Ми обично идемо око 70 минута или мало дуже на ове догађаје. Дакле, видим да и даље имамо сјајну публику. Георге, претпостављам да ћу ти прво поставити питање. Ако говорите о гурању свог бинарног звука у Хадооп, мислим да ми то звучи као да сте стварно оптимизирали рачунски ток рада. И то је цео кључ како бисте могли да радите ове врсте управљања подацима у реалном времену, достигнућа у стилу квалитета података, јер то је вредност коју желите да добијете, зар не? Ако се не желите вратити у стари свет МДМ-а где је веома гломазан и дуготрајан, и заиста морате присиљавати људе да делују на одређене начине, што готово никада не функционише. И тако, оно што сте урадили кондензирало је циклус онога што је било. Назовимо то данима, недељама, понекад чак и месецима до секунде, зар не? Да ли се то догађа?

Георге: То је тачно, јер скала коју добијамо и перформансе које добијамо из кластера је заиста запањујућа у погледу, баш, знате, увек се мало оклевам у вези са референтним вредностима. Али само за ред величине, када бисмо направили милијарду, 1,2 милијарде записа и урадили потпуну стандардизацију адреса - кажем ХП машина средњег опсега - требало би вам, као, знате, осам процесорских машина, знате , 2 свирке РАМ-а по језгри, требате 20 сати да би се покренуло. То можемо да урадимо за око осам минута на кластеру са 12 чворова. Па, обим обраде који сада можемо да урадимо толико је драматично другачији да - и врло се лепо слаже са идејом да имате све ове податке на располагању. Дакле, није тако ризично радити обраду. Ако сте погрешно урадили, можете је поново поновити. Имаш времена, знаш. То је заиста променило размере овога где, знате, те врсте ризика су заиста постале стварни пословни проблеми људи када су покушавали да раде на МДМ решењима. Морате имати 30 људи на обали који управљају подацима и тако даље. И тако, нешто од тога још увек морате имати, али вам брзина и размера до којих сада можете обрађивати заиста пружају много више простора за дисање.

Ериц: Да, то је стварно, заиста добра поента. Волим тај коментар. Дакле, имате времена да га поново направите. То је фантастично.

Георге: Да.

Ериц: Па, мења динамику, зар не? Промени начин размишљања о ономе што ћете покушати. Мислим, сећам се тога пре 18 година у индустрији који прави специјалне ефекте, јер сам имао клијента који је био у том простору. А ти би притиснуо дугмад да га прикажеш и отишао би кући. А вратили бисте се, можда у суботу поподне, да видите како иде. Али ако сте погрешно схватили, то је било веома, веома, веома болно. А сада, то није ни приближно - ни близу да буде тако болно, тако да имате прилику да испробате више ствари. Морам да кажем, мислим да је то заиста, заиста добра поента.

Георге: То је тачно тачно. Да, и пушеш додатну ногу. Знате, добили сте посао на пола пута у старе дане, а он не успе, разбили сте СОС. То је то.

Ериц: Добро. И у великој сте невољи, да. Тако је.

Георге: То је тачно. Тако је.

Ериц: Кеитх, дозволићу ти један. Сјећам се да сам радио интервју са својим ЦИЛ-ом, Кеитх Цоллинс, вјерујем да сам се вратио у, можда, 2011. годину. И много је говорио о правцу који САС води посебно у вези са радом са купцима на уграђивању аналитике проистеклих из САС-а у оперативне системе. И наравно, чули смо Микеа Фергусона како говори о важности памћења. Цела идеја овде је да желите да будете у могућности да ово вежете у своје операције. Не желите анализу у вакууму, искљученом од предузећа. То уопште није вредно.

Ако желите анализу која може директно утицати и оптимизирати операције. А ако се осврнем - и морам да кажем, тада сам мислио да је то добра идеја - изгледа перспективно, стварно паметна идеја. И претпостављам, то је права предност коју ви имате. И наравно, ова велика заоставштина, огромна база за инсталирање и чињеница да сте били фокусирани на уградњу ове аналитике у оперативне системе, што значи да сада - и одобрено, требаће мало рада - сигуран сам да ' радим на томе прилично напорно. Али сада, можете искористити све ове нове иновације и заиста сте у могућности да све те ствари операционализујете са својим купцима. Да ли је то фер процена?

Кеитх: Да, апсолутно. Концепт је да ви добијате ту идеју о дизајну одлука или наукама о одлукама што је, до неке мере, истраживачка, научна ствар. Осим ако стварно не можете да направите инжењеринг на том процесу ... Ако размишљате о развоју аутомобила, имате дизајнере који чине овај леп аутомобил, али то је све док инжењери не поставе тај план и направе стварни одрживи производ пред вама. могу ствари ставити на своје место, а то је у суштини оно што је САС урадио. Спојили су одлуке - процес дизајнирања одлука са процесом инжењеринга одлука заједно, тако да када говорите о акцелераторима, посебно акцелераторима за оцењивање, знате, ако узмете модел који сте развили и будете у могућности да га потиснете ван на Терадата или га избаците у Орацле или Хадооп, без икаквог застоја за развој модела, на имплементацију модела. То је кључно, јер модели временом пропадају, тачност тих модела. Дакле, што дуже требате да то узмете и ставите у производњу, то је губитак тачности модела.

А онда, други део је, желите да будете у могућности да надгледате и управљате тим процесом током времена. Желете да оборите моделе када остаре и буду нетачни. Желите да га погледате, проверите тачност истих и обновите их. И тако, имамо алате за управљање моделима који такође стоје изнад тога, а који стварно прате метаподатке око моделираног процеса. И људи су рекли да знате, такав концепт је попут фабрике модела, или како год желите да га назовете. Ствар је у томе што стављамо метаподате и управљање у поступак и ту су три велике ствари које погодимо - помажемо људима да зарађују новац, штедимо новац и чувамо их из затвора.

Ериц: И ова последња је прилично велика. Желим да избегнем све то. Дакле, хајде да разговарамо о ...Дајем једно завршно питање, можда свако од вас може скочити на ово. Хетерогеност нашег света ће се само повећавати, чини ми се. Мислим да ћемо дефинитивно видети неку кристализацију око хибридног облачног окружења. Али без обзира на то, видећете да велики број главних играча игра наоколо. ИБМ не иде никуда. Орацле не иде никуда. САП не иде никуда. А постоји толико много других произвођача који су укључени у ову игру.

Такође, са оперативне стране, где имате буквално хиљаде и хиљаде различитих врста апликација. И чуо сам - већина вас разговара о томе, али мислим да бисте се обоје сложили са оним што говорим. Овај тренд смо приметили сада у смислу рачунарске снаге у аналитичким моторима, архитектури. Компаније већ годинама разговарају о томе да ли могу да се укључе у остале моторе и да сервисирају неку врсту оркестрације. И претпостављам, Георге, прво ћу ти то пренети. Чини ми се да се нешто неће променити. Имаћемо ово хетерогено окружење, што значи да постоје ствари попут ЦРМ-а у реалном времену и квалитета података и управљања подацима. Као добављач мораћете да се повежете са свим тим различитим алатима. А то ће клијенти желети. Неће желети нешто што са тим алатима буде у реду, а није тако у реду с тим алатима. Они ће желети у Швајцарској МДМ и ЦРМ, зар не?

Георге: То је тачно. И занимљиво је јер смо то веома прихватили. Део тога је историја коју смо имали у свемиру. И очигледно смо већ радили на свим осталим базама података, Терадатама и деловима света. А затим, у процесу имплементације, тачно онако како смо и ми направили, имате тај распон у свим тим различитим базама података. Једна од ствари која ми се чини занимљивом је та што имамо неке клијенте који су управо паклено уклоњени у уклањању свих релацијских база података. И то је занимљиво Знате, мислим, то је у реду. То је занимљиво. Али не видим да се то заиста дешава у великим размерама предузећа. Не видим да се то дуго догађа. Дакле, мислим да је хибрид овде већ дуже време и на другој страни наше апликације где у нашој платформи за управљање кампањама имамо своју платформу за размену порука. Ми смо то уствари посебно дизајнирали. Сада смо објавили верзију која то чини и која се сада може повезати у хибридно окружење података и упитати Хадооп, или упитати било коју базу података, било коју аналитичку базу података. Дакле, мислим да је то само талас будућности. И слажем се да ће виртуализација сигурно имати велику улогу у томе, али ми смо само - управо идемо на податке о свим нашим апликацијама.

Ериц: Добро, супер. И, Кеитх, пребацићу ти то. Шта мислиш о хетерогеном свету са којим се суочавамо у својству стопала?

Кеитх: Да, заиста је фасцинантно. Мислим да оно што налазимо више - не само на страни управљања подацима - већ оно што је заиста фасцинантно тренутно је природа аналитичке базе отвореног кода. Дакле, видимо организације попут технологија или технологије попут Спарка који долазе на брод и људе који користе Питхон и Р и све ове друге технологије отвореног кода. Мислим да би то могло да се протумачи као нека врста сукоба или претње у одређеној мери. Али у стварности је да имамо заиста предивне похвале за све те опен-соурце технологије. Мислим, за једну ствар, ми радимо на платформама отвореног кода, за Бога милога.

Али такође, попут могућности да интегришете, на пример, Р модел у САС парадигму омогућава вам коришћење најбољег из оба света, зар не? Дакле, тако да знамо да су неке експерименталне ствари у академском свету и неке радње на развоју модела изванредне и супер помажу у процесу развоја модела. Такође, ако то можете упарити с алатом производне класе, он чини пуно чишћења и квалитета и провере и уверења да су подаци уступљени моделу правилно припремљени тако да не успевају о извршењу. А онда, могућност да радите ствари попут шампионских изазивачких модела са моделима отвореног кода. То су ствари које ми гледамо да омогуће и као део овог заиста хетерогеног екосистема свих ових технологија. Да, тако је и више - за нас је више за прихватање тих технологија и тражење комплимента.

Ериц: Па, ово су фантастичне ствари, људи. Отишли смо мало овде, али желимо да дођемо до што више питања. Данас ћемо проследити нашу датотеку питањима и одговорима. Дакле, ако на било које питање које сте поставили није одговорено, постараћемо се да добије одговор. И људи, ово закључује за 2014. годину. Заиста у ДМ радију сутра и наредне недеље, а онда је све завршено и празнична је пауза.

Пуно хвала свима вама на вашем времену и пажњи, на стајању кроз све ове дивне веб емисије. Имамо сјајну годину за 2015. годину. И ускоро ћемо разговарати с вама, народе. Хвала још једном. Ми ћемо се побринути. Ћао.