Може ли икада бити превише података у великим подацима?

Видео: iOS App Development with Swift by Dan Armendariz

Садржај

П:

А:

Одговор на питање је гласан ДА. Апсолутно може бити превише података у великом пројекту података.

Постоје бројни начини на које се то може догодити и разни разлози због којих професионалци морају да ограниче и обраде податке на било који број начина да би постигли праве резултате. (Прочитајте 10 великих митова о великим подацима.)

Генерално, стручњаци говоре о разликовању „сигнала“ од „буке“ у моделу. Другим речима, у мору великих података, релевантни подаци о увиду постају тешки за циљати. У неким случајевима тражите иглу у сену.

На пример, претпоставимо да компанија покушава да користи велике податке за генерисање одређених увида у сегмент клијентске базе и њихове куповине у одређеном временском оквиру. (Прочитајте шта раде велики подаци?)

Узимање огромне количине података може довести до уноса случајних података који нису релевантни, или пак може произвести пристраност која податке скенира у једном или другом правцу.

Такође драматично успорава процес, јер рачунарски системи морају да се боре са све већим и већим сетовима података.

У толико различитих пројеката, за инжењере података изузетно је важно да обраде податке у ограничене и специфичне скупове података - у горњем случају то би били само подаци за тај сегмент клијената који се проучавају, само подаци за то време оквир који се проучава и приступ који отклања додатне идентификаторе или позадинске информације које могу збунити ствари или успорити системе. (Улога РеадЈоб: Инжењер података.)

За више, погледајмо како то функционише на граници машинског учења. (Прочитајте машинско учење 101.)

Стручњаци за машинско учење говоре о нечему што се назива "оверфиттинг" где прекомерно сложен модел доводи до мање ефикасних резултата када је програм машинског учења лабав на новим производним подацима.

Прекомерно уклапање се дешава када сложени скуп точака података превише добро одговара почетном сету обуке и не дозвољавате програму да се лако прилагоди новим подацима.

Технички гледано, прекомерно опремање је узроковано не постојањем превише узорака података, већ коронацијом превише тачака података. Али можете тврдити да и превише података може бити фактор који доприноси овој врсти проблема. Суочавање са проклетством димензионалности укључује неке исте технике које су рађене у ранијим пројектима великих података као што су професионалци покушали да прецизирају чиме се хране ИТ системи.

Суштина је да велики подаци могу бити од велике помоћи компанијама или могу постати велики изазов. Један аспект тога је да ли компанија има праве податке у игри. Стручњаци знају да није препоручљиво једноставно бацити сва средства података у спремник и на тај начин смислити увиде - у новим изворним и софистицираним системима података у облаку, постоји напор за контролу и управљање и обрада података како би се добили тачнији и ефикасна употреба средстава података.