Како је стругање података за машинско учење постало најинтезивније уско грло од ручног уноса података у наслијеђену миграцију?

Садржај

П:

А:

Један од практичних проблема са којима се компаније могу сусрести приликом покушаја покретања пројекта машинског учења (МЛ) јесте изазов добијања иницијалних скупова података о обуци. То може укључивати радно интензивне процесе као што је брисање веба или друге податке.

Изрази веб сцрапинг и сцрапинг дата углавном се односе на аутоматизоване активности рачунарским софтвером, али за многе пројекте МЛ ће бити случајева да рачунари немају софистицираност за прикупљање исправних циљаних података, па ће то морати да уради „ рука. " Ово бисте могли назвати „брисање људског веба / података“ и то је незахвални посао. То обично укључује излазак и тражење података или слика којима би се „нахранио“ програм МЛ кроз тренинг сетове. Често је прилично итеративан, што га чини напорним, тромим и захтевним радом.

Стварање података за сетове обуке за МЛ представља јединствено проблематично уско грло у машинском учењу, дијелом и због тога што је толико много другог рада врло концептуално и не понављано. Многи људи могу смислити нову идеју за нову апликацију која обавља задатке машинског учења, али матице и вијци и практични рад могу бити много тежи. Конкретно, делегирање рада на састављању тренинг-сетова може у ствари бити један од најтежих делова МЛ-пројекта, што је у потпуности истражено у ТВ емисији „Силицијска долина“ Мајка Судија. У четвртој сезони епизоде, почетник предузетник прво малтретира партнера у обављању напорних послова, а затим покушава да га преда студентима, прерушавајући га у домаћи задатак.

Овај пример је поучан јер показује колико не волим и наизглед безначајно ручно стругање података. Међутим, такође показује да је овај процес неопходан за широк спектар производа машинског учења. Иако већина људи мрзи унос података, скупови за обуку морају бити састављени на одређени начин. Стручњаци за тај поступак често препоручују коришћење услуге скенирања на мрежи - у суштини само преношење овог веома напорног рада на спољне стране, али то би могло имати сигурносне последице и проузроковати друге проблеме. Када поново радите на прикупљању података о ручном прикупљању података, мора се створити одредба за често ручни и дуготрајан процес.

На неки начин, „стругање људских података“ за машинско учење изгледа као ручни унос података који се понекад морао учинити у заостављеним миграцијама. Како је облак постајао све популарнији, а компаније стављају своје процесе и токове рада у облак, неке су откриле да нису радиле кроз практичне аспекте како да своје корпоративне податке из изолованог наслеђеног система пребаце у апликације које су засноване на облаку. Као резултат, неки људи који су иначе били научници података или креативни људи с основним ИТ вештинама нашли су се да раде неугодне задатке за унос података.

Исто се вероватно дешава и са машинским учењем. Можда ћете чути научника који се жали да сам „креативна особа“ или „ја сам на страни развоја“ - али неко мора да уради прљави посао.

Опет, ако се креативни ток не подудара са практичном проценом делегирања радног тока, то ће бити несклад у начину на који је решавање задатака усмерено. Када компанија нема људе да раде на брисању података у прикупљању скупова података, недостаје кључни део ланца поступка за успешан пројекат. Вриједно је то имати на уму сваки пут када компанија покуша да се искористи на идеји која се заснива на развоју нових апликација за машинско учење.