Колико су структурирани ваши подаци? Испитивање структурираних, неструктурираних и полуструктурираних података

Садржај

Шта су структурирани подаци?
Шта су неструктурирани подаци?
Без грешака, без стреса - Ваш корак по корак водич за креирање софтвера за промену живота без да вам уништи живот
Упадање између: полуструктурирани подаци
Могу ли се неструктурирани подаци трансформисати у структуриране податке?

Извор: монситј / иСтоцкпхото

Одузети:

Сазнајте о структурираним, неструктурираним и полуструктурираним подацима.

Историјски подаци, аналитичари података били су у стању да дешифрују и извлаче информације из само једне врсте података: структурираних података. Ова врста података је била лако претражива због јасних образаца, али представљала је мали проценат укупних доступних података.

Неструктурирани подаци укључују видео, аудио, с и податке који долазе са друштвених медија и мобилних уређаја. Била је то, највеће руке, највећа доступна сирова информација, али нико није могао поуздано да искористи тај ресурс.

Ствари су се, међутим, промениле, јер је повећана доступност складишта и супериорне могућности за обраду родила неструктурирану аналитику података - нови, а самим тим и незрео облик технологије. Боља пословна интелигенција у потпуности користи ову прилику, а улажу се знатна улагања у обједињавање структуриране и неструктуриране аналитике података како би се приступио овом наоко бескрајном златном руднику информација.

Погледајмо ова два формата података да бисмо разумели њихове разлике и шта будућност има за све аналитичаре података.

Шта су структурирани подаци?

Структурирани подаци су људи или машински генерисане и високо организоване информације које се лако могу похранити у структуре база података познате као релацијске базе података (РДБ). То је све што постоји у формату који се може лако ухватити, похранити и организовати у РДБ структури да би се касније анализирао. (Да бисте сазнали више о базама података, погледајте наш Увод у базе података.)

Примери укључују поштанске бројеве, телефонске бројеве и демографске податке корисника, као што су старост или пол. Подаци пронађени у овим базама података могу се упитати структуираним језиком упита (СКЛ) или ВЛООКУП функцијама унутар Екцел прорачунских таблица. Алгоритми се такође могу направити за брзо претраживање података који се налазе у различитим пољима користећи њихове индексе или њихове нумеричке и абецедне податке. Међутим, сви подаци су строго дефинисани с обзиром на врсту и назив поља, па је могућност складиштења, упита и анализе у одређеној мери ограничена.

Типичне апликације које користе структуриране податке укључују софтвер за управљање болницом, апликације за управљање односима са клијентима (ЦРМ) и резервацију авио-компанија. Због своје уредне организације и једноставне доступности, структурирани подаци су корисни и ефикасни у раду са великим количинама информација. Када се буши црно уље скривено у непрегледној количини података које свакодневно производи човечанство, потрага за структуираним подацима није ништа друго него гребање површине.

Шта су неструктурирани подаци?

Велика већина података која се налазе у организацији је неструктурирана, а неке процјењују да је то до 80 посто тренутно доступних података. По дефиницији, неструктурирани подаци су све што нема унутрашњу структуру коју је могуће идентификовати. Међутим, неке врсте података спадају у ову категорију заиста неки облик нејасне унутрашње структуре, а ипак се не уклапа у базу података или прорачунску табелу.

Без грешака, без стреса - Ваш корак по корак водич за креирање софтвера за промену живота без да вам уништи живот

Не можете побољшати своје вештине програмирања када никога није брига за квалитет софтвера.

Већина пословних података је неструктурирана, у распону од интеракције с корисницима, датотека, веб дневника, видео записа и другог мултимедијског садржаја, аутоматизације продаје, постова и друштвених медија. Нема потребе да се објашњава колико ови подаци могу бити вредни када би се могли минирати, организовати и анализирати.

Већину неструктурираних података генерирају људи и тако их разумију други људи. То значи да уреднија компјутерска интелигенција не разуме ову врсту информација јер је превише удаљена од линеарности машинског језика и структурираних база података.

Упадање између: полуструктурирани подаци

Полструктурирани подаци су трећа врста података која представља много мањи део целог пита (5-10 процената). Буквално ухваћени између оба света, полуструктурирани подаци садрже унутрашње семантичке ознаке и ознаке које идентификују засебне елементе, али им недостаје структура потребна за уклапање у релацијску базу података.

На примјер, с могу изгледати као структурирани подаци јер би их могли категоризирати по датуму, величини датотеке или времену. Међутим, нису, будући да су највредније информације пронађене унутар њих, а не релативно једноставне ознаке. Не могу бити истински распоређени по садржају и теми, јер људи не говоре у тако строгим обрасцима да би их машина могла недвосмислено разумети. Остали примери полуструктурираних података укључују НоСКЛ базе података, отворени стандард ЈСОН и означни језик КСМЛ.

Полструктурирани подаци се обично претражују и каталогизирају за анализу коришћењем метаподатака. На пример, рентгенски снимак се састоји од огромног броја пиксела који формирају слику - који су својствено неструктурирани подаци којима се не може приступити. Међутим, датотека за скенирање ће и даље садржавати део метаподатака који пружа информације о њима, као што су белешке и кориснички ИД.

Могу ли се неструктурирани подаци трансформисати у структуриране податке?

Основни изазов са којим се мора суочити сваки аналитичар података је организовање доступних информација на уредан, уредан начин тако да се њима може приступити и разумјети. Алати за ископавање података обично нису опремљени за рашчлањивање информација које су, по дефиницији, превише сродне људском језику, што значи да их може прикупљати и категорисати само други човек.

Међутим, сама количина неструктурираних података чини било какав покушај њиховог складиштења или организовања изузетно напорним и скупим. Количина информација које долази из, рецимо, веб претраживача толико је огромна да већина елемената захтева огромна улагања у погледу рада и ресурса само да би се извукли најосновнији. Чак и најефикасније технике вађења података и даље недостају знатну количину информација које се налазе на вебу и, што је још горе, унутар дубоког веба.

Али технике постоје. И развијају се задивљујућом брзином. На пример, метаподаци би се могли користити за повезивање структурираних и неструктурираних података заједно. Подаци прикупљени могу се филтрирати и индексирати и од стране корисника и алгоритама, као и само ради анализе релевантних података. Остала решења укључују "обраду података", што је процес кроз који сложени подаци прогресивно, корак по корак, организују нетехнички корисници. (За више информација о обичним корисницима који рукују подацима погледајте чланак Како велики подаци могу помоћи у самопослуживању аналитике.)

У неком тренутку моћи ћемо да ефикасно трансформишемо ове масовно неорганизоване количине информација у организованији и реструктуриранији формат. Можда не данас, можда не сутра, али ускоро ћемо моћи да нападнемо највећи трезор који је човечанство икада видело: велики подаци.