Ојачавање учења вс. Учење дубоког ојачања: у чему је разлика?

Садржај

Шта је појачано учење?
Без грешака, без стреса - Ваш корак по корак водич за креирање софтвера за промену живота без да вам уништи живот
Шта је дубоко ојачавање?

Одузети:

Отишли смо до експерата и замолили их да одговоре важне разлике између учења ојачања и дубоког учења ојачања

Алгоритми машинског учења могу олакшати живот и рад, ослобађајући нас од сувишних задатака, радећи брже - и паметније - од целих тимова људи. Међутим, постоје различите врсте машинског учења. На пример, постоји учење ојачања и учење о дубоком појачању.

"Иако су учење ојачања и дубоко учвршћивање обе технике машинског учења које се аутономно уче, постоје неке разлике", каже др Кихо Лим, доцент за рачунарске науке са Универзитета Виллиам Патерсон у Ваинеу, Нев Јерсеи. „Ојачавање учења динамички се учи методом покушаја и грешака како би се максимизирао исход, док се дубоко учвршћено учење учи из постојећих знања и примењује га на нови скуп података.“

Али шта, тачно, то значи? Отишли смо до стручњака - и замолили их да наведу обиље примера!

Шта је појачано учење?

Како Лим каже, појачано учење је пракса учења покушајем и грешкама - и вежба. „У овој дисциплини модел се учи на размештању тако што ће се поступно награђивати за тачно предвиђање и кажњавати због погрешних предвиђања“, каже Хунаид Хамеед, приправник научника за податке из Дата Сциенце Дојо-а у Редмонд-у, ВА. (Прочитајте учење ојачања може пружити лијеп динамички окрет маркетингу.)

"Ојачавање учења обично се види у АИ игрању игара и побољшању у игрању с временом."

Три основне компоненте у учењу појачања су агент, акција и награда. „Ојачавање учења се придржава одређене методологије и одређује најбоље начине за постизање најбољег резултата“, каже др Анкур Тали, шеф науке о подацима у Фиддлер Лабс у Моунтаин Виеву, ЦА. „Веома је слична структури како играмо видео игру, у којој лик (агент) учествује у низу суђења (радњи) да би добио највећи резултат (награду).“

Међутим, то је аутономни систем самоучења. Користећи примјер видео игре, Тали каже да позитивне награде могу доћи услијед повећања бодова или бодова, а негативне награде могу бити резултат трчања у препреке или неповољних потеза.

Цхрис Ницхолсон, генерални директор Сан Франциска, са седиштем у Калифорнији, Скиминд гради на примеру како алгоритми уче на покушају и грешци. “Замислите да први пут играте браћу Супер Марио и покушавате да сазнате како да победите: истражујете простор, паткаш, скачеш, удараш новчићем, слетиш на корњачу и онда видиш шта се дешава. "

Без грешака, без стреса - Ваш корак по корак водич за креирање софтвера за промену живота без да вам уништи живот

Не можете побољшати своје програмирање кад никога није брига за квалитет софтвера.

Учењем добрих и лоших акција, игра вас учи како се понашати. „Ојачавање учења то чини у било којој ситуацији: видео игре, друштвене игре, симулације случајева коришћења у стварном свету.“ У ствари, Ницхолсон каже да његова организација користи учење ојачања и симулације како би помогла компанијама да пронађу најбољи пут доношења одлука кроз сложену ситуацију.

У учењу појачања агент доноси неколико мањих одлука како би постигао већи циљ. Још један пример је подучавање робота да хода. „Уместо тврдо кодирајућих упутстава за подизање једне ноге, савијање колена, спуштање и тако даље, приступ учењу ојачања могао би да експериментише робота са различитим редоследима покрета и открије које су комбинације најуспешније у прављењу идите напред “, каже Степхен Баилеи, научник за податке и стручњак за аналитичке алате из Иммута у МД Парк Цоллеге.

Поред видео игара и роботике, постоје и други примери који вам могу објаснити како функционише учење ојачања. Брандон Хаиние, главни научник за податке у улици Бабел у Вашингтону, ДЦ, упоређује је са људским учењем вожње бициклом. "Ако стојите и подижете ноге без педалирања, пад - или казна - неминован је."

Међутим, ако почнете да педалирате, онда ћете остати на бициклу - награда - и прећи на следеће стање.

„Учење ојачања има апликације које обухватају више сектора, укључујући финансијске одлуке, хемију, производњу и наравно роботику“, каже Хаиние.

Шта је дубоко ојачавање?

Међутим, могуће је да одлуке постану превише сложене за појачани приступ учењу. Хаиние каже да може бити неодољиво за алгоритам учења из свих стања и одређивања пута награђивања. „Овде може да помогне учење дубоког појачања:„ дубоки “део односи се на примену неуронске мреже за процену стања уместо да се пресликава свако решење, стварајући простор за управљање рјешивим процесом у процесу одлучивања.“

То није нови концепт. Хаиние каже да постоји од 1970-их. „Али с појавом јефтиног и моћног рачунања, додатне предности неуронских мрежа сада могу помоћи у рјешавању подручја за смањење сложености рјешења“, објашњава он. (Прочитајте Која је разлика између вештачке интелигенције и неуронских мрежа?)

Па, како ово функционира? Према Петеру МацКензиеу, вођи АИ тима, Америка на Терадата, то је превише података за складиштење у табеле, а табеларне методе би захтевале од агента да посети све комбинације државе и акције.

Међутим, учење дубоког појачања замјењује табеларне методе процјене вриједности стања с апроксимацијом функције. "Приближавање функције не само да елиминира потребу за складиштењем свих парова стања и вриједности у таблицу, већ омогућава агенту да генерализира вриједност стања које никада раније није видио, или има дјеломичне информације о томе, користећи вриједности сличних стања." Каже МацКензие.

„Доста је узбудљивог напретка у учењу са дубоким ојачањима дошло због снажне способности неуронских мрежа да генерализирају кроз огромне државне просторе.“ А МацКензие напомиње да се учење дубоког појачања користи у програмима који су победили неке од најбољих људских конкурената у таквим играма као што су Шах и Го, и такође су одговорни за много напретка у роботици. (Прочитајте 7 жена лидера у АИ, машинском учењу и роботизирању.)

Бејли се слаже и додаје: „Раније ове године, АИ агент по имену АлпхаСтар победио је најбољег светског играча СтарЦрафт ИИ - и то је посебно интересантно јер за разлику од игара попут Цхесс анд Го, играчи у СтарЦрафт-у не знају шта њихов противник ради.“ Уместо тога, каже да су морали да направе почетну стратегију, а затим да се прилагоде док су открили шта противник планира.

Али како је то уопште могуће? Ако модел има неуронску мрежу више од пет слојева, Хамеед каже да има могућност прилагођавања подацима високих димензија. „Захваљујући томе, модел може да научи да самостално идентификује обрасце без људског инжењера и изабере променљиве које би требало да се додају у модел како би се научио“, објашњава он.

У отвореним сценаријима заиста можете видети лепоту учења дубоког појачања. Тали користи пример резервисања стола у ресторану или наручивања предмета - ситуације у којима агент мора да одговори на било који унос са другог краја.

"Дубоко учење ојачања може се користити за обучавање конверзационог агента директно са или аудио сигнала са другог краја", каже он. „Током коришћења аудио сигнала, агент такође може научити да хвата суптилне знакове звука као што су паузе, интонација и тако даље - ово је снага учења дубоког појачања.“

И нове апликације учења дубоког појачања и даље се појављују. У одређивању следеће најбоље акције за ангажовање са клијентом, МацКензие каже да „стање и акције могу укључивати све комбинације производа, понуда и порука на свим различитим каналима, при чему је сваки персонализован - формулације, слике, боје, фонтове“.

Други пример је оптимизација ланца снабдевања, на пример, испорука кварљивих производа широм САД-а „Могуће државе укључују тренутну локацију свих различитих врста превоза, залихе у свим фабрикама, складиштима и малопродајним местима, као и прогнозу потражње за све. продавнице ", каже МацКензие.

„Употреба дубинског учења за представљање стања и простора акције омогућава агенту доношење бољих логистичких одлука које резултирају правовременом испоруком уз ниже трошкове.“