Kontrolované strojové učenie: Čo je to, Algoritmy, Príklad

Obsah:

Anonim

Čo je to supervidované strojové učenie?

Pri supervidovanom učení trénujete stroj pomocou údajov, ktoré sú dobre „označené “. Znamená to, že niektoré údaje sú už označené správnou odpoveďou. Dá sa to prirovnať k učeniu, ktoré prebieha za prítomnosti školiteľa alebo učiteľa.

Algoritmus učeného pod dohľadom sa učí z označených údajov o tréningu, pomáha vám predpovedať výsledky pre nepredvídané údaje.

Úspešné zostavenie, zmena mierky a nasadenie presných modelov strojového učenia pod dohľadom si vyžaduje čas a technické znalosti od tímu vysoko kvalifikovaných vedcov v oblasti údajov. Vedec zaoberajúci sa údajmi musí navyše vytvoriť nové modely, aby sa ubezpečil, že poskytnuté poznatky zostávajú pravdivé, kým sa údaje nezmenia.

V tomto návode sa dozviete:

  • Čo je to supervidované strojové učenie?
  • Ako supervidované učenie funguje
  • Typy algoritmov strojového učenia pod dohľadom
  • Techniky strojového učenia pod dohľadom a bez dozoru
  • Výzvy v supervízovanom strojovom učení
  • Výhody učenia sa pod dohľadom:
  • Nevýhody kontrolovaného učenia
  • Najlepšie postupy pre učenie sa pod dohľadom

Ako supervidované učenie funguje

Napríklad chcete trénovať stroj, ktorý vám pomôže predpovedať, ako dlho vám bude trvať cesta z vášho pracoviska domov. Tu začnete vytvorením množiny označených údajov. Tieto údaje zahŕňajú

  • Poveternostné podmienky
  • Denný čas
  • Prázdniny

Všetky tieto podrobnosti sú vašimi vstupmi. Výstupom je čas, ktorý trval cesta späť domov v konkrétny deň.

Inštinktívne viete, že ak vonku prší, potom vám cesta domov bude trvať dlhšie. Ale stroj potrebuje dáta a štatistiku.

Pozrime sa teraz, ako môžete v tomto príklade vytvoriť supervizovaný model učenia, ktorý pomôže používateľovi určiť čas dochádzania. Prvá vec, ktorú musíte vytvoriť, je tréningová sada. Táto tréningová sada bude obsahovať celkový čas dochádzania a zodpovedajúce faktory, ako je počasie, čas atď. Na základe tejto tréningovej sady môže váš stroj vidieť, že existuje priamy vzťah medzi množstvom dažďa a časom, ktorý budete potrebovať na cestu domov.

Takže zistí, že čím viac bude pršať, tým dlhšie budete jazdiť autom, aby ste sa dostali späť do svojho domova. Môže tiež vidieť súvislosť medzi časom, keď odídete z práce, a časom, keď budete na ceste.

Čím bližšie ste do 18. hodiny, tým dlhšie trvá, kým sa dostanete domov. Vaše zariadenie môže nájsť niektoré vzťahy s vašimi označenými údajmi.

Toto je začiatok vášho dátového modelu. Začína to mať vplyv na to, ako dážď ovplyvňuje spôsob, akým ľudia jazdia. Začína sa tiež vidieť, že viac ľudí cestuje v konkrétnu dennú dobu.

Typy algoritmov strojového učenia pod dohľadom

Regresia:

Regresná technika predpovedá jednu výstupnú hodnotu pomocou tréningových údajov.

Príklad : Pomocou regresie môžete predpovedať cenu domu z údajov o školení. Vstupnými premennými budú lokalita, veľkosť domu atď.

Silné stránky : Výstupy majú vždy pravdepodobnostnú interpretáciu a algoritmus je možné legalizovať, aby nedošlo k preťaženiu.

Slabé stránky : Logistická regresia môže mať slabšiu výkonnosť, ak existuje viac alebo nelineárne hranica rozhodovania. Táto metóda nie je flexibilná, takže nezachytáva zložitejšie vzťahy.

Logistická regresia:

Metóda logistickej regresie použitá na odhad diskrétnych hodnôt na základe danej sady nezávislých premenných. Pomáha vám predpovedať pravdepodobnosť výskytu udalosti prispôsobením údajov funkcii logit. Preto je známa aj ako logistická regresia. Pretože predpovedá pravdepodobnosť, jeho výstupná hodnota je medzi 0 a 1.

Tu je niekoľko typov regresných algoritmov

Klasifikácia:

Klasifikácia znamená zoskupenie výstupu vo vnútri triedy. Ak sa algoritmus pokúša označiť vstup do dvoch odlišných tried, nazýva sa to binárna klasifikácia. Výber medzi viac ako dvoma triedami sa označuje ako klasifikácia viacerých tried.

Príklad : Určenie, či niekto bude alebo nebude neplatičom pôžičky.

Silné stránky : Klasifikačný strom funguje v praxi veľmi dobre

Slabé stránky : Neobmedzené jednotlivé stromy sú náchylné na nadmerné vybavenie.

Tu je niekoľko typov klasifikačných algoritmov

Naivní Bayesovi klasifikátori

Naivný Bayesiánsky model (NBN) je ľahko zostaviteľný a je veľmi užitočný pre veľké súbory údajov. Táto metóda sa skladá z priamych acyklických grafov s jedným rodičom a niekoľkými deťmi. Predpokladá nezávislosť medzi detskými uzlami oddelenými od svojich rodičov.

Rozhodovacie stromy

Stromy rozhodnutí klasifikujú inštanciu ich triedením na základe hodnoty funkcie. V tejto metóde je každý režim znakom inštancie. Malo by sa to klasifikovať a každá vetva predstavuje hodnotu, ktorú môže uzol predpokladať. Je to často používaná technika klasifikácie. V tejto metóde je klasifikácia strom, ktorý je známy ako rozhodovací strom.

Pomôže vám odhadnúť skutočné hodnoty (náklady na kúpu automobilu, počet hovorov, celkový mesačný predaj atď.).

Podporujte vektorový stroj

Support vector machine (SVM) je typ výučbového algoritmu vyvinutého v roku 1990. Táto metóda je založená na výsledkoch teórie štatistického učenia zavedených Vap Nikom.

Stroje SVM sú tiež úzko spojené s funkciami jadra, čo je ústredný koncept väčšiny učebných úloh. Rámec jadra a SVM sa používajú v rôznych oblastiach. Zahŕňa vyhľadávanie multimediálnych informácií, bioinformatiku a rozpoznávanie vzorov.

Techniky strojového učenia pod dohľadom a bez dozoru

Založené na Technika strojového učenia pod dohľadom Technika strojového učenia bez dozoru
Vstupné Data Algoritmy sú trénované pomocou označených údajov. Algoritmy sa používajú proti údajom, ktoré nie sú označené
Výpočtová zložitosť Učenie pod vedením je jednoduchšia metóda. Výučba bez učiteľa je výpočtovo zložitá
Presnosť Vysoko presná a dôveryhodná metóda. Menej presná a dôveryhodná metóda.

Výzvy v supervízovanom strojovom učení

Tu sú problémy, ktorým čelí supervidované strojové učenie:

  • Irelevantná vstupná funkcia, súčasné údaje o tréningu, by mohli poskytnúť nepresné výsledky
  • Príprava a predbežné spracovanie údajov je vždy výzvou.
  • Presnosť trpí, ak je nepravdepodobné, že sú nepravdepodobné, a ako údaje o tréningu boli zadané neúplné hodnoty
  • Ak príslušný odborník nie je k dispozícii, potom je ďalším prístupom „hrubá sila“. To znamená, že si musíte myslieť, že správne vlastnosti (vstupné premenné), aby ste stroj mohli trénovať. Môže to byť nepresné.

Výhody učenia sa pod dohľadom:

  • Učenie pod dohľadom vám umožňuje zhromažďovať údaje alebo vytvárať výstupné údaje z predchádzajúcich skúseností
  • Pomáha vám optimalizovať výkonnostné kritériá na základe skúseností
  • Kontrolované strojové učenie vám pomôže vyriešiť rôzne typy problémov s výpočtom v reálnom svete.

Nevýhody kontrolovaného učenia

  • Hranica rozhodnutia môže byť pretrénovaná, ak vaša tréningová sada neobsahuje príklady, ktoré chcete mať v triede
  • Počas výcviku klasifikátora musíte z každej triedy vybrať veľa dobrých príkladov.
  • Klasifikácia veľkých dát môže byť skutočnou výzvou.
  • Výcvik na učenie pod dohľadom si vyžaduje veľa času na výpočet.

Najlepšie postupy pre učenie sa pod dohľadom

  • Predtým, ako urobíte čokoľvek iné, musíte sa rozhodnúť, aký druh údajov sa má použiť ako školiaca sada
  • Musíte sa rozhodnúť pre štruktúru naučenej funkcie a algoritmus učenia.
  • Gathere zodpovedajúce výstupy buď od ľudských odborníkov, alebo z meraní

Zhrnutie

  • Pri supervidovanom učení trénujete stroj pomocou údajov, ktoré sú dobre „označené“.
  • Chcete trénovať stroj, ktorý vám pomôže predpovedať, ako dlho vám bude trvať, kým z vášho pracoviska odídete autom, je príkladom učenia pod dohľadom
  • Regresia a klasifikácia sú dva typy techník strojového učenia pod dohľadom.
  • Učenie pod dohľadom je jednoduchšia metóda, zatiaľ čo Učenie pod dohľadom je zložitá metóda.
  • Najväčšou výzvou v učení pod dohľadom je, že irelevantné vstupné vlastnosti, ktoré sú k dispozícii pri súčasných údajoch o tréningu, môžu poskytnúť nepresné výsledky.
  • Hlavnou výhodou výučby pod dohľadom je, že vám umožňuje zhromažďovať údaje alebo vytvárať výstupné údaje z predchádzajúcich skúseností.
  • Nevýhodou tohto modelu je, že hranica rozhodovania môže byť preťažená, ak vaša tréningová sada neobsahuje príklady, ktoré chcete mať v triede.
  • Ako osvedčený postup supervidovania sa musíte najskôr rozhodnúť, aký druh údajov by sa mal použiť ako školiaca sada.