Učenie bez dozoru
Unsupervised Learning je technika strojového učenia, pri ktorej používatelia nemusia dohliadať na model. Namiesto toho umožňuje modelu samostatne pracovať na objavovaní vzorov a informácií, ktoré predtým neboli zistené. Zaoberá sa hlavne neoznačenými údajmi.
Algoritmy učenia bez dozoru
Algoritmy učenia bez dozoru umožňujú používateľom vykonávať zložitejšie úlohy spracovania v porovnaní s učením pod dohľadom. Aj keď učenie bez učiteľa môže byť v porovnaní s inými prírodnými metódami učenia nepredvídateľnejšie. Medzi algoritmy učenia bez dozoru patria zhlukovanie, detekcia anomálií, neurónové siete atď.
V tomto návode sa dozviete:
- Príklad strojového učenia bez dozoru
- Prečo učenie bez dozoru?
- Typy učenia bez dozoru
- Zhlukovanie
- Typy zoskupovania
- Združenie
- Strojové učenie pod dohľadom a bez dozoru
- Aplikácie strojového učenia bez dozoru
- Nevýhody nekontrolovaného učenia
Príklad strojového učenia bez dozoru
Zoberme si prípad dieťaťa a jeho rodinného psa.
Pozná a identifikuje tohto psa. O niekoľko týždňov neskôr rodinný priateľ vezme psa a snaží sa hrať s dieťaťom.
Dieťa tohto psa skôr nevidelo. Ale uvedomuje si, že mnoho funkcií (2 uši, oči, chôdza po 4 nohách) je ako jej domáci miláčik. Nové zviera identifikuje ako psa. Toto je učenie bez dozoru, kde sa neučíte, ale učíte sa z údajov (v tomto prípade údajov o psovi). Keby to bolo učenie pod dohľadom, rodinný priateľ by dieťaťu povedal, že je to pes.
Prečo učenie bez dozoru?
Tu sú hlavné dôvody využívania učenia bez dozoru:
- Nervové strojové učenie nájde v dátach všetky druhy neznámych vzorov.
- Metódy bez dozoru vám pomôžu nájsť funkcie, ktoré môžu byť užitočné pri kategorizácii.
- Prebieha v reálnom čase, takže všetky vstupné údaje musia byť analyzované a označené za prítomnosti študentov.
- Je jednoduchšie získať neoznačené údaje z počítača ako označené údaje, ktoré si vyžadujú manuálny zásah.
Typy učenia bez dozoru
Problémy s učením bez dozoru sa ďalej zoskupovali do problémov s klastrovaním a združovaním.
Zhlukovanie
Zhlukovanie je dôležitý pojem, pokiaľ ide o učenie bez dozoru. Zaoberá sa hlavne hľadaním štruktúry alebo vzoru v zbierke nekategorizovaných údajov. Klastrové algoritmy spracujú vaše údaje a vyhľadajú prirodzené klastre (skupiny), ak v údajoch existujú. Môžete tiež upraviť, koľko klastrov by mali vaše algoritmy identifikovať. Umožňuje vám upraviť podrobnosti týchto skupín.
Môžete použiť rôzne typy klastrovania:
Exkluzívne (rozdelenie)
V tejto metóde vytvárania klastrov sú údaje zoskupené tak, že jeden údaj môže patriť iba do jedného klastra.
Príklad: K-prostriedky
Aglomeratívne
V tejto technike vytvárania klastrov sú všetky údaje klastrom. Iteratívne spojenia medzi dvoma najbližšími klastrami znižujú počet klastrov.
Príklad: Hierarchické zoskupovanie
Prekrývanie
V tejto technike sa na zhromažďovanie údajov používajú fuzzy množiny. Každý bod môže patriť do dvoch alebo viacerých zoskupení so samostatnými stupňami členstva.
Tu budú údaje spojené s príslušnou hodnotou členstva. Príklad: Fuzzy C-prostriedky
Pravdepodobnostne
Táto technika používa na vytvorenie klastrov rozdelenie pravdepodobnosti
Príklad: Nasledujúce kľúčové slová
- „mužská topánka.“
- „dámska topánka.“
- „dámska rukavica.“
- „mužská rukavica.“
možno rozdeliť do dvoch kategórií „topánky“ a „rukavice“ alebo „muž“ a „ženy“.
Typy zoskupovania
- Hierarchické zoskupovanie
- K-znamená zhlukovanie
- K-NN (k najbližší susedia)
- Analýza hlavných komponentov
- Rozklad singulárnej hodnoty
- Analýza nezávislých komponentov
Hierarchické zhlukovanie:
Hierarchické klastrovanie je algoritmus, ktorý vytvára hierarchiu klastrov. Začína sa to všetkými údajmi, ktoré sú priradené ich vlastnému zhluku. Tu budú dva blízke klastre v rovnakom klastri. Tento algoritmus končí, keď zostane iba jeden klaster.
K-znamená zhlukovanie
K znamená, že ide o iteračný klastrový algoritmus, ktorý vám pomôže nájsť najvyššiu hodnotu pre každú iteráciu. Spočiatku sa vyberie požadovaný počet klastrov. V tejto metóde zoskupovania musíte dátové body zoskupiť do k skupín. Väčšie k znamená rovnakým spôsobom menšie skupiny s väčšou zrnitosťou. Nižšie k znamená väčšie skupiny s menšou zrnitosťou.
Výstupom algoritmu je skupina „návestí“. Priradí dátový bod jednej z k skupín. V k-means klastrovaní je každá skupina definovaná vytvorením ťažiska pre každú skupinu. Centroidy sú ako srdce klastra, ktoré zachytáva najbližšie body a pridáva ich do klastra.
K-stredné zhlukovanie ďalej definuje dve podskupiny:
- Aglomeratívne zhlukovanie
- Dendrogram
Aglomeratívne zhlukovanie:
Tento typ zhlukovania K znamená, že začína pevným počtom klastrov. Priradí všetky údaje k presnému počtu klastrov. Táto klastrová metóda nevyžaduje ako vstup počet klastrov K. Proces aglomerácie sa začína formovaním každého údaja do jedného klastra.
Táto metóda využíva určitú mieru vzdialenosti, zlúčením redukuje počet klastrov (jeden v každej iterácii). Nakoniec máme jeden veľký zhluk, ktorý obsahuje všetky objekty.
Dendrogram:
V klastrovej metóde Dendrogramu bude každá úroveň predstavovať možný klaster. Výška dendrogramu ukazuje úroveň podobnosti medzi dvoma spojovacími klastrami. Čím bližšie k spodnej časti procesu sú si viac podobné zhluky, čo je nález skupiny z dendrogramu, ktorý nie je prirodzený a väčšinou subjektívny.
K- Najbližší susedia
K- najbližší sused je najjednoduchší zo všetkých klasifikátorov strojového učenia. Líši sa od ostatných techník strojového učenia tým, že nevytvára model. Jedná sa o jednoduchý algoritmus, ktorý ukladá všetky dostupné prípady a klasifikuje nové inštancie na základe miery podobnosti.
Funguje to veľmi dobre, ak je medzi príkladmi vzdialenosť. Ak je tréningová sada veľká, rýchlosť učenia je nízka a výpočet vzdialenosti nie je ľahký.
Analýza hlavných komponentov:
V prípade, že chcete priestor vyšších rozmerov. Musíte zvoliť základ pre tento priestor a iba 200 najdôležitejších skóre tohto základu. Táto základňa je známa ako hlavná súčasť. Podmnožina, ktorú vyberiete, je nový priestor, ktorý je v porovnaní s pôvodným priestorom malý. Udržuje čo najväčšiu komplexnosť údajov.
Združenie
Asociačné pravidlá vám umožňujú vytvárať asociácie medzi dátovými objektmi vo veľkých databázach. Táto technika bez dohľadu je o objavovaní zaujímavých vzťahov medzi premennými vo veľkých databázach. Napríklad ľudia, ktorí si kupujú nový domov, si s najväčšou pravdepodobnosťou kúpia nový nábytok.
Ďalšie príklady:
- Podskupina pacientov s rakovinou zoskupených podľa meraní génovej expresie
- Skupiny nakupujúcich na základe ich histórie prehliadania a nákupu
- Skupina filmov podľa hodnotenia diváka filmu
Strojové učenie pod dohľadom a bez dozoru
Parametre | Technika strojového učenia pod dohľadom | Technika strojového učenia bez dozoru |
Vstupné Data | Algoritmy sú trénované pomocou označených údajov. | Algoritmy sa používajú proti údajom, ktoré nie sú označené |
Výpočtová zložitosť | Učenie pod vedením je jednoduchšia metóda. | Výučba bez učiteľa je výpočtovo zložitá |
Presnosť | Vysoko presná a dôveryhodná metóda. | Menej presná a dôveryhodná metóda. |
Aplikácie strojového učenia bez dozoru
Niektoré aplikácie techník strojového učenia bez dozoru sú:
- Klastrovanie automaticky rozdelí množinu údajov do skupín na základe ich podobností
- Detekcia anomálií môže odhaliť neobvyklé údajové body vo vašej množine údajov. Je to užitočné pri hľadaní podvodných transakcií
- Asociačná ťažba identifikuje množiny položiek, ktoré sa vo vašej množine údajov často vyskytujú spoločne
- Latentné variabilné modely sa často používajú na predspracovanie údajov. Ako napríklad zníženie počtu funkcií v množine údajov alebo rozloženie množiny údajov na viac komponentov
Nevýhody nekontrolovaného učenia
- Nemôžete získať presné informácie týkajúce sa triedenia údajov a výstup ako údaje použité v učení bez dozoru je označený a nie je známy
- Menšia presnosť výsledkov spočíva v tom, že vstupné údaje nie sú známe a ľudia ich vopred neoznačujú. To znamená, že stroj to musí robiť sám.
- Spektrálne triedy nie vždy zodpovedajú informačným triedam.
- Používateľ musí tráviť čas tlmočením a označovaním tried, ktoré nasledujú po tejto klasifikácii.
- Spektrálne vlastnosti tried sa môžu tiež časom meniť, takže pri prechode z jedného obrázka na druhý nemôžete mať rovnaké informácie o triedach.
Zhrnutie
- Učenie bez dozoru je technika strojového učenia, pri ktorej nemusíte dohliadať na model.
- Strojové učenie bez dozoru vám pomôže nájsť v dátach všetky druhy neznámych vzorcov.
- Klastrovanie a združovanie sú dva typy učenia bez dozoru.
- Štyri typy klastrových metód sú 1) výlučné 2) aglomeratívne 3) prekrývajúce sa 4) pravdepodobnostné.
- Dôležitými typmi klastrovania sú: 1) Hierarchické klastrovanie 2) K-klastrovanie 3) K-NN 4) Analýza hlavných komponentov 5) Rozklad singulárnych hodnôt 6) Analýza nezávislých komponentov.
- Asociačné pravidlá vám umožňujú vytvárať asociácie medzi dátovými objektmi vo veľkých databázach.
- V rámci supervidovaného učenia sa algoritmy trénujú pomocou označených údajov, zatiaľ čo v rámci supervízneho učenia sa algoritmy používajú proti údajom, ktoré nie sú označené.
- Detekcia anomálií môže odhaliť dôležité údajové body vo vašej množine údajov, čo je užitočné pri hľadaní podvodných transakcií.
- Najväčšou nevýhodou učenia bez dozoru je, že nemôžete získať presné informácie týkajúce sa triedenia údajov.