Matica zmätku v strojovom učení s PRÍKLADOM

Obsah:

Anonim

Čo je to Confusion Matrix?

Zmätená matica je technika merania výkonu pre klasifikáciu strojového učenia. Je to druh tabuľky, ktorá vám pomôže spoznať výkonnosť klasifikačného modelu na súbore údajov z testov, pri ktorých sú známe skutočné hodnoty. Samotný pojem zmätená matica je veľmi jednoduchý, ale jeho príbuzná terminológia môže byť trochu mätúca. Tu je uvedené niekoľko jednoduchých vysvetlení tejto techniky.

V tomto návode sa dozviete,

  • Čo je to Matica zmätku?
  • Štyri výsledky matice zmätku
  • Príklad matice zmätku:
  • Ako vypočítať maticu zmätku
  • Ďalšie dôležité pojmy pomocou matice zmätku
  • Prečo potrebujete maticu zmätku?

Štyri výsledky matice zmätku

Matica zámeny vizualizuje presnosť klasifikátora porovnaním skutočných a predpovedaných tried. Binárna matica zámeny sa skladá zo štvorcov:

Zmätená tabuľka
  • TP: Skutočne pozitívne: Predpovedané hodnoty sa správne predpovedali ako skutočné pozitívne
  • FP: Predpovedané hodnoty nesprávne predpovedali skutočné pozitívum. tj negatívne hodnoty predpovedané ako pozitívne
  • FN: False Negative: Pozitívne hodnoty predpovedané ako negatívne
  • TN: Skutočný zápor: Predpovedané hodnoty sa správne predpovedajú ako skutočný zápor

Test presnosti môžete vypočítať z matice zámeny:

Príklad matice zmätku:

Confusion Matrix je užitočná metóda strojového učenia, ktorá vám umožňuje merať krivku Recall, Precision, Accuracy a AUC-ROC. Ďalej je uvedený príklad na poznanie výrazov Pravá pozitívna, Pravá negatívna, Falošne negatívna a Pravda negatívna.

Skutočne pozitívne:

Predpokladali ste pozitívny výsledok a ukázalo sa, že je to pravda. Napríklad ste predpovedali, že Francúzsko vyhrá svetový pohár, a to vyhralo.

Skutočne záporné:

Keď ste predpovedali záporné, a je to pravda. Predpovedali ste, že Anglicko nevyhrá a prehralo.

Falošne pozitívne:

Vaše predpovede sú pozitívne a sú nepravdivé.

Predpovedali ste, že vyhrá Anglicko, ale prehralo.

Falošný negatív:

Vaša predpoveď je negatívna a výsledok je tiež nepravdivá.

Predpovedali ste, že Francúzsko nevyhrá, ale zvíťazilo.

Mali by ste pamätať na to, že predpovedané hodnoty popisujeme ako pravdivé alebo nepravdivé alebo pozitívne a negatívne.

Ako vypočítať maticu zmätku

Tu je krok za krokom proces výpočtu matice zmätku v dolovaní dát

  • Krok 1) Najprv musíte otestovať množinu údajov s jej očakávanými hodnotami výsledku.
  • Krok 2) Predpovedajte všetky riadky v testovacej množine údajov.
  • Krok 3) Vypočítajte očakávané predpovede a výsledky:
  1. Celkový počet správnych predpovedí každej triedy.
  2. Súčet nesprávnych predpovedí každej triedy.

Potom sú tieto čísla usporiadané do nižšie uvedených metód:

  • Každý riadok matice odkazuje na predpovedanú triedu.
  • Každý stĺpec matice zodpovedá skutočnej triede.
  • Do tabuľky sa zapisujú celkové počty správnych a nesprávnych klasifikácií.
  • Súčet správnych predpovedí pre triedu ide do predpovedaného stĺpca a očakávaného riadku pre hodnotu danej triedy.
  • Súčet nesprávnych predpovedí pre triedu sa dostane do očakávaného riadku pre túto hodnotu triedy a predpovedaného stĺpca pre túto konkrétnu hodnotu triedy.

Ďalšie dôležité pojmy pomocou matice zmätku

  • Pozitívna prediktívna hodnota (PVV): Je to veľmi blízko k presnosti. Jedným významným rozdielom medzi dvoma termínmi je, že PVV považuje prevalenciu. V situácii, keď sú triedy dokonale vyvážené, je pozitívna prediktívna hodnota rovnaká ako presnosť.
  • Nulová chybovosť: Tento výraz sa používa na definovanie toho, koľkokrát by bola vaša predpoveď nesprávna, ak viete predpovedať triedu väčšiny. Môžete to považovať za základnú metriku na porovnanie svojho klasifikátora.
  • Skóre F: Skóre F1 je vážené priemerné skóre skutočnej pozitivity (vyvolania) a presnosti.
  • Rocova krivka: Rocova krivka zobrazuje skutočne pozitívne sadzby oproti falošne pozitívnym hodnotám v rôznych bodoch rezu. Ukazuje tiež kompromis medzi citlivosťou (stiahnutie a špecifickosť alebo skutočná záporná miera).
  • Presnosť: Presná metrika zobrazuje presnosť kladnej triedy. Meria sa tým, aká pravdepodobná je predpoveď pozitívnej triedy.

Maximálne skóre je 1, keď klasifikátor dokonale klasifikuje všetky kladné hodnoty. Samotná presnosť nie je veľmi užitočná, pretože ignoruje negatívnu triedu. Metrika je zvyčajne spárovaná s metrikou Recall. Pripomenutie sa tiež nazýva citlivosť alebo skutočná kladná miera.

  • Citlivosť : Citlivosť počíta pomer správne detegovaných pozitívnych tried. Táto metrika udáva, aký dobrý je model na rozpoznanie pozitívnej triedy.

Prečo potrebujete maticu zmätku?

Tu sú výhody a výhody použitia matice zámeny.

  • Ukazuje, ako je každý klasifikačný model pri predpovedaní zmätený.
  • Matica zmätku vám poskytuje prehľad nielen o chybách, ktoré robí váš klasifikátor, ale aj o druhoch chýb, ktoré sa robia.
  • Toto rozdelenie vám pomôže prekonať obmedzenia týkajúce sa použitia iba presnosti klasifikácie.
  • Každý stĺpec zmätočnej matice predstavuje inštancie predpovedanej triedy.
  • Každý riadok matice zámeny predstavuje inštancie skutočnej triedy.
  • Poskytuje prehľad nielen o chybách, ktoré robí klasifikátor, ale aj o chybách, ktoré robí.