Problémy so značkovaním a skrytý Markovov model

Obsah:

Anonim

Označovanie viet

Označovanie viet v širšom slova zmysle sa týka pridania označení slovesa, podstatného mena atď. V kontexte vety. Identifikácia POS štítkov je komplikovaný proces. Generické označovanie POS teda nie je možné ručne, pretože niektoré slová môžu mať podľa štruktúry vety rôzne (nejednoznačné) významy. Konverzia textu vo forme zoznamu je dôležitým krokom pred označením, pretože každé slovo v zozname je zacyklené a počíta sa pre konkrétnu značku. Prečítajte si nižšie uvedený kód, aby ste tomu lepšie porozumeli

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

VÝKON

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Vysvetlenie kódu

  1. Kód na import nltk (sada nástrojov pre prirodzený jazyk, ktorá obsahuje podmoduly, ako napríklad tokenizácia viet a tokenizácia slov.)
  2. Text, ktorého štítky sa majú vytlačiť.
  3. Tokenizácia vety
  4. Je implementovaná slučka For, kde sú slová tokenizované z vety a tag každého slova je vytlačený ako výstup.

V Corpuse existujú dva typy označovačov POS:

  • Podľa pravidiel
  • Stochastické označovače POS

1. Označovač POS založený na pravidlách: Pre slová, ktoré majú nejednoznačný význam, sa uplatňuje prístup založený na pravidlách na základe kontextových informácií. Vykonáva sa to kontrolou alebo analýzou významu predchádzajúceho alebo nasledujúceho slova. Informácie sa analyzujú z okolia slova alebo v jeho vnútri. Preto sú slová označené gramatickými pravidlami konkrétneho jazyka, ako sú veľké písmená a interpunkčné znamienka. napr. Brill's tagger.

2. Stochastic POS Tagger: V rámci tejto metódy sa používajú rôzne prístupy, ako napríklad frekvencia alebo pravdepodobnosť. Ak je slovo vo výcvikovej množine väčšinou označené konkrétnou značkou, potom je v testovacej vete uvedená konkrétna značka. Slovo tag je závislé nielen od svojej vlastnej značky, ale aj od predchádzajúcej značky. Táto metóda nie je vždy presná. Ďalším spôsobom je výpočet pravdepodobnosti výskytu konkrétnej značky vo vete. Výsledná značka sa teda počíta tak, že sa skontroluje najvyššia pravdepodobnosť slova s ​​konkrétnou značkou.

Skrytý Markovov model:

Problémy s označovaním je možné modelovať aj pomocou HMM. Zaobchádza so vstupnými tokenmi ako s pozorovateľnou sekvenciou, zatiaľ čo značky sa považujú za skryté stavy a cieľom je určiť postupnosť skrytých stavov. Napríklad x = x 1 , x 2 , ..., x n, kde x je postupnosť tokenov, zatiaľ čo y = y 1 , y 2 , y 3 , y 4 ... y n je skrytá postupnosť.

Ako funguje model HMM?

HMM používa distribúciu spojenia, ktorá je P (x, y), kde x je vstupná sekvencia / sekvencia tokenu a y je sekvencia značky.

Sekvencia značiek pre x bude argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Značky sme kategorizovali z textu, ale štatistiky týchto značiek sú nevyhnutné. Ďalšia časť teda počíta tieto značky pre štatistické štúdium.