V tomto výučbe sa dozviete -
- Inštalácia NLTK v systéme Windows
- Inštalácia Pythonu v systéme Windows
- Inštalácia NLTK v systéme Mac / Linux
- Inštalácia NLTK cez Anaconda
- Súbor údajov NLTK
- Ako sťahovať všetky balíčky NLTK
- Spustenie skriptu NLP
- Ako spustiť skript NLTK
Inštalácia NLTK v systéme Windows
V tejto časti sa naučíme, ako nastaviť NLTK pomocou terminálu (príkazový riadok v systéme Windows).
Inštrukcia uvedená nižšie vychádza z predpokladu, že nemáte nainštalovaný python. Prvým krokom je teda inštalácia pythonu.
Inštalácia Pythonu v systéme Windows:
Krok 1) Go prepojiť https://www.python.org/downloads/ , a vybrať si najnovšiu verziu pre Windows.
Poznámka : Ak si nechcete stiahnuť najnovšiu verziu, môžete prejsť na kartu sťahovania a pozrieť si všetky vydania.
Krok 2) Kliknite na stiahnutý súbor
Krok 3) Vyberte Prispôsobiť inštaláciu
Krok 4) Kliknite na ĎALŠIE
Krok 5) Na ďalšej obrazovke
- Vyberte rozšírené možnosti
- Zadajte vlastné umiestnenie inštalácie. V mojom prípade je priečinok na jednotke C vybraný pre ľahkú obsluhu
- Kliknite na Inštalovať
Krok 6) Po dokončení inštalácie kliknite na tlačidlo Zavrieť.
Krok 7) Skopírujte cestu k priečinku Skripty.
Krok 8) V príkazovom riadku systému Windows
- Prejdite na umiestnenie priečinka pip
- Zadajte príkaz na inštaláciu NLTK
pip3 install nltk
- Inštalácia by mala byť vykonaná úspešne
POZNÁMKA : Pre program Python2 použite príkaz npkpp2 install
Krok 9) V ponuke Štart systému Windows vyhľadajte a otvorte PythonShell
Krok 10) Zadaním nasledujúceho príkazu môžete overiť, či je inštalácia presná
import nltk
Ak nevidíte žiadnu chybu, inštalácia je dokončená.
Inštalácia NLTK v systéme Mac / Linux
Inštalácia NLTK v systéme Mac / Unix vyžaduje na inštaláciu nltk pip python manager pip. Ak pip nie je nainštalovaný, dokončite proces podľa nasledujúcich pokynov
Krok 1) Aktualizujte index balíka zadaním nižšie uvedeného príkazu
sudo apt update
Krok 2) Inštalácia pipu pre Python 3:
sudo apt install python3-pip
Môžete tiež nainštalovať pip pomocou easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Teraz je easy_install nainštalovaný. Spustite nasledujúci príkaz na inštaláciu pipu
sudo easy_install pip
Krok 3) Na inštaláciu NLTK použite nasledujúci príkaz
sudo pip install -U nltksudo pip3 install -U nltk
Inštalácia NLTK cez Anaconda
Krok 1) Nainštalujte si anakondu (ktorú je možné použiť aj na inštaláciu rôznych balíkov) navštívením stránky https://www.anaconda.com/products/individual a vyberte, ktorú verziu pythonu musíte pre anakondu nainštalovať.
Poznámka: V tejto príručke nájdete podrobné kroky na inštaláciu anakondy
Krok 2) Vo výzve Anaconda
- Zadajte príkaz
conda install -c anaconda nltk
- Skontrolujte aktualizáciu, downgrade, informácie o inštalácii balíka a zadajte áno
- NLTK sa stiahne a nainštaluje
Súbor údajov NLTK
Modul NLTK má k dispozícii veľa súborov údajov, ktoré si musíte stiahnuť, aby ste ich mohli použiť. Odbornejšie sa tomu hovorí korpus . Niektoré z príkladov sú stopwords , GUTENBERG , framenet_v15 , large_grammars a tak ďalej.
Ako sťahovať všetky balíčky NLTK
Krok 1) Spustite tlmočník Python v systéme Windows alebo Linux
Krok 2)
- Zadajte príkazy
import nltknltk.download ()
- Otvorí sa okno NLTK Stiahnuté. Kliknutím na tlačidlo Prevziať stiahnete množinu údajov. Tento proces bude chvíľu trvať, v závislosti od vášho internetového pripojenia
POZNÁMKA: Umiestnenie sťahovania môžete zmeniť kliknutím na Súbor> Zmeniť adresár sťahovania
Krok 3) Na otestovanie nainštalovaných údajov použite nasledujúci kód
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
Spustenie skriptu NLP
Budeme diskutovať o tom, ako bude skript NLP vykonávaný na našom lokálnom počítači. Na trhu existuje veľa knižníc na spracovanie prirodzeného jazyka. Výber knižnice závisí teda od vašich požiadaviek. Tu je zoznam knižníc NLP.
Ako spustiť skript NLTK
Krok 1) Vo svojom obľúbenom editore kódu skopírujte kód a uložte súbor ako „ NLTKsample.py “
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Vysvetlenie kódu:
- V tomto programe bolo cieľom odstrániť z daného textu všetky typy interpunkčných znamienok. Importovali sme „RegexpTokenizer“, ktorý je modulom NLTK. Odstráni všetok výraz, symbol, znak, číselný údaj alebo čokoľvek, čo chcete.
- Práve ste odovzdali regulárny výraz modulu „RegexpTokenizer“.
- Ďalej sme slovo tokenizovali pomocou modulu „tokenize“. Výstup je uložený v premennej „filterdText“.
- A vytlačili ich pomocou „print ().“
Krok 2) Na príkazovom riadku
- Prejdite na miesto, kde ste uložili súbor
- Spustite príkaz Python NLTKsample.py
Zobrazí sa výstup ako:
['Hello', 'Guru99', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', ' návšteva stránky „,“ vašej „stránky“]