Ako sťahovať & Nainštalujte NLTK na Windows / Mac

Obsah:

Anonim

V tomto výučbe sa dozviete -

  • Inštalácia NLTK v systéme Windows
  • Inštalácia Pythonu v systéme Windows
  • Inštalácia NLTK v systéme Mac / Linux
  • Inštalácia NLTK cez Anaconda
  • Súbor údajov NLTK
  • Ako sťahovať všetky balíčky NLTK
  • Spustenie skriptu NLP
  • Ako spustiť skript NLTK

Inštalácia NLTK v systéme Windows

V tejto časti sa naučíme, ako nastaviť NLTK pomocou terminálu (príkazový riadok v systéme Windows).

Inštrukcia uvedená nižšie vychádza z predpokladu, že nemáte nainštalovaný python. Prvým krokom je teda inštalácia pythonu.

Inštalácia Pythonu v systéme Windows:

Krok 1) Go prepojiť https://www.python.org/downloads/ , a vybrať si najnovšiu verziu pre Windows.

Poznámka : Ak si nechcete stiahnuť najnovšiu verziu, môžete prejsť na kartu sťahovania a pozrieť si všetky vydania.

Krok 2) Kliknite na stiahnutý súbor

Krok 3) Vyberte Prispôsobiť inštaláciu

Krok 4) Kliknite na ĎALŠIE

Krok 5) Na ďalšej obrazovke

  1. Vyberte rozšírené možnosti
  2. Zadajte vlastné umiestnenie inštalácie. V mojom prípade je priečinok na jednotke C vybraný pre ľahkú obsluhu
  3. Kliknite na Inštalovať

Krok 6) Po dokončení inštalácie kliknite na tlačidlo Zavrieť.

Krok 7) Skopírujte cestu k priečinku Skripty.

Krok 8) V príkazovom riadku systému Windows

  • Prejdite na umiestnenie priečinka pip
  • Zadajte príkaz na inštaláciu NLTK
    pip3 install nltk
  • Inštalácia by mala byť vykonaná úspešne

POZNÁMKA : Pre program Python2 použite príkaz npkpp2 install

Krok 9) V ponuke Štart systému Windows vyhľadajte a otvorte PythonShell

Krok 10) Zadaním nasledujúceho príkazu môžete overiť, či je inštalácia presná

import nltk

Ak nevidíte žiadnu chybu, inštalácia je dokončená.

Inštalácia NLTK v systéme Mac / Linux

Inštalácia NLTK v systéme Mac / Unix vyžaduje na inštaláciu nltk pip python manager pip. Ak pip nie je nainštalovaný, dokončite proces podľa nasledujúcich pokynov

Krok 1) Aktualizujte index balíka zadaním nižšie uvedeného príkazu

sudo apt update

Krok 2) Inštalácia pipu pre Python 3:

sudo apt install python3-pip

Môžete tiež nainštalovať pip pomocou easy_install.

sudo apt-get install python-setuptools python-dev build-essential 

Teraz je easy_install nainštalovaný. Spustite nasledujúci príkaz na inštaláciu pipu

sudo easy_install pip

Krok 3) Na inštaláciu NLTK použite nasledujúci príkaz

sudo pip install -U nltksudo pip3 install -U nltk

Inštalácia NLTK cez Anaconda

Krok 1) Nainštalujte si anakondu (ktorú je možné použiť aj na inštaláciu rôznych balíkov) navštívením stránky https://www.anaconda.com/products/individual a vyberte, ktorú verziu pythonu musíte pre anakondu nainštalovať.

Poznámka: V tejto príručke nájdete podrobné kroky na inštaláciu anakondy

Krok 2) Vo výzve Anaconda

  1. Zadajte príkaz
    conda install -c anaconda nltk
  2. Skontrolujte aktualizáciu, downgrade, informácie o inštalácii balíka a zadajte áno
  3. NLTK sa stiahne a nainštaluje

Súbor údajov NLTK

Modul NLTK má k dispozícii veľa súborov údajov, ktoré si musíte stiahnuť, aby ste ich mohli použiť. Odbornejšie sa tomu hovorí korpus . Niektoré z príkladov sú stopwords , GUTENBERG , framenet_v15 , large_grammars a tak ďalej.

Ako sťahovať všetky balíčky NLTK

Krok 1) Spustite tlmočník Python v systéme Windows alebo Linux

Krok 2)

  1. Zadajte príkazy
import nltknltk.download ()
  1. Otvorí sa okno NLTK Stiahnuté. Kliknutím na tlačidlo Prevziať stiahnete množinu údajov. Tento proces bude chvíľu trvať, v závislosti od vášho internetového pripojenia

POZNÁMKA: Umiestnenie sťahovania môžete zmeniť kliknutím na Súbor> Zmeniť adresár sťahovania

Krok 3) Na otestovanie nainštalovaných údajov použite nasledujúci kód

>>> from nltk.corpus import brown>>>brown.words()

['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

Spustenie skriptu NLP

Budeme diskutovať o tom, ako bude skript NLP vykonávaný na našom lokálnom počítači. Na trhu existuje veľa knižníc na spracovanie prirodzeného jazyka. Výber knižnice závisí teda od vašich požiadaviek. Tu je zoznam knižníc NLP.

Ako spustiť skript NLTK

Krok 1) Vo svojom obľúbenom editore kódu skopírujte kód a uložte súbor ako NLTKsample.py

from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)

Vysvetlenie kódu:

  1. V tomto programe bolo cieľom odstrániť z daného textu všetky typy interpunkčných znamienok. Importovali sme „RegexpTokenizer“, ktorý je modulom NLTK. Odstráni všetok výraz, symbol, znak, číselný údaj alebo čokoľvek, čo chcete.
  2. Práve ste odovzdali regulárny výraz modulu „RegexpTokenizer“.
  3. Ďalej sme slovo tokenizovali pomocou modulu „tokenize“. Výstup je uložený v premennej „filterdText“.
  4. A vytlačili ich pomocou „print ().“

Krok 2) Na príkazovom riadku

  • Prejdite na miesto, kde ste uložili súbor
  • Spustite príkaz Python NLTKsample.py

Zobrazí sa výstup ako:

['Hello', 'Guru99', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', ' návšteva stránky „,“ vašej „stránky“]