Čo je programovací jazyk R. Úvod & Základy R.

Obsah:

Anonim

Čo je softvér R?

R je programovací jazyk a slobodný softvér vyvinutý Rossom Ihakom a Robertom Gentlemanom v roku 1993. R vlastní rozsiahly katalóg štatistických a grafických metód. Zahŕňa algoritmy strojového učenia, lineárnu regresiu, časové rady, štatistické vyvodenie niekoľkých ďalších. Väčšina knižníc R je napísaná v jazyku R, ale pri náročných výpočtových úlohách sa uprednostňujú kódy C, C ++ a Fortran.

Program R nie je zverený iba akademickým pracovníkom, ale mnoho veľkých spoločností používa aj programovací jazyk R. Patria sem programy Uber, Google, Airbnb, Facebook atď.

Analýza dát s R sa vykonáva v sérii krokov; programovanie, transformácia, objavovanie, modelovanie a komunikácia výsledkov

  • Program : R je jasný a prístupný programovací nástroj
  • Transformácia : R je tvorená zbierkou knižníc určených špeciálne pre dátovú vedu
  • Objavte : Preskúmajte údaje, spresnite svoju hypotézu a analyzujte ich
  • Model : R poskytuje širokú škálu nástrojov na zachytenie správneho modelu pre vaše dáta
  • Komunikujte : Integrujte kódy, grafy a výstupy do prehľadu pomocou aplikácie R Markdown alebo vytvorte lesklé aplikácie na zdieľanie s celým svetom

V tomto úvodnom tutoriáli sa dozviete R.

  • Na čo sa R ​​používa?
  • R podľa priemyslu
  • Balíček R.
  • Komunikujte s R.
  • Prečo používať R?
  • Mali by ste zvoliť R?
  • Je R ťažké?

Na čo sa R ​​používa?

  • Štatistický záver
  • Analýza dát
  • Algoritmus strojového učenia

R podľa priemyslu

Ak rozložíme použitie R v priemysle, vidíme, že na prvom mieste sú akademici. R je jazyk na štatistiku. R je prvou voľbou v zdravotníctve, nasleduje vláda a konzultácie.

Balíček R.

Primárne využitie R je a vždy bude, štatistika, vizualizácia a strojové učenie. Obrázok nižšie ukazuje, ktorý balík R dostal v otázke Stack Overflow najviac otázok. V top 10 sa väčšina z nich týka pracovného toku dátového vedca: príprava údajov a komunikácia výsledkov.

Všetky knižnice R, takmer 12k, sú uložené v CRAN-e. CRAN je bezplatný a otvorený zdroj. Môžete si stiahnuť a použiť početné knižnice na vykonávanie strojového učenia alebo analýzy časových radov.

Komunikujte s R.

Aplikácia R má niekoľko spôsobov, ako prezentovať a zdieľať prácu, a to buď prostredníctvom markdown dokumentu, alebo lesklej aplikácie. Všetko môže byť hostené v Rpub, GitHub alebo na webových stránkach firmy.

Nižšie je uvedený príklad prezentácie hostenej na serveri Rpub

Rstudio akceptuje značenie na napísanie dokumentu. Dokumenty môžete exportovať v rôznych formátoch:

  • Dokument:
    • HTML
    • PDF / Latex
    • Slovo
  • Prezentácia
    • HTML
    • PDF Beamer

Rstudio má skvelý nástroj na ľahké vytváranie aplikácií. Nižšie je uvedený príklad aplikácie s údajmi Svetovej banky.

Prečo používať R?

Dátová veda formuje spôsob, akým spoločnosti riadia svoje podnikanie. Bezpochyby držanie sa ďalej od umelej inteligencie a strojov povedie k zlyhaniu spoločnosti. Veľkou otázkou je, aký nástroj / jazyk by ste mali používať?

Na trhu je veľa nástrojov na vykonávanie analýzy údajov. Naučiť sa nový jazyk si vyžaduje určitú časovú investíciu. Obrázok nižšie zobrazuje krivku učenia sa v porovnaní s obchodnými schopnosťami, ktoré jazyk ponúka. Z negatívneho vzťahu vyplýva, že neexistuje obed zadarmo. Ak chcete poskytnúť čo najlepší prehľad o dátach, musíte stráviť nejaký čas učením sa vhodného nástroja, ktorým je R.

V ľavom hornom rohu grafu môžete vidieť Excel a PowerBI. Tieto dva nástroje sa dajú ľahko naučiť, ale neponúkajú vynikajúce obchodné schopnosti, najmä pokiaľ ide o modelovanie. V strede môžete vidieť Python a SAS. SAS je špecializovaný nástroj na vykonávanie štatistických analýz pre podniky, ale nie je zadarmo. SAS je softvér na klikanie a spustenie. Python je však jazyk s monotónnou krivkou učenia. Python je fantastický nástroj na nasadenie Machine Learning a AI, ale chýbajú mu komunikačné funkcie. S identickou krivkou učenia je R dobrým kompromisom medzi implementáciou a analýzou údajov.

Pokiaľ ide o vizualizáciu údajov (DataViz), pravdepodobne by ste už počuli o Tableau. Tableau je bezpochyby skvelým nástrojom na objavovanie vzorov prostredníctvom grafov a tabuliek. Okrem toho učenie sa tablu nie je časovo náročné. Jeden veľký problém s vizualizáciou údajov je, že by ste nakoniec nemuseli nájsť vzor alebo len vytvoriť množstvo zbytočných grafov. Tableau je dobrý nástroj na rýchlu vizualizáciu údajov alebo Business Intelligence. Pokiaľ ide o štatistiku a rozhodovací nástroj, je vhodnejšia skupina R.

Stack Overflow je veľká komunita pre programovacie jazyky. Ak máte problém s kódovaním alebo potrebujete porozumieť modelu, je tu pomocník Stack Overflow. V priebehu roka sa percento zobrazení otázok pre jazyk R výrazne zvýšilo v porovnaní s ostatnými jazykmi. Tento trend samozrejme vysoko koreluje s rastúcim vekom dátovej vedy, odráža však dopyt jazyka R po dátovej vede.

V dátovej vede existujú dva nástroje, ktoré si navzájom konkurujú. R a Python sú pravdepodobne programovací jazyk, ktorý definuje dátovú vedu.

Mali by ste zvoliť R?

Dátový vedec môže použiť dva vynikajúce nástroje: R a Python. Možno nebudete mať čas naučiť sa ich obidve, zvlášť ak sa začnete učiť dátovú vedu. Učenie štatistického modelovania a algoritmuje oveľa dôležitejšie ako naučiť sa programovací jazyk. Programovací jazyk je nástroj na výpočet a komunikáciu vášho objavu. Najdôležitejšou úlohou v oblasti dátovej vedy je spôsob, akým narábate s údajmi: import, čistenie, príprava, inžinierstvo funkcií, výber funkcií. Toto by malo byť vaše primárne zameranie. Ak sa pokúšate naučiť R a Python súčasne bez spoľahlivého štatistického zázemia, je to hlúpe. Vedci v oblasti údajov nie sú programátori. Ich úlohou je porozumieť údajom, manipulovať s nimi a poskytnúť najlepší prístup. Ak uvažujete o tom, ktorý jazyk sa máte naučiť, pozrime sa, ktorý jazyk je pre vás ten najvhodnejší.

Hlavné publikum v oblasti dátovej vedy je obchodný profesionál. V podnikaní je jedným veľkým dôsledkom komunikácia. Existuje mnoho spôsobov komunikácie: prehľad, webová aplikácia, informačný panel. Potrebujete nástroj, ktorý to všetko dokáže spoločne.

Je R ťažké?

Pred rokmi bol jazyk R ťažko ovládateľný. Jazyk bol neprehľadný a nebol tak štruktúrovaný ako ostatné programovacie nástroje. Na prekonanie tohto veľkého problému vyvinul Hadley Wickham kolekciu balíkov s názvom tidyverse. Najlepšie sa zmenilo pravidlo hry. Manipulácia s údajmi sa stáva triviálnou a intuitívnou. Vytvorenie grafu už nebolo také ťažké.

Najlepšie algoritmy pre strojové učenie je možné implementovať s programom R. Balíky ako Keras a TensorFlow umožňujú vytvárať špičkové techniky strojového učenia. R má tiež balík na vykonávanie Xgboost, jedného z najlepších algoritmov pre Kaggleovu konkurenciu.

R môže komunikovať s iným jazykom. V jazyku R. je možné volať Python, Java, C ++. Svet veľkých dát je prístupný aj v prostredí R. Môžete spojiť R s rôznymi databázami, ako sú Spark alebo Hadoop.

Nakoniec sa vyvinul R a umožnil paralelnej prevádzke urýchliť výpočet. V skutočnosti bol R kritizovaný za to, že súčasne používal iba jeden procesor. Paralelný balík umožňuje vykonávať úlohy v rôznych jadrách stroja.

Zhrnutie

Stručne povedané, R je vynikajúci nástroj na skúmanie a vyšetrovanie údajov. Vypracované analýzy ako klastrovanie, korelácia a redukcia dát sa vykonávajú s R. Toto je najdôležitejšia časť, bez dobrého inžinierstva funkcií a modelu nebude nasadenie strojového učenia dávať zmysluplné výsledky.