Čo je softvér R?
R je programovací jazyk a slobodný softvér vyvinutý Rossom Ihakom a Robertom Gentlemanom v roku 1993. R vlastní rozsiahly katalóg štatistických a grafických metód. Zahŕňa algoritmy strojového učenia, lineárnu regresiu, časové rady, štatistické vyvodenie niekoľkých ďalších. Väčšina knižníc R je napísaná v jazyku R, ale pri náročných výpočtových úlohách sa uprednostňujú kódy C, C ++ a Fortran.
Program R nie je zverený iba akademickým pracovníkom, ale mnoho veľkých spoločností používa aj programovací jazyk R. Patria sem programy Uber, Google, Airbnb, Facebook atď.
Analýza dát s R sa vykonáva v sérii krokov; programovanie, transformácia, objavovanie, modelovanie a komunikácia výsledkov
- Program : R je jasný a prístupný programovací nástroj
- Transformácia : R je tvorená zbierkou knižníc určených špeciálne pre dátovú vedu
- Objavte : Preskúmajte údaje, spresnite svoju hypotézu a analyzujte ich
- Model : R poskytuje širokú škálu nástrojov na zachytenie správneho modelu pre vaše dáta
- Komunikujte : Integrujte kódy, grafy a výstupy do prehľadu pomocou aplikácie R Markdown alebo vytvorte lesklé aplikácie na zdieľanie s celým svetom
V tomto úvodnom tutoriáli sa dozviete R.
- Na čo sa R používa?
- R podľa priemyslu
- Balíček R.
- Komunikujte s R.
- Prečo používať R?
- Mali by ste zvoliť R?
- Je R ťažké?
Na čo sa R používa?
- Štatistický záver
- Analýza dát
- Algoritmus strojového učenia
R podľa priemyslu
Ak rozložíme použitie R v priemysle, vidíme, že na prvom mieste sú akademici. R je jazyk na štatistiku. R je prvou voľbou v zdravotníctve, nasleduje vláda a konzultácie.
Balíček R.
Primárne využitie R je a vždy bude, štatistika, vizualizácia a strojové učenie. Obrázok nižšie ukazuje, ktorý balík R dostal v otázke Stack Overflow najviac otázok. V top 10 sa väčšina z nich týka pracovného toku dátového vedca: príprava údajov a komunikácia výsledkov.
Všetky knižnice R, takmer 12k, sú uložené v CRAN-e. CRAN je bezplatný a otvorený zdroj. Môžete si stiahnuť a použiť početné knižnice na vykonávanie strojového učenia alebo analýzy časových radov.
Komunikujte s R.
Aplikácia R má niekoľko spôsobov, ako prezentovať a zdieľať prácu, a to buď prostredníctvom markdown dokumentu, alebo lesklej aplikácie. Všetko môže byť hostené v Rpub, GitHub alebo na webových stránkach firmy.
Nižšie je uvedený príklad prezentácie hostenej na serveri Rpub
Rstudio akceptuje značenie na napísanie dokumentu. Dokumenty môžete exportovať v rôznych formátoch:
- Dokument:
- HTML
- PDF / Latex
- Slovo
- Prezentácia
- HTML
- PDF Beamer
Rstudio má skvelý nástroj na ľahké vytváranie aplikácií. Nižšie je uvedený príklad aplikácie s údajmi Svetovej banky.
Prečo používať R?
Dátová veda formuje spôsob, akým spoločnosti riadia svoje podnikanie. Bezpochyby držanie sa ďalej od umelej inteligencie a strojov povedie k zlyhaniu spoločnosti. Veľkou otázkou je, aký nástroj / jazyk by ste mali používať?
Na trhu je veľa nástrojov na vykonávanie analýzy údajov. Naučiť sa nový jazyk si vyžaduje určitú časovú investíciu. Obrázok nižšie zobrazuje krivku učenia sa v porovnaní s obchodnými schopnosťami, ktoré jazyk ponúka. Z negatívneho vzťahu vyplýva, že neexistuje obed zadarmo. Ak chcete poskytnúť čo najlepší prehľad o dátach, musíte stráviť nejaký čas učením sa vhodného nástroja, ktorým je R.
V ľavom hornom rohu grafu môžete vidieť Excel a PowerBI. Tieto dva nástroje sa dajú ľahko naučiť, ale neponúkajú vynikajúce obchodné schopnosti, najmä pokiaľ ide o modelovanie. V strede môžete vidieť Python a SAS. SAS je špecializovaný nástroj na vykonávanie štatistických analýz pre podniky, ale nie je zadarmo. SAS je softvér na klikanie a spustenie. Python je však jazyk s monotónnou krivkou učenia. Python je fantastický nástroj na nasadenie Machine Learning a AI, ale chýbajú mu komunikačné funkcie. S identickou krivkou učenia je R dobrým kompromisom medzi implementáciou a analýzou údajov.
Pokiaľ ide o vizualizáciu údajov (DataViz), pravdepodobne by ste už počuli o Tableau. Tableau je bezpochyby skvelým nástrojom na objavovanie vzorov prostredníctvom grafov a tabuliek. Okrem toho učenie sa tablu nie je časovo náročné. Jeden veľký problém s vizualizáciou údajov je, že by ste nakoniec nemuseli nájsť vzor alebo len vytvoriť množstvo zbytočných grafov. Tableau je dobrý nástroj na rýchlu vizualizáciu údajov alebo Business Intelligence. Pokiaľ ide o štatistiku a rozhodovací nástroj, je vhodnejšia skupina R.
Stack Overflow je veľká komunita pre programovacie jazyky. Ak máte problém s kódovaním alebo potrebujete porozumieť modelu, je tu pomocník Stack Overflow. V priebehu roka sa percento zobrazení otázok pre jazyk R výrazne zvýšilo v porovnaní s ostatnými jazykmi. Tento trend samozrejme vysoko koreluje s rastúcim vekom dátovej vedy, odráža však dopyt jazyka R po dátovej vede.
V dátovej vede existujú dva nástroje, ktoré si navzájom konkurujú. R a Python sú pravdepodobne programovací jazyk, ktorý definuje dátovú vedu.
Mali by ste zvoliť R?
Dátový vedec môže použiť dva vynikajúce nástroje: R a Python. Možno nebudete mať čas naučiť sa ich obidve, zvlášť ak sa začnete učiť dátovú vedu. Učenie štatistického modelovania a algoritmuje oveľa dôležitejšie ako naučiť sa programovací jazyk. Programovací jazyk je nástroj na výpočet a komunikáciu vášho objavu. Najdôležitejšou úlohou v oblasti dátovej vedy je spôsob, akým narábate s údajmi: import, čistenie, príprava, inžinierstvo funkcií, výber funkcií. Toto by malo byť vaše primárne zameranie. Ak sa pokúšate naučiť R a Python súčasne bez spoľahlivého štatistického zázemia, je to hlúpe. Vedci v oblasti údajov nie sú programátori. Ich úlohou je porozumieť údajom, manipulovať s nimi a poskytnúť najlepší prístup. Ak uvažujete o tom, ktorý jazyk sa máte naučiť, pozrime sa, ktorý jazyk je pre vás ten najvhodnejší.
Hlavné publikum v oblasti dátovej vedy je obchodný profesionál. V podnikaní je jedným veľkým dôsledkom komunikácia. Existuje mnoho spôsobov komunikácie: prehľad, webová aplikácia, informačný panel. Potrebujete nástroj, ktorý to všetko dokáže spoločne.
Je R ťažké?
Pred rokmi bol jazyk R ťažko ovládateľný. Jazyk bol neprehľadný a nebol tak štruktúrovaný ako ostatné programovacie nástroje. Na prekonanie tohto veľkého problému vyvinul Hadley Wickham kolekciu balíkov s názvom tidyverse. Najlepšie sa zmenilo pravidlo hry. Manipulácia s údajmi sa stáva triviálnou a intuitívnou. Vytvorenie grafu už nebolo také ťažké.
Najlepšie algoritmy pre strojové učenie je možné implementovať s programom R. Balíky ako Keras a TensorFlow umožňujú vytvárať špičkové techniky strojového učenia. R má tiež balík na vykonávanie Xgboost, jedného z najlepších algoritmov pre Kaggleovu konkurenciu.
R môže komunikovať s iným jazykom. V jazyku R. je možné volať Python, Java, C ++. Svet veľkých dát je prístupný aj v prostredí R. Môžete spojiť R s rôznymi databázami, ako sú Spark alebo Hadoop.
Nakoniec sa vyvinul R a umožnil paralelnej prevádzke urýchliť výpočet. V skutočnosti bol R kritizovaný za to, že súčasne používal iba jeden procesor. Paralelný balík umožňuje vykonávať úlohy v rôznych jadrách stroja.
Zhrnutie
Stručne povedané, R je vynikajúci nástroj na skúmanie a vyšetrovanie údajov. Vypracované analýzy ako klastrovanie, korelácia a redukcia dát sa vykonávajú s R. Toto je najdôležitejšia časť, bez dobrého inžinierstva funkcií a modelu nebude nasadenie strojového učenia dávať zmysluplné výsledky.