Top 50 otázok a odpovedí na otázky týkajúce sa dátových vied

Anonim

Nasledujú časté otázky pri prijímacích pohovoroch pre čerstvých aj skúsených Data Scientist.

1. Čo je to Data Science?

Dátová veda je kombináciou algoritmov, nástrojov a techniky strojového učenia, ktorá vám pomôže nájsť bežné skryté vzory z daných nespracovaných údajov.

2. Čo je logistická regresia v oblasti dátovej vedy?

Logistická regresia sa tiež nazýva ako logitový model. Je to metóda na predpovedanie binárneho výsledku z lineárnej kombinácie predikčných premenných.

3. Vymenujte tri typy predsudkov, ktoré sa môžu vyskytnúť počas vzorkovania

V procese vzorkovania existujú tri typy predsudkov, ktoré sú:

  • Predpätie výberu
  • Podpätie krytia
  • Predpojatosť o prežitie

4. Diskutujte o algoritme rozhodovacieho stromu

Rozhodovací strom je populárny algoritmus strojového učenia pod dohľadom. Používa sa hlavne na regresiu a klasifikáciu. Umožňuje rozdeliť množinu údajov na menšie podmnožiny. Rozhodovací strom dokáže spracovať kategorické aj číselné údaje.

5. Aká je Prior pravdepodobnosť a pravdepodobnosť?

Predchádzajúca pravdepodobnosť je podiel závislej premennej v súbore údajov, zatiaľ čo pravdepodobnosť je pravdepodobnosť klasifikácie daného pozorovateľa v prítomnosti nejakej inej premennej.

6. Vysvetlite odporúčacie systémy?

Je to podtrieda techník filtrovania informácií. Pomáha vám predpovedať preferencie alebo hodnotenia, ktoré používatelia pravdepodobne dajú produktu.

7. Vymenujte tri nevýhody použitia lineárneho modelu

Tri nevýhody lineárneho modelu sú:

  • Predpoklad linearity chýb.
  • Tento model nemôžete použiť na binárne účely ani na počítanie výsledkov
  • Existuje veľa prehnaných problémov, ktoré nedokáže vyriešiť

8. Prečo je potrebné vykonať vzorkovanie?

Prevzorkovanie sa vykonáva v nižšie uvedených prípadoch:

  • Odhad presnosti štatistík vzoriek náhodným čerpaním s nahradením zo súboru údajového bodu alebo použitím ako podmnožiny prístupných údajov
  • Nahradenie štítkov v údajových bodoch pri vykonaní potrebných testov
  • Validácia modelov pomocou náhodných podmnožín

9. Uveďte zoznam knižníc v Pythone používaných na analýzu údajov a vedecké výpočty.

  • SciPy
  • Pandy
  • Matplotlib
  • NumPy
  • SciKit
  • Seaborn

10. Čo je analýza výkonu?

Analýza výkonu je neoddeliteľnou súčasťou experimentálneho návrhu. Pomôže vám to určiť veľkosť vzorky, ktorá je potrebná na zistenie účinku danej veľkosti na konkrétnu úroveň istoty. Umožňuje vám tiež nasadiť konkrétnu pravdepodobnosť pri obmedzení veľkosti vzorky.

11. Vysvetlite spoločné filtrovanie

Kolaboratívne filtrovanie sa používa na hľadanie správnych vzorov pomocou spolupráce hľadísk, viacerých zdrojov údajov a rôznych agentov.

12. Čo je zaujatosť?

Vychýlenie je chyba zavedená vo vašom modeli z dôvodu nadmerného zjednodušenia algoritmu strojového učenia. „Môže to viesť k nedostatočnému vybaveniu.

13. Diskutujte o algoritme Naive v algoritme Naive Bayes?

Model Naive Bayesovho algoritmu je založený na Bayesovej vete. Opisuje pravdepodobnosť udalosti. Je založená na predchádzajúcej znalosti podmienok, ktoré by mohli súvisieť s touto konkrétnou udalosťou.

14. Čo je to lineárna regresia?

Lineárna regresia je metóda štatistického programovania, pri ktorej sa skóre premennej „A“ predpovedá zo skóre druhej premennej „B“. B sa označuje ako predikčná premenná a A ako premenná kritéria.

15. Uveďte rozdiel medzi očakávanou a strednou hodnotou

Nie je ich veľa, ale oba tieto pojmy sa používajú v rôznych kontextoch. Priemerná hodnota sa všeobecne označuje, keď diskutujete o rozdelení pravdepodobnosti, zatiaľ čo očakávaná hodnota sa označuje v kontexte náhodnej premennej.

16. Aký je cieľ vykonania A / B testovania?

Testovanie AB sa používa na vykonávanie náhodných experimentov s dvoma premennými, A a B. Cieľom tejto testovacej metódy je zistiť zmeny na webovej stránke, aby sa maximalizoval alebo zvýšil výsledok stratégie.

17. Čo je to Ensemble Learning?

Súbor predstavuje metódu kombinovania rozmanitej skupiny študentov, ktorí tak majú improvizovať v oblasti stability a prediktívnej sily modelu. Dva typy učebných metód súboru Ensemble sú:

Vrecovanie

Metóda vrecovania vám pomôže implementovať podobných študentov na malých populáciách vzoriek. Pomáha vám robiť bližšie predpovede.

Zvyšovanie

Posilnenie je iteračná metóda, ktorá umožňuje upraviť váhu pozorovania v závislosti od poslednej klasifikácie. Posilnenie zníži chybu predpätia a pomôže vám zostaviť silné prediktívne modely.

18. Vysvetlite vlastné číslo a vlastný vektor

Vlastné vektory slúžia na pochopenie lineárnych transformácií. Dátový vedec musí vypočítať vlastné vektory pre kovariančnú maticu alebo koreláciu. Vlastné hodnoty sú smery využívajúce konkrétne činy lineárnej transformácie komprimovaním, prevracaním alebo rozťahovaním.

19. Definujte pojem krížová validácia

Krížová validácia je technika validácie na vyhodnotenie toho, ako sa výsledky štatistickej analýzy zovšeobecnia pre nezávislý súbor údajov. Táto metóda sa používa v prostredí, kde sa predpovedá cieľ, a je potrebné odhadnúť, ako presne bude model dosahovať.

20. Vysvetlite kroky týkajúce sa projektu analýzy údajov

Nasledujú dôležité kroky spojené s analytickým projektom:

  • Pochopte obchodný problém
  • Preskúmajte údaje a pozorne ich študujte.
  • Pripravte údaje na modelovanie nájdením chýbajúcich hodnôt a transformáciou premenných.
  • Spustite model a analyzujte výsledok Big Data.
  • Overte model pomocou novej množiny údajov.
  • Implementujte model a sledujte výsledok s cieľom analyzovať výkonnosť modelu za konkrétne obdobie.

21. Diskutujte o umelých neurónových sieťach

Umelé neurónové siete (ANN) sú špeciálnou sadou algoritmov, ktoré spôsobili revolúciu v strojovom učení. Pomáha vám prispôsobiť sa meniacemu sa vstupu. Sieť teda generuje najlepší možný výsledok bez nového návrhu výstupných kritérií.

22. Čo je spätná propagácia?

Spätné šírenie je podstatou tréningu neurónovej siete. Je to spôsob ladenia váh neurónovej siete závislý od chybovosti získanej v predchádzajúcej epoche. Správne vyladenie systému vám pomôže znížiť chybovosť a zvýšiť spoľahlivosť modelu zvýšením jeho zovšeobecnenia.

23. Čo je to Náhodný les?

Náhodný les je metóda strojového učenia, ktorá vám pomáha vykonávať všetky typy regresných a klasifikačných úloh. Používa sa tiež na ošetrenie chýbajúcich a odľahlých hodnôt.

24. Aký význam má zaujatosť výberu?

Predpätie výberu nastáva, keď sa nedosiahne žiadna konkrétna randomizácia pri výbere jednotlivcov, skupín alebo údajov, ktoré sa majú analyzovať. Naznačuje to, že daná vzorka nereprezentuje presne populáciu, ktorá sa mala analyzovať.

25. Čo je to metóda zhlukovania K-means?

K-means clustering je dôležitá metóda učenia bez dozoru. Je to technika klasifikácie údajov pomocou určitej skupiny klastrov, ktorá sa nazýva K klastre. Nasadzuje sa na zoskupovanie, aby sa zistila podobnosť údajov.

26. Vysvetlite rozdiel medzi Data Science a Data Analytics

Vedci v oblasti údajov musia rozdeliť údaje, aby získali cenné poznatky, ktoré môže analytik údajov použiť na obchodné scenáre v reálnom svete. Hlavný rozdiel medzi nimi spočíva v tom, že vedci v oblasti údajov majú viac technických znalostí ako analytik v odbore. Navyše nepotrebujú porozumieť podnikaniu požadovanému pre vizualizáciu údajov.

27. Vysvetlite p-hodnotu?

Keď vykonáte test hypotézy v štatistike, hodnota p vám umožní určiť silu vašich výsledkov. Je to číselné číslo od 0 do 1. Na základe hodnoty vám pomôže naznačiť silu konkrétneho výsledku.

28. Definujte pojem hlboké učenie

Deep Learning je podtyp strojového učenia. Zaoberá sa algoritmami inšpirovanými štruktúrou nazývanou umelé neurónové siete (ANN).

29. Vysvetlite metódu zhromažďovania a analýzy údajov na použitie sociálnych médií na predpovedanie poveternostných podmienok.

Údaje sociálnych médií môžete zhromažďovať pomocou rozhraní Facebook, Twitter, API spoločnosti Instagram. Napríklad pre výškový reproduktor môžeme z každého tweetu zostaviť funkciu, ako je dátum tweetu, retweety, zoznam sledujúcich atď. Potom môžete na predpovedanie poveternostných podmienok použiť model časových radov s viacerými premennými.

30. Kedy potrebujete aktualizovať algoritmus v Data science?

Algoritmus musíte aktualizovať v nasledujúcej situácii:

  • Chcete, aby sa váš dátový model vyvíjal ako dátové toky pomocou infraštruktúry
  • Zdrojový zdroj údajov sa mení

    Ak je to nestacionárnosť

31. Čo je to normálne rozdelenie

Normálne rozdelenie je množina spojitej premennej šíriacej sa cez normálnu krivku alebo v tvare zvonovej krivky. Môžete to považovať za nepretržité rozdelenie pravdepodobnosti, ktoré je užitočné v štatistike. Je užitočné analyzovať premenné a ich vzťahy, keď používame krivku normálneho rozdelenia.

32. Ktorý jazyk je najlepší pre textovú analýzu? R alebo Python?

Python bude vhodnejší na textovú analýzu, pretože pozostáva z bohatej knižnice známej ako pandy. Umožňuje vám používať nástroje na analýzu údajov a dátové štruktúry na vysokej úrovni, zatiaľ čo R. túto funkciu neponúka.

33. Vysvetlite výhody použitia štatistík dátovými vedcami

Štatistiky pomáhajú dátovým vedcom získať lepšiu predstavu o očakávaní zákazníka. Pomocou štatistickej metódy Data Scientists môžu získať vedomosti týkajúce sa záujmov spotrebiteľov, správania, angažovanosti, retencie atď. Pomáha vám tiež zostaviť výkonné dátové modely na overenie určitých záverov a predpovedí.

34. Vymenujte rôzne typy rámcov hlbokého vzdelávania

  • Pytorch
  • Microsoft Cognitive Toolkit
  • TensorFlow
  • Caffe
  • Chainer
  • Keras

35. Vysvetlite automatický kódovač

Automatické kódovače sa učia siete. Pomôže vám transformovať vstupy na výstupy s menším počtom chýb. To znamená, že výstup bude mať čo najbližšie k vstupu.

36. Definujte Boltzmannov stroj

Boltzmann machines je jednoduchý algoritmus učenia. Pomôže vám to odhaliť tie funkcie, ktoré predstavujú komplexné zákonitosti údajov o tréningu. Tento algoritmus umožňuje optimalizovať váhy a množstvo pre daný problém.

37. Vysvetlite, prečo je čistenie údajov nevyhnutné a akú metódu používate na udržanie čistých údajov

Špinavé údaje často vedú k nesprávnemu obsahu, ktorý môže poškodiť vyhliadky akejkoľvek organizácie. Napríklad ak chcete spustiť cielenú marketingovú kampaň. Naše údaje vám však nesprávne hovoria, že konkrétny produkt bude požadovaný u vášho cieľového publika; kampaň zlyhá.

38. Čo je skreslená distribúcia a jednotná distribúcia?

Šikmé rozdelenie nastáva, ak sú údaje distribuované na ktorejkoľvek strane grafu, zatiaľ čo rovnomerné rozdelenie je identifikované, keď sú údaje rozšírené v rovnakom rozsahu.

39. Keď sa v statickom modeli vyskytne nedostatočné vybavenie?

K nedostatočnému vybaveniu dochádza, keď štatistický model alebo algoritmus strojového učenia nedokáže zachytiť základný trend údajov.

40. Čo je posilňovacie učenie?

Reinforcement Learning je vzdelávací mechanizmus, ako mapovať situácie na činy. Konečný výsledok by vám mal pomôcť zvýšiť signál binárnej odmeny. Pri tejto metóde sa študentovi nehovorí, ktorú akciu má podniknúť, ale musí zistiť, ktorá akcia ponúka maximálnu odmenu. Pretože táto metóda je založená na mechanizme odmeny / pokuty.

41. Vymenujte bežne používané algoritmy.

Štyri najbežnejšie používané algoritmy Data scientist sú:

  • Lineárna regresia
  • Logistická regresia
  • Náhodný les
  • KNN

42. Čo je presnosť?

Presnosť je najbežnejšie používanou chybovou metrikou v klasifikačnom mechanizme. Jeho rozsah je od 0 do 1, kde 1 predstavuje 100%

43. Čo je to jednorozmerná analýza?

Analýza, ktorá sa súčasne aplikuje na žiadny atribút, sa nazýva jednorozmerná analýza. Boxplot je široko používaný, jednorozmerný model.

44. Ako prekonávate výzvy vo svojich zisteniach?

Aby bolo možné prekonať výzvy môjho zistenia, je potrebné povzbudiť diskusiu, preukázať vedenie a rešpektovať rôzne možnosti.

45. Vysvetlite techniku ​​vzorkovania klastrov v dátovej vede

Metóda klastrového vzorkovania sa používa, ak je náročné študovať rozloženie cieľovej populácie naprieč a nemožno použiť jednoduchý náhodný výber.

46. ​​Uveďte rozdiel medzi validačnou sadou a testovacou sadou

Validačná sada sa väčšinou považuje za súčasť tréningovej sady, pretože sa používa na výber parametrov, ktoré vám pomôžu vyhnúť sa nadmernému vybavovaniu zostavovaného modelu.

Zatiaľ čo sa testovacia sada používa na testovanie alebo hodnotenie výkonu trénovaného modelu strojového učenia.

47. Vysvetlite pojem vzorec binomickej pravdepodobnosti?

„Binomické rozdelenie obsahuje pravdepodobnosti každého možného úspechu v N pokusoch o nezávislé udalosti, u ktorých je pravdepodobnosť výskytu π.“

48. Čo je to stiahnutie z trhu?

Odvolanie je pomer skutočnej kladnej sadzby k skutočnej kladnej sadzbe. Pohybuje sa od 0 do 1.

49. Diskutujte o normálnom rozdelení

Normálne rozdelenie rovnomerne rozdelené ako také, priemer, stredná hodnota a režim sú rovnaké.

50. Ako môžete pri práci na množine údajov vybrať dôležité premenné? Vysvetlite

Môžete použiť nasledujúce spôsoby výberu premenných:

  • Pred výberom dôležitých premenných odstráňte korelované premenné
  • Použite lineárnu regresiu a vyberte premenné, ktoré závisia od týchto hodnôt p.
  • Použite spätný, predný výber a stupňovitý výber
  • Použite Xgboost, Random Forest a vykreslite graf dôležitosti premenných.
  • Zmerajte zisk informácií pre danú množinu funkcií a podľa toho vyberte najlepších n funkcií.

51. Je možné zachytiť koreláciu medzi spojitou a kategorickou premennou?

Áno, môžeme použiť analýzu techniky kovariancie na zachytenie asociácie medzi spojitými a kategorickými premennými.

52. Výsledkom zaobchádzania s kategorickou premennou ako so spojitou premennou by bol lepší prediktívny model?

Áno, kategorická hodnota by sa mala považovať za spojitú premennú, iba ak má premenná ordinálny charakter. Je to teda lepší prediktívny model.