Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky
Automatizované postupy sú často používané na nájdenie chýbajúcich údajov . To by mohlo byť SQL dotazov v databáze , alebo štatistické analýzy . Ako analytik sa pozriete na vzory v šírení chýbajúcich údajov . Tie potom rozhodujú o tom , čo robiť , ktoré môžu byť s výnimkou určité ukazovatele spolu , alebo nahradí ich hodnoty s priemermi . Niekedy chýbajúce údaje môžu naznačovať chyby pri integrácii viacerých dátových sád , a v najhoršom prípade môže byť celý proces sa bude opakovať získať všetky údaje .
Odľahlé hodnoty
odľahlých hodnôt je hodnota údaja , ktorý je tak mimo všeobecnej štruktúry dát . Môžu byť identifikované s grafmi , ako je box pozemkov , alebo pri pohľade na hodnoty určitý počet štandardných odchýlok od priemeru . Po identifikácii sa musíte rozhodnúť , či chcete odstrániť , alebo nie - , ktorá zahŕňa rozhodovanie o tom , či boli chyby v zbere dát , alebo skutočné hodnoty . Niekedy , možno budete chcieť spustiť určité postupy a bez odľahlých hodnôt , porovnávať výsledky .
Chyby formátovania
Světštější chyby v súbore dát môže byť preklepy alebo iné podobné chyby . Otázky môžu byť použité na hľadanie a nahradzovanie zjavné chyby , ako sú preklepy názvy alebo umiestnenie , ale môžu byť tiež použité pre zvýraznenie dátových bodov , ktoré by mohli potrebovať čistenie . Napríklad , môžete spustiť vyhľadávanie pre priezvisko alebo telefónnych čísiel nad a pod určitú dĺžku , nájsť chyby , ktoré sa vyskytli niekde zberu dát a integračného procesu .
Kódovanie
je bežné , že údaje , ktoré spočiatku vo formáte , ktorý je nevhodný pre analýzu . Napríklad môže byť potrebné odpovede prieskumu , ktoré budú prevedené na číselné ekvivalent , napríklad od " rozhodne súhlasím " až " 7 " , alebo môže byť nutné previesť do binárnych premenných ukazovateľov kategorické premenné , ako je pohlavie . To sa nazýva kódovanie alebo prekódovanie , a to je dobrá prax na vytvorenie novej premennej s novo kódovaných dát , skôr ako prepísať tie staré , takže chyby môžu byť spätne kontrolovať .
Copyright © počítačové znalosti Všetky práva vyhradené