Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky

Domáce Hardware Siete Programovanie Softvér Otázka Systémy

Čistenie dát a kódovanie postupy

Pri analýze dát , je nielen nutné mať dostatočne veľkú sumu , ale je tiež veľmi dôležité , že kvalita dát je na vysokej úrovni . Dáta môžu byť " špinavé " v mnohých ohľadoch - chyby pri zbere , chyby urobené pri integrácii viacerých dátových sád a náhodnému zmazanie je len málo takých spôsobov . Z tohto dôvodu je dôležité , aby údaje sa čistí pred použitím . Chýbajúce dáta

Automatizované postupy sú často používané na nájdenie chýbajúcich údajov . To by mohlo byť SQL dotazov v databáze , alebo štatistické analýzy . Ako analytik sa pozriete na vzory v šírení chýbajúcich údajov . Tie potom rozhodujú o tom , čo robiť , ktoré môžu byť s výnimkou určité ukazovatele spolu , alebo nahradí ich hodnoty s priemermi . Niekedy chýbajúce údaje môžu naznačovať chyby pri integrácii viacerých dátových sád , a v najhoršom prípade môže byť celý proces sa bude opakovať získať všetky údaje .
Odľahlé hodnoty

odľahlých hodnôt je hodnota údaja , ktorý je tak mimo všeobecnej štruktúry dát . Môžu byť identifikované s grafmi , ako je box pozemkov , alebo pri pohľade na hodnoty určitý počet štandardných odchýlok od priemeru . Po identifikácii sa musíte rozhodnúť , či chcete odstrániť , alebo nie - , ktorá zahŕňa rozhodovanie o tom , či boli chyby v zbere dát , alebo skutočné hodnoty . Niekedy , možno budete chcieť spustiť určité postupy a bez odľahlých hodnôt , porovnávať výsledky .
Chyby formátovania

Světštější chyby v súbore dát môže byť preklepy alebo iné podobné chyby . Otázky môžu byť použité na hľadanie a nahradzovanie zjavné chyby , ako sú preklepy názvy alebo umiestnenie , ale môžu byť tiež použité pre zvýraznenie dátových bodov , ktoré by mohli potrebovať čistenie . Napríklad , môžete spustiť vyhľadávanie pre priezvisko alebo telefónnych čísiel nad a pod určitú dĺžku , nájsť chyby , ktoré sa vyskytli niekde zberu dát a integračného procesu .
Kódovanie

je bežné , že údaje , ktoré spočiatku vo formáte , ktorý je nevhodný pre analýzu . Napríklad môže byť potrebné odpovede prieskumu , ktoré budú prevedené na číselné ekvivalent , napríklad od " rozhodne súhlasím " až " 7 " , alebo môže byť nutné previesť do binárnych premenných ukazovateľov kategorické premenné , ako je pohlavie . To sa nazýva kódovanie alebo prekódovanie , a to je dobrá prax na vytvorenie novej premennej s novo kódovaných dát , skôr ako prepísať tie staré , takže chyby môžu byť spätne kontrolovať .

Najnovšie články

Copyright © počítačové znalosti Všetky práva vyhradené