Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky
bežné čistenie dát úlohou je odstrániť chyby vo formátovaní . To by mohlo byť niečo tak jednoduchého ako preklepy urobených v priebehu zberu dát alebo vstupu , a to až k problémom s symbol slúži k samostatnej položky . Predstavte si napríklad , nasledujúce údaj je vnútri dátového súboru , kde je apostrof používa na samostatné položky :
vtáctva " Club'42 Beacon Street'Boston
To by sa čítať ako :
Bird WatchersClub42 Beacon StreetBoston
Automatizované otázky a programy sú často používané na čistenie dát o tejto chybe .
Integrácia
Niektoré dátové súbory sú v poriadku , ale sám sa stal problematickým , akonáhle sú integrované do väčšieho úložiska alebo dátového skladu . Napríklad , veku môžu byť uložené ako dátum narodenia :
dd /mm /yymm /dd /yyyy
Alebo rozsah :
20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45
V niektorých prípadoch , ako je dátum narodenia formátovanie , to je celkom jednoduché identifikovať sémantickej štruktúry a štandardizovať položky . V prípadoch , ako sú vekové kategórie však musí byť predpoklady . Napríklad , je počet osôb vo veku 25-35 priemer ľudí vo veku 20-30 a 30-40
Odľahlé hodnoty
Outliers sú ? dátové body , ktoré ležia ďaleko od ostatných dát . Napríklad vek 600 , alebo skúšobné skóre niekoľkonásobne vyššia , než je priemer . V prvom prípade sa môžete bezpečne predpokladať , že je to preklep , ale v druhej to nie je tak zrejmé . Ak neviete , či extrémna hodnota je chyba , alebo legitímne dátový bod , je to vaše rozhodnutie , či chcete odstrániť , alebo nie , s prihliadnutím na účel dát .
Chýbajúce dáta
Musíte sa tiež rozhodnúť , čo robiť , ak nejaké údaje chýbajú. Po prvé , vzory by mali byť identifikované pomocou dotazov a štatistických analýz - rozdelenie chýbajúcich údajov určuje , čo by ste mali urobiť . Napríklad , ak on - line prieskumu má dve stránky , ale iba otázky , na prvej strane boli zodpovedané , môžu byť tieto informácie použité k pomôcť vylepšiť formulára . Ak chýbajú údaje sú náhodne rozdelené a je na rovnakej premennej , je niekedy možné vykonať odhady založené na tom , čo je už známe .
Copyright © počítačové znalosti Všetky práva vyhradené