Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky

Domáce Hardware Siete Programovanie Softvér Otázka Systémy

Údaje Upratovacie Teória

Chyby môžu byť vykonané počas zberu a integrácie dát , a analytici potrebujú vedieť , ako identifikovať a napraviť tieto chyby . To sa nazýva čistenie dát , alebo dát drhnutie . To nie je exaktná veda , a niekedy aj rozhodnutie o tom , čo urobiť , je založený na úsudku analytika , ale ona vie , že je nielen dôležité mať dostatočné množstvo dát - to musí byť renomovanej kvality , príliš . Sémantika a formátovanie

bežné čistenie dát úlohou je odstrániť chyby vo formátovaní . To by mohlo byť niečo tak jednoduchého ako preklepy urobených v priebehu zberu dát alebo vstupu , a to až k problémom s symbol slúži k samostatnej položky . Predstavte si napríklad , nasledujúce údaj je vnútri dátového súboru , kde je apostrof používa na samostatné položky :

vtáctva " Club'42 Beacon Street'Boston

To by sa čítať ako :

Bird WatchersClub42 Beacon StreetBoston

Automatizované otázky a programy sú často používané na čistenie dát o tejto chybe .
Integrácia

Niektoré dátové súbory sú v poriadku , ale sám sa stal problematickým , akonáhle sú integrované do väčšieho úložiska alebo dátového skladu . Napríklad , veku môžu byť uložené ako dátum narodenia :

dd /mm /yymm /dd /yyyy

Alebo rozsah :

20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45

V niektorých prípadoch , ako je dátum narodenia formátovanie , to je celkom jednoduché identifikovať sémantickej štruktúry a štandardizovať položky . V prípadoch , ako sú vekové kategórie však musí byť predpoklady . Napríklad , je počet osôb vo veku 25-35 priemer ľudí vo veku 20-30 a 30-40
Odľahlé hodnoty

Outliers sú ? dátové body , ktoré ležia ďaleko od ostatných dát . Napríklad vek 600 , alebo skúšobné skóre niekoľkonásobne vyššia , než je priemer . V prvom prípade sa môžete bezpečne predpokladať , že je to preklep , ale v druhej to nie je tak zrejmé . Ak neviete , či extrémna hodnota je chyba , alebo legitímne dátový bod , je to vaše rozhodnutie , či chcete odstrániť , alebo nie , s prihliadnutím na účel dát .
Chýbajúce dáta

Musíte sa tiež rozhodnúť , čo robiť , ak nejaké údaje chýbajú. Po prvé , vzory by mali byť identifikované pomocou dotazov a štatistických analýz - rozdelenie chýbajúcich údajov určuje , čo by ste mali urobiť . Napríklad , ak on - line prieskumu má dve stránky , ale iba otázky , na prvej strane boli zodpovedané , môžu byť tieto informácie použité k pomôcť vylepšiť formulára . Ak chýbajú údaje sú náhodne rozdelené a je na rovnakej premennej , je niekedy možné vykonať odhady založené na tom , čo je už známe .

Najnovšie články

Copyright © počítačové znalosti Všetky práva vyhradené