Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky

Domáce Hardware Siete Programovanie Softvér Otázka Systémy

Čistenie dát Metódy

Údaje čistenie - inak známy ako čistenie dát alebo čistenie - je proces odhaľovanie a nápravu chýb , nezrovnalostí a opomenutia v dátach . Obrovské množstvo dát sú zhromažďované a analyzované politikov , ekonómov a vedcov , ale chyby v dátach - ktoré môžu mať vplyv na jeho spracovanie a závery z neho - sú bežné a možno očakávať . Existuje niekoľko spôsobov čistenia dát , a to ako tradičné a automatizované . Štatistické metódy

Štatistické metódy môžu byť použité , aby skontrolovali údaje a správne aj komplexné chybu . Štatistík možno analyzovať priemer , smerodajnú odchýlku a rozsah dátových hodnôt , a tým , identifikovať jednotlivé záznamy v databáze (n - tica ) , ktoré sú neplatné . Tieto záznamy môžu byť odstránené alebo nahradené priemernou alebo iné štatistické hodnoty . Štatistické metódy čistenia dát môže tiež signalizovať chýbajúce hodnoty , ktoré môžu byť vyplnené možných hodnôt založených na zvyšnej časti dátového súboru .
Čistenie dát Nástroje

dát čistiace nástroje existujú už niekoľko rokov . Automatické čistenie dát nástroje zvyčajne zameriavajú na konkrétne databázy domény - ktorý definuje možné hodnoty , než je možné zadať do každého poľa , alebo vlastnosť - napríklad meno a adresných dát . Oni zvyčajne použiť sadu zodpovedajúcich pravidiel z knižnice , alebo dodáva interaktívne užívateľom , overiť názvy ulíc , názvy miest a zips kódy a transformovať existujúce dáta do jednotlivých , štandardné prvky . Oni používajú záznam prispôsobenie určiť , či dva záznamy predstavujú údaje o rovnakom téme a sú schopní spojiť jednotlivca záznamy , ktoré majú , povedzme , na rovnakú adresu . Údaje čistiace nástroje sa môže líšiť v úrovni prepracovanosti s ohľadom na audítorské dát , čistenie a migrácia .
ETL nástroje

ETL je skratka pre " Extract , Transform , Load " a existuje mnoho komerčných softvérových nástrojov , ktorých účelom je pomáhať ETL proces čistenia dát . Medzi dôležité charakteristiky efektívneho ETL nástroja je jeho schopnosť čítať zdrojové dáta priamo a očistiť a transformáciu dát , spolu s jeho podporou metadát . Metadáta je dokumentácia alebo informácie o konkrétny kus dát a môže pomôcť užívateľovi detekovať chyby a nezrovnalosti v údajoch , ktoré nemusia nutne byť identifikované samotným ETL nástroje . ETL nástroje zvyčajne poskytujú knižnicu funkcií a schém pre transformáciu dát - konverzia dátových typov , aritmetické funkcie , reťazcové funkcie , atď - a môžete extrahovať dáta z voľného tvaru dátových zdrojov , s určitými obmedzeniami , rovnako ako cez štandardné rozhranie ODBC ( " Open Database Connectivity " ) a EDA ( " Electronic Design Automation " ) rozhranie .

Najnovšie články

Copyright © počítačové znalosti Všetky práva vyhradené