Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky
Tu je rozpis ich účelu:
* Čistenie údajov: Zahŕňa to spracovanie chýbajúcich hodnôt, opravu chýb a odstránenie nezrovnalostí alebo irelevantné informácie.
* Transformácia údajov: To zahŕňa meniace sa typy údajov (napr. Prevod textu na čísla), hodnoty škálovania (napr. Normalizácia, štandardizácia) a údaje o reštrukturalizácii (napr. Tabuľky otáčania).
* Obohatenie údajov: Pridanie kontextu alebo ďalšie informácie do údajov z externých zdrojov na zlepšenie jeho užitočnosti. Napríklad pridanie údajov o geolokácii na adresu alebo obohatenie údajov o zákazníkoch pomocou profilov sociálnych médií.
* Formátovanie údajov: Zabezpečenie údajov je v súlade s očakávaným formátom vyžadovaným komponentmi spracovania po prúde. To by mohlo zahŕňať konverziu typov súborov, zmenu delimitorov alebo dodržiavanie konkrétnych schém.
* Funkcia Engineering: Vytváranie nových funkcií (premenné) z existujúcich funkcií na zlepšenie výkonu modelov strojového učenia alebo iných analytických procesov.
Zdroje transformácie vstupov v podstate zabezpečujú, že údaje sú čisté, konzistentné, relevantné a v správnom formáte, aby ich systém efektívne využíval. Bez nich by sa systém snažil zvládnuť surové, nekonzistentné údaje, čo by viedlo k nepresným výsledkom alebo zlyhaniu systému. Príklady takýchto zdrojov zahŕňajú procesy ETL (extrakt, transformácia, zaťaženie), knižnice predbežného spracovania údajov v programovacích jazykoch (napríklad Scikit-Learn v Pythone) a špecializované nástroje transformácie údajov.