Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky
Štruktúrované údaje: Tieto údaje sú usporiadané v preddefinovanom formáte, často relačných databázach alebo tabuľkách. Príklady zahŕňajú:
* CSV (hodnoty oddelené čiarky): Jednoduchý textový súbor, kde hodnoty sú oddelené čiarkami. Veľmi časté na import a vývoz údajov.
* tsv (hodnoty oddelené karta): Podobne ako v prípade CSV, ale používa karty ako oddeľovače.
* json (notácia objektu JavaScript): Formát textu čitateľného človeka na reprezentáciu štruktúrovaných údajov. Široko používané na webové rozhrania a výmenu údajov.
* xml (rozsiahly znak jazyk): Znakovací jazyk, ktorý definuje súbor pravidiel pre kódovanie dokumentov vo formáte, ktorý je čitateľný a čitateľný strojom.
* SQL Databázy (napr. MySQL, Postgresql, Oracle, SQL Server): Tieto ukladajú údaje v relačných tabuľkách, ku ktorým sa dostáva prostredníctvom dopytov SQL. Samotná databáza je vstup, nie jediný súbor.
* tabuľky tabuliek (napr. XLSX, XLS): Súbory vytvorené programami ako Microsoft Excel alebo Google Sheets.
pološtrukturované údaje: Údaje, ktoré prísne nezodpovedajú preddefinovaným modelom, ale stále majú niektoré organizačné vlastnosti. Príklady:
* protokolové súbory: Textové súbory zaznamenávajú udalosti a akcie v systéme.
* json s variáciami schém: Údaje JSON, kde sa štruktúra môže medzi záznamami mierne líšiť.
* XML súbory bez prísnej schémy: Údaje XML, kde štruktúra nie je prísne presadzovaná.
Neštruktúrované údaje: Údaje bez preddefinovaného formátu alebo organizácie. Príklady zahŕňajú:
* Textové dokumenty (.txt, .doc, .pdf): Dokumenty o spracovaní slov, PDF atď. Na analýzu často vyžadujú techniky spracovania prirodzeného jazyka (NLP).
* obrázky (.jpg, .png, .gif): Obrazové súbory používané na rozpoznávanie a analýzu obrázkov.
* audio súbory (.mp3, .wav): Zvukové súbory na rozpoznávanie reči a zvukovú analýzu.
* video súbory (.mp4, .avi): Video súbory na analýzu videa.
Ostatné zdroje údajov: Vstup nie je vždy zo súborov. Informačný systém môže tiež prijímať vstup od:
* Apis (rozhrania programovania aplikácií): Povoliť komunikáciu medzi rôznymi softvérovými systémami.
* Databázy (ako je uvedené vyššie): Priamo dotazovanie a prijímanie údajov z databázy.
* Senzory: Zhromažďovanie údajov z fyzikálnych senzorov (teplota, tlak atď.).
* Streamovacie údaje: Dátové toky v reálnom čase z rôznych zdrojov.
Použité konkrétne dátové súbory závisia výlučne od aplikácie. Systém miezd môže používať súbor údajov o zamestnancoch CSV, zatiaľ čo model strojového učenia môže používať veľký dátový súbor obrázkov. Pochopenie vstupných údajov je rozhodujúce pre vývoj a udržiavanie akéhokoľvek informačného systému.