Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky

Domáce Hardware Siete Programovanie Softvér Otázka Systémy

Ako vytvoriť webové Spider

web pavúk je počítačová aplikácia , ktorá sťahuje webové stránky , a potom nasleduje všetky odkazy na tejto stránke a stiahne je rovnako . Web pavúky sa používa na ukladanie webových stránok pre offline čítanie , alebo pre ukladanie webových stránok do databáz , ktoré majú byť použité vyhľadávače . Vytvorenie webového pavúka je náročná úloha , vhodný pre programovanie triedu vysokoškolskej úrovni . Tieto pokyny predpokladajú , máte solídne skúsenosti s programovaním , ale žiadnu znalosť pavúka architektúry . Kroky vyložiť veľmi špecifickú architektúru pre písanie webového pavúka vo vami zvolenom jazyku . Veci , ktoré budete potrebovať klipart webový prehliadač , ktorý reaguje na programové príkazy
programovací jazyk s pre čítanie a zápis prístup k disku a databázové funkcie
Zobraziť ďalšie inštrukcie Cestuj 1

inicializovať program s počiatočnou webové stránky , ktoré chcete stiahnuť . Pridať URL na túto stránku do novej databázovej tabuľky adries URL .
2

Odoslať príkaz do webovom prehliadači inštruuje ho , aby priniesla túto webovú stránku a uložte ho na disk . Presuňte ukazovateľ databázy vpred o jeden krok v minulosti na adresu URL ste práve stiahli , ktorý bude teraz ukazovať na koniec tabuľky .
3

Prečítajte si webové stránky do programu , a analyzovať je pre odkazy na ďalšie webové stránky . To sa zvyčajne vykonáva hľadaním texte reťazec " http://" , a zachytiť text medzi týmto reťazcom a ukončovacie znak ( napríklad " " , " . " , Alebo " > " ) . Pridať tieto odkazy na stole URL databázy , ukazovateľ databáza by mala zostať na vrchole tohto nového zoznamu
4

Otestujte položky v tabuľke databázy pre jedinečnosti , a odstráňte všetky adresy URL , ktoré sa objaví viac ako raz . .
5

Ak chcete použiť URL filter ( napríklad, aby sa zabránilo sťahovanie stránok z webových stránok na rôznych doménach ) , platí to teraz na stole URL databázy a odstráňte všetky adresy URL , ktoré nechcete k stiahnutiu .
6

Nastaviť programové slučky tak , aby vaša pavúk sa vráti ku kroku 2 vyššie . To bude rekurzívne sťahovať všetky adresy URL vašich pavúk stretnutie . Odstránenie duplicitných URL zaisťuje , že pavúk bude riadne ukončená , keď dosiahne posledného jedinečnú adresu URL .

Najnovšie články

Copyright © počítačové znalosti Všetky práva vyhradené