Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky
inicializovať program s počiatočnou webové stránky , ktoré chcete stiahnuť . Pridať URL na túto stránku do novej databázovej tabuľky adries URL .
2
Odoslať príkaz do webovom prehliadači inštruuje ho , aby priniesla túto webovú stránku a uložte ho na disk . Presuňte ukazovateľ databázy vpred o jeden krok v minulosti na adresu URL ste práve stiahli , ktorý bude teraz ukazovať na koniec tabuľky .
3
Prečítajte si webové stránky do programu , a analyzovať je pre odkazy na ďalšie webové stránky . To sa zvyčajne vykonáva hľadaním texte reťazec " http://" , a zachytiť text medzi týmto reťazcom a ukončovacie znak ( napríklad " " , " . " , Alebo " > " ) . Pridať tieto odkazy na stole URL databázy , ukazovateľ databáza by mala zostať na vrchole tohto nového zoznamu
4
Otestujte položky v tabuľke databázy pre jedinečnosti , a odstráňte všetky adresy URL , ktoré sa objaví viac ako raz . .
5
Ak chcete použiť URL filter ( napríklad, aby sa zabránilo sťahovanie stránok z webových stránok na rôznych doménach ) , platí to teraz na stole URL databázy a odstráňte všetky adresy URL , ktoré nechcete k stiahnutiu .
6
Nastaviť programové slučky tak , aby vaša pavúk sa vráti ku kroku 2 vyššie . To bude rekurzívne sťahovať všetky adresy URL vašich pavúk stretnutie . Odstránenie duplicitných URL zaisťuje , že pavúk bude riadne ukončená , keď dosiahne posledného jedinečnú adresu URL .